不再是睜眼瞎子：圖像識別技術(shù)的現(xiàn)狀和未來

2016-03-31 22:54:25

來源：網(wǎng)絡(luò)

點擊：1112

A⁺ A^-

關(guān)鍵詞：圖像識別,人工智能

　　1、圖像識別技術(shù)的背景

　　移動互聯(lián)網(wǎng)、智能手機(jī)以及社交網(wǎng)絡(luò)的發(fā)展帶來了海量圖片信息，根據(jù)BI五月份的文章，Instagram每天圖片上傳量約為6000萬張；今年2月份WhatsApp每天的圖片發(fā)送量為5億張；國內(nèi)的微信朋友圈也是以圖片分享為驅(qū)動。不受地域和語言限制的圖片逐漸取代了繁瑣而微妙的文字，成為了傳詞達(dá)意的主要媒介。圖片成為互聯(lián)網(wǎng)信息交流主要媒介的原因主要在于兩點：第一，從用戶讀取信息的習(xí)慣來看，相比于文字，圖片能夠為用戶提供更加生動、容易理解、有趣及更具藝術(shù)感的信息；第二，從圖片來源來看，智能手機(jī)為我們帶來方便的拍攝和截屏手段，幫助我們更快的用圖片來采集和記錄信息。

　　但伴隨著圖片成為互聯(lián)網(wǎng)中的主要信息載體，難題隨之出現(xiàn)。當(dāng)信息由文字記載時，我們可以通過關(guān)鍵詞搜索輕易找到所需內(nèi)容并進(jìn)行任意編輯，而當(dāng)信息是由圖片記載時，我們卻無法對圖片中的內(nèi)容進(jìn)行檢索，從而影響了我們從圖片中找到關(guān)鍵內(nèi)容的效率。圖片給我們帶來了快捷的信息記錄和分享方式，卻降低了我們的信息檢索效率。在這個環(huán)境下，計算機(jī)的圖像識別技術(shù)就顯得尤為重要。

　　圖像識別是計算機(jī)對圖像進(jìn)行處理、分析和理解，以識別各種不同模式的目標(biāo)和對像的技術(shù)。識別過程包括圖像預(yù)處理、圖像分割、特征提取和判斷匹配。簡單來說，圖像識別就是計算機(jī)如何像人一樣讀懂圖片的內(nèi)容。借助圖像識別技術(shù)，我們不僅可以通過圖片搜索更快的獲取信息，還可以產(chǎn)生一種新的與外部世界交互的方式，甚至?xí)屚獠渴澜绺又悄艿倪\(yùn)行。百度李彥宏在2011年提到“全新的讀圖時代已經(jīng)來臨”，現(xiàn)在隨著圖形識別技術(shù)的不斷進(jìn)步，越來越多的科技公司開始涉及圖形識別領(lǐng)域，這標(biāo)志著讀圖時代正式到來，并且將引領(lǐng)我們進(jìn)入更加智能的未來。

　　2、圖像識別的初級階段——娛樂化、工具化

特征碼圖像識別技術(shù)流程圖

　　在這個階段，用戶主要是借助圖像識別技術(shù)來滿足某些娛樂化需求。例如，百度魔圖的“大咖配”功能可以幫助用戶找到與其長相最匹配的明星，百度的圖片搜索可以找到相似的圖片；Facebook研發(fā)了根據(jù)相片進(jìn)行人臉匹配的DeepFace；雅虎收購的圖像識別公司IQ Engine開發(fā)的Glow可以通過圖像識別自動生成照片的標(biāo)簽以幫助用戶管理手機(jī)上的照片；國內(nèi)專注于圖像識別的創(chuàng)業(yè)公司曠視科技成立了VisionHacker游戲工作室，借助圖形識別技術(shù)研發(fā)移動端的體感游戲。

　　這個階段還有一個非常重要的細(xì)分領(lǐng)域——OCR（Optical Character Recognition，光學(xué)字符識別），是指光學(xué)設(shè)備檢查紙上打印的字符，通過檢測暗、亮的模式確定其形狀，然后用字符識別方法將形狀翻譯成計算機(jī)文字的過程，就是計算機(jī)對文字的閱讀。語言和文字是我們獲取信息最基本、最重要的途徑。在比特世界，我們可以借助互聯(lián)網(wǎng)和計算機(jī)輕松的獲取和處理文字。但一旦文字以圖片的形式表現(xiàn)出來，就對我們獲取和處理文字平添了很多麻煩。這一方面表現(xiàn)為數(shù)字世界中由于特定原因被存儲稱圖片格式的文字；另一方面是我們在現(xiàn)實生活中看到的所有物理形態(tài)的文字。所以我們需要借助OCR技術(shù)將這些文字和信息提取出來。在這方面，國內(nèi)產(chǎn)品包括百度的涂書筆記和百度翻譯等；而谷歌借助經(jīng)過DistBelief 訓(xùn)練的大型分布式神經(jīng)網(wǎng)絡(luò)，對于Google 街景圖庫的上千萬門牌號的識別率超過90%，每天可識別百萬門牌號。

　　在這個階段，圖像識別技術(shù)僅作為我們的輔助工具存在，為我們自身的人類視覺提供了強(qiáng)有力的輔助和增強(qiáng)，帶給了我們一種全新的與外部世界進(jìn)行交互的方式。我們可以通過搜索找到圖片中的關(guān)鍵信息；可以隨手拍下一件陌生物體而迅速找到與之相關(guān)的各類信息；可以將潛在搭訕對象拍下提前去她的社交網(wǎng)絡(luò)了解一番；也可以將人臉識別作為主要的身份認(rèn)證方式……這些應(yīng)用雖然看起來很普通，但當(dāng)圖像識別技術(shù)滲透到我們行為習(xí)慣的方方面面時，我們就相當(dāng)于把一部分視力外包給了機(jī)器，就像我們已經(jīng)把部分記憶外包給了搜索引擎一樣。

　　這將極大改善我們與外部世界的交互方式，此前我們利用科技工具探尋外部世界的流程是這樣：人眼捕捉目標(biāo)信息、大腦將信息進(jìn)行分析、轉(zhuǎn)化成機(jī)器可以理解的關(guān)鍵詞、與機(jī)器交互獲得結(jié)果。而當(dāng)圖像識別技術(shù)賦予了機(jī)器 “眼睛”之后，這個過程就可以簡化為：人眼借助機(jī)器捕捉目標(biāo)信息、機(jī)器和互聯(lián)網(wǎng)直接對信息進(jìn)行分析并返回結(jié)果。圖像識別使攝像頭成為解密信息的鑰匙，我們僅需把攝像頭對準(zhǔn)某一未知事物，就能得到預(yù)想的答案。就像百度科學(xué)家余凱所說，攝像頭成為連接人和世界信息的重要入口之一。

　　3、圖像識別的高級階段——擁有視覺的機(jī)器

　　上文提到，目前的圖像識別技術(shù)是作為一個工具來幫助我們與外部世界進(jìn)行交互，只為我們自身的視覺提供了一個輔助作用，所有的行動還需我們自己完成。而當(dāng)機(jī)器真正具有了視覺之后，它們完全有可能代替我們?nèi)ネ瓿蛇@些行動。目前的圖像識別應(yīng)用就像是盲人的導(dǎo)盲犬，在盲人行動時為其指引方向；而未來的圖像識別技術(shù)將會同其他人工智能技術(shù)融合在一起成為盲人的全職管家，不需要盲人進(jìn)行任何行動，而是由這個管家?guī)椭渫瓿伤惺虑椤Ｅe個例子，如果圖像識別是一個工具，就如同我們在駕駛汽車時佩戴谷歌眼鏡，它將外部信息進(jìn)行分析后傳遞給我們，我們再依據(jù)這些信息做出行駛決策；而如果將圖像識別利用在機(jī)器視覺和人工智能上，這就如同谷歌的無人駕駛汽車，機(jī)器不僅可以對外部信息進(jìn)行獲取和分析，還全權(quán)負(fù)責(zé)所有的行駛活動，讓我們得到完全解放。

圖像識別

人臉識別

　　《人工智能：一種現(xiàn)代方法》中提到，在人工智能中，感知是通過解釋傳感器的響應(yīng)而為機(jī)器提供它們所處的世界的信息，其中它們與人類共有的感知形態(tài)包括視覺、聽覺和觸覺，而視覺最為重要，因為視覺是一切行動的基礎(chǔ)。在一次論壇上百度IDL的余凱院長問大家，你覺得哪種感覺最重要？沒有人能很快作答，后來余凱院長換了個提問方式，如果要放棄一種感覺，你最不愿意放棄的是那一種？這時大家都回答是視覺。Chris Frith在《心智的構(gòu)建》中提到，我們對世界的感知不是直接的，而是依賴于“無意識推理”，也就是說在我們能感知物體之前，大腦必須依據(jù)到達(dá)感官的信息來推斷這個物體可能是什么，這構(gòu)成了人類最重要的預(yù)判和處理突發(fā)時間的能力。而視覺是這個過程中最及時和準(zhǔn)確的信息獲取渠道，人類感覺信息中的80%都是視覺信息。機(jī)器視覺之于人工智能的意義就是視覺之于人類的意義，而決定著機(jī)器視覺的就是圖像識別技術(shù)。

　　更重要的是，在某些應(yīng)用場景，機(jī)器視覺比人類的生理視覺更具優(yōu)勢，它更加準(zhǔn)確、客觀和穩(wěn)定。人類視覺有著天然的局限，我們看起來能立刻且毫無費(fèi)力的感知世界，而且似乎也能詳細(xì)生動的感知整個視覺場景，但這只是一個錯覺，只有投射到眼球中心的視覺場景的中間部分，我們才能詳細(xì)而色彩鮮明的看清楚。偏離中間大約10度的位置，神經(jīng)細(xì)胞更加分散并且智能探知光和陰影。也就是說，在我們視覺世界的邊緣是無色、模糊的。因此，我們才會存在“變化盲視”，才會在經(jīng)歷著多樣事物發(fā)生時，僅僅關(guān)注其中一樣，而忽視了其他樣事物的發(fā)生，而且不知道它們的發(fā)生。而機(jī)器在這方面就有著更多的優(yōu)勢，它們能夠發(fā)現(xiàn)和記錄視力所及范圍內(nèi)發(fā)生的所有事情。拿應(yīng)用最廣的視頻監(jiān)控來說，傳統(tǒng)監(jiān)控需要有人在電視墻前時刻保持高度警惕，然后再通過自己對視頻的判斷來得出結(jié)論，但這往往會因為人的疲勞、視覺局限和注意力分散等原因影響監(jiān)控效果。但有了成熟的圖像識別技術(shù)之后，再加以人工智能的支持，計算機(jī)就可以自行對視頻進(jìn)行分析和判斷，發(fā)現(xiàn)異常情況直接報警，帶來了更高的效率和準(zhǔn)確度；在反恐領(lǐng)域，借助機(jī)器的人臉識別技術(shù)也要遠(yuǎn)遠(yuǎn)優(yōu)于人的主觀判斷。

　　許多科技巨頭也開始了在圖像識別和人工智能領(lǐng)域的布局，F(xiàn)acebook簽下的人工智能專家Yann LeCun最重大的成就就是在圖像識別領(lǐng)域，其提出的LeNet為代表的卷積神經(jīng)網(wǎng)絡(luò)，在應(yīng)用到各種不同的圖像識別任務(wù)時都取得了不錯效果，被認(rèn)為是通用圖像識別系統(tǒng)的代表之一；Google 借助模擬神經(jīng)網(wǎng)絡(luò)“DistBelief”通過對數(shù)百萬份 YouTube 視頻的學(xué)習(xí)自行掌握了貓的關(guān)鍵特征，這是機(jī)器在沒有人幫助的情況下自己讀懂了貓的概念。值得一提的是，負(fù)責(zé)這個項目的Andrew NG已經(jīng)轉(zhuǎn)投百度領(lǐng)導(dǎo)百度研究院，其一個重要的研究方向就是人工智能和圖像識別。這也能看出國內(nèi)科技公司對圖像識別技術(shù)以及人工智能技術(shù)的重視程度。

　　圖像識別技術(shù)，連接著機(jī)器和這個一無所知的世界，幫助它越發(fā)了解這個世界，并最終代替我們完成更多的任務(wù)。

(審核編輯: 小王子)

聲明：除特別說明之外，新聞內(nèi)容及圖片均來自網(wǎng)絡(luò)及各大主流媒體。版權(quán)歸原作者所有。如認(rèn)為內(nèi)容侵權(quán)，請聯(lián)系我們刪除。

分享

国产成人精品a视频一区www_国产区视频在线观看_99色视频_欲色av_亚洲一区电影_亚洲综合视频一区

不再是睜眼瞎子：圖像識別技術(shù)的現(xiàn)狀和未來

點擊排行

專題