在人工智能的世界中,還有很多不足之處有待解決。大多數 AI 解決方案并不能處理多種類型的輸入。具體來說,大多數人工智能工具只能專注一個方向,比如聲音、視覺或文字。目前,還鮮有人去嘗試將三方面結合起來去構建一套 AI 解決方案,為什么?因為以目前的技術水平,我們離創建一套完整 AI 系統還差很遠。
但現在,有人終于開始嘗試,谷歌和麻省理工學院一個新項目正在向一個多功能完整 AI 方案邁出第一步。更具體地說,雙方將合作開發出能同時處理聲音、文本和圖像的 AI 解決方案。可以想象,一旦研究項目有所突破,將賦予人工智能以類似人類的多重感官,這將是一個極具野心的研究項目。
對于我們人類來說,在任何給定的時間,我們幾乎都不可能只使用一種感官。另一方面,而人工智能卻完全不具備這種能力。將所見所聞相匹配是人類的第二天賦,但對機器來說,能夠實現一種“感官”已經非常難了。
所以,僅僅是在感官方面,讓 AI 具備人類的某些功能其實已經是一項看上去不可能完成的任務,更不必說機器的智能水平了。
不論以何種方式,創建一個能夠像人類一樣學習和適應的算法并不容易。麻省理工學院和谷歌發布的全新研究報告則為這一嘗試指明了道路,讓人們看到了賦予 AI 系統多重“感官”的可能性。新的論文概述了如何 AI 如何調節自己聽到和看到的東西,并將其同步,這非常類似人腦的運作方式。
圖丨麻省理工學院博士后研究員 Yusuf Aytar
論文的聯合作者、麻省理工學院博士后 Yusuf Aytar 表示:“不管你是聽見了了引擎聲,還是看到了汽車,這都無所謂,因為你馬上能識別出這是同一概念。這些信息已經在你的大腦中被統一起來?!?/p>
這里的關鍵詞就是協調與統一。研究人員并沒有教會算法新的東西,而是創造了一種方式讓算法將一種感官與另一種感官連接統一起來。Aytar 舉了一個例子來說明:當一輛自動駕駛汽車聽見救護車的聲音時,就能將其與救護車的樣子聯系在一起,即便因為視線受阻沒有看見救護車,也能提前做出避讓。
為了訓練這套 AI 系統,麻省理工學院的研究人員首先向神經網絡展示了一些帶有音頻的視頻文件,當神經網絡接收到這些視頻和音頻后,就會開始嘗試預測物體與聲音之間的聯系。然后,研究人員開始同一算法中輸入帶有文字說明的圖像,讓神經網絡將圖片中的物體與其文字說明聯系起來。以此類推,這樣就完成了視頻、聲音、圖像、文字間的相互轉換與識別。
圖丨將聲音、圖像、文字輸入同一神經網絡
培訓這個系統將需要大量的工作,盡管已經證明了幾個測試已經相當成功。現在,算法只是提供“簡單”的信息,但沒有理由認為它不能處理更復雜的事情。使用這種開創性的技術將在未來幾年為人類發展世界帶來新的生命。
盡管已經進行過的測試都非常成功,但訓練這個系統還有很多額工作要做。目前,研究人員只為算法提供了相對簡單的信息,以后的訓練數據將會越來越復雜。為 AI 系統賦予多重感官,這種開創性的研究方向勢必將在未來幾年內為人工智能領域的研究帶來新的突破。(生物谷 Bioon.com)
(審核編輯: 林靜)
分享