卷積神經(jīng)網(wǎng)絡(luò)之父:人工智能下一步從視頻中學(xué)習(xí)常識
智東西(公眾號:zhidxcom)
編 | origin
YannLeCun作為深度學(xué)習(xí)領(lǐng)域的大牛,近幾年帶動Facebook的人工智能項目飛速前進(jìn),其勢頭比之谷歌也不落下風(fēng)。如今Facebook的人臉識別技術(shù)DeepFace已經(jīng)能夠識別超過4億張人臉,而YannLeCun對此并不滿足,他認(rèn)為機(jī)器視覺不該滿足于從圖片中進(jìn)行識別,下一步機(jī)器應(yīng)當(dāng)從視頻中“學(xué)習(xí)常識”。
五年前,研究者們在圖像識別的準(zhǔn)確性上,取得了巨大的突破。這背后的技術(shù),人工神經(jīng)網(wǎng)路,促成了近來人工智能的繁榮。它使谷歌和Faceboo得以讓你在自己的相冊中使用搜索功能,也讓一批使用面部識別的應(yīng)用程序得以問世。
Facebook的AI研究團(tuán)隊負(fù)責(zé)人兼紐約大學(xué)教授,開創(chuàng)性地將神經(jīng)網(wǎng)絡(luò)運(yùn)用在了機(jī)器視覺領(lǐng)域。他認(rèn)為這個領(lǐng)域仍然有很大的發(fā)展空間,這個領(lǐng)域取得的進(jìn)步可能會催生出懂得常識的軟件系統(tǒng)。
問:現(xiàn)在的機(jī)器視覺水平如何?
YannLeCun:如果你的圖片有顯著的主體,那么只需要標(biāo)注主體的類別就好。如果有足夠多的數(shù)據(jù)——大概每個類別一千張圖片,那么我們就能識別相當(dāng)具體的事物:比如某個品牌的汽車,某個特定品種的植物,某種特定血統(tǒng)的狗。我們還能識別更抽象的事物,比如風(fēng)景圖、日落,婚禮或者生日party。就在五年前我們還不清楚這個問題是可以解決的。(現(xiàn)在我們已經(jīng)把它攻克了)但是這并不是說視覺問題已經(jīng)解決了。
問:那什么關(guān)鍵問題是還沒解決的?
YannLeCun:在為圖片和視頻自動生成字幕和注釋這方面,人們已經(jīng)努力了很多年。此前已誕生過一些看上去很可觀的方式,但實際上它們并沒有那么可靠。它們的適用范圍極大受限于它們是如何被訓(xùn)練的。對于大多數(shù)系統(tǒng),如果你給它們提供包含其他種類物體或者是處在非常規(guī)情境下的圖片,它們的識別狀況會慘不忍睹。它們不具備常識。
問:視覺和常識有什么聯(lián)系?
YannLeCun:這取決于你在和誰交流——即使在Facebook內(nèi)部,大家對此也有不同的意見。你可以和一套智能系統(tǒng)只用語言交流,問題是語言是一條帶寬很低的信息通道。人們能夠通過語言傳遞大量信息是因為他們擁有很多的背景知識來解釋這些信息。
其他人認(rèn)為,向AI系統(tǒng)提供足夠信息的唯一方法是將其視覺感知作為基礎(chǔ),而視覺圖像的信息含量比語言要大得多。這時如果你再告訴機(jī)器“這是一個智能手機(jī)”,“這是一個壓路機(jī)”,“這有些東西你能推動但那些不行”,那么機(jī)器可能會學(xué)習(xí)到關(guān)于這個世界如何運(yùn)行的一些基本知識。
這有點(diǎn)像嬰兒的學(xué)習(xí)方式——而嬰兒在沒有明確指示的情況下就能非常多地了解這個世界。
我們非常想讓機(jī)器通過看視頻或者其他的途徑來獲得大量的體現(xiàn)了現(xiàn)實世界規(guī)律的事實。這將最終使它們獲得常識。幼年動物與嬰兒出生后頭幾個月的學(xué)習(xí)過程非常有趣——他們僅僅通過觀察就在短時間內(nèi)對這個世界產(chǎn)生了驚人的理解。而現(xiàn)在的機(jī)器仍然會被各種方式輕易地愚弄,因為它們對這個世界的認(rèn)識實在是太少了。
問:在讓智能系統(tǒng)通過觀察進(jìn)行學(xué)習(xí)這個方面,有什么進(jìn)展?
YannLeCun:一套學(xué)習(xí)系統(tǒng)應(yīng)該是可以預(yù)測未來的,我們對這個想法非常感興趣。你向?qū)W習(xí)系統(tǒng)展示幾幀視頻,然后它來預(yù)測接下去會發(fā)生什么。如果我們能訓(xùn)練出一套能完成這種工作的系統(tǒng),那么我想我們就搭建起了無監(jiān)督學(xué)習(xí)系統(tǒng)的基礎(chǔ)技術(shù)。我認(rèn)為,這會是一個節(jié)點(diǎn),為許多有趣的東西開創(chuàng)可能性。它的應(yīng)用范圍也不會僅局限于機(jī)器視覺——這是我們在AI領(lǐng)域不斷進(jìn)取的重要組成部分。