深度學(xué)習(xí)之父Hinton發(fā)布膠囊網(wǎng)絡(luò)的最新進(jìn)展,將重塑人工智能
如果你不明白人們?yōu)槭裁磳?duì)于人工智能這么著迷,69歲的谷歌研究員杰夫·辛頓也許知道其中***的答案。
這位多倫多大學(xué)的教授在2012年10月顛覆了人工智能研究領(lǐng)域,開辟了一條全新的研究方向。當(dāng)年Hinton帶著兩個(gè)研究生,向世界展示了一個(gè)他幾十年來一直致力倡導(dǎo)卻并不受待見的技術(shù) - 人工神經(jīng)網(wǎng)絡(luò),讓機(jī)器理解圖像的能力有了巨大的飛躍。這之后,在六個(gè)月內(nèi),這三名研究人員就都被谷歌招致麾下。今天人工智能神經(jīng)網(wǎng)絡(luò)可以理解我們的言論,認(rèn)識(shí)我們的寵物,并與我們的小惡魔作斗爭。
但是,Hinton現(xiàn)在卻開始懷疑他所創(chuàng)立的人工智能神經(jīng)網(wǎng)絡(luò)技術(shù)。他說:“我認(rèn)為目前用深度學(xué)習(xí)的方法處理計(jì)算機(jī)視覺的方式是錯(cuò)誤的。 盡管深度學(xué)習(xí)目前比其他任何方法都好,但這并不意味著它就是正確的。”
取而代之的是,Hinton揭示了另一個(gè)并不太新的想法,它可能會(huì)改變未來計(jì)算機(jī)如何看世界,將重塑人工智能。這一點(diǎn)非同小可,因?yàn)橛?jì)算機(jī)視覺對(duì)于諸如自動(dòng)駕駛技術(shù),以及代替醫(yī)生的人工智能診斷軟件等應(yīng)用,均至關(guān)重要。
最近,Hinton發(fā)表了兩篇研究論文,證明了他已經(jīng)研究了近四十年的想法。 Hinton說:“很長時(shí)間以來,這個(gè)方法對(duì)我來說很直觀,但應(yīng)用效果一直不太理想。最近我們終于得到了很好的計(jì)算結(jié)果。”
Hinton的新方法,被稱為capsule networks膠囊網(wǎng)絡(luò),是對(duì)現(xiàn)有神經(jīng)網(wǎng)絡(luò)的一種變通,旨在使機(jī)器更好地通過圖像或視頻來了解世界。在今年10月底發(fā)布的一篇論文中,Hinton的膠囊網(wǎng)絡(luò)在一個(gè)標(biāo)準(zhǔn)測試中展示了至今為止***的技術(shù)的準(zhǔn)確性,用來測試軟件如何識(shí)別手寫數(shù)字。在第二篇論文中, 這個(gè)測試軟件挑戰(zhàn)從不同角度識(shí)別卡車和汽車等玩具,膠囊網(wǎng)絡(luò)幾乎將之前的***錯(cuò)誤率降低了一半。 Hinton一直在與Google多倫多辦公室的同事Sara Sabour和Nicholas Frosst一起研究這項(xiàng)新的人工智能技術(shù)。
膠囊網(wǎng)絡(luò)旨在彌補(bǔ)當(dāng)今機(jī)器學(xué)習(xí)系統(tǒng)的弱點(diǎn),這些弱點(diǎn)限制了計(jì)算機(jī)視覺軟件的學(xué)習(xí)能力。 Google和其他公司今天使用的圖像識(shí)別軟件需要大量的示例照片,來學(xué)習(xí)如何在各種情況下可靠識(shí)別物體。因?yàn)槟壳暗挠?jì)算機(jī)視覺軟件并不能很好地把它學(xué)到的東西推廣到新的場景中,比如學(xué)會(huì)從不同的角度來識(shí)別同一個(gè)物體。
例如,目前采用深度學(xué)習(xí)的算法,教計(jì)算機(jī)從多個(gè)角度識(shí)別一只貓,可能需要數(shù)千張照片覆蓋各種不同視角的貓。而人類的孩子則不需要如此明確和廣泛的訓(xùn)練來學(xué)習(xí)識(shí)別家庭寵物。
Hinton的想法是縮小***的AI系統(tǒng)和人類幼兒之間的差距,把更多的世界知識(shí)融入到計(jì)算機(jī)視覺軟件中。因此提出了膠囊神經(jīng)網(wǎng)絡(luò) - 一小組粗糙的虛擬神經(jīng)元 - 可用來跟蹤物體的不同部位,如貓的鼻子和耳朵,以及它們在太空中的相對(duì)位置。采用許多這樣的膠囊形成神經(jīng)網(wǎng)絡(luò),就可以讓計(jì)算機(jī)具有一種新的意識(shí),來了解它所看到的新的場景,實(shí)際上只是一個(gè)之前看到的物體的不同視角而已。
早在1979年,Hinton就形成了自己的直覺洞察;當(dāng)他試圖弄清楚人類是如何使用大腦想象時(shí),他意識(shí)到計(jì)算機(jī)視覺系統(tǒng)需要具備人類大腦的立體成像能力。Hinton在2011年首先制定了膠囊神經(jīng)網(wǎng)絡(luò)的初步設(shè)計(jì)。他最近發(fā)表的論文,展示了更完整的算法,這是人工智能領(lǐng)域的科學(xué)家們翹首期待的。紐約大學(xué)的圖像識(shí)別教授Kyunghyun Cho說:“每個(gè)人都在等待它,期待Geoff Hitnon的下一個(gè)飛躍。
現(xiàn)在評(píng)估Hinton的膠囊網(wǎng)絡(luò)到底實(shí)現(xiàn)了多大的飛躍,還為時(shí)尚早 - 他自己很清楚地知道這一點(diǎn)。 這位AI老帥,只是安靜地慶祝他的直覺現(xiàn)在得到了證據(jù)的支持,也解釋說膠囊網(wǎng)絡(luò)仍然需要在大型圖像集合上得到證明,而且與現(xiàn)有的圖像識(shí)別軟件相比,目前膠囊網(wǎng)絡(luò)的計(jì)算速度較慢。
但Hinton辛頓樂觀地說,他可以解決這些不足。AI領(lǐng)域的其他專家們也對(duì)他的成熟想法充滿期待。
圖像識(shí)別初創(chuàng)公司Twenty Billion Neurons的共同創(chuàng)始人之一,蒙特利爾大學(xué)教授Roland Memisevic表示,Hinton的膠囊神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)應(yīng)該能夠從一定數(shù)量的數(shù)據(jù)中獲得比現(xiàn)有系統(tǒng)更多的信息和理解。如果得到大規(guī)模驗(yàn)證,膠囊神經(jīng)網(wǎng)絡(luò)將對(duì)醫(yī)療保健等領(lǐng)域大有幫助;在醫(yī)療領(lǐng)域,訓(xùn)練AI系統(tǒng)的圖像數(shù)據(jù)要比互聯(lián)網(wǎng)上海量的自拍圖像***得多。
在某種程度上,Hinton的膠囊網(wǎng)絡(luò)與AI深度學(xué)習(xí)研究的趨勢背道而馳。對(duì)神經(jīng)網(wǎng)絡(luò)***成功的一個(gè)解釋是,人類應(yīng)該盡可能少地將知識(shí)編碼到AI軟件中,而應(yīng)該讓AI從頭開始學(xué)習(xí),自己弄清楚事情的真相。
紐約大學(xué)心理學(xué)教授加里·馬庫斯(Gary Marcus)去年將一家人工智能初創(chuàng)公司賣給了優(yōu)步(Uber)。他表示,Hinton的***理論和算法帶來了一股清新的空氣。
Marcus認(rèn)為,人工智能研究人員應(yīng)該做得更多的是,模仿大腦是如何構(gòu)造的,哪些結(jié)構(gòu)決定了視覺和語言這樣的關(guān)鍵技能。Marcus說:“現(xiàn)在說這個(gè)特定的膠囊神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)將走多遠(yuǎn),還為時(shí)過早,但看到Hinton突破這個(gè)領(lǐng)域目前固化的軌跡,真是太棒了。”