Facebook人工智能實(shí)驗(yàn)室負(fù)責(zé)人勒坤的深度學(xué)習(xí)之路
近日消息,國外媒體發(fā)表文章對(duì)Facebook人工智能實(shí)驗(yàn)室負(fù)責(zé)人伊恩•勒坤(Yann LeCun)進(jìn)行評(píng)述,文章談及勒坤所研究的卷積神經(jīng)網(wǎng)絡(luò)對(duì)人工智能產(chǎn)生深遠(yuǎn)影響,潛力不容小覷。此外還介紹了他開發(fā)的書寫數(shù)字識(shí)別系統(tǒng)LeNets以及他對(duì)反向傳播算法的研究成果,并對(duì)深度學(xué)習(xí)的前景進(jìn)行評(píng)析。
以下為文章主要內(nèi)容:
馬克•扎克伯格精心挑選了深度學(xué)習(xí)專家伊恩•勒坤擔(dān)任Facebook人工智能實(shí)驗(yàn)室的負(fù)責(zé)人。該實(shí)驗(yàn)室于去年年底成立。作為紐約大學(xué)任教已久的教授,伊恩•勒坤對(duì)深度學(xué)習(xí)(deep learning)的研究成績斐然,在IEEE世界計(jì)算智能大會(huì)中榮獲神經(jīng)網(wǎng)絡(luò)先鋒獎(jiǎng)。深度學(xué)習(xí),作為人工智能的一種形式,旨在更密切地模仿人類大腦。最初,大多數(shù)人工智能研究人員公開表態(tài)對(duì)深度學(xué)習(xí)嗤之以鼻,但短短幾年后,它卻突然在整個(gè)高科技領(lǐng)域蔓延開來,橫跨谷歌、微軟、百度再至Twitter。
這些高科技公司正在探索深度學(xué)習(xí)的一種特殊形態(tài)——卷積神經(jīng)網(wǎng)絡(luò),旨在打造可以自動(dòng)理解自然語言以及識(shí)別圖像的Web服務(wù)。谷歌Android手機(jī)的語音識(shí)別系統(tǒng)就是基于神經(jīng)網(wǎng)絡(luò)而開發(fā)的。百度利用神經(jīng)網(wǎng)絡(luò)對(duì)一種新型的可視化搜索引擎進(jìn)行研發(fā)。研究深度學(xué)習(xí)的學(xué)者不在少數(shù),但它獲得成功,勒坤功不可沒。微軟的機(jī)器學(xué)習(xí)專家萊昂•伯托(Leon Bottou)早期曾與勒坤合作,他說,“對(duì)于可視化卷積神經(jīng)網(wǎng)絡(luò),勒坤的付出遠(yuǎn)甚于他人。”
面臨巨大懷疑,勒坤仍然力挺神經(jīng)網(wǎng)絡(luò)。要讓神經(jīng)網(wǎng)絡(luò)正常運(yùn)作需要功能強(qiáng)大的計(jì)算機(jī)和龐大的數(shù)據(jù)集,但上世紀(jì)80年代勒坤剛剛接觸這一全新領(lǐng)域時(shí),卻不具備這些支持條件。當(dāng)時(shí)剛剛步入計(jì)算機(jī)時(shí)代,科學(xué)家們對(duì)人工智能報(bào)以熱切的期望,但神經(jīng)網(wǎng)絡(luò)受限于那時(shí)的條件,無力滿足科學(xué)家的愿景,因而不被看好。要想在權(quán)威學(xué)術(shù)期刊發(fā)表與神經(jīng)網(wǎng)絡(luò)相關(guān)的文章困難重重。時(shí)至90年代乃至21世紀(jì)初,這一狀況依舊沒有得到改善。
但勒坤仍然堅(jiān)持不懈。深度學(xué)習(xí)的核心學(xué)者杰弗里•辛頓(Geoffrey Hinton)說,“他就像在黑暗中舉著火炬。”終于,如今電腦技術(shù)大邁步向前,為深度學(xué)習(xí)提供了必要的技術(shù)支持,其潛力亦得以開發(fā)。
勒坤的LeNets
在加入Facebook之前的二十多年,勒坤在貝爾實(shí)驗(yàn)室中工作,這段時(shí)間內(nèi),他研發(fā)出了一個(gè)可以識(shí)別手寫數(shù)字的系統(tǒng),并稱之為LeNet。貝爾實(shí)驗(yàn)室作為世界上***的計(jì)算機(jī)研究實(shí)驗(yàn)室,是晶體管、Unix操作系統(tǒng)和C語言的發(fā)源地。
LeNet能夠自動(dòng)讀取銀行支票,它標(biāo)志著卷積神經(jīng)網(wǎng)絡(luò)***被應(yīng)用于實(shí)踐中。伯托表示,“卷積網(wǎng)絡(luò)原本像是個(gè)小玩具,勒坤將之應(yīng)用于規(guī)模更廣的實(shí)際問題中。”
上個(gè)世紀(jì)70以及80年代,認(rèn)知機(jī)(cognitron)和神經(jīng)認(rèn)知機(jī)(Neocognitron)這些早期的神經(jīng)網(wǎng)絡(luò)模型能夠自主學(xué)習(xí)從數(shù)據(jù)中識(shí)別圖形,并且無需人類的過多提示。但這類模型都相當(dāng)復(fù)雜,研究人員無法完全弄清楚如何使它們運(yùn)行無誤。勒坤表示,“當(dāng)時(shí)缺少一種監(jiān)督學(xué)習(xí)算法,現(xiàn)在我們稱之為反向傳播算法(Back propagation)。”這種算法能有效地使錯(cuò)誤率最小化。
卷積神經(jīng)網(wǎng)絡(luò)
卷積網(wǎng)絡(luò)是由相互連通的卷積層組成,與大腦中處理視覺信息的視覺皮層十分類似。卷積網(wǎng)絡(luò)的不同之處在于,它們可以重復(fù)使用一張圖像中多個(gè)位置的相同過濾器。舉例而言,一旦卷積網(wǎng)絡(luò)學(xué)會(huì)了在某個(gè)位置識(shí)別人臉,那么它也可以自動(dòng)在其他位置識(shí)別人臉。這種原理也適用于聲波和手寫文字。
百度研究院負(fù)責(zé)人吳恩達(dá)(Andrew Ng)認(rèn)為,這使人工神經(jīng)網(wǎng)絡(luò)能夠快速接受培訓(xùn),因?yàn)?ldquo;內(nèi)存占用空間小,不需要對(duì)圖像中每個(gè)位置的過濾器進(jìn)行單獨(dú)存儲(chǔ),從而使神經(jīng)網(wǎng)絡(luò)非常適合于創(chuàng)建可擴(kuò)展的深網(wǎng)(deep nets)”。這也令卷積神經(jīng)網(wǎng)絡(luò)具有善于識(shí)別圖形的優(yōu)點(diǎn)。
當(dāng)卷積神經(jīng)網(wǎng)絡(luò)接收到圖像(即輸入)時(shí),它將其轉(zhuǎn)換為代表特征的數(shù)字陣列,并對(duì)每個(gè)卷積層中“神經(jīng)元”進(jìn)行調(diào)整以識(shí)別數(shù)字中某些圖形。低級(jí)神經(jīng)元能夠識(shí)別基本形狀,而高級(jí)神經(jīng)元?jiǎng)t能夠識(shí)別狗或人等更復(fù)雜的形態(tài)。每個(gè)卷積層與相鄰的層互通,當(dāng)信息在網(wǎng)絡(luò)中傳播時(shí),就會(huì)得出平均值。***,網(wǎng)絡(luò)通過猜測(cè)圖像中是什么圖形從而得出輸出結(jié)果。
如果網(wǎng)絡(luò)出錯(cuò),工程師可以對(duì)層與層之間的連接進(jìn)行微調(diào),以便得到正確答案。而神經(jīng)網(wǎng)絡(luò)能夠自主進(jìn)行微調(diào),因而更勝一籌。這時(shí)反向傳播算法就開始發(fā)揮作用了。
反向傳播算法
反向傳播算法的原理是計(jì)算誤差,并根據(jù)誤差對(duì)卷積層所接收的強(qiáng)度進(jìn)行更新。上個(gè)世界80年代中期,David Rumelhart、Geoffrey Hinton及Ronald Williams提出反向傳播算法,即同時(shí)為多重輸入計(jì)算誤差,并取平均值。然后通過網(wǎng)絡(luò)將平均誤差從輸出層到輸入層反向傳播。
勒坤對(duì)反向傳輸算法的構(gòu)想與上述不同,他并未采取平均值,而是為每個(gè)樣本計(jì)算出誤差。他的這種方法成效不錯(cuò),速度更快。
據(jù)伯托透露,勒坤得出這一辦法,實(shí)際上是陰錯(cuò)陽差的結(jié)果。“當(dāng)時(shí)我們?cè)诜▏褂玫碾娔X不太給力。”他們不得不想辦法,希望用盡可能少的電腦配置,盡可能快速地計(jì)算出誤差。這在當(dāng)時(shí)似乎是蒙混過關(guān)的做法,但如今卻成為人工智能工具箱的重要部分。它就是隨機(jī)梯度下降算法(stochastic gradient descent)。
勒坤的LeNets已廣泛應(yīng)用于世界各地的自動(dòng)取款機(jī)和銀行,用以識(shí)別支票上的手寫字跡。但仍有人持懷疑態(tài)度。勒坤表示,“目前我們所獲得的進(jìn)展還不足以說服計(jì)算機(jī)視覺領(lǐng)域承認(rèn)卷積神經(jīng)網(wǎng)絡(luò)的價(jià)值。”部分原因在于,雖然卷積神經(jīng)網(wǎng)絡(luò)功能強(qiáng)大,但沒有人知道它為什么這么強(qiáng)大。目前還未能揭開這項(xiàng)技術(shù)謎一般的內(nèi)在原理。
深度學(xué)習(xí)的前景
批評(píng)聲此起彼伏。支持向量機(jī)(Support Vector Machine)的創(chuàng)建者兼數(shù)學(xué)家弗拉迪米爾•瓦普尼克(Vladimir Vapnik)也持批評(píng)立場(chǎng)。支持向量機(jī)是目前使用最廣泛的人工智能模型之一。
1995年3月的一個(gè)下午,瓦普尼克和拉里•杰克爾(Larry Jackel,招募瓦普尼克和勒坤進(jìn)入貝爾實(shí)驗(yàn)室)兩人打了個(gè)賭。杰克爾認(rèn)為,到2000年,深度人工神經(jīng)網(wǎng)絡(luò)(deep artificial neural nets)的內(nèi)在原理將明朗化。瓦普尼克則堅(jiān)持將時(shí)限推后至2005年。他們還較真地把賭注內(nèi)容寫在紙上,并在幾位見證人面前簽了名。勒坤和伯托當(dāng)時(shí)都在場(chǎng)。
打賭雙方最終難解勝負(fù)。2000年,神經(jīng)網(wǎng)絡(luò)的核心原理仍然籠罩在神秘面紗下,哪怕是現(xiàn)在,研究人員也無法用數(shù)學(xué)方法參透?jìng)€(gè)中奧妙。2005年,深度神經(jīng)網(wǎng)絡(luò)在自動(dòng)取款機(jī)和銀行中獲得廣泛應(yīng)用,雖然人們?nèi)晕茨苷莆蘸诵脑?,但勒坤在上個(gè)世紀(jì)80年代中期和90年代初的研究工作為深度神經(jīng)網(wǎng)絡(luò)的解密奠定了重要根基。
勒坤指出,“很少有某項(xiàng)技術(shù)能在問世20或25年后,雖然基本上未經(jīng)改變,但在時(shí)間的考驗(yàn)下被證實(shí)是***異的。人們接受它的速度是驚人。我過去從未遇見過這樣的情況。”
目前使用最廣泛的卷積神經(jīng)網(wǎng)絡(luò)幾乎完全依賴于監(jiān)督學(xué)習(xí)(supervised learning)。這意味著,如果想讓神經(jīng)網(wǎng)絡(luò)學(xué)會(huì)如何識(shí)別某一特定對(duì)象,就必須對(duì)幾個(gè)樣本進(jìn)行標(biāo)注。無監(jiān)督學(xué)習(xí)(unsupervised learning)是指從未經(jīng)標(biāo)記的數(shù)據(jù)展開學(xué)習(xí),這更接近人腦的學(xué)習(xí)方式。目前一些深度學(xué)習(xí)的研究者正在探索這一領(lǐng)域。
勒坤表示,“我們對(duì)大腦如何學(xué)習(xí)幾近完全陌生。人們已經(jīng)知道神經(jīng)元突觸能夠自我調(diào)整,但我們對(duì)大腦皮層的機(jī)理尚不明確。我們知道最終答案是無監(jiān)督學(xué)習(xí),但卻無力解答。”
反向傳播算法不太可能體現(xiàn)出人類大腦的運(yùn)作機(jī)理,所以研究者正在探索其他算法。此外,卷積網(wǎng)絡(luò)在收集數(shù)據(jù)或計(jì)算平均值時(shí),效果并非十全十美,所以當(dāng)前研究者也盡力做出改進(jìn)。辛頓表示,“卷積網(wǎng)絡(luò)會(huì)丟失信息。”
以人臉為例。系統(tǒng)如果學(xué)會(huì)識(shí)別眼睛和嘴唇之類的面部特征,便能有效地識(shí)別出圖像中有人臉,但無力分辨出不同面孔之間的差異。它也無法很好地找出眼睛在臉上的準(zhǔn)確位置。高科技公司和政府想要?jiǎng)?chuàng)建有關(guān)用戶或居民詳盡的數(shù)字檔案,以上所提及的缺陷將成為無法回避的短板。
勒坤的研究也許不算***,但當(dāng)前卻是這一領(lǐng)域的***理論。