LeCun稱梯度下降是最優(yōu)雅的 ML 算法,Marcus:我不同意
?前幾天剛跟馬斯克吵完架的Gary Marcus,又雙叒叕跟人吵起來了,這次的吵架對(duì)象是Yann LeCun。
一向喜歡給深度學(xué)習(xí)潑冷水的Marcus,在今天發(fā)帖談了談與LeCun的「舊賬」和「新仇」,并給了LeCun一個(gè)白眼:
事情是這樣的。
幾天前,有人在推特上發(fā)帖問: 在機(jī)器學(xué)習(xí)中,最優(yōu)雅美麗的idea是什么?感覺數(shù)學(xué)家和物理學(xué)家經(jīng)常談?wù)撁缹W(xué),但我們卻很少,為什么?
于是網(wǎng)友們都來認(rèn)真答題:多重權(quán)重更新算法(multiplicative weights update)、核技巧(kernel trick)、降維(dimension reduction)、一些凸優(yōu)化方法(convex optimization)、變分推理(variational inference)、熵和信息論等等。
大家還就機(jī)器學(xué)習(xí)研究的美學(xué)性討論了起來。有人認(rèn)為,機(jī)器學(xué)習(xí)理論家其實(shí)也在談?wù)搩?yōu)雅這個(gè)東西,尤其是那些具有理論計(jì)算機(jī)背景或者傳統(tǒng)物理學(xué)背景的人。也有人言語犀利:之所以很少有人談?wù)撁缹W(xué),是因?yàn)闄C(jī)器學(xué)習(xí)重在應(yīng)用,而不是像純粹數(shù)學(xué)那樣「毫無價(jià)值」。
谷歌大腦的研究員Chris Olah也來轉(zhuǎn)貼評(píng)論說:
ML的優(yōu)雅是一種生物學(xué)的優(yōu)雅,而非數(shù)學(xué)或物理的那種優(yōu)雅。梯度下降創(chuàng)造了令人難以置信的結(jié)構(gòu)和行為,正如進(jìn)化創(chuàng)造了令人敬畏的自然復(fù)雜性。
LeCun表示:梯度下降?這我熟!
近4年來,我一直試圖讓我許多更注重理論的同事相信梯度下降所具有的不可思議的力量。
LeCun在1989年發(fā)表的那篇論文,就是通過使用梯度下降的方法訓(xùn)練了CNN進(jìn)行圖像識(shí)別,梯度下降后來成為計(jì)算機(jī)視覺研究的基礎(chǔ)理論。
LeCun還回憶了2000年丹佛NIPS會(huì)議上的一次經(jīng)歷。當(dāng)時(shí)一位非常杰出的ML研究人員在晚宴上問道:「我們?cè)贛L中學(xué)到的最重要的東西是什么?」LeCun回答說:「梯度下降」。當(dāng)時(shí)那位研究人員臉上目瞪口呆的表情表明他對(duì)這個(gè)回答嗤之以鼻。
LeCun這個(gè)「仇」記得還挺久......
那么,「梯度下降」是最優(yōu)雅的ML算法嗎?有人贊成有人反對(duì)。
毫無疑問GD是過去十年來我們?cè)贏I領(lǐng)域所看到的所有進(jìn)步背后的核心驅(qū)動(dòng)力。
GD很了不起,...但這并不是AI。
LeCun正忙著與網(wǎng)友進(jìn)行友好交流,Marcus也來了。有討論深度學(xué)習(xí)的地方,怎能沒有我Marcus的身影?
的確。但重要的是,令人難以置信的力量≠無窮的力量。要意識(shí)到(梯度下降)的極限,才能知道下一步要做什么來獲得進(jìn)步。
LeCun一看:所以你的意思是要拋棄梯度下降了??
1.基于梯度的優(yōu)化是學(xué)習(xí)的一個(gè)要素,而不是人類級(jí)人工智能的一整套組件。
2.未來會(huì)有什么方案可能替代基于梯度的優(yōu)化?你是相信(a)無梯度優(yōu)化不好?,還是(b)優(yōu)化本身不好?
對(duì)此,Marcus表示很委屈:我的意思是DL需要「補(bǔ)充」,而不是「替換」!
我感覺自己又被「稻草人謬誤」攻擊了,附上我的論點(diǎn)核心:我從未呼吁要替代深度學(xué)習(xí)/梯度下降。未來會(huì)出現(xiàn)的是「其他」工具,比如與SGD一起工作的符號(hào)處理操作。
Marcus還搬出發(fā)表于2018年的一篇文章“Deep Learning: A Critical Appraisal”作為證據(jù):
盡管有我所描述的這些問題,但我認(rèn)為我們不需要拋棄深度學(xué)習(xí)。相反,我們需要重新定義它:不是一種通用的辦法,而只是眾多工具的一種。
還有最近的一場keynote演講:
我們不需要舍棄深度學(xué)習(xí),但我們需要找到辦法來作為對(duì)它的補(bǔ)充,因?yàn)橹悄鼙旧硎嵌喾矫娴摹?/p>
但是,LeCun并不買賬,他接著Marcus的話回復(fù):
所以「DL是辦法的一種,但我們需要新的推理組建」?歡迎來到我的世界!
這可把Marcus惹急了:
我給的引用是來自2018年,那篇你稱之為「大部分都是錯(cuò)誤的」的文章。我的主張自1992年以來就沒變過,唯一遲到的是你「歡迎來到我的世界」這句話,而這句話其實(shí)是你對(duì)我實(shí)際立場的認(rèn)可。
那就來翻翻舊賬,針對(duì)Marcus在2018年寫的那篇文章,LeCun的確曾這樣評(píng)論(蝦仁豬心):
到這兒大家也能看出來,二人討論的對(duì)象和觀點(diǎn)是有錯(cuò)位的。LeCun希望如果有新的方案,仍需要封裝在DL下,而Marcus的意思是新的方案需要圍繞著DL進(jìn)行封裝,前者是關(guān)于規(guī)模的擴(kuò)展,后者則是一種混合和補(bǔ)充。