梯度下降引發(fā)AI大牛們“激辯”,網(wǎng)友:每個(gè)人的答案都值得一看
本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
最近,DeepMind的一位AI研究員在推特上拋出了一個(gè)問題:
機(jī)器學(xué)習(xí)中最美/最優(yōu)雅的點(diǎn)子是什么?
之所以會(huì)有這樣的疑問,是因?yàn)樗l(fā)現(xiàn)數(shù)學(xué)家和物理學(xué)家們就經(jīng)常談?wù)撁缹W(xué),機(jī)器學(xué)習(xí)領(lǐng)域卻很少這樣,也很好奇為什么。
很快,大家就給出了自己的答案。
但其中的一條回復(fù)卻引發(fā)了很大的討論,連LeCun等大佬都忍不住參與進(jìn)來了。
這個(gè)答案就是來自前谷歌大腦的研究員Chris Olah所提出的“梯度下降法最美論”。
那么這到底是怎么一回事呢?
“梯度下降是機(jī)器學(xué)習(xí)中最優(yōu)雅的idea”
所謂梯度下降法,就是一種尋找目標(biāo)函數(shù)最小化的方法,它利用梯度信息,經(jīng)過不斷迭代調(diào)整參數(shù)來尋找合適的目標(biāo)值。
這一思想更形象地解釋就是下山。
假設(shè)當(dāng)你站在山上時(shí)霧很大,想盡快下山的你卻無法看清下山路線,那么就只能利用周圍的環(huán)境信息走一步算一步,也就是以當(dāng)前位置為準(zhǔn),找到最陡峭的地方往下走。重復(fù)這個(gè)計(jì)算過程,就能達(dá)到山谷。
我們?cè)谇蠼鈾C(jī)器學(xué)習(xí)算法的模型參數(shù)時(shí),為了讓所得模型可以更好地捕捉到數(shù)據(jù)中蘊(yùn)含的規(guī)律,進(jìn)行更準(zhǔn)確地預(yù)測(cè),一般會(huì)最小化損失函數(shù)得到參數(shù)估計(jì)值。
梯度下降法就是此時(shí)最常用的優(yōu)化算法,而且它對(duì)于復(fù)雜模型也很適用。
認(rèn)為梯度下降法是機(jī)器學(xué)習(xí)中最優(yōu)雅理論的Chris Olah,一直致力于對(duì)人工神經(jīng)網(wǎng)絡(luò)進(jìn)行逆向工程的工作,曾先后就職于OpenAI和谷歌大腦,現(xiàn)在是一家主攻大型模型安全性的初創(chuàng)公司的聯(lián)合創(chuàng)始人。
他給出這一答案的理由是:
簡(jiǎn)單的梯度下降就可以創(chuàng)造出令人驚嘆的結(jié)構(gòu)和性能。
這一回復(fù)得到了近1700人的點(diǎn)贊支持。
就連LeCun都轉(zhuǎn)發(fā)起來,稱自己四十年來都在說服身邊搞理論的同事相信梯度下降法擁有多么不可思議的力量。
彷佛一下子找到“知音”的LeCun話匣子打開,分享了自己20多年前的一樁趣事。
他說,在2000年舉辦的NeurIPS會(huì)議晚宴中,一位非常杰出的ML科學(xué)家就提出一個(gè)類似問題:
“我們?cè)跈C(jī)器學(xué)習(xí)中學(xué)到的最重要的東西是什么?”
當(dāng)時(shí)他就回答“梯度下降”。
誰知這位前輩聽完卻一臉匪夷所思,那神情顯得“自己”這一答案好像特別蠢一樣……
△ 或許就像這樣吧
然而,事實(shí)證明,LeCun說的完全沒錯(cuò)。
他還舉證稱,“我的一位朋友用3行隨機(jī)梯度下降法就可以替代復(fù)雜的傳統(tǒng)方法解決凸問題(SVM、CRF)”。
有理有據(jù),這位朋友(Léon Bottou)的博客鏈接也被甩出來了。
總的來說,關(guān)于“梯度下降法最優(yōu)雅理論”這一觀點(diǎn),大家基本沒有什么異議。
真正引起討論的還是Chris Olah小哥那句“機(jī)器學(xué)習(xí)的美是生物學(xué)之美,而不是數(shù)學(xué)或者物理學(xué)之美”。
插曲:機(jī)器學(xué)習(xí)之美是生物學(xué)之美?
小哥解釋說,自己一開始也認(rèn)為機(jī)器學(xué)習(xí)的美體現(xiàn)在復(fù)雜的數(shù)學(xué)和巧妙的證明上,但后來才漸漸發(fā)現(xiàn)不是這樣的,他給出了以下理由和具體例子來支撐他的觀點(diǎn)。
首先在他看來,機(jī)器學(xué)習(xí)中的很多理論應(yīng)用到神經(jīng)網(wǎng)絡(luò)中都可以“發(fā)現(xiàn)”非常漂亮的圖像,比如用梯度下降得到的分組卷積圖。
“看起來很像一些早期生物有沒有?”
小哥驚呼自己從中感受到了自然科學(xué)家感受過的美,因此覺得機(jī)器學(xué)習(xí)的美也是生物學(xué)的美。
除此之外,他還覺得:
訓(xùn)練大模型就像是到一個(gè)偏遠(yuǎn)的島嶼去觀察那里的生物。
因此“每個(gè)模型的結(jié)構(gòu)都有著自己的魅力世界,等待我們?nèi)ビ^察和發(fā)現(xiàn)”。
(就是說,怎么突然升華起來了。)
順理成章,他將梯度下降法比作生物學(xué)中的進(jìn)化,認(rèn)為它們都是通過簡(jiǎn)單的過程就能產(chǎn)生具有高度復(fù)雜性的東西。
而且他思來想去,覺得還是生物學(xué)是用來類比的最佳范例,因此機(jī)器學(xué)習(xí)也可以從其中獲得啟發(fā)。
小哥這些言論一出,每一條都收到了幾十到上百的點(diǎn)贊,但更多的人表示有點(diǎn)匪夷所思,不敢茍同。其中就包括大名鼎鼎的“嘴炮”馬庫斯。
他很直白地表示,你說梯度下降很牛沒錯(cuò),但它和生物學(xué)基本沒什么聯(lián)系吧。
與此同時(shí)也有網(wǎng)友反駁道,就拿反向傳播機(jī)制來說,我們的大腦根本都不存在這個(gè)東西,怎么能說機(jī)器學(xué)習(xí)和生物學(xué)很像呢?
“我覺得梯度下降還是一個(gè)數(shù)學(xué)問題,和進(jìn)化無關(guān);并且我還得說一句,數(shù)學(xué)之美遠(yuǎn)超進(jìn)化和生物學(xué)之美,更別提梯度下降比進(jìn)化聰明了幾個(gè)數(shù)量級(jí)呢?!庇腥诉M(jìn)一步回懟。
反對(duì)聲是七嘴八舌……
小哥眼看情況愈演愈烈,樓越堆越高,按耐不住,出來解釋了。
他稱,自己這個(gè)類比確實(shí)不完美,可能也存在表述不準(zhǔn)確的原因。但無論如何,這些結(jié)論都不涉及解釋人工神經(jīng)網(wǎng)絡(luò)的生物學(xué)合理性。除此之外,一切都是他的直覺感受,大家隨意接受和反駁就好。
好吧,這就是一個(gè)開放問題,經(jīng)不經(jīng)得起推敲還很難說。
只得說他提出來的梯度學(xué)習(xí)最優(yōu)雅確實(shí)目前點(diǎn)贊次數(shù)最多的一個(gè)答案。
那么,我們還是回到問題本身,看看除了梯度下降,還有什么機(jī)器學(xué)習(xí)理論被大家奉為“至美”吧。
還有哪些idea很優(yōu)雅?
一位即將進(jìn)入華盛頓大學(xué)讀博士的學(xué)生認(rèn)為是“高斯過程“(Gaussian Process, GP),對(duì)他來說,這是構(gòu)建模型過程中最精粹的“精髓”。
一位就職于Zoom的AI從業(yè)者表示,深度學(xué)習(xí)的框架和系統(tǒng)中有太多優(yōu)雅的東西了:
往低了說,GPU加速操作算一個(gè);
往高了說,可微分編程/Pytorch的自動(dòng)求導(dǎo)(autograd)/反向傳播都可以算這個(gè)范圍內(nèi);
來自Yoshua Bengio的MILA實(shí)驗(yàn)室的一位研究員則表示,當(dāng)然是機(jī)器學(xué)習(xí)中的擴(kuò)展定律(scaling laws)了,“那種簡(jiǎn)單到驚掉人下巴的美!”
一位擁有博士學(xué)位的網(wǎng)友:“我也覺得答案太多了,硬要我說,我選激活函數(shù)和ConNet架構(gòu)。因?yàn)樗鼈儦w根結(jié)底和矩陣和微積分很像?!?/p>
還有人的答案是:置信傳播算法(belief propagation)、流形學(xué)習(xí)(manifold learning)、bottleneckz自動(dòng)編碼器、神經(jīng)網(wǎng)絡(luò)中的不變性和等變性編碼等等。
當(dāng)然,簡(jiǎn)單又通用的Transformer也必須得有一票。
這里就不一一列舉了。
不過,也有人認(rèn)為機(jī)器學(xué)習(xí)根本談不上什么優(yōu)不優(yōu)雅。
“畢竟在得到最終結(jié)果之前,你得經(jīng)歷各種報(bào)錯(cuò)和bug的折磨。要我說,我還是覺得物理學(xué)中的諾特定理是最優(yōu)雅的東西?!?/p>
所以,這就是我們很少談?wù)摍C(jī)器學(xué)習(xí)之美的原因嗎?
也不止如此,有人就表示:
即使機(jī)器學(xué)習(xí)到了2022年,你也不能在沒法確保能達(dá)到一個(gè)有趣結(jié)果的情況下就隨意“鼓搗”寶貴的GPU,這樣的話,誰還在乎機(jī)器學(xué)習(xí)到底優(yōu)不優(yōu)雅呢?
emmm,似乎真相了……
不過總而言之,不少人都表示DeepMind研究員提出的這個(gè)問題非常好,大家的評(píng)論也都很有意思,值得一讀。
最后,你覺得機(jī)器學(xué)習(xí)中存在美的東西嗎?
如果有,你pick哪一個(gè)呢?