MIT警告深度學(xué)習(xí)正在逼近計(jì)算極限,網(wǎng)友:放緩不失為一件好事
MIT 的一項(xiàng)研究認(rèn)為,深度學(xué)習(xí)正在逼近算力極限。
深度學(xué)習(xí)需要大量數(shù)據(jù)和算力,這二者的發(fā)展是促進(jìn)這一次人工智能浪潮的重要因素。但是,近期 MIT 的一項(xiàng)研究認(rèn)為,深度學(xué)習(xí)正在逼近算力極限。
這項(xiàng)研究由 MIT、MIT-IBM Watson AI 實(shí)驗(yàn)室、延世大學(xué)安德伍德國際學(xué)院和巴西利亞大學(xué)的研究人員開展,他們發(fā)現(xiàn)深度學(xué)習(xí)的進(jìn)展「極大地依賴」算力增長。他們認(rèn)為,深度學(xué)習(xí)要想繼續(xù)進(jìn)步,需要更加計(jì)算高效的深度學(xué)習(xí)模型,這可以來自于對現(xiàn)有技術(shù)的更改,也可以是全新的方法。
論文鏈接:https://arxiv.org/pdf/2007.05558.pdf
該研究作者表示:「我們發(fā)現(xiàn),深度學(xué)習(xí)計(jì)算成本高昂并非偶然,而是從設(shè)計(jì)之時就注定了。靈活性可以使深度學(xué)習(xí)很好地建模不同現(xiàn)象并超越專家模型,但也帶來了昂貴的算力成本。盡管如此,我們發(fā)現(xiàn)深度學(xué)習(xí)模型的實(shí)際計(jì)算負(fù)載要比理論極值擴(kuò)展得更加迅速,這意味著可能出現(xiàn)顯著改進(jìn)。」
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的子領(lǐng)域,其算法受到大腦結(jié)構(gòu)和功能的啟發(fā)。這類算法——通常叫做人工神經(jīng)網(wǎng)絡(luò),包含函數(shù)(神經(jīng)元),網(wǎng)絡(luò)層負(fù)責(zé)將信號傳遞給其他神經(jīng)元。信號也就是網(wǎng)絡(luò)輸入數(shù)據(jù)的產(chǎn)物,它們在層與層之間流動,并緩慢地「調(diào)優(yōu)」網(wǎng)絡(luò),從而調(diào)整每個連接的突觸強(qiáng)度(權(quán)重)。神經(jīng)網(wǎng)絡(luò)最終通過提取數(shù)據(jù)集特征、識別跨樣本趨勢來學(xué)習(xí)執(zhí)行預(yù)測。
研究人員分析了 1058 篇來自 arXiv 等來源的論文,試圖理解深度學(xué)習(xí)性能和計(jì)算之間的聯(lián)系,尤其是圖像分類、目標(biāo)檢測、問答、命名實(shí)體識別和機(jī)器翻譯領(lǐng)域。
他們執(zhí)行了兩項(xiàng)對算力要求的分析:
-
每個神經(jīng)網(wǎng)絡(luò)遍歷(network pass)所需算力,或單次遍歷所需的浮點(diǎn)運(yùn)算數(shù);
-
訓(xùn)練模型所用的硬件負(fù)載,即硬件算力,這里以處理器數(shù)量乘以計(jì)算速率和時間來進(jìn)行計(jì)算。
研究作者表示,在使用算力幾乎相同的情況下,除了英德機(jī)器翻譯任務(wù)以外,在所有基準(zhǔn)上都出現(xiàn)了「具備高度統(tǒng)計(jì)學(xué)意義」的曲線和「強(qiáng)大的解釋能力」。
尤其是,目標(biāo)檢測、命名實(shí)體識別和機(jī)器翻譯在輸出結(jié)果改進(jìn)相對較小的情況下硬件負(fù)載出現(xiàn)大幅增長,算力對模型在 ImageNet 基準(zhǔn)數(shù)據(jù)集上的圖像分類準(zhǔn)確率承擔(dān)了 43% 的貢獻(xiàn)。
研究人員估計(jì),三年的算法改進(jìn)等于算力的 10 倍增長?!肝覀兊难芯拷Y(jié)果表明,在深度學(xué)習(xí)的多個領(lǐng)域中,訓(xùn)練模型所取得的進(jìn)展依賴于所用算力的大幅增長。另一種可能性是算法改進(jìn)本身需要算力的補(bǔ)充。」
在研究過程中,研究人員還推斷了模型在不同理論基準(zhǔn)上打破記錄所需的算力、經(jīng)濟(jì)成本和環(huán)境成本。
據(jù)最樂觀的估計(jì),降低 ImageNet 圖像分類誤差也需要 105 倍的算力增長。
去年六月,機(jī)器之心發(fā)布的報(bào)告估計(jì),華盛頓大學(xué)的 Grover 假新聞檢測模型訓(xùn)練兩周所需成本為 2.5 萬美元。前不久發(fā)布的 OpenAI GPT-3 模型訓(xùn)練成本飆升到 1200 萬美元,谷歌 BERT 的訓(xùn)練成本約為 6,912 美元。
去年六月來自美國馬薩諸塞大學(xué)阿默斯特分校的研究者發(fā)現(xiàn),訓(xùn)練和搜索特定模型所需算力會排放 62.6 萬鎊二氧化碳,約等于美國汽車平均一生排放量的五倍。
「我們無法預(yù)測這些目標(biāo)的計(jì)算要求…… 硬件、環(huán)境成本和金錢成本將會高昂到難以承受。以更經(jīng)濟(jì)的方式達(dá)成目標(biāo)需要更加高效的硬件和算法或其他改進(jìn)?!?/p>
研究人員注意到,深度學(xué)習(xí)在算法層面上的改進(jìn)有過先例。例如,谷歌 TPU、FPGA 和 ASIC 等硬件加速器的出現(xiàn),以及通過網(wǎng)絡(luò)壓縮和加速技術(shù)降低計(jì)算復(fù)雜度。
研究人員還引用了神經(jīng)架構(gòu)搜索和元學(xué)習(xí),它們利用優(yōu)化找出擅長解決某類問題的架構(gòu),進(jìn)而試圖實(shí)現(xiàn)計(jì)算高效的方法。
OpenAI 的一項(xiàng)研究指出,自 2012 年以來,訓(xùn)練 AI 模型達(dá)到 ImageNet 圖像分類任務(wù)相同性能所需要的算力每 16 個月減少 1/2。此外,谷歌 Transformer 架構(gòu)超越了先前的 SOTA 模型 seq2seq(也由谷歌開發(fā)),它比 seq2seq 推出晚了三年,計(jì)算量是后者的 1/64。
研究人員在論文最后寫道:「深度學(xué)習(xí)模型所需算力的爆炸式增長結(jié)束了 AI 寒冬,并為更廣泛任務(wù)上的計(jì)算性能制定了新的基準(zhǔn)。但是深度學(xué)習(xí)對于算力的巨大需求限制了以目前形式提升性能的路徑,特別是在這樣一個硬件性能放緩的時代?!?/p>
因此,研究人員認(rèn)為,算力極限可能促使機(jī)器學(xué)習(xí)轉(zhuǎn)向比深度學(xué)習(xí)計(jì)算效率更高的新技術(shù)。
reddit 熱議
這一話題以及相應(yīng)論文在 reddit 等社交網(wǎng)站上引發(fā)熱議,擁躉者有,但質(zhì)疑聲也很多。
有網(wǎng)友表示,關(guān)于深度學(xué)習(xí)算法復(fù)雜性的討論雖未成為當(dāng)前主流,但很快會成為焦點(diǎn)話題。發(fā)帖者也對這種說法表示認(rèn)同,并認(rèn)為過去幾年得益于計(jì)算能力的顯著提升,機(jī)器學(xué)習(xí)領(lǐng)域取得了諸多突破。盡管如此,人們可能會很快關(guān)注可持續(xù)性和算法效率。
與此同時,更多的網(wǎng)友對研究中的一些細(xì)節(jié)問題展開了討論。
下面這位網(wǎng)友對論文中的「硬件性能的提升正在放緩」這一說法提出了疑問:「事實(shí)真的如此嗎?特別是從 USD/TFLOPS 和 Watts/TFLOPS 的角度來看?!?/p>
發(fā)帖者也對這位網(wǎng)友的疑問進(jìn)行了回復(fù),他表示這似乎是作者的論點(diǎn)。論文作者在文中還寫道:「深度學(xué)習(xí)模型所需算力的爆炸式增長結(jié)束了 AI 寒冬,并為更廣泛任務(wù)上的計(jì)算性能制定了新的基準(zhǔn)。」但遺憾的是,論文作者的這些說法并沒有提供參考文獻(xiàn)。
更有網(wǎng)友毫不客氣地表示:「雖然這是一個越來越重要的討論話題,但我并沒有從這項(xiàng)研究中看到任何『新』見解。事實(shí)上,自 2012 年以來,我們都清楚一些歷時 10-30 年之久的舊方法之所以依然能夠運(yùn)行,主要還是得益于算力?!?/p>
在他看來,眾多深度學(xué)習(xí)方法面臨的計(jì)算限制是顯而易見的??梢韵胂蟮?,如果有人將 GPT-3 的計(jì)算增加 100 倍,則會得到 GPT-4。現(xiàn)在,很多科研實(shí)驗(yàn)室面臨著另一個更大的限制,受制于種種客觀因素,它們無法獲取更大的算力。
最后,有網(wǎng)友認(rèn)為,無論是從理論基礎(chǔ),還是社會影響等多方面來看,機(jī)器學(xué)習(xí)領(lǐng)域「放緩腳步」不失為一件好事。