MIT發(fā)出「算力」警告:深度學(xué)習(xí)正在逼近計(jì)算極限
深度學(xué)習(xí)的流行,本質(zhì)原因都是人們對(duì)算力的追求。
近日,MIT卻發(fā)出警告:深度學(xué)習(xí)正在接近計(jì)算極限,必須轉(zhuǎn)變現(xiàn)有技術(shù)「大幅」提高計(jì)算效率。
根據(jù)麻省理工學(xué)院,安德伍德國(guó)際學(xué)院和巴西利亞大學(xué)的研究人員的說(shuō)法,他們?cè)谧罱囊豁?xiàng)研究中發(fā)現(xiàn),深度學(xué)習(xí)的進(jìn)展「非常依賴」計(jì)算的增長(zhǎng)。他們斷言,不斷的進(jìn)步將需要通過(guò)改變現(xiàn)有技術(shù)或通過(guò)尚未發(fā)現(xiàn)的新方法來(lái)「戲劇性地」更有效地使用深度學(xué)習(xí)方法。
「我們的研究表明,深度學(xué)習(xí)的計(jì)算成本并非偶然,而是精心設(shè)計(jì)的。同樣的靈活性使得它在建模各種現(xiàn)象和優(yōu)于專家模型方面表現(xiàn)出色,也使得它的計(jì)算成本大大增加。盡管如此,我們發(fā)現(xiàn)深度學(xué)習(xí)模型的實(shí)際計(jì)算負(fù)擔(dān)比理論上擴(kuò)展得更快,這表明需要會(huì)有實(shí)質(zhì)性的改進(jìn)?!?/p>
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)子領(lǐng)域,研究的是受大腦結(jié)構(gòu)和功能啟發(fā)的算法。這些算法被稱為人工神經(jīng)網(wǎng)絡(luò),由排列成層的函數(shù)(神經(jīng)元)組成,這些函數(shù)將信號(hào)傳輸給其他神經(jīng)元。
這些信號(hào)是輸入數(shù)據(jù)輸入網(wǎng)絡(luò)的產(chǎn)物,從一層傳輸?shù)搅硪粚樱徛亍刚{(diào)整」網(wǎng)絡(luò),實(shí)際上就是調(diào)整每個(gè)連接的突觸權(quán)重。網(wǎng)絡(luò)最終學(xué)會(huì)了通過(guò)從數(shù)據(jù)集中提取特征和識(shí)別交叉樣本的趨勢(shì)來(lái)進(jìn)行預(yù)測(cè)。
研究人員分析了預(yù)印本服務(wù)器Arxiv.org上的1058篇論文和其他基準(zhǔn)資料,以理解深度學(xué)習(xí)性能和計(jì)算之間的聯(lián)系,特別關(guān)注圖像分類、目標(biāo)檢測(cè)、問(wèn)題回答、命名實(shí)體識(shí)別和機(jī)器翻譯等領(lǐng)域。他們分別對(duì)計(jì)算需求進(jìn)行了兩項(xiàng)分析,反映了可用的兩類信息:
1、每一網(wǎng)絡(luò)遍歷的計(jì)算量,或給定深度學(xué)習(xí)模型中單次遍歷(即權(quán)值調(diào)整)所需的浮點(diǎn)運(yùn)算數(shù)。
2、硬件負(fù)擔(dān),或用于訓(xùn)練模型的硬件的計(jì)算能力,以處理器數(shù)量乘以計(jì)算速度和時(shí)間計(jì)算。(研究人員承認(rèn),雖然這是一種不精確的計(jì)算方法,但在他們分析的論文中,它的報(bào)道比其他基準(zhǔn)要廣泛得多。)
報(bào)告說(shuō),除從英語(yǔ)到德語(yǔ)的機(jī)器翻譯(使用的計(jì)算能力幾乎沒(méi)有變化)外,所有基準(zhǔn)均具有「統(tǒng)計(jì)學(xué)上顯著性」的斜率和「強(qiáng)大的解釋能力」。
對(duì)象檢測(cè),命名實(shí)體識(shí)別和機(jī)器翻譯對(duì)于硬件的負(fù)擔(dān)大幅增加,而結(jié)果的改善卻相對(duì)較小,計(jì)算能力解釋了流行的開(kāi)源ImageNet基準(zhǔn)測(cè)試中圖像分類精度差異的43%。
研究人員估計(jì),三年的算法改進(jìn)相當(dāng)于計(jì)算能力提高了10倍。他們寫(xiě)道:「總體而言,我們的結(jié)果清楚地表明,在深度學(xué)習(xí)的許多領(lǐng)域中,訓(xùn)練模型的進(jìn)步取決于所使用的計(jì)算能力的大幅提高?!?/p>
「另一種可能性是,要改善算法本身可能需要互補(bǔ)地提高計(jì)算能力?!?/p>
在研究過(guò)程中,研究人員還對(duì)預(yù)測(cè)進(jìn)行了推斷,以了解達(dá)到各種理論基準(zhǔn)所需的計(jì)算能力以及相關(guān)的經(jīng)濟(jì)和環(huán)境成本。即使是最樂(lè)觀的計(jì)算,要降低ImageNet上的圖像分類錯(cuò)誤率,也需要進(jìn)行100000次以上的計(jì)算。
他們的觀點(diǎn)是,一份同步報(bào)告估計(jì),華盛頓大學(xué)(University of Washington)的格羅弗(Grover)假新聞檢測(cè)模型的培訓(xùn)成本為2.5萬(wàn)美元,耗時(shí)約兩周。據(jù)報(bào)道,OpenAI花費(fèi)了1200萬(wàn)美元來(lái)訓(xùn)練它的GPT-3語(yǔ)言模型,谷歌花費(fèi)了大約6912美元來(lái)訓(xùn)練BERT,一個(gè)雙向轉(zhuǎn)換模型重新定義了11個(gè)自然語(yǔ)言處理任務(wù)的最新?tīng)顟B(tài)。
在去年6月的另一份報(bào)告中,馬薩諸塞大學(xué)阿姆赫斯特分校(University of Massachusetts at Amherst)的研究人員得出結(jié)論稱,訓(xùn)練和搜索某一模型所需的能量大約排放了62.6萬(wàn)磅二氧化碳。這相當(dāng)于美國(guó)汽車平均壽命的五倍。
研究人員寫(xiě)道:「我們不認(rèn)為這些目標(biāo)所隱含的計(jì)算要求……硬件、環(huán)境和貨幣成本會(huì)令人望而卻步。以經(jīng)濟(jì)的方式實(shí)現(xiàn)這一目標(biāo),將需要更高效的硬件、更高效的算法或其他改進(jìn),從而產(chǎn)生如此巨大的凈影響?!?/p>
研究人員指出,在算法級(jí)別進(jìn)行深度學(xué)習(xí)改進(jìn)已有歷史先例。他們指出了諸如Google的張量處理單元,現(xiàn)場(chǎng)可編程門(mén)陣列(FPGA)和專用集成電路(ASIC)之類的硬件加速器的出現(xiàn),以及通過(guò)網(wǎng)絡(luò)壓縮和加速技術(shù)來(lái)降低計(jì)算復(fù)雜性的嘗試。
他們還引用了神經(jīng)體系結(jié)構(gòu)搜索和元學(xué)習(xí),以此使用優(yōu)化來(lái)查找在一類問(wèn)題上保持良好性能的體系結(jié)構(gòu),以此作為計(jì)算上有效的改進(jìn)方法的途徑。
算力確實(shí)在提高。一項(xiàng)OpenAI研究表明,自2012年以來(lái),每16個(gè)月將AI模型訓(xùn)練到ImageNet圖像分類中相同性能所需的計(jì)算量就減少了2倍。Google的Transformer架構(gòu)超越了以前的狀態(tài)seq2seq也是由Google開(kāi)發(fā)的模型,在seq2seq推出三年后,計(jì)算量減少了61倍。
DeepMind的AlphaZero這個(gè)系統(tǒng)從零開(kāi)始教自己如何掌握國(guó)際象棋,將棋和圍棋的游戲,而在一年后,與該系統(tǒng)的前身AlphaGoZero的改進(jìn)版本相匹配,其計(jì)算量就減少了八倍。
用于深度學(xué)習(xí)模型的計(jì)算能力的爆炸式增長(zhǎng)已經(jīng)結(jié)束了「人工智能冬天」,并為各種任務(wù)的計(jì)算機(jī)性能樹(shù)立了新的基準(zhǔn)。
但是,深度學(xué)習(xí)對(duì)計(jì)算能力的巨大需求限制了它可以以目前的形式提高性能的程度,特別是在硬件性能的提高放緩的時(shí)代。這些計(jì)算限制的可能影響迫使……機(jī)器學(xué)習(xí)轉(zhuǎn)向比深度學(xué)習(xí)更高效的技術(shù)。