深度學(xué)習(xí)的發(fā)展,與由此引發(fā)的氣候變化問題
人腦是一種效率極高的智能來(lái)源,但目前的AI還達(dá)不到這樣的水平。
本月早些時(shí)候,OpenAI宣布已經(jīng)構(gòu)建起有史以來(lái)規(guī)模最大的AI模型。這套驚人的模型名為GPT-3,已經(jīng)成為令人印象深刻的偉大技術(shù)成就。但在這輝煌的背后,也凸顯出人工智能領(lǐng)域一種令人擔(dān)憂的負(fù)面趨勢(shì)——更可怕的是,主流輿論對(duì)此尚未給予足夠的關(guān)注。
現(xiàn)代AI模型需要消耗大量電力,而且對(duì)電力的需求正以驚人的速度增長(zhǎng)。在深度學(xué)習(xí)時(shí)代,構(gòu)建一流AI模型所需要的計(jì)算資源平均每3.4個(gè)月翻一番;換句話說,從2012年到2018年間,AI計(jì)算資源消耗量增長(zhǎng)了30萬(wàn)倍。而GPT-3,只是這股潮流的最新體現(xiàn)。
總而言之,AI技術(shù)帶來(lái)的碳排放已經(jīng)不容忽視;如果行業(yè)趨勢(shì)繼續(xù)下去,那么情況將很快失去控制。除非我們?cè)敢庵匦略u(píng)估并改革當(dāng)今的AI研究議程,否則人工智能領(lǐng)域很可能在不久的未來(lái)成為引發(fā)氣候變化的罪魁禍?zhǔn)住?/p>
更大并不一定更好
在當(dāng)今以深度學(xué)習(xí)為中心的研究范式當(dāng)中,人工智能的主要進(jìn)步主要依賴于模型的規(guī)?;瘮U(kuò)展:數(shù)據(jù)集更大、模型更大、計(jì)算資源更大。
GPT-3就很好地說明了這種現(xiàn)象。這套模型中包含多達(dá)1750億個(gè)參數(shù)。為了幫助大家更直觀地理解這個(gè)數(shù)字,其前身GPT-2模型(在去年發(fā)布時(shí),同樣創(chuàng)下了體量層面的紀(jì)錄)只有15億個(gè)參數(shù)。去年的GPT-2在擁有千萬(wàn)億次算力的設(shè)備上訓(xùn)練了幾十天;相比之下,GPT-3的訓(xùn)練時(shí)長(zhǎng)將增長(zhǎng)至數(shù)千天。
這種靠“每況愈大”模型推動(dòng)AI技術(shù)進(jìn)步的問題在于,這類模型的構(gòu)建與部署都需要消耗大量能源,并由此產(chǎn)生巨量碳排放。
在2019年的一項(xiàng)廣泛研究當(dāng)中,由Emma Strubell牽頭的一組研究人員估計(jì),訓(xùn)練一套深度學(xué)習(xí)模型可能產(chǎn)生高達(dá)62萬(wàn)6155磅的二氧化碳排放量——大約相當(dāng)于五輛汽車從出廠到報(bào)廢的總二氧化碳排放規(guī)模。如果這還不夠直觀,那么每個(gè)美國(guó)人每年平均產(chǎn)生3萬(wàn)6156磅二氧化碳排放量。
可以肯定的是,這項(xiàng)估算主要針對(duì)那些高度依賴于能源的模型。畢竟結(jié)合當(dāng)前現(xiàn)實(shí),機(jī)器學(xué)習(xí)模型的平均訓(xùn)練過程絕不至于產(chǎn)生60多萬(wàn)磅二氧化碳。
同樣值得注意的是,在進(jìn)行這項(xiàng)分析時(shí),GPT-2仍然是研究領(lǐng)域規(guī)模最大的模型,研究人員也將其視為深度學(xué)習(xí)模型的極限。但僅僅一年之后,GPT-2就成了“纖細(xì)瘦小”的代名詞,下代模型的體量超過其百倍。
為什么機(jī)器學(xué)習(xí)模型會(huì)消耗那么多能源?
最重要的原因,就是訓(xùn)練這些模型的數(shù)據(jù)集本身也在快速增肥。在使用包含30億個(gè)單詞的數(shù)據(jù)集進(jìn)行訓(xùn)練之后,BERT模型在2018年實(shí)現(xiàn)了同類最佳的自然語(yǔ)言處理(NLP)性能。而在利用包含320億個(gè)單詞的訓(xùn)練集完成訓(xùn)練之后,XLNet又超越了BERT。不久之后,GPT-2開始在包含400億個(gè)單詞的數(shù)據(jù)集上接受訓(xùn)練。最終是我們前面提到的GPT-3,它使用的是一套包含約5000億個(gè)單詞的加權(quán)數(shù)據(jù)集。
在訓(xùn)練過程中,神經(jīng)網(wǎng)絡(luò)需要為每一條數(shù)據(jù)執(zhí)行一整套冗長(zhǎng)的數(shù)學(xué)運(yùn)算(正向傳播與反向傳播),并以復(fù)雜的方式更新模型參數(shù)。因此,數(shù)據(jù)集規(guī)模越大,與之對(duì)應(yīng)的算力與能源需求也在飛速增長(zhǎng)。
導(dǎo)致AI模型大量消耗能源的另一個(gè)理由,在于模型開發(fā)過程中所需要的大量實(shí)驗(yàn)與調(diào)整。目前,機(jī)器學(xué)習(xí)在很大程度上仍是一個(gè)反復(fù)實(shí)驗(yàn)試錯(cuò)的流程。從業(yè)人員通常會(huì)在訓(xùn)練過程中為當(dāng)前模型構(gòu)建數(shù)百個(gè)版本,并通過不斷嘗試各類神經(jīng)架構(gòu)與超參數(shù)確定最佳設(shè)計(jì)方案。
之前提到的2019年論文中還包含一項(xiàng)案例研究,研究人員們選擇了一個(gè)體量適中的模型(顯然要比GPT-3這樣的龐然大物小得多),并對(duì)訓(xùn)練其最終版本所需要的電力、以及生產(chǎn)最終版本所需要的試運(yùn)行總量進(jìn)行了統(tǒng)計(jì)。
在為期六個(gè)月的過程中,研究人員共訓(xùn)練了該模型的4789個(gè)不同版本,折合單GPU運(yùn)行時(shí)長(zhǎng)為9998天(超過27年)??紤]到所有因素,研究人員們估計(jì),該模型的構(gòu)建過程將產(chǎn)生約7萬(wàn)8000磅二氧化碳,超過美國(guó)成年人兩年的平均二氧化碳排放量。
而到這里,我們討論的還僅僅是機(jī)器學(xué)習(xí)模型的訓(xùn)練部分。而訓(xùn)練只能算是模型生命周期的開始;在訓(xùn)練完成之后,我們還需要在現(xiàn)實(shí)環(huán)境中使用這些模型。
在現(xiàn)實(shí)環(huán)境中部署并運(yùn)行AI模型(即推理過程),所帶來(lái)的能源消耗量甚至高于訓(xùn)練過程。實(shí)際上,英偉達(dá)公司估計(jì),神經(jīng)網(wǎng)絡(luò)全部算力成本中的80%到90%來(lái)自推理階段,而非訓(xùn)練階段。
例如,我們可以考慮自動(dòng)駕駛汽車中的AI模型。我們需要首先對(duì)該神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,教會(huì)它駕駛技巧。在訓(xùn)練完成并部署至車輛上之后,該模型將持續(xù)不斷地進(jìn)行推理以實(shí)現(xiàn)環(huán)境導(dǎo)航——只要汽車仍在行駛,模型的推理過程就將不間斷地進(jìn)行。
毋庸置疑,模型中包含的參數(shù)量越大,推理階段所帶來(lái)的電力需求就越夸張。
能源使用與碳排放
要探討這個(gè)問題,我們先要找到能源使用與碳排放之間的對(duì)應(yīng)關(guān)系。那么,該如何準(zhǔn)確判斷這種對(duì)應(yīng)關(guān)系?
根據(jù)美國(guó)環(huán)保署(EPA)公布的數(shù)據(jù),在美國(guó),一千瓦時(shí)電力平均對(duì)應(yīng)0.954磅二氧化碳排放量。這一平均值反映了碳足跡變化以及美國(guó)電網(wǎng)當(dāng)中的不同電力來(lái)源(包括可再生能源、核能、天然氣以及煤炭等)的客觀比例。
如上所述,Strubell在分析中采用了美國(guó)本土的電力碳排放平均值,以根據(jù)不同AI模型的能源需求計(jì)算對(duì)應(yīng)的碳排放量。這個(gè)假設(shè)已經(jīng)相當(dāng)合理,因?yàn)锳mazon Web Services的電力組合就一致符合美國(guó)整體的發(fā)電來(lái)源結(jié)構(gòu),而目前的大多數(shù)AI模型都會(huì)選擇在公有云端進(jìn)行訓(xùn)練。
當(dāng)然,如果盡可能使用可再生能源產(chǎn)生的電力進(jìn)行AI模型訓(xùn)練,其碳足跡必將有所降低。例如,與AWS相比,Google Cloud Platform的電力結(jié)構(gòu)中可再生能源的比例更高(根據(jù)Strubell的論文,AWS的可再生能源占比17%,谷歌方面則占比56%)。
我們也可以再舉個(gè)例子,由于所在地區(qū)擁有豐富的清潔水電資源,因此大西洋西北部區(qū)域的硬件設(shè)施在訓(xùn)練模型時(shí)所產(chǎn)生的碳排放將低于全美平均水平。值得一提的是,目前各大云服務(wù)供應(yīng)商都在強(qiáng)調(diào)其在碳排放控制方面做出的努力。
但總體來(lái)說,Strubell認(rèn)為美國(guó)的整體電力組合仍然具有充分的說服力,可用于大體準(zhǔn)確地估算出AI模型的碳足跡。
收益遞減
模型體量與模型性能之間的關(guān)系,則能幫助我們了解提升模型規(guī)模到底能夠給AI技術(shù)發(fā)展帶來(lái)怎樣的幫助。這方面數(shù)據(jù)倒是非常明確:模型體量的持續(xù)增加,最終會(huì)導(dǎo)致性能回報(bào)急劇下降。
我們用實(shí)例來(lái)證明這個(gè)觀點(diǎn)。ResNet是一套于2015年發(fā)布的知名計(jì)算機(jī)視覺模型。該模型的改進(jìn)版本名為ResNeXt,于2017年問世。與ResNet相比,ResNeXt需要的計(jì)算資源提升了35%(按總浮點(diǎn)運(yùn)算量計(jì)算),但精度卻只增長(zhǎng)了0.5%。
在艾倫人工智能研究所2019年發(fā)表的論文中,我們可以看到更詳盡的比較數(shù)據(jù),其中記錄了不同任務(wù)、模型與AI子領(lǐng)域的模型規(guī)模收益遞減情況。與GPT-2相比,最新發(fā)布的超大型GPT-3模型也出現(xiàn)了顯著的收益遞減跡象。
如果AI社區(qū)繼續(xù)沿著當(dāng)前的道路前進(jìn),那么研究人員們必然需要花費(fèi)更多精力構(gòu)建起越來(lái)越大的模型,但由此帶來(lái)的性能提升卻越來(lái)越小。這意味著成本/收益率將變得愈發(fā)不相稱。
既然收益遞減客觀存在,為什么人們還在不斷推出越來(lái)越大的模型呢?一大主要原因,在于AI社區(qū)當(dāng)下仍過于關(guān)注能在性能基準(zhǔn)測(cè)試中創(chuàng)下新高的“最新”紀(jì)錄。在眾所周知的基準(zhǔn)測(cè)試中拿下新頂點(diǎn)的模型(即使僅提升一個(gè)百分點(diǎn)),也能贏得研究人員們的一致認(rèn)可與好評(píng)。
正如加州大學(xué)洛杉磯分校(UCLA)Guy Van den Broeck教授所言,“我認(rèn)為比較準(zhǔn)確的比喻,就是某個(gè)盛產(chǎn)石油的國(guó)家能夠建造一座很高的摩天大樓。在摩天大樓的建造過程中,當(dāng)然能夠幫國(guó)家積累下「最先進(jìn)的技術(shù)」。但這一切……無(wú)法帶來(lái)任何科學(xué)意義上的進(jìn)步。”
目前,AI研究議程領(lǐng)域這種“越大越好”的偏執(zhí)精神很可能在未來(lái)幾年給自然環(huán)境造成重大破壞。這就要求我們?cè)谏钏际鞈]之后進(jìn)行大膽變革,將人工智能重新引導(dǎo)到持續(xù)性更強(qiáng)、生產(chǎn)力水平更高的正確軌道上。
展望未來(lái)
首先,每一位AI從業(yè)者應(yīng)該盡快將“縮短周期”作為研究目標(biāo),借此降低技術(shù)發(fā)展對(duì)環(huán)境造成的影響。
而最重要的第一步,就是增強(qiáng)AI模型碳排放問題的透明度與量化考核。當(dāng)AI研究人員發(fā)布新模型的研究結(jié)果時(shí),除了性能與精度兩項(xiàng)核心指標(biāo)之外,還應(yīng)該附上模型開發(fā)過程中的總體能源數(shù)據(jù)。
經(jīng)過認(rèn)真分析,艾倫人工智能研究所的團(tuán)隊(duì)提出將浮點(diǎn)運(yùn)算作為研究人員們最通用也最準(zhǔn)確的能效衡量標(biāo)準(zhǔn)。另一支小組也創(chuàng)建出一款機(jī)器學(xué)習(xí)碳排放計(jì)算器,可幫助從業(yè)者們借此估算當(dāng)前模型的碳足跡(其中涵蓋硬件、云服務(wù)供應(yīng)商以及地理區(qū)域等諸多因素)。
遵循這些思路,研究人員們還需要在模型訓(xùn)練過程中,將能源成本與性能收益之間的關(guān)系作為不能回避的重要度量。明確量化這項(xiàng)指標(biāo),將促使研究人員們重要收益遞減問題,進(jìn)而在資源分配上做出更明智、更平衡的決策。
希望隨著可持續(xù)AI實(shí)踐的普及,技術(shù)社區(qū)能夠在評(píng)估AI研究時(shí)著重考慮這些效率指標(biāo),并把這些指標(biāo)的重要性提高到精度等傳統(tǒng)性能指標(biāo)的水平,最終使其在論文發(fā)表、演講分享以及學(xué)術(shù)成果等領(lǐng)域發(fā)揮更重要的作用。
當(dāng)然,其他一些方法也有望在短期之內(nèi)幫助AI模型減少碳排放:使用更高效的超參數(shù)搜索方法、減少訓(xùn)練過程中不必要的實(shí)驗(yàn)次數(shù)、采用更節(jié)能的硬件等等。
但單靠這些補(bǔ)救性的措施,不足以徹底解決問題。人工智能領(lǐng)域需要在根本上做出長(zhǎng)期轉(zhuǎn)變。
我們需要退后一步,承認(rèn)單純建立越來(lái)越龐大的神經(jīng)網(wǎng)絡(luò)并不是通往廣義智能的正確路徑。從第一原理出發(fā),我們必須逼迫自己去發(fā)現(xiàn)更優(yōu)雅、更高效的方法,對(duì)機(jī)器中的智能進(jìn)行建模。我們與氣候變化的斗爭(zhēng),甚至是整顆藍(lán)色星球的未來(lái),可能也都將維系于此。
引用AI界傳奇人物、深度學(xué)習(xí)教父Geoff Hinton的名言,“未來(lái)可能掌握的某些研究生手里,因?yàn)樗麄儗?duì)我所說的一切深表懷疑……他們可能會(huì)徹底拋棄我的觀點(diǎn),從零開始再次探索。”
AI社區(qū)必須敢于建立人工智能的新范式,這些范式既不需要指數(shù)級(jí)增長(zhǎng)的數(shù)據(jù)集、也不需要恐怖的電力消耗。小樣本學(xué)習(xí)等新興研究領(lǐng)域,也許會(huì)成為我們走向光明未來(lái)的新道路。
作為最初的智能來(lái)源,人腦也將給我們帶來(lái)重要啟發(fā)。與目前的深度學(xué)習(xí)方法相比,我們的大腦非常高效。人腦僅幾磅重,運(yùn)行功率約20瓦——只夠讓低功率燈泡亮起昏暗的光。然而,它們卻也代表著宇宙中當(dāng)前已知的最強(qiáng)大的智能形態(tài)。
AI研究人員Siva Reddy也不禁感嘆,“人腦只需要極低的功耗,就能達(dá)成令人驚奇的表現(xiàn)。問題在于,我們?nèi)绾尾拍苤圃斐鲞@樣的機(jī)器。”