為什么人工智對(duì)于電力有巨大需求?
當(dāng)今的人工智能(AI)系統(tǒng)離復(fù)制真正的人類智能還很遠(yuǎn)。但是,他們?cè)谧R(shí)別數(shù)據(jù)模式和挖掘見(jiàn)解方面肯定會(huì)做得更好,在某種程度上要比我們更好。目前,人工智能模型可以識(shí)別圖像,通過(guò)聊天機(jī)器人與人交談,駕駛自動(dòng)駕駛汽車,甚至在國(guó)際象棋中贏得了我們的青睞。但是,您知道嗎,訓(xùn)練和構(gòu)建這些模型所涉及的能源和功耗非常驚人?換句話說(shuō),訓(xùn)練人工智能是高碳足跡的高能耗過(guò)程。
因此,減少這種能源消耗將對(duì)環(huán)境產(chǎn)生積極的連鎖影響。此外,它還將為企業(yè)帶來(lái)其他好處,例如減少其碳足跡并更接近與碳有關(guān)的目標(biāo)。在繼續(xù)建設(shè)節(jié)能人工智能或綠色人工智能之前,我們必須了解為什么人工智能如此耗電?
訓(xùn)練神經(jīng)網(wǎng)絡(luò)
以一個(gè)神經(jīng)網(wǎng)絡(luò)模型為例。神經(jīng)網(wǎng)絡(luò)是一種強(qiáng)大的機(jī)器學(xué)習(xí)類型,它通過(guò)鏡像人腦來(lái)進(jìn)行自我建模。由節(jié)點(diǎn)層組成的神經(jīng)網(wǎng)絡(luò)試圖通過(guò)模仿人的大腦功能來(lái)識(shí)別數(shù)據(jù)集中的潛在關(guān)系。每個(gè)節(jié)點(diǎn)相互連接,并具有關(guān)聯(lián)的權(quán)重和閾值。假設(shè)節(jié)點(diǎn)的輸出值高于指定的閾值,則表明該節(jié)點(diǎn)已激活并準(zhǔn)備將數(shù)據(jù)中繼到神經(jīng)網(wǎng)絡(luò)的下一層。
神經(jīng)網(wǎng)絡(luò)的訓(xùn)練包括運(yùn)行前向通過(guò),其中輸入通過(guò)它,并在處理輸入后生成輸出。然后,后向遍歷涉及使用前向遍歷中接收的錯(cuò)誤,通過(guò)需要大量矩陣操縱的梯度下降算法來(lái)更新神經(jīng)網(wǎng)絡(luò)的權(quán)重。
2019年6月,來(lái)自馬薩諸塞州大學(xué)阿默斯特分校的一組研究人員發(fā)表了一篇關(guān)于他們的研究的論文,他們?cè)谄渲性u(píng)估了訓(xùn)練四個(gè)大型神經(jīng)網(wǎng)絡(luò)所需的能源消耗。這些神經(jīng)網(wǎng)絡(luò)包括:Transformer、ELMo、BERT和GPT-2,它們分別在單個(gè)GPU上進(jìn)行了一天的訓(xùn)練,并測(cè)量了整個(gè)過(guò)程的能耗。
這些神經(jīng)網(wǎng)絡(luò)之一,即BERT使用了來(lái)自英語(yǔ)書(shū)籍和維基百科文章的33億個(gè)單詞。根據(jù)KateSaenko的《對(duì)話》一文,BERT在訓(xùn)練階段不得不讀取大約40次此龐大的數(shù)據(jù)集。為了進(jìn)行比較分析,她提到一個(gè)五歲的普通孩子學(xué)會(huì)說(shuō)話,到這個(gè)年齡可能會(huì)聽(tīng)到4500萬(wàn)個(gè)單詞,比BERT少3000倍。
在馬薩諸塞大學(xué)阿默斯特分校的研究中,研究人員發(fā)現(xiàn),對(duì)BERT進(jìn)行訓(xùn)練曾經(jīng)使一名乘客在紐約和舊金山之間往返旅行時(shí)產(chǎn)生了碳足跡。該團(tuán)隊(duì)通過(guò)將該數(shù)字乘以每個(gè)模型的原始開(kāi)發(fā)人員報(bào)告的總訓(xùn)練時(shí),間來(lái)計(jì)算出訓(xùn)練每個(gè)模型的總功耗。碳足跡是根據(jù)美國(guó)電力生產(chǎn)中使用的平均碳排放量計(jì)算的。
實(shí)驗(yàn)研究還包括培訓(xùn)和開(kāi)發(fā)稱為神經(jīng)建筑搜索的調(diào)整過(guò)程。該技術(shù)涉及通過(guò)耗費(fèi)大量精力的反復(fù)試驗(yàn)過(guò)程使神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)自動(dòng)化。此額外的調(diào)整步驟用于提高BERT的最終精度,估計(jì)產(chǎn)生了626,155噸的二氧化碳,大約等于五輛汽車的總壽命碳足跡。相比之下,美國(guó)人平均每年會(huì)產(chǎn)生18.078噸的二氧化碳排放量。
GPU饑餓
借助如今強(qiáng)大的GPU(圖形處理單元),人工智能的發(fā)展成為可能。這些GPU通常會(huì)消耗大量電能。根據(jù)NVIDIA的說(shuō)法,GPU耗散的最大功率等于250W,是IntelCPU的2.5倍。同時(shí),研究人員認(rèn)為擁有更大的人工智能模型可以帶來(lái)更好的準(zhǔn)確性和性能。這與游戲筆記本電腦的性能相似,盡管游戲筆記本電腦的功能比普通筆記本電腦高,但由于性能高而變得更快。如今,人們可以在幾分鐘內(nèi)租用具有數(shù)十個(gè)CPU和強(qiáng)大GPU的在線服務(wù)器,并快速開(kāi)發(fā)強(qiáng)大的人工智能模型。
根據(jù)位于舊金山的人工智能研究實(shí)驗(yàn)室OpenAI的研究,從機(jī)器學(xué)習(xí)發(fā)展的早期到2012年,該技術(shù)所需的計(jì)算資源數(shù)量每?jī)赡攴环?這與摩爾的處理器能力增長(zhǎng)定律相提并論)。但是,2012年之后,構(gòu)建一流模型的計(jì)算能力軌跡平均每3.4個(gè)月翻一番。這意味著新的計(jì)算要求會(huì)轉(zhuǎn)化為人工智能帶來(lái)的負(fù)面環(huán)境影響。
現(xiàn)在,專家們還認(rèn)為,構(gòu)建大規(guī)模的人工智能模型并不一定意味著在性能和準(zhǔn)確性方面會(huì)有更好的ROI。因此,公司可能必須在準(zhǔn)確性和計(jì)算效率之間進(jìn)行權(quán)衡。
尖峰神經(jīng)網(wǎng)絡(luò)
美國(guó)橡樹(shù)嶺國(guó)家實(shí)驗(yàn)室的一個(gè)研究小組之前已經(jīng)展示了一種有前途的方法,可以通過(guò)將深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換為尖峰神經(jīng)網(wǎng)絡(luò)(SNN)來(lái)提高人工智能能源效率。SNN復(fù)制了大腦的神經(jīng)觸發(fā)機(jī)制,因此具有大腦的許多功能,例如能量效率和時(shí)空數(shù)據(jù)處理。美國(guó)橡樹(shù)嶺國(guó)家實(shí)驗(yàn)室團(tuán)隊(duì)通過(guò)引入隨機(jī)過(guò)程來(lái)加深深度加標(biāo)神經(jīng)網(wǎng)絡(luò)(DSNN),該過(guò)程增加了諸如貝葉斯深度學(xué)習(xí)之類的隨機(jī)值。貝葉斯深度學(xué)習(xí)是通過(guò)將隨機(jī)值引入神經(jīng)網(wǎng)絡(luò)來(lái)模仿大腦如何處理信息的嘗試。通過(guò)這一動(dòng)作,研究人員可以知道在哪里執(zhí)行必要的計(jì)算,從而降低能耗。
目前,SNN被吹捧為神經(jīng)網(wǎng)絡(luò)的下一個(gè)迭代,也是神經(jīng)形態(tài)計(jì)算的基礎(chǔ)。去年,荷蘭國(guó)家數(shù)學(xué)和計(jì)算機(jī)科學(xué)國(guó)家研究中心(CWI)的研究人員以及荷蘭埃因霍溫的IMEC/Holst研究中心的研究人員已經(jīng)成功開(kāi)發(fā)了一種用于加標(biāo)神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)算法。