企業(yè)如何通過更可持續(xù)的推理實(shí)現(xiàn)更環(huán)保的AIGC
是什么造就了一個(gè)模型
對(duì)于外行來(lái)說(shuō),可能很難想象AI和支撐編程的算法如何承擔(dān)如此廣泛的環(huán)境或經(jīng)濟(jì)負(fù)擔(dān)。ML的簡(jiǎn)要概述將分兩個(gè)階段描述這一過程。
首先是訓(xùn)練模型開發(fā)智能,并在某些類別中標(biāo)記信息。例如,電子商務(wù)運(yùn)營(yíng)可能會(huì)將其產(chǎn)品和客戶習(xí)慣的圖像提供給模型,以允許它進(jìn)一步詢問這些數(shù)據(jù)點(diǎn)。
第二個(gè)是識(shí)別或推理,模型將使用存儲(chǔ)的信息來(lái)理解新數(shù)據(jù)。例如,電子商務(wù)企業(yè)將能夠?qū)a(chǎn)品分類為類型、大小、價(jià)格、顏色和一系列其他細(xì)分,同時(shí)向客戶提供個(gè)性化的推薦。
推理階段是兩個(gè)階段中計(jì)算密集度較低的階段,但一旦大規(guī)模部署,例如在Siri或Alexa等平臺(tái)上部署,累積的計(jì)算可能會(huì)消耗大量電力,從而增加成本和碳排放。
也許推理和培訓(xùn)之間最刺耳的區(qū)別是用于支持它的資金。推論與銷售成本有關(guān),因此影響底線,而培訓(xùn)通常與研發(fā)支出有關(guān),研發(fā)支出與實(shí)際產(chǎn)品或服務(wù)的預(yù)算是分開的。
因此,推理需要專門的硬件來(lái)優(yōu)化成本和功耗效率,以支持可行、可擴(kuò)展的業(yè)務(wù)模式-這是一種使業(yè)務(wù)利益和環(huán)境利益保持一致的解決方案,令人耳目一新。
隱性成本
第二代AI的領(lǐng)頭羊ChatGPT是一個(gè)巨大的推理成本的鮮明例子,每天高達(dá)數(shù)百萬(wàn)美元(這甚至不包括它的培訓(xùn)成本)。
OpenAI最近發(fā)布的GPT-4的計(jì)算資源消耗估計(jì)是前一次迭代的三倍——傳言在16個(gè)專家模型上運(yùn)行1.8萬(wàn)億個(gè)參數(shù),據(jù)稱運(yùn)行在128個(gè)GPU集群上,它將吞噬過多的能量。
提示的長(zhǎng)度加劇了高計(jì)算需求,提示需要大量能量來(lái)為響應(yīng)提供支持。GPT-4的上下文長(zhǎng)度從8000躍升到32000,這增加了推理成本,降低了GPU的效率。一成不變地,擴(kuò)大AI規(guī)模的能力僅限于財(cái)力最雄厚的最大公司,而那些沒有必要資源的公司無(wú)法獲得,這使得它們無(wú)法利用這項(xiàng)技術(shù)的好處。
人工智能的力量
AIGC和大型語(yǔ)言模型可能會(huì)對(duì)環(huán)境造成嚴(yán)重影響。所需的計(jì)算能力和能源消耗導(dǎo)致了大量的碳排放。關(guān)于一次AI查詢的碳足跡的數(shù)據(jù)有限,但一些分析師建議,它比搜索引擎查詢的碳足跡高四到五倍。
一項(xiàng)估計(jì)將ChatGPT的用電量與17.5萬(wàn)人的用電量進(jìn)行了比較。早在2019年,麻省理工學(xué)院發(fā)布的一項(xiàng)研究表明,通過訓(xùn)練一個(gè)大型AI模型,二氧化碳的排放量為62.6萬(wàn)磅,幾乎是普通汽車終身排放量的五倍。
盡管有一些令人信服的研究和斷言,但在AI及其碳排放方面缺乏具體數(shù)據(jù)是一個(gè)主要問題,如果我們要推動(dòng)變革,就需要糾正這一問題。托管新一代AI模型的企業(yè)和數(shù)據(jù)中心也必須積極應(yīng)對(duì)環(huán)境影響。通過優(yōu)先考慮更節(jié)能的計(jì)算架構(gòu)和可持續(xù)實(shí)踐,業(yè)務(wù)要?jiǎng)?wù)可以與限制氣候退化的支持努力保持一致。
計(jì)算機(jī)的局限性
CPU是計(jì)算機(jī)的組成部分,負(fù)責(zé)執(zhí)行指令和數(shù)學(xué)運(yùn)算——它每秒可以處理數(shù)百萬(wàn)條指令,直到不久前,它還一直是推理的首選硬件。
最近,出現(xiàn)了從CPU到運(yùn)行繁重的深度學(xué)習(xí)處理的轉(zhuǎn)變,使用連接到CPU的配套芯片作為卸載引擎-也稱為深度學(xué)習(xí)加速器(DLA)。出現(xiàn)問題的原因是托管那些DLA的CPU試圖處理進(jìn)出推理服務(wù)器的大量吞吐量數(shù)據(jù)移動(dòng),以及向DLA提供輸入數(shù)據(jù)的數(shù)據(jù)處理任務(wù)以及關(guān)于DLA輸出數(shù)據(jù)的數(shù)據(jù)處理任務(wù)。
再一次,作為一個(gè)串行處理組件,CPU正在造成一個(gè)瓶頸,它根本不能像保持這些DLA忙碌所需的那樣有效地執(zhí)行。
當(dāng)一家公司依靠CPU來(lái)管理深度學(xué)習(xí)模型中的推理時(shí),無(wú)論DLA有多強(qiáng)大,CPU都會(huì)達(dá)到最佳閾值,然后開始在重量下彎曲。想一想,一輛車只能以發(fā)動(dòng)機(jī)允許的速度行駛:如果一輛較小的車的發(fā)動(dòng)機(jī)被一輛跑車的發(fā)動(dòng)機(jī)取代,較小的車將與較強(qiáng)的發(fā)動(dòng)機(jī)發(fā)揮的速度和加速能力脫節(jié)。
CPU主導(dǎo)的AI推理系統(tǒng)也是如此——一般是DLA,更具體地說(shuō)是GPU,它們以驚人的速度行駛,每秒完成數(shù)萬(wàn)個(gè)推理任務(wù),在有限的CPU減少其輸入和輸出的情況下,無(wú)法實(shí)現(xiàn)它們所能實(shí)現(xiàn)的功能。
對(duì)系統(tǒng)范圍解決方案的需求
正如NVIDIA首席執(zhí)行官Jensen Huang所說(shuō):“AI需要對(duì)計(jì)算進(jìn)行一次徹底的改造。從芯片到系統(tǒng)?!?/p>
隨著AI應(yīng)用程序和專用硬件加速器(如GPU或TPU)的指數(shù)級(jí)增長(zhǎng),我們需要將注意力轉(zhuǎn)向這些加速器周圍的系統(tǒng),并構(gòu)建系統(tǒng)范圍的解決方案,以支持利用這些DLA所需的數(shù)據(jù)處理的數(shù)量和速度。我們需要能夠處理大規(guī)模AI應(yīng)用的解決方案,以及以更低的成本和能源投入完成無(wú)縫模型遷移的解決方案。
替代以CPU為中心的AI推理服務(wù)器勢(shì)在必行,以提供高效、可擴(kuò)展且在財(cái)務(wù)上可行的解決方案,以維持企業(yè)對(duì)AI不斷增長(zhǎng)的需求,同時(shí)解決AI使用增長(zhǎng)帶來(lái)的環(huán)境連鎖反應(yīng)。
使AI民主化
目前,行業(yè)領(lǐng)先者提出了許多解決方案,同時(shí)降低了其成本。關(guān)注綠色能源為AI提供動(dòng)力可能是一條途徑;另一條途徑可能是在一天中可再生能源可用的特定時(shí)間點(diǎn)對(duì)計(jì)算過程進(jìn)行計(jì)時(shí)。
有一種觀點(diǎn)認(rèn)為,數(shù)據(jù)中心的AI驅(qū)動(dòng)的能源管理系統(tǒng)將節(jié)省成本,并改善運(yùn)營(yíng)的環(huán)境憑證。除了這些策略,AI最有價(jià)值的投資之一在于硬件。這是其所有處理的支柱,并承擔(dān)著能量消耗計(jì)算的重量。
一個(gè)能夠以更低的財(cái)務(wù)和能源成本支持所有處理的硬件平臺(tái)或AI推理服務(wù)器芯片將是變革性的。這將是我們實(shí)現(xiàn)AI民主化的方式,因?yàn)檩^小的公司可以利用不依賴大企業(yè)資源的AI模式。
ChatGPT查詢機(jī)每天需要數(shù)百萬(wàn)美元才能運(yùn)行,而另一種以低得多的功率和數(shù)量的GPU運(yùn)行的片上服務(wù)器解決方案將節(jié)省資源,并減輕世界能源系統(tǒng)的負(fù)擔(dān),導(dǎo)致具有成本意識(shí)和環(huán)保的第二代AI,并可供所有人使用。