電力、芯片制造、數(shù)據(jù)和延遲成四大限制因素,Scaling Law能續(xù)到2030年嗎?
近年來,人工智能模型的能力顯著提高。其中,計算資源的增長占了人工智能性能提升的很大一部分。規(guī)?;瘞淼某掷m(xù)且可預(yù)測的提升促使人工智能實驗室積極擴(kuò)大訓(xùn)練規(guī)模,訓(xùn)練計算以每年約 4 倍的速度增長。
從這個角度來看,人工智能訓(xùn)練計算的增長速度甚至超過了近代史上一些最快的技術(shù)擴(kuò)張。它超過了移動電話采用率(1980-1987 年,每年 2 倍)、太陽能裝機(jī)容量(2001-2010 年,每年 1.5 倍)和人類基因組測序(2008-2015 年,每年 3.3 倍)的峰值增長率。
在最近的一份報告中,Epoch AI 研究了當(dāng)前人工智能訓(xùn)練規(guī)模的快速增長(約每年 4 倍)在 2030 年之前是否始終在技術(shù)上可行。
報告提到了可能制約擴(kuò)展的四個關(guān)鍵因素:電源可用性、芯片制造能力、數(shù)據(jù)稀缺性和「延遲墻」(人工智能訓(xùn)練計算中不可避免的延遲所造成的基本速度限制)。
報告中的分析包括生產(chǎn)能力的擴(kuò)張、投資和技術(shù)進(jìn)步。除其他因素外,這包括審查先進(jìn)芯片封裝設(shè)施的計劃增長、額外發(fā)電廠的建設(shè)以及數(shù)據(jù)中心利用多個電力網(wǎng)絡(luò)的地理分布。為了考慮這些變化,報告納入了各種公開來源的預(yù)測:半導(dǎo)體代工廠的擴(kuò)張計劃、電力供應(yīng)商的產(chǎn)能增長預(yù)測、其他相關(guān)行業(yè)數(shù)據(jù)以及自己的一些研究。
他們發(fā)現(xiàn),到本個十年末,2e29 FLOP 的訓(xùn)練運行或許是可行的。換句話說,到 2030 年,我們將很有可能訓(xùn)練出規(guī)模超過 GPT-4 的模型,與 GPT-4 在規(guī)模上超過 GPT-2 的程度相同。如果繼續(xù)努力,到本個十年末,我們可能會看到人工智能的巨大進(jìn)步,就像 2019 年 GPT-2 的簡陋文本生成與 2023 年 GPT-4 的復(fù)雜問題解決能力之間的差異一樣。
當(dāng)然,人工智能開發(fā)者是否真的會追求這種水平的擴(kuò)展,取決于他們是否愿意在未來幾年投資數(shù)千億美元用于人工智能的擴(kuò)展。但這不是報告討論的重點。
在整個分析過程中,報告假定訓(xùn)練運行可持續(xù) 2 到 9 個月,這反映了持續(xù)時間越來越長的趨勢。報告還假設(shè),在為分布式訓(xùn)練和芯片分配人工智能數(shù)據(jù)中心電力時,公司只能獲得現(xiàn)有供應(yīng)量的 10% 到 40% 左右。
制約擴(kuò)展的四個關(guān)鍵因素
電力限制
人們已經(jīng)討論過,到 2030 年數(shù)據(jù)中心園區(qū)達(dá)到 1 至 5 GW 的計劃,這將支持 1e28 至 3e29 FLOP 的訓(xùn)練運行(作為參考,GPT-4 可能在 2e25 FLOP 左右)。地域分布式訓(xùn)練可以利用多個地區(qū)的能源基礎(chǔ)設(shè)施,進(jìn)一步擴(kuò)大規(guī)模。根據(jù)目前美國數(shù)據(jù)中心擴(kuò)張的預(yù)測,美國的分布式網(wǎng)絡(luò)可能容納 2 到 45 GW,假設(shè)數(shù)據(jù)中心之間有足夠的帶寬,則可支持 2e28 到 2e30 FLOP 的訓(xùn)練運行。除此之外,如果提前 3 到 5 年進(jìn)行規(guī)劃,愿意支付新發(fā)電站成本的參與者可以獲得更多電力。
數(shù)據(jù)中心電力容量的快速擴(kuò)張潛力巨大,這一點已被多種資料來源和預(yù)測所證實。SemiAnalysis 提供的歷史數(shù)據(jù)顯示,2019 年至 2023 年期間,數(shù)據(jù)中心容量的年增長率約為 20%(如圖 2)。2024 年和 2025 年的擴(kuò)建計劃旨在加快這一速度,如果按時完成,年增長率將達(dá)到 32%。
總體而言,10-30% 的年增長率似乎是可以實現(xiàn)的。根據(jù) 15% 的中心增長率估算,到 2030 年,美國數(shù)據(jù)中心的容量將從 40 GW 增長到 90 GW,即增加 50 GW。注意,此處使用的是對實際增長的預(yù)測范圍,并以此為基礎(chǔ)估算可行的增長,因此這一數(shù)字可以說是保守的。
報告中提到,由本地電力支持的 2030 年訓(xùn)練運行可能需要 1 到 5 GW,到 2030 年可達(dá)到 1e28 到 3e29 FLOP。與此同時,分布在各地的訓(xùn)練運行可獲得 2 至 45 GW 的電力供應(yīng),并在數(shù)據(jù)中心對之間實現(xiàn) 4 至 20 Pbps 的連接,從而實現(xiàn) 2e28 至 2e30 FLOP 的訓(xùn)練運行。上述估計背后的假設(shè)可以在下圖 3 中找到。
芯片制造能力
人工智能芯片提供了訓(xùn)練大型人工智能模型所需的計算能力。目前,擴(kuò)展受到先進(jìn)封裝和高帶寬內(nèi)存生產(chǎn)能力的限制。不過,考慮到制造商計劃的規(guī)模擴(kuò)張以及硬件效率的提高,即使考慮到 GPU 將在多個 AI 實驗室之間分配,并且部分專用于服務(wù)模型,也可能有足夠的能力讓 1 億個 H100 等效 GPU 專用于訓(xùn)練,為 9e29 FLOP 的訓(xùn)練運行提供動力。然而,這一預(yù)測具有很大的不確定性,估計值從 2000 萬到 4 億個 H100 等效處理器不等,相當(dāng)于 1e29 到 5e30 FLOP(比 GPT-4 大 5000 到 300000 倍)。
報告中假設(shè)了一種情況,即從現(xiàn)在到 2030 年,臺積電 5 納米及以下的全部產(chǎn)能都用于 GPU 生產(chǎn)。在這種情況下,潛在計算量可能會增加一個數(shù)量級,達(dá)到 1e30 到 2e31 FLOP。這一上限基于當(dāng)前的晶圓產(chǎn)量預(yù)測,說明了如果完全解決封裝、HBM 生產(chǎn)和晶圓分配方面的現(xiàn)有限制,對人工智能訓(xùn)練能力可能產(chǎn)生的最大影響。圖 4 展示了這些估計值,并列出了其背后的假設(shè)。
數(shù)據(jù)短缺
訓(xùn)練大型人工智能模型需要相應(yīng)的大型數(shù)據(jù)集。索引網(wǎng)絡(luò)包含約 500T 的獨特文本,預(yù)計到 2030 年將增加 50%。從圖像、視頻和音頻數(shù)據(jù)中進(jìn)行多模態(tài)學(xué)習(xí)可能會適度促進(jìn)擴(kuò)展,使可用于訓(xùn)練的數(shù)據(jù)增加三倍。在考慮了數(shù)據(jù)質(zhì)量、可用性、多 epoch 和多模態(tài) tokenizer 效率等不確定因素后,估計到 2030 年可用于訓(xùn)練的 token 相當(dāng)于 400 萬億到 20 億億個,允許 6e28 到 2e32 FLOP 的訓(xùn)練運行。人工智能模型生成的合成數(shù)據(jù)可能會大幅提高這一比例。
據(jù)估計,索引網(wǎng)絡(luò)上的文本數(shù)據(jù)量為 20 億億個 token (Villalobos et al, 2024)。同時,互聯(lián)網(wǎng)上圖片和視頻秒數(shù)的估計值為 40 萬億。如果也使用每張圖片或每秒視頻 100 個 token 的高端估計值,這意味著有四億億個視覺 token,或六億億個文本和視覺 token。如果還假設(shè)到 2030 年這些數(shù)據(jù)量翻一番,80% 的數(shù)據(jù)因質(zhì)量過濾而被刪除(FineWeb 丟棄了約 85% 的 token),模型在這些數(shù)據(jù)上訓(xùn)練 10 個 epoch,那么有效數(shù)據(jù)集的規(guī)模將達(dá)到約 20 億億個 token。有關(guān)這些參數(shù)的完整列表以及報告選擇這些值范圍的理由,如圖 5 所示。
延遲墻
延遲墻是一種 「速度限制」,源于向前和向后傳遞所需的最短時間。隨著模型規(guī)模的擴(kuò)大,它們需要更多的順序操作來訓(xùn)練。增加并行處理的訓(xùn)練 token 數(shù)量(即「批大小」)可以攤銷這些延遲,但這種方法也有局限性。超過「臨界批大小」后,批大小的進(jìn)一步增加會導(dǎo)致訓(xùn)練效率的回報遞減,訓(xùn)練更大的模型需要連續(xù)處理更多的批。這就為特定時間范圍內(nèi)的訓(xùn)練 FLOP 設(shè)定了上限。報告估計,現(xiàn)代 GPU 設(shè)置上的累積延遲將使訓(xùn)練運行的 FLOP 上限達(dá)到 3e30 到 1e32。要超越這一規(guī)模,需要采用其他網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)、減少通信延遲,或者采用比目前更積極的批規(guī)模擴(kuò)展。
OpenAI 之前的研究將臨界批大?。ㄔ谶@個點之后,訓(xùn)練的收益會大幅遞減)與梯度相對于訓(xùn)練數(shù)據(jù)的分散程度聯(lián)系了起來。在此基礎(chǔ)上,Erdil 和 Schneider-Joseph(即將發(fā)表)推測,批大小可能與可還原模型損失的倒數(shù)成比例,根據(jù) Chinchilla 的說法,可還原模型損失的比例大致為模型參數(shù)數(shù)量的立方根。如果這種情況成立,它將把延遲墻推回一個數(shù)量級,參見下圖。
什么限制因素影響最深?
上文講到了人工智能擴(kuò)展的四個主要瓶頸。如果將它們放在一起考慮,則意味著到本個十年末,訓(xùn)練運行高達(dá) 2e29 FLOP 是可行的。這將代表著相對于當(dāng)前模型的大約 10000 倍的擴(kuò)展,并意味著擴(kuò)展的歷史趨勢可以不間斷地持續(xù)到 2030 年(圖 7)。深色陰影框?qū)?yīng)四分位數(shù)范圍,淺色陰影區(qū)域?qū)?yīng) 80% 置信區(qū)間。
最具約束力的限制因素是電力和芯片的可用性。其中,電力的可塑性可能更大,能源行業(yè)的集中度較低,而且有擴(kuò)大 100 GW 電力供應(yīng)的先例,如果提前三到五年計劃,供應(yīng)商應(yīng)該能夠執(zhí)行。
擴(kuò)大芯片制造面臨多重挑戰(zhàn):先進(jìn)封裝等關(guān)鍵工藝大多已分配給數(shù)據(jù)中心的 GPU,而建設(shè)新的晶圓廠需要大量資本投資和高度專業(yè)化的勞動力。
數(shù)據(jù)是最不確定的瓶頸,其不確定性范圍跨越四個數(shù)量級。多模態(tài)數(shù)據(jù)對提高推理能力的作用可能有限,而且我們對此類數(shù)據(jù)的可用存量、質(zhì)量以及當(dāng)前 token 化方法效率的估計都不如對文本數(shù)據(jù)的估計那么確定。最終,合成數(shù)據(jù)可以實現(xiàn)無限擴(kuò)展,但計算成本較高。
最后,雖然延遲墻是一個遙遠(yuǎn)的制約因素,但它作為一個需要克服的障礙,已經(jīng)出現(xiàn)在地平線上。通過采用更復(fù)雜的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),包括更大的 pod 或 pod 之間更多的連接,可能會將延遲墻推倒。
AI實驗室們會擴(kuò)展到這個程度嗎?
迄今為止,人工智能模型規(guī)模的不斷擴(kuò)大一直帶來能力的提升。這為人工智能的發(fā)展灌輸了一種以規(guī)模為中心的觀點,導(dǎo)致用于訓(xùn)練運行的支出以每年約 2.5 倍的速度增長。早期跡象表明,這種情況可能會繼續(xù)下去。
值得注意的是,據(jù)報道,微軟和 OpenAI 正在為一個名為 Stargate(星際之門)的數(shù)據(jù)中心項目制定計劃,該項目耗資可能高達(dá) 1000 億美元,將于 2028 年啟動。這表明,大型科技公司確實正在準(zhǔn)備實現(xiàn)本文所述的巨大規(guī)模。
將 GPT-4 升級到與 GPT-6 相當(dāng)?shù)哪P?,再加上算法的大幅改進(jìn)和后期訓(xùn)練的改進(jìn),可以進(jìn)一步證明人工智能系統(tǒng)具有足夠大的經(jīng)濟(jì)回報潛力。這些證據(jù)可能表現(xiàn)為:GPT-5 等較新的模型在發(fā)布的第一年內(nèi)就創(chuàng)造了超過 200 億美元的收入;人工智能功能的顯著進(jìn)步,使模型能夠無縫集成到現(xiàn)有的工作流程中,操作瀏覽器窗口或虛擬機(jī),并在后臺獨立運行。
人工智能能夠自動完成相當(dāng)一部分經(jīng)濟(jì)任務(wù),其潛在回報是巨大的。一個經(jīng)濟(jì)體投資數(shù)萬億美元建立與計算相關(guān)的資本儲備,包括數(shù)據(jù)中心、半導(dǎo)體制造工廠和光刻機(jī),是有可能實現(xiàn)的。要了解這一潛在投資的規(guī)模,需要考慮全球每年的勞動報酬約為 6000 萬美元。即使不考慮人工智能自動化帶來的經(jīng)濟(jì)加速增長,如果開發(fā)能夠有效替代人類勞動力的人工智能變得可行,那么投資數(shù)萬億美元來獲取這 6000 萬美元中的一小部分,在經(jīng)濟(jì)上也是合理的。
據(jù)標(biāo)準(zhǔn)經(jīng)濟(jì)模型預(yù)測,如果人工智能自動化達(dá)到取代大部分或全部人類勞動力的程度,經(jīng)濟(jì)增長可能會加快十倍或更多。在短短幾十年內(nèi),這種加速增長可使經(jīng)濟(jì)產(chǎn)出增加幾個數(shù)量級??紤]到這一潛力,提前實現(xiàn)完全或接近完全自動化的價值可能占全球產(chǎn)出的很大一部分。認(rèn)識到這一巨大價值,投資者可能會將傳統(tǒng)行業(yè)的大部分資金轉(zhuǎn)投人工智能開發(fā)及其重要基礎(chǔ)設(shè)施(能源生產(chǎn)和分配、半導(dǎo)體制造工廠、數(shù)據(jù)中心)。這種前所未有的經(jīng)濟(jì)增長潛力可能會推動數(shù)萬億美元的人工智能開發(fā)投資 104。
更多報告觀點,可參考原文。