全球AI算力報(bào)告出爐,LLM最愛(ài)A100!谷歌坐擁超100萬(wàn)H100等效算力
AI的物質(zhì)基礎(chǔ)是機(jī)器學(xué)習(xí)硬件,例如圖形處理單元(GPU)和張量處理單元(TPU)。
據(jù)不完全統(tǒng)計(jì),目前全球超過(guò)140款A(yù)I加速器,用于開(kāi)發(fā)和部署深度學(xué)習(xí)時(shí)代的機(jī)器學(xué)習(xí)模型。
Epoch AI帶來(lái)了全球算力的估計(jì)報(bào)告,利用公開(kāi)信息估計(jì)了全球機(jī)器學(xué)習(xí)硬件的現(xiàn)狀和趨勢(shì)。
除了傳統(tǒng)硬件廠商英偉達(dá)、AMD等紛紛推出加速卡,一些新興勢(shì)力開(kāi)始「造芯」,算力持續(xù)提升。
2008至2024年全球機(jī)器學(xué)習(xí)硬件的計(jì)算能力示意圖
除了GPU,硬件類型也豐富了起來(lái)。比如,出現(xiàn)了專門處理張量計(jì)算的TPU(張量處理單元,Tensor Processing Unit)。
報(bào)告的主要結(jié)論,總結(jié)如下:
- 總量每年增長(zhǎng)43%,價(jià)格下降30%。
- 低精度計(jì)算成為主流。
- 頂級(jí)硬件能效每1.9年翻一番。
- 八年間,訓(xùn)練大型模型所需的處理器數(shù)量增加了20多倍。
- 全球NVIDIA支持的計(jì)算能力平均每10個(gè)月翻一番。
關(guān)鍵發(fā)現(xiàn):ML硬件的「摩爾定律」
ML硬件每年增長(zhǎng)43%
以16位浮點(diǎn)運(yùn)算衡量,機(jī)器學(xué)習(xí)硬件的性能以每年43%的速度增長(zhǎng),每1.9年翻一番。32位性能也存在類似的趨勢(shì)。
優(yōu)化機(jī)器學(xué)習(xí)數(shù)字格式和張量核心提供了額外的改進(jìn)。
驅(qū)動(dòng)因素還包括晶體管數(shù)量的增加和其他半導(dǎo)體制造技術(shù)的進(jìn)步,以及針對(duì)AI工作負(fù)載的專門設(shè)計(jì)。這種改進(jìn)降低了每FLOP的成本,提高了能源效率,并實(shí)現(xiàn)了大規(guī)模人工智能訓(xùn)練。
機(jī)器學(xué)習(xí)硬件在不同精度下的峰值計(jì)算性能
性價(jià)比每年提升30%
每美元性能提升迅速,并且任何給定精度和固定性能水平的硬件每年都會(huì)便宜30%。與此同時(shí),制造商不斷推出更強(qiáng)大、更昂貴的硬件。
單位時(shí)間單位價(jià)格下的FLOP
低精度格式是趨勢(shì)
在使用針對(duì)人工智能計(jì)算優(yōu)化的張量核心和數(shù)據(jù)格式時(shí),GPU通常速度更快。
與使用非張量FP32相比,TF32、張量FP16和張量INT8在總體性能趨勢(shì)中平均提供約6倍、10倍和12倍的性能提升。
一些芯片甚至實(shí)現(xiàn)了更大的加速。例如,H100在INT8時(shí)的速度比在FP32時(shí)快59倍。
自推出以來(lái),這些改進(jìn)約占整體性能趨勢(shì)改進(jìn)的一半。隨著開(kāi)發(fā)人員利用這種性能提升,使用較低精度格式(尤其是張量FP16)訓(xùn)練的模型已經(jīng)變得很常見(jiàn)。
能效每1.9年翻一番
根據(jù)歷史數(shù)據(jù),頂級(jí)GPU和TPU的能效每1.9年翻一番。
就tensor-FP16格式而言,效率最高的加速器是Meta的MTIA(每瓦高達(dá)2.1x10^12FLOP/s)和NVIDIA H100(每瓦高達(dá)1.4x10^12FLOP/s)。即將推出的Blackwell系列處理器可能會(huì)更有效率,具體取決于其功耗。
模型也各有所愛(ài)
在Epoch的數(shù)據(jù)集中,NVIDIA A100是用于高引用或最先進(jìn)人工智能模型的最常用的硬件,自發(fā)布以來(lái)已用于65個(gè)著名ML模型。
其次是NVIDIA V100,用于訓(xùn)練55個(gè)著名模型,其次是谷歌的TPU v3,用于47個(gè)。
然而,估計(jì)NVIDIA H100到2023年底的銷量已超過(guò)A100,因此它可能在不久的將來(lái)成為訓(xùn)練模型最受歡迎的GPU。
不同加速器訓(xùn)練的知名模型數(shù)量
2019年至今,不同領(lǐng)域大模型訓(xùn)練所需算力比較
訓(xùn)練集群規(guī)模猛增
用于訓(xùn)練大型語(yǔ)言模型(LLMs)的處理器數(shù)量的顯著增長(zhǎng)。
- Google NASv3 RL網(wǎng)絡(luò)(2016):使用了800個(gè)GPU進(jìn)行訓(xùn)練。
- Meta Llama 3.1 405B(2024):使用了16,384個(gè)H100 GPU進(jìn)行訓(xùn)練。
這意味著在短短八年間,訓(xùn)練大型模型所需的處理器數(shù)量增加了20多倍。
四大「算力帝國(guó)」?
谷歌、微軟、Meta和亞馬遜擁有相當(dāng)于數(shù)十萬(wàn)個(gè)NVIDIA H100的AI算力。
這些計(jì)算資源既用于他們內(nèi)部的AI開(kāi)發(fā),也用于云客戶,包括許多頂級(jí)AI實(shí)驗(yàn)室,如OpenAI和Anthropic。
谷歌可能擁有相當(dāng)于超過(guò)一百萬(wàn)個(gè)H100的計(jì)算能力,主要來(lái)自他們的TPU。
微軟可能擁有最大的NVIDIA加速器庫(kù)存,約為50萬(wàn)個(gè)H100當(dāng)量。
大量的AI計(jì)算能力由這四家公司以外的集團(tuán)共同擁有,包括其他云公司如Oracle和CoreWeave,計(jì)算用戶如特斯拉和xAI,以及各國(guó)政府。
之所以重點(diǎn)介紹谷歌、微軟、Meta和亞馬遜,因?yàn)樗麄兛赡軗碛凶疃嗟挠?jì)算能力,而其他公司的數(shù)據(jù)公開(kāi)較少。
初步工作發(fā)現(xiàn),截至2024年中,谷歌TPU的總算力大約是英偉達(dá)芯片的30%。
英偉達(dá)每年不止翻一番
自2019年以來(lái),NVIDIA芯片的總可用計(jì)算能力大約每年增長(zhǎng)2.3倍,從而能夠訓(xùn)練越來(lái)越大的模型。
也就是說(shuō),全球NVIDIA組成的計(jì)算能力平均每10個(gè)月翻一番。
Hopper這一代NVIDIA AI芯片目前占其所有AI硬件總計(jì)算能力的77%。按照這種增長(zhǎng)速度,舊的芯片型號(hào)在其推出后大約4年左右,對(duì)累計(jì)計(jì)算量的貢獻(xiàn)往往會(huì)低于一半。
請(qǐng)注意,此分析不包括TPU或其他專用AI加速器,因?yàn)檫@方面的數(shù)據(jù)較少。TPU可能提供與NVIDIA芯片相當(dāng)?shù)目傆?jì)算能力。
按芯片型號(hào)分解,發(fā)現(xiàn)目前大約77%的NVIDIA FLOP/s來(lái)自Hopper代際的GPU,如H100。
目前估計(jì)NVIDIA GPU可提供4e21 FLOP/s的計(jì)算能力,約相當(dāng)于400萬(wàn)個(gè)H100。
注意:這些估計(jì)基于NVIDIA的收入申報(bào)文件,并假設(shè)不同時(shí)代芯片的分布隨時(shí)間變化的模式與AI集群數(shù)據(jù)集中的模式相同。
英偉達(dá)23-24年季度財(cái)報(bào)
此外,報(bào)告發(fā)現(xiàn)自2019年以來(lái),計(jì)算能力的累計(jì)總和(考慮折舊)每年增長(zhǎng)2.3 倍。
但僅考慮數(shù)據(jù)中心銷售額,而忽略NVIDIA收入報(bào)告中「游戲」(Gaming)銷售額帶來(lái)的計(jì)算能力。
公開(kāi)數(shù)據(jù)集
Epoch同時(shí)公布了機(jī)器學(xué)習(xí)硬件數(shù)據(jù)集和數(shù)據(jù)分析源代碼。
https://epoch.ai/data/machine-learning-hardware-documentation#overview
詳細(xì)數(shù)據(jù)分析流程,參見(jiàn)下列NoteBook。
https://colab.research.google.com/drive/1gbbrKDKFjghUPmH-aSI9ACtb1Iuwg-cR?usp=sharing