英偉達Blackwell稱霸MLPerf!推理性能暴漲30倍,新一代「AI怪獸」誕生
大語言模型(LLM)推理是一個全棧挑戰(zhàn)。
為了實現高吞吐量、低延遲的性能,不僅需要強大的GPU,還需要高帶寬的芯片互連技術、高效的加速庫以及高度優(yōu)化的推理引擎。
就在剛剛,MLCommons發(fā)布了基準測試套件MLPerf Inference v4.1的最新測試結果,此次發(fā)布涵蓋了專家混合(MoE)模型架構的首次評測結果,展示了與推理功耗相關的新發(fā)現。
MLCommons在最新的AI基準測試中添加了MoE模型
MLPerf是一個流行且得到廣泛認可的測試套件,以架構中立、具有代表性和可重復的方式提供機器學習系統(tǒng)的性能基準測試,每年更新兩次
本輪測試的參賽者如下:
- AMD MI300x加速器(已上市)
- AMD EPYC 「Turin」 CPU(預覽版)
- Google 「Trillium」 TPUv6e加速器(預覽版)
- Intel 「Granite Rapids」 Xeon CPU(預覽版)
- NVIDIA 「Blackwell」 B200加速器(預覽版)
- UntetherAI SpeedAI 240 Slim(已上市)和SpeedAI 240加速器(預覽版)
Blackwell首秀大放異彩
其中,英偉達在這一輪測試中的提交帶來了許多令人矚目的結果。亮點包括:
- 首次使用Blackwell 架構,相較于上一代的H100 GPU,在Llama 2 70B上實現高達4倍的性能提升
- 針對每個數據中心的工作負載上,H200相較于H100的性能提升高達1.5倍
- 得益于軟件改進,H200在這一輪的提交相比上一輪的預覽版本,性能提升高達27%
- 首次使用Triton推理服務器提交Llama 2 70B,性能與TensorRT-LLM相似
- 在邊緣推理類中,相較于上一輪使用Jetson AGX Orin平臺的結果,本輪GPT-J基準測試中的性能提升高達6.2倍
Blackwell架構首次亮相還要追溯到今年3月的GTC大會上。這個還沒投入量產的最新款芯片由2080億個晶體管構成,采用臺積電為英偉達量身定制的4nm工藝,是有史以來最大的GPU。
此外,Blackwell架構還配備了第二代Transformer引擎,結合了新的Blackwell Tensor Core技術和TensorRT-LLM創(chuàng)新,能夠實現快速且精確的FP4 AI推理。
本輪MLPerf是英偉達首次提交Blackwell。在Llama 2 70B模型上測試時,B200 GPU的token吞吐量比H100 GPU高出了4倍。
對于參數量更大的模型,比如1.8T的GPT-MoE,Blackwell的優(yōu)勢更加明顯,相比H100甚至實現了30×的性能提升。
為何如此之強?
Blackwell成功的原因之一就是使用4位浮點精度(FP4)運行模型。
事實上,減少浮點數的位數也一直是提高推理效率的常用手段,H100就引入了FP8精度,而這次Blackwell更是在MLPerf提交中創(chuàng)下了浮點位數新低。
英偉達產品營銷總監(jiān)Dave Salvator表示,使用如此低精度數字的最大挑戰(zhàn)是保持準確性,為此,團隊在軟件方面進行了重大創(chuàng)新。
Blackwell成功的另一個重要因素是——內存帶寬幾乎翻倍,達到8TB/s;相比之下,H200為4.8TB/s。
雖然本次Blackwell僅以單芯片形式提交,但Salvator表示,它是為GPU網絡和擴展而生的,與英偉達的NVLink互連技術結合可以呈現最佳效果。
Blackwell GPU支持多達18個NVLink同時以100GB/s帶寬的連接,達到的總帶寬就是1.8TB/s,大約是H100互連帶寬的兩倍。
H200性能再獲提升
H200 GPU采用了業(yè)界最快的AI內存技術——HBM3e。與H100相比,容量提高了1.8倍,帶寬提高了1.4倍,十分利于內存敏感的應用場景。
H200在各模型上的測試結果,其中Llama 2 70B使用功率為1000W的H200,其他結果均使用700W的H200
Llama 2 70B
MLPerf在上一輪測試中首次引入Llama 2 70B模型,代表流行的70B級別的參數稠密型LLM。
僅通過TensorRT-LLM的軟件改進,H200運行Llama 2 70B模型的性能就比前一輪的預覽提交提高了多達14%。
本輪的關鍵改進包括XQA內核優(yōu)化以及額外的層融合。
通過使用定制的散熱解決方案,H200的熱設計功耗 (TDP) 提高到了1000W,使得Llama 2 70B基準測試的性能相比700W的H200額外提高了多達12%。
本輪中,英偉達還提交了使用 H200 GPU運行Triton推理服務器的結果,表現與單機提交相似。
在Triton推理服務器的加持下,部署模型時無需在功能和性能之間進行取舍
從結果中可以看出,通過更廣泛的模型級優(yōu)化,可以實現性能的提升。
首先,應用深度剪枝和寬度剪枝,智能地移除對整體模型輸出不太重要的層和MLP中間維度,大大減少了參數總數。
然后,為了恢復準確性,使用MLPerf OpenORCA開發(fā)數據集對模型進行了微調。
最終,剪枝后的模型有32層和14,336個MLP中間維度,相比原始模型的80層和28,672個中間維度有了顯著減少。
雖然模型的準確率略低于99%的閾值,但體量顯著變小,使得離線吞吐量高達11,189 token/s,幾乎是封閉組中其他模型吞吐量的3倍。
Mixtral 8x7B
本輪MLPerf新增了Mixtral 8x7B模型的工作負載,采用MoE架構,共包含8個專家,總參數量為46.7B,每個token使用2個專家和12.9B參數。
英偉達提交了H100和H200 GPU使用TensorRT-LLM 軟件以FP8精度運行Mixtral 8x7B的結果。
Stable Diffusion XL
在本輪中,H200的性能提高到每秒生成兩張圖像,與上一輪相比提升了 27%,刷新了本項基準測試的紀錄。
這些性能提升主要歸功于對軟件棧的幾項關鍵優(yōu)化,包括:
- UNet FP8支持:使用了TensorRT 優(yōu)化器,在FP8精度下滿足了準確性要求,在Hopper GPU的逐輪性能提升中占據比例最大
- VAE INT8支持:將某些層量化為INT8,其他層則量化為FP16,相比于上一輪使用的FP32實現了70%的性能提升,以及約4%的端到端速度提升
變分自編碼器(VAE)批分割:SDXL管道中的VAE部分需要非常大的內存占用。通過采用批分割,將批大小從8增加到64,從而提高了性能
此外,在開放組提交中,英偉達結合了上述優(yōu)化和LCM,將封閉組離線吞吐量在H200上加速了近5倍,達到每秒11個樣本。
Jetson AGX Orin巨大飛躍
邊緣的GenAI模型可以將傳感器數據(如圖像和視頻)轉化為具有強大上下文感知能力的實時可執(zhí)行結果。
在英偉達軟件棧的支持下,Jetson AGX Orin瞄準在邊緣運行Transformer模型,如GPT-J、視覺 Transformer和Stable Diffusion,為邊緣的生成式AI提供了高計算性能、大容量統(tǒng)一內存和全面的軟件支持。
通過廣泛的軟件優(yōu)化,在GPT-J 6B模型的基準測試中,吞吐量提高了多達6.2倍,延遲改善了2.4倍。
這種性能提升得益于對TensorRT-LLM的眾多軟件優(yōu)化,包括使用運行中批處理以及INT4激活感知權重量化(AWQ)。
AWQ將1%的「重要權重」用更高精度的FP16存儲,但其余權重被量化為INT4精度,顯著減少了內存占用,使得GPU可以一次處理更多數據批,大幅提高推理吞吐量。
AI推理,競爭白熱化
雖然英偉達GPU 在AI訓練方面的主導地位仍無可爭議,而且新款Blackwell芯片的絕對性能很難被超越;但AI推理領域競爭對手正在迎頭趕上,特別是在能效方面。
就像奧運會一樣,MLPerf設置了許多類別,其中提交數量最多的是「數據中心封閉組」。
封閉組別(與開放相對)要求提交者在給定模型上按原樣運行推理,而不進行重大軟件修改。
數據中心組著重測試大量查詢處理的能力,而邊緣組側重于最小化延遲。
每個類別包含9個不同的基準測試,針對不同類型的AI任務,包括流行的用例,如圖像生成(類似Midjourney)和LLM問答(類似ChatGPT),以及同樣重要但不太知名的任務,如圖像分類、物體檢測和推薦引擎。
本輪比賽新增了一個名為「混合專家」的基準測試,這是LLM部署中的一個增長趨勢,其中一個模型被分解為幾個較小的、獨立的模型,分別針對特定任務進行微調,如常規(guī)對話、解決數學問題和協助編程。
推理時,模型可以將用戶輸入的查詢定向到相應的「專家模型」。
MLPerf推理工作組主席兼AMD技術組高級成員Miroslav Hodak表示,這種方法允許每個查詢使用更少的資源,從而降低成本并提高吞吐量。
在數據中心封閉組中,每個基準測試的獲勝者仍然是英偉達的H200 GPU和GH200超級芯片。然而,仔細查看性能結果,就會發(fā)現更復雜的情況。
其中有些提交結果使用了多個芯片,有些則只使用了單個芯片;GH200芯片則是將GPU和CPU集成在同一封裝中。
如果將每個提交結果的查詢吞吐量按加速器數量進行歸一化,且僅保留每種加速器類型的最佳成績,則會出現一些有趣的細節(jié)。(需要注意的是,這種方法忽略了CPU和GPU互連技術的作用)
按每個加速器計算,英偉達的Blackwell在LLM問答任務上比所有以前的芯片高出2.5倍。
Untether AI的speedAI240 Preview芯片在其唯一提交的圖像識別任務中幾乎與H200的表現持平。
相比之下,谷歌的Trillium的圖像生成能力僅為H100和H200的一半多一點,而AMD的Instinct在LLM問答任務上與H100大致相當。
AMD MI300X打平H100,但H200快了40%
在紙面參數上,MI300X比H100和H200擁有更大的HBM容量和帶寬(MI300X擁有192 GB和5.2 TB/s,而H200為141 GB和4.8 TB/s),且FLOPS也略高一些。
理論上,192 GB足以在一個芯片上容納整個Llama2-70B模型加上KV緩存,從而避免了將模型分割到多個GPU上帶來的網絡開銷。
但在運行實際AI工作負載時,它并沒有實現對H100的超越(差距在3-4%以內),相比于H200 141GB則落后約30-40%。
Untether.ai展示高能效推理方法
眾所周知,ASIC可以提供更高效的AI推理能力,但不如GPU那樣全能。
不過,Untether.ai似乎打破了這個「魔咒」。
在Resnet-50上,SpeedAI 240系列有著十分出色的能效表現——性能與H100-NV相當,但功耗要則低得多。
那么,Untether平臺在LLM上的表現如何呢?
很遺憾,工程師并沒能趕上MLPerf的DDL。不過,他們在完成了BERT基準測試的優(yōu)化之后,還是把結果分享了出來。
同樣,性能與H100-NVL相當,但在能效上具有超過3倍的優(yōu)勢。
Cerebras和Furiosa沒參賽,但發(fā)了新芯片
AI芯片初創(chuàng)Cerebras的理念非常簡單粗暴——把芯片做大到硅晶圓所能承載的極限,進而避免芯片之間的互連,并大幅提高設備的內存帶寬。
雖然這次沒有提交MLPerf測試,但Cerebras表示,自家平臺在每秒token的生成上,要比H100快7倍、比Groq快2倍。
對此,首席執(zhí)行官兼聯合創(chuàng)始人Andrew Feldman表示:「今天我們處于生成式AI的撥號時代,這是因為存在內存帶寬瓶頸。無論是H100。還是MI 300或TPU,它們都使用相同的片外內存,并產生相同的限制。我們突破了這一點,因為我們是晶圓級的?!?/span>
另一家初創(chuàng)Furiosa則發(fā)布了基于張量收縮處理器(TCP)架構的第二代芯片RNGD(讀作renegade)。
AI工作負載中的基本操作是矩陣乘法,通常作為硬件中的原語實現。然而,矩陣(一般稱為張量)的大小和形狀會有很大的差異。而RNGD則將這種更廣義的矩陣——張量乘法作為原語來實現。
根據內部的測試,Furiosa在性能上與英偉達L40S芯片相當,且功耗僅為185瓦,相比之下,L40S則高達320瓦。
與此同時,IBM也發(fā)布了他們的Spyre芯片,用于企業(yè)生成式AI工作負載,預計將在2025年第一季度上市。
可以說,AI推理芯片的競爭是越來越激烈了。如此看來,這個市場在短時間內絕對會非常精彩。