AMD跑DeepSeek性能超H200!128并發(fā)Token間延遲不超50ms,吞吐量達H200五倍
DeepSeek-R1掀起新一輪購卡潮的同時,AMD的含金量也上升了。
在AMD的MI300X上跑FP8滿血R1,性能全面超越了英偉達H200——
相同延遲下吞吐量最高可達H200的5倍,相同并發(fā)下則比H200高出75%。
這個結(jié)果,一方面歸功于SGLang框架,另一方面則是得益于AMD新優(yōu)化的AI內(nèi)核庫AITER。
AITER可以用來加速GPU訓練和推理,AMD副總裁Emad Barsoum直接喊出了AITER is all you need。
還有網(wǎng)友表示,英偉達CUDA的護城河要終結(jié)了。
之前著名黑客George Hotz也曾表示自己非常看好AMD,認為只要有好的軟件MI300X表現(xiàn)就能超越H100。
結(jié)果MI300X超額實現(xiàn)了George的期待,直接把H200給超了。
吞吐翻倍、延遲更低
AMD的測試結(jié)果顯示,MI300X在延遲相似的情況下實現(xiàn)了H200五倍的吞吐量,超過了每秒7k Tokens。
如果固定并發(fā)數(shù)量,MI300X相同并發(fā)下的吞吐量比H200高75%,延遲降低 60%。
如果需要Token間延遲不超過50毫秒,一個H200節(jié)點可以處理16個并發(fā)請求,MI300X節(jié)點則可以處理128個。
除了AMD自己,也有第三方對H100和MI300X進行了對比測試。
結(jié)果除了首個Token延遲出現(xiàn)了一些不穩(wěn)定之外,其余的速度和延遲指標都是MI300X全面超過了H100。
看到MI300X的表現(xiàn),有人拿出了老黃經(jīng)典的那句“買的越多省的越多”,表示現(xiàn)在這句話該讓AMD來說了。
那么,在這些成績的背后,AMD都用了那些技術(shù)呢?
SGLang框架+AMD張量引擎
軟件框架層面,R1在MI300X上取得優(yōu)異表現(xiàn)的關(guān)鍵,是SGLang框架。
SGLang是一個開源大模型推理框架,是開源社區(qū)協(xié)作的一項成果,發(fā)起者是LMSYS,也就是搞大模型競技場的那個組織。
SGLang在GitHub上擁有超過1.2萬星標,并且不論AMD還是隔壁英偉達,以及馬斯克的xAI,都非常青睞這個框架,此外AMD還是SGLang的主要貢獻者之一。
在稍早一些的測試當中,使用SGLang在MI300X上運行DeepSeek-R1,僅過了兩周就相比于day 0時性能提升到了4倍,吞吐量達到了每秒5921 Tokens。
前面提到的第三方,也在MI300X上分別用SGLang和vLLM進行了測試,結(jié)果SGLang完勝。
實際上,SGLang一直是DeepSeek模型的一個最佳拍檔,不僅對于AMD,在英偉達H200上,也能帶來類似的性能提升。
而在硬件層面,MI300X高效運行R1的關(guān)鍵,是AMD為ROCm(可以理解為AMD版CUDA)打造的AI張量引擎AITER。
AITER是一個包含大量高性能AI算子的集中式存儲庫,也是一個統(tǒng)一平臺,可以輕松找到優(yōu)化的算子并將其集成到現(xiàn)有框架中。
AITER的基礎(chǔ)架構(gòu)建立在多種底層技術(shù)之上,包括 Triton、CK(計算內(nèi)核)、ASM(匯編)和 HIP(異構(gòu)可移植性接口)。
它支持各種計算任務(wù),例如推理工作負載、訓練內(nèi)核、GEMM(通用矩陣乘法)運算和通信內(nèi)核。
它可以讓GEMM的性能提升2倍、MoE性能提升3倍、MLA解碼性能提升17倍、MHA預填充性能提升14倍。
開啟AITER后,MI300X上DeepSeek-V3的吞吐量是開啟前的兩倍多。
除了框架和硬件的適配,AMD還進行了超參數(shù)調(diào)整。
AMD發(fā)現(xiàn),當運行具有大量線程(例如128個或更多)的程序時, 由于預填充吞吐量緩慢,帶來了系統(tǒng)的性能瓶頸。
于是AMD提高了chunked_prefill_size參數(shù)的大小,用更高的內(nèi)存占用換取了預填充過程的加速。
不過考慮到內(nèi)存容量大本就是MI300X的一大特色,這種選擇也不失為一種更優(yōu)的結(jié)果。
那么,你覺得這次AMD是不是又Yes了呢?