自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AMD的GPU跑AI模型終于Yes了?PK英偉達(dá)H100不帶怕的

人工智能 新聞
近日,專注計(jì)算硬件的科技媒體 The Information 發(fā)布了一份對(duì)比評(píng)測(cè)報(bào)告,聲稱是首個(gè)直接對(duì)比 AMD 和英偉達(dá) AI 集群的基準(zhǔn)評(píng)測(cè)。該報(bào)告的數(shù)據(jù)來自 MLCommons,這是一個(gè)由供應(yīng)商主導(dǎo)的評(píng)測(cè)機(jī)構(gòu)。

AMD vs 英偉達(dá)絕對(duì)算是一個(gè)長盛不衰的話題 —— 從玩游戲用哪家強(qiáng)到如今訓(xùn)練 AI 哪個(gè)更高效?原因也很簡(jiǎn)單:它們的 GPU 產(chǎn)品存在直接競(jìng)爭(zhēng)關(guān)系。

當(dāng)然,答案通常都偏向于英偉達(dá),尤其是在 AI 算力方面,正如前些天李沐在上海交大演講時(shí)談到的那樣:「算力這塊,你可以用別的芯片,但是這些芯片用來做推理還 OK,做訓(xùn)練的話還要等幾年的樣子,英偉達(dá)還是處在一個(gè)壟斷的地位?!?/span>

但基于實(shí)證的對(duì)比研究卻往往又會(huì)給出不一樣的答案,比如在同一個(gè)演講中,李沐還提到了這兩家 GPU 的內(nèi)存情況,對(duì)此他表示:「在這一塊,雖然英偉達(dá)是領(lǐng)先者,但其實(shí)英偉達(dá)是不如 AMD 的,甚至不如 Google 的 TPU?!?/span>

實(shí)際上,不少業(yè)內(nèi)人士都表達(dá)過對(duì) AMD 占據(jù)更大市場(chǎng)份額的信心,比如 Transformer 作者及生成式 AI 初創(chuàng)公司 Cohere 創(chuàng)始人之一艾丹?戈麥斯(Aidan Gomez)前些天說:「我認(rèn)為 AMD 和 Tranium 這些平臺(tái)很快也將做好真正進(jìn)入主流市場(chǎng)的準(zhǔn)備?!?/span>

近日,專注計(jì)算硬件的科技媒體 The Information 發(fā)布了一份對(duì)比評(píng)測(cè)報(bào)告,聲稱是首個(gè)直接對(duì)比 AMD 和英偉達(dá) AI 集群的基準(zhǔn)評(píng)測(cè)。該報(bào)告的數(shù)據(jù)來自 MLCommons,這是一個(gè)由供應(yīng)商主導(dǎo)的評(píng)測(cè)機(jī)構(gòu)。

他們構(gòu)建了一套 MLPerf AI 訓(xùn)練和推理基準(zhǔn)。AMD Instinct 「Antares」 MI300X GPU 以及英偉達(dá)的「Hopper」H100 和 H200 和「Blackwell」B200 GPU 都得到了評(píng)估。The Information 對(duì)比了這些評(píng)估數(shù)據(jù)。

結(jié)果表明:在 AI 推理基準(zhǔn)上,MI300X GPU 絕對(duì)能比肩 H100 GPU,而根據(jù) The Information 對(duì) GPU 成本及系統(tǒng)總成本的估計(jì),說 MI300X GPU 能媲美 H100 和 H200 GPU 也不為過。但是,也需要說明這些測(cè)試存在局限:僅使用了一種模型,即來自 Meta 的 Llama 2 70B。希望未來能看到這些測(cè)試中使用更多不同的 AI 模型。

對(duì) MI300X 及 AMD 未來的 GPU 來說,這個(gè)結(jié)果很是不錯(cuò)。

但到今年年底時(shí),考慮到英偉達(dá) Blackwell B100 和 B200 GPU 的預(yù)期價(jià)格,似乎英偉達(dá)將與 AMD MI300X 加速器開始比拼性價(jià)比。另外,也許 AMD 會(huì)在今年晚些時(shí)候推出 MI325X GPU。

重點(diǎn)關(guān)注推理

AMD 的數(shù)據(jù)直到上周才發(fā)布。業(yè)內(nèi)有傳言說 AMD 簽了一些大訂單,會(huì)把 MI300X 出售給超大規(guī)模計(jì)算公司和云構(gòu)建商,以支撐他們的推理工作負(fù)載。無怪乎 AMD 直到上周才發(fā)布 MLPerf Inference v4.1 測(cè)試結(jié)果。

對(duì) MLPerf 推理結(jié)果的分析表明,在使用 Llama 2 70B 模型執(zhí)行推理任務(wù)時(shí),MI300X 在性能和成本上確實(shí)能與 H100 比肩。但和 H200 相比就差點(diǎn)了,畢竟 H200 有更大的 HBM 內(nèi)存(141GB)和更高的帶寬。如果 Blackwell 的定價(jià)符合預(yù)期,那么今年晚些時(shí)候推出的 MI325 為了具備競(jìng)爭(zhēng)力,就必須得擁有更大的內(nèi)存、更高的帶寬和更激進(jìn)的價(jià)格才行。

下面是最新發(fā)布的 MLPerf 基準(zhǔn)評(píng)測(cè)結(jié)果:

圖片

英偉達(dá)的 MLPerf 基準(zhǔn)評(píng)測(cè)結(jié)果來自英偉達(dá)自身,其中也包括使用 Llama 2 70B 模型在單臺(tái) Blackwell B200 SXM 上的結(jié)果,詳情可訪問這篇博客:https://blogs.nvidia.com/blog/mlperf-inference-benchmark-blackwell/

The information 提取了所有英偉達(dá)的結(jié)果,并新增了 Juniper Networks 在包含 2 個(gè)和 4 個(gè)節(jié)點(diǎn)的 HGX H100 集群上得到的結(jié)果(總共 8 和 16 臺(tái) H100)。

AMD 在配備一對(duì)當(dāng)前的「Genoa」Epyc 9004 系列處理器和八臺(tái) Antares MI300X GPU 的服務(wù)器節(jié)點(diǎn)中測(cè)試了標(biāo)準(zhǔn)通用基板(UBB),還測(cè)試了一臺(tái)將 Genoa CPU 換成即將推出的「Turin」Epyc 9005 系列 CPU 的機(jī)器,該系列 CPU 預(yù)計(jì)將在下個(gè)月左右推出。

圖片

AMD 還向 The Next Platform 提供了一張圖表,其中展示了在 Genoa 盒子上測(cè)試一臺(tái) MI300X GPU 的性能,這可以顯示節(jié)點(diǎn)內(nèi) GPU 的擴(kuò)展性能:

圖片

讓我們先看性能,然后再看性價(jià)比。

對(duì)于性能,我們想知道,在執(zhí)行 Llama 2 推理時(shí),AMD 和英偉達(dá)設(shè)備所具備的潛在峰值浮點(diǎn)性能有多少會(huì)被實(shí)際用于生成 token。但并沒有這方面的具體數(shù)據(jù),因?yàn)?GPU 利用率和內(nèi)存利用率不在基準(zhǔn)測(cè)試中。不過我們可以根據(jù)已有數(shù)據(jù)進(jìn)行推斷。

AMD GPU 配置了 PyTorch 2.3.0 框架和 AMD 的 ROCm 6.1.2 軟件庫和 runtimes,它類似于英偉達(dá)的 CUDA 堆棧。在 MI300X 的張量核心上的峰值 FP16 性能為 1307.4 TFlops,但這是在服務(wù)器模式下運(yùn)行的(也就是使用在現(xiàn)實(shí)世界中看到的一種隨機(jī)查詢),可知在運(yùn)行 Llama 2 70B 模型時(shí),單臺(tái) MI300X 每秒生成 2530.7 個(gè) token。因此,Llama 2 性能與假設(shè)峰值 Flops 之比為 1.94。當(dāng)擴(kuò)展到 8 臺(tái) MI300X 設(shè)備并換用更高速的 CPU,則這一比值會(huì)略微升至 2.01 到 2.11。

我們知道,H100 GPU 的 HBM 內(nèi)存僅有 80GB,啟動(dòng)帶寬也較低,這是因?yàn)槿鄙?HBM3 和 HBM3E 內(nèi)存導(dǎo)致的內(nèi)存配置不足。MI300X 也是類似。大家都在拉低 GPU 的內(nèi)存配置,這樣不僅是為了多賣些設(shè)備,而且也因?yàn)樵?GPU 芯片附近堆疊 HBM 的難度很大,并且還有封裝制造工藝的問題。

再看看英偉達(dá)測(cè)試的 H100 系統(tǒng),每秒服務(wù)器 token 與峰值 FP16 Flops 的比值是 2.6 或 2.73,這比 AMD 的更好,這可能要?dú)w結(jié)于軟件調(diào)整。針對(duì) H100,CUDA 堆棧和 TensorRT 推理引擎進(jìn)行了大量調(diào)整,現(xiàn)在你明白為什么 AMD 如此渴望收購人工智能咨詢公司 Silo AI 了吧?這筆交易幾周前剛剛完成。

由于切換到了 HBM3E,H200 的 HBM 內(nèi)存將大幅提升至 141 GB,帶寬也將從 3.35 TB/s 提升至 4.8 TB/s。于是這個(gè)比值將增至 4.25,而英偉達(dá)自己的基準(zhǔn)測(cè)試表明,只需在完全相同的 Hopper GH100 GPU 上添加內(nèi)存容量和帶寬,AI 工作負(fù)載就能提升 1.6 至 1.9 倍。

MI300X 應(yīng)該具有什么樣的內(nèi)存容量和帶寬才能平衡其在推理(可能還有訓(xùn)練)工作負(fù)載方面的浮點(diǎn)性能呢?這一點(diǎn)很難估計(jì)。但 The Information 給出了一個(gè)直覺估計(jì):MI325X 將具有 6 TB/s 的帶寬(MI300 為 5.3 TB/s)和 288 GB 的 HBM3E( HBM3 為 192 GB)—— 這是朝著正確方向邁出的一大步。另外,MI325X 的 FP16 浮點(diǎn)性能似乎還是 1.31 Pflops。

不過明年的 MI350 的浮點(diǎn)性能可能會(huì)大幅提升,據(jù)信其會(huì)有新迭代的 CDNA 架構(gòu):CDNA 4。其不同于 Antares MI300A、MI300X 和 MI325X 中使用的 CDNA 3 架構(gòu)。MI350 將轉(zhuǎn)向臺(tái)積電的 3 納米工藝,并增加 FP6 和 FP4 數(shù)據(jù)類型。據(jù)推測(cè),將有一個(gè)全 GPU 的 MI350X 版本,也許還有一個(gè)帶有 Turin CPU 核心的 MI350A 版本。

你可能傾向于相信 AMD MI300X 和英偉達(dá) H100 之間的性能差異是因?yàn)椋阂恢滦曰ミB將 GPU 綁定到其各自 UBB 和 HGX 板上的共享內(nèi)存復(fù)合體中。AMD 機(jī)器上的是 Infinity Fabric,而英偉達(dá)機(jī)器上的是 NVSwitch。Infinity Fabric 的每臺(tái) GPU 的雙向帶寬為 128 GB/s,而 NVLink 4 端口和 NVSwitch 3 交換機(jī)的帶寬為 900 GB/s,因此英偉達(dá)機(jī)器在內(nèi)存一致性節(jié)點(diǎn)結(jié)構(gòu)上的帶寬高 7 倍。

這可能是 Llama 2 工作負(fù)載性能差異的一部分原因,但 The Information 認(rèn)為不是。原因如下。

單臺(tái) MI300X 的峰值性能為 1.31 Pflops,比 H100 或 H200 的 989.5 Tflops(FP16 精度)高出 32.1%,且沒有稀疏矩陣重新調(diào)整,吞吐量翻倍。MI300X 的內(nèi)存是 H100 的 2.4 倍,但 Llama 2 推理工作性能僅比 H100 多 7%,并且推理負(fù)載僅為 H200 的 60%。根據(jù)英偉達(dá)進(jìn)行的測(cè)試,相比于配備 180 GB 內(nèi)存的 Blackwell B200,該設(shè)備的工作性能僅為其 23.5%。

據(jù)信 B200 的內(nèi)存也會(huì)受限,因此根據(jù) 6 月份發(fā)布的英偉達(dá)路線圖,B200 和 B100(可能)將在 2025 年進(jìn)行內(nèi)存升級(jí),容量可能會(huì)提升到 272 GB 左右。H200 的內(nèi)存升級(jí)會(huì)領(lǐng)先于 MI300X,后者的升級(jí)將在今年晚些時(shí)候體現(xiàn)在 MI32X 上,并會(huì)在內(nèi)存方面領(lǐng)先 B200 Blackwell Ultra 六到九個(gè)月。

圖片

The Information 表示:「如果我們要買 GPU,我們會(huì)等 Hopper Ultra (H200)、Blackwell Ultra (B200+) 和 Antares Ultra (MI325X)。擁有更多 HBM 的數(shù)據(jù)中心 GPU 更劃算?!?/span>

當(dāng)然,你也可以等,用你現(xiàn)有的 GPU 參加這場(chǎng)生成式 AI 大戰(zhàn)。

當(dāng)然,上面的數(shù)據(jù)圍繞著推理,至于 AI 訓(xùn)練方面的數(shù)據(jù),AMD 可能會(huì)在今年秋季發(fā)布。

實(shí)際應(yīng)用的性價(jià)比

MI300X 與英偉達(dá)的 Hopper 和 Blackwell 的性價(jià)比如何呢?

今年早些時(shí)候,英偉達(dá)聯(lián)合創(chuàng)始人兼 CEO 黃仁勛在 Blackwell 發(fā)布后表示:這些設(shè)備的價(jià)格將在 3.5 至 4 萬美元之間。Hopper GPU 的價(jià)格可能為 2.25 萬美元,具體取決于配置。黃仁勛在 2023 年時(shí)曾表示,一套配置完成的 HGX H100 系統(tǒng)板的價(jià)格售價(jià) 20 萬美元。至于 H200,如果單獨(dú)購買,價(jià)格應(yīng)該是 3 萬美元。MI300X 的售價(jià)大概是 2 萬美元,但這基本基于猜測(cè)。具體還要看消費(fèi)者和市場(chǎng)情況。

當(dāng)然,大量購買應(yīng)該還有折扣,正如黃仁勛喜歡說的那樣:「買得越多,省得越多?!梗═he More You Buy, The More You Save)

粗略估計(jì),將這些 GPU 變成服務(wù)器(兩臺(tái) CPU、大量主內(nèi)存、網(wǎng)卡和一些閃存)的成本約為 15 萬美元,并且可以插入英偉達(dá)的 HGX 板或 AMD 的 UBB 板來構(gòu)建八路機(jī)器??紤]到之前計(jì)算的單臺(tái) GPU 的性能,于是這里便以這一成本的八分之一進(jìn)行計(jì)算。

綜合這些成本,可以看到 MI300X 與 H100 一樣非常燒錢。

我們已經(jīng)知道,對(duì)于 Llama 2 70B 推理任務(wù),H100 系統(tǒng)中平均每臺(tái) GPU 每秒可輸出 2700 個(gè) token,這比 MI300X 好 7%。H200 的內(nèi)存是 141 GB,是原來的兩倍多,而其推理性能提升了 56%,但 GPU 的價(jià)格僅上漲了 33%,因此其 GPU 和系統(tǒng)層面的性價(jià)比都得到了提升。

如果 B200 的價(jià)格如黃仁勛所說的那樣為 4 萬美元,那么在 Llama 2 70B 測(cè)試中,其在 GPU 層面上每單位推理的成本將降低近一半,在系統(tǒng)層面上則會(huì)略多于一半。

考慮到 Blackwell 的短缺以及希望在給定空間和給定熱范圍內(nèi)容納更多 AI 計(jì)算的需求,因此也可以推斷英偉達(dá)可能為每臺(tái) B200 GPU 定價(jià) 5 萬美元 —— 很多人都這樣預(yù)計(jì)。

當(dāng)然,具體如何,還要看今年晚些時(shí)候 AMD MI325 的定價(jià)以及產(chǎn)能。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-06-14 12:08:51

2023-11-21 09:14:33

微軟Azure AI

2025-04-22 09:47:07

2023-08-10 13:54:36

GPUAI

2023-08-06 13:01:34

AI開發(fā)

2024-04-10 09:10:27

Gaudi 3芯片英特爾

2024-03-14 14:49:34

Meta人工智能

2023-11-14 08:59:25

英偉達(dá)AI

2023-08-13 07:44:18

GPU模型英偉達(dá)

2023-08-14 08:07:46

ChatGPTAI

2023-08-24 14:26:00

數(shù)據(jù)中心利潤AI

2024-02-29 13:54:00

數(shù)據(jù)訓(xùn)練

2023-10-18 13:17:12

AI芯片英偉達(dá)美國

2023-07-31 21:34:53

Agents英偉達(dá)模型

2024-08-28 13:34:13

2023-08-28 13:35:00

芯片英偉達(dá)

2024-08-05 08:20:00

馬斯克AI

2024-04-10 12:58:00

數(shù)據(jù)訓(xùn)練

2023-09-14 13:23:00

AI芯片

2023-09-10 12:40:01

英偉達(dá)GPU
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)