自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="ywdgw"><rt id="ywdgw"></rt></sub>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

AMD的GPU跑AI模型終于Yes了？PK英偉達(dá)H100不帶怕的

作者：機(jī)器之心 2024-09-05 14:10:00

人工智能新聞

近日，專注計(jì)算硬件的科技媒體 The Information 發(fā)布了一份對(duì)比評(píng)測(cè)報(bào)告，聲稱是首個(gè)直接對(duì)比 AMD 和英偉達(dá) AI 集群的基準(zhǔn)評(píng)測(cè)。該報(bào)告的數(shù)據(jù)來自 MLCommons，這是一個(gè)由供應(yīng)商主導(dǎo)的評(píng)測(cè)機(jī)構(gòu)。

AMD vs 英偉達(dá)絕對(duì)算是一個(gè)長盛不衰的話題 —— 從玩游戲用哪家強(qiáng)到如今訓(xùn)練 AI 哪個(gè)更高效？原因也很簡(jiǎn)單：它們的 GPU 產(chǎn)品存在直接競(jìng)爭(zhēng)關(guān)系。

當(dāng)然，答案通常都偏向于英偉達(dá)，尤其是在 AI 算力方面，正如前些天李沐在上海交大演講時(shí)談到的那樣：「算力這塊，你可以用別的芯片，但是這些芯片用來做推理還 OK，做訓(xùn)練的話還要等幾年的樣子，英偉達(dá)還是處在一個(gè)壟斷的地位?！?/span>

但基于實(shí)證的對(duì)比研究卻往往又會(huì)給出不一樣的答案，比如在同一個(gè)演講中，李沐還提到了這兩家 GPU 的內(nèi)存情況，對(duì)此他表示：「在這一塊，雖然英偉達(dá)是領(lǐng)先者，但其實(shí)英偉達(dá)是不如 AMD 的，甚至不如 Google 的 TPU?！?/span>

實(shí)際上，不少業(yè)內(nèi)人士都表達(dá)過對(duì) AMD 占據(jù)更大市場(chǎng)份額的信心，比如 Transformer 作者及生成式 AI 初創(chuàng)公司 Cohere 創(chuàng)始人之一艾丹?戈麥斯（Aidan Gomez）前些天說：「我認(rèn)為 AMD 和 Tranium 這些平臺(tái)很快也將做好真正進(jìn)入主流市場(chǎng)的準(zhǔn)備?！?/span>

近日，專注計(jì)算硬件的科技媒體 The Information 發(fā)布了一份對(duì)比評(píng)測(cè)報(bào)告，聲稱是首個(gè)直接對(duì)比 AMD 和英偉達(dá) AI 集群的基準(zhǔn)評(píng)測(cè)。該報(bào)告的數(shù)據(jù)來自 MLCommons，這是一個(gè)由供應(yīng)商主導(dǎo)的評(píng)測(cè)機(jī)構(gòu)。

他們構(gòu)建了一套 MLPerf AI 訓(xùn)練和推理基準(zhǔn)。AMD Instinct 「Antares」 MI300X GPU 以及英偉達(dá)的「Hopper」H100 和 H200 和「Blackwell」B200 GPU 都得到了評(píng)估。The Information 對(duì)比了這些評(píng)估數(shù)據(jù)。

結(jié)果表明：在 AI 推理基準(zhǔn)上，MI300X GPU 絕對(duì)能比肩 H100 GPU，而根據(jù) The Information 對(duì) GPU 成本及系統(tǒng)總成本的估計(jì)，說 MI300X GPU 能媲美 H100 和 H200 GPU 也不為過。但是，也需要說明這些測(cè)試存在局限：僅使用了一種模型，即來自 Meta 的 Llama 2 70B。希望未來能看到這些測(cè)試中使用更多不同的 AI 模型。

對(duì) MI300X 及 AMD 未來的 GPU 來說，這個(gè)結(jié)果很是不錯(cuò)。

但到今年年底時(shí)，考慮到英偉達(dá) Blackwell B100 和 B200 GPU 的預(yù)期價(jià)格，似乎英偉達(dá)將與 AMD MI300X 加速器開始比拼性價(jià)比。另外，也許 AMD 會(huì)在今年晚些時(shí)候推出 MI325X GPU。

重點(diǎn)關(guān)注推理

AMD 的數(shù)據(jù)直到上周才發(fā)布。業(yè)內(nèi)有傳言說 AMD 簽了一些大訂單，會(huì)把 MI300X 出售給超大規(guī)模計(jì)算公司和云構(gòu)建商，以支撐他們的推理工作負(fù)載。無怪乎 AMD 直到上周才發(fā)布 MLPerf Inference v4.1 測(cè)試結(jié)果。

對(duì) MLPerf 推理結(jié)果的分析表明，在使用 Llama 2 70B 模型執(zhí)行推理任務(wù)時(shí)，MI300X 在性能和成本上確實(shí)能與 H100 比肩。但和 H200 相比就差點(diǎn)了，畢竟 H200 有更大的 HBM 內(nèi)存（141GB）和更高的帶寬。如果 Blackwell 的定價(jià)符合預(yù)期，那么今年晚些時(shí)候推出的 MI325 為了具備競(jìng)爭(zhēng)力，就必須得擁有更大的內(nèi)存、更高的帶寬和更激進(jìn)的價(jià)格才行。

下面是最新發(fā)布的 MLPerf 基準(zhǔn)評(píng)測(cè)結(jié)果：

英偉達(dá)的 MLPerf 基準(zhǔn)評(píng)測(cè)結(jié)果來自英偉達(dá)自身，其中也包括使用 Llama 2 70B 模型在單臺(tái) Blackwell B200 SXM 上的結(jié)果，詳情可訪問這篇博客：https://blogs.nvidia.com/blog/mlperf-inference-benchmark-blackwell/

The information 提取了所有英偉達(dá)的結(jié)果，并新增了 Juniper Networks 在包含 2 個(gè)和 4 個(gè)節(jié)點(diǎn)的 HGX H100 集群上得到的結(jié)果（總共 8 和 16 臺(tái) H100）。

AMD 在配備一對(duì)當(dāng)前的「Genoa」Epyc 9004 系列處理器和八臺(tái) Antares MI300X GPU 的服務(wù)器節(jié)點(diǎn)中測(cè)試了標(biāo)準(zhǔn)通用基板（UBB），還測(cè)試了一臺(tái)將 Genoa CPU 換成即將推出的「Turin」Epyc 9005 系列 CPU 的機(jī)器，該系列 CPU 預(yù)計(jì)將在下個(gè)月左右推出。

AMD 還向 The Next Platform 提供了一張圖表，其中展示了在 Genoa 盒子上測(cè)試一臺(tái) MI300X GPU 的性能，這可以顯示節(jié)點(diǎn)內(nèi) GPU 的擴(kuò)展性能：

讓我們先看性能，然后再看性價(jià)比。

對(duì)于性能，我們想知道，在執(zhí)行 Llama 2 推理時(shí)，AMD 和英偉達(dá)設(shè)備所具備的潛在峰值浮點(diǎn)性能有多少會(huì)被實(shí)際用于生成 token。但并沒有這方面的具體數(shù)據(jù)，因?yàn)?GPU 利用率和內(nèi)存利用率不在基準(zhǔn)測(cè)試中。不過我們可以根據(jù)已有數(shù)據(jù)進(jìn)行推斷。

AMD GPU 配置了 PyTorch 2.3.0 框架和 AMD 的 ROCm 6.1.2 軟件庫和 runtimes，它類似于英偉達(dá)的 CUDA 堆棧。在 MI300X 的張量核心上的峰值 FP16 性能為 1307.4 TFlops，但這是在服務(wù)器模式下運(yùn)行的（也就是使用在現(xiàn)實(shí)世界中看到的一種隨機(jī)查詢），可知在運(yùn)行 Llama 2 70B 模型時(shí)，單臺(tái) MI300X 每秒生成 2530.7 個(gè) token。因此，Llama 2 性能與假設(shè)峰值 Flops 之比為 1.94。當(dāng)擴(kuò)展到 8 臺(tái) MI300X 設(shè)備并換用更高速的 CPU，則這一比值會(huì)略微升至 2.01 到 2.11。

我們知道，H100 GPU 的 HBM 內(nèi)存僅有 80GB，啟動(dòng)帶寬也較低，這是因?yàn)槿鄙?HBM3 和 HBM3E 內(nèi)存導(dǎo)致的內(nèi)存配置不足。MI300X 也是類似。大家都在拉低 GPU 的內(nèi)存配置，這樣不僅是為了多賣些設(shè)備，而且也因?yàn)樵?GPU 芯片附近堆疊 HBM 的難度很大，并且還有封裝制造工藝的問題。

再看看英偉達(dá)測(cè)試的 H100 系統(tǒng)，每秒服務(wù)器 token 與峰值 FP16 Flops 的比值是 2.6 或 2.73，這比 AMD 的更好，這可能要?dú)w結(jié)于軟件調(diào)整。針對(duì) H100，CUDA 堆棧和 TensorRT 推理引擎進(jìn)行了大量調(diào)整，現(xiàn)在你明白為什么 AMD 如此渴望收購人工智能咨詢公司 Silo AI 了吧？這筆交易幾周前剛剛完成。

由于切換到了 HBM3E，H200 的 HBM 內(nèi)存將大幅提升至 141 GB，帶寬也將從 3.35 TB/s 提升至 4.8 TB/s。于是這個(gè)比值將增至 4.25，而英偉達(dá)自己的基準(zhǔn)測(cè)試表明，只需在完全相同的 Hopper GH100 GPU 上添加內(nèi)存容量和帶寬，AI 工作負(fù)載就能提升 1.6 至 1.9 倍。

MI300X 應(yīng)該具有什么樣的內(nèi)存容量和帶寬才能平衡其在推理（可能還有訓(xùn)練）工作負(fù)載方面的浮點(diǎn)性能呢？這一點(diǎn)很難估計(jì)。但 The Information 給出了一個(gè)直覺估計(jì)：MI325X 將具有 6 TB/s 的帶寬（MI300 為 5.3 TB/s）和 288 GB 的 HBM3E（ HBM3 為 192 GB）—— 這是朝著正確方向邁出的一大步。另外，MI325X 的 FP16 浮點(diǎn)性能似乎還是 1.31 Pflops。

不過明年的 MI350 的浮點(diǎn)性能可能會(huì)大幅提升，據(jù)信其會(huì)有新迭代的 CDNA 架構(gòu)：CDNA 4。其不同于 Antares MI300A、MI300X 和 MI325X 中使用的 CDNA 3 架構(gòu)。MI350 將轉(zhuǎn)向臺(tái)積電的 3 納米工藝，并增加 FP6 和 FP4 數(shù)據(jù)類型。據(jù)推測(cè)，將有一個(gè)全 GPU 的 MI350X 版本，也許還有一個(gè)帶有 Turin CPU 核心的 MI350A 版本。

你可能傾向于相信 AMD MI300X 和英偉達(dá) H100 之間的性能差異是因?yàn)椋阂恢滦曰ミB將 GPU 綁定到其各自 UBB 和 HGX 板上的共享內(nèi)存復(fù)合體中。AMD 機(jī)器上的是 Infinity Fabric，而英偉達(dá)機(jī)器上的是 NVSwitch。Infinity Fabric 的每臺(tái) GPU 的雙向帶寬為 128 GB/s，而 NVLink 4 端口和 NVSwitch 3 交換機(jī)的帶寬為 900 GB/s，因此英偉達(dá)機(jī)器在內(nèi)存一致性節(jié)點(diǎn)結(jié)構(gòu)上的帶寬高 7 倍。

這可能是 Llama 2 工作負(fù)載性能差異的一部分原因，但 The Information 認(rèn)為不是。原因如下。

單臺(tái) MI300X 的峰值性能為 1.31 Pflops，比 H100 或 H200 的 989.5 Tflops（FP16 精度）高出 32.1%，且沒有稀疏矩陣重新調(diào)整，吞吐量翻倍。MI300X 的內(nèi)存是 H100 的 2.4 倍，但 Llama 2 推理工作性能僅比 H100 多 7%，并且推理負(fù)載僅為 H200 的 60%。根據(jù)英偉達(dá)進(jìn)行的測(cè)試，相比于配備 180 GB 內(nèi)存的 Blackwell B200，該設(shè)備的工作性能僅為其 23.5%。

據(jù)信 B200 的內(nèi)存也會(huì)受限，因此根據(jù) 6 月份發(fā)布的英偉達(dá)路線圖，B200 和 B100（可能）將在 2025 年進(jìn)行內(nèi)存升級(jí)，容量可能會(huì)提升到 272 GB 左右。H200 的內(nèi)存升級(jí)會(huì)領(lǐng)先于 MI300X，后者的升級(jí)將在今年晚些時(shí)候體現(xiàn)在 MI32X 上，并會(huì)在內(nèi)存方面領(lǐng)先 B200 Blackwell Ultra 六到九個(gè)月。

The Information 表示：「如果我們要買 GPU，我們會(huì)等 Hopper Ultra (H200)、Blackwell Ultra (B200+) 和 Antares Ultra (MI325X)。擁有更多 HBM 的數(shù)據(jù)中心 GPU 更劃算?！?/span>

當(dāng)然，你也可以等，用你現(xiàn)有的 GPU 參加這場(chǎng)生成式 AI 大戰(zhàn)。

當(dāng)然，上面的數(shù)據(jù)圍繞著推理，至于 AI 訓(xùn)練方面的數(shù)據(jù)，AMD 可能會(huì)在今年秋季發(fā)布。

實(shí)際應(yīng)用的性價(jià)比

MI300X 與英偉達(dá)的 Hopper 和 Blackwell 的性價(jià)比如何呢？

今年早些時(shí)候，英偉達(dá)聯(lián)合創(chuàng)始人兼 CEO 黃仁勛在 Blackwell 發(fā)布后表示：這些設(shè)備的價(jià)格將在 3.5 至 4 萬美元之間。Hopper GPU 的價(jià)格可能為 2.25 萬美元，具體取決于配置。黃仁勛在 2023 年時(shí)曾表示，一套配置完成的 HGX H100 系統(tǒng)板的價(jià)格售價(jià) 20 萬美元。至于 H200，如果單獨(dú)購買，價(jià)格應(yīng)該是 3 萬美元。MI300X 的售價(jià)大概是 2 萬美元，但這基本基于猜測(cè)。具體還要看消費(fèi)者和市場(chǎng)情況。

當(dāng)然，大量購買應(yīng)該還有折扣，正如黃仁勛喜歡說的那樣：「買得越多，省得越多?！梗═he More You Buy, The More You Save）

粗略估計(jì)，將這些 GPU 變成服務(wù)器（兩臺(tái) CPU、大量主內(nèi)存、網(wǎng)卡和一些閃存）的成本約為 15 萬美元，并且可以插入英偉達(dá)的 HGX 板或 AMD 的 UBB 板來構(gòu)建八路機(jī)器?？紤]到之前計(jì)算的單臺(tái) GPU 的性能，于是這里便以這一成本的八分之一進(jìn)行計(jì)算。

綜合這些成本，可以看到 MI300X 與 H100 一樣非常燒錢。

我們已經(jīng)知道，對(duì)于 Llama 2 70B 推理任務(wù)，H100 系統(tǒng)中平均每臺(tái) GPU 每秒可輸出 2700 個(gè) token，這比 MI300X 好 7%。H200 的內(nèi)存是 141 GB，是原來的兩倍多，而其推理性能提升了 56%，但 GPU 的價(jià)格僅上漲了 33%，因此其 GPU 和系統(tǒng)層面的性價(jià)比都得到了提升。

如果 B200 的價(jià)格如黃仁勛所說的那樣為 4 萬美元，那么在 Llama 2 70B 測(cè)試中，其在 GPU 層面上每單位推理的成本將降低近一半，在系統(tǒng)層面上則會(huì)略多于一半。

考慮到 Blackwell 的短缺以及希望在給定空間和給定熱范圍內(nèi)容納更多 AI 計(jì)算的需求，因此也可以推斷英偉達(dá)可能為每臺(tái) B200 GPU 定價(jià) 5 萬美元 —— 很多人都這樣預(yù)計(jì)。

當(dāng)然，具體如何，還要看今年晚些時(shí)候 AMD MI325 的定價(jià)以及產(chǎn)能。

責(zé)任編輯：張燕妮來源：機(jī)器之心

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="fw0lg"><p id="fw0lg"></p></sub>