自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<blockquote id="cfsfd"></blockquote>}

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

英偉達(dá)年終大禮，最強(qiáng)AI GPU曝光！全新B300讓o1/o3推理性能上天算力爆表

作者：新智元 2024-12-27 12:23:46

人工智能新聞

英偉達(dá)的圣誕大禮包曝光，最強(qiáng)B300、GB300算力和顯存直接提高50%，模型推理訓(xùn)練性能史詩(shī)級(jí)提升，同時(shí)還打破了利潤(rùn)率下降的魔咒。

多虧了老黃，圣誕節(jié)如期而至。

盡管Blackwell GPU多次因硅片、封裝和底板問(wèn)題而推遲發(fā)布，但這并不能阻擋他們前進(jìn)的腳步。

距離GB200和B200的發(fā)布才剛剛過(guò)去幾個(gè)月，英偉達(dá)便推出了全新一代的AI GPU——GB300和B300。

更為有趣的是，這次看似普通的更新背后，實(shí)則內(nèi)含玄機(jī)。其中最為突出的，便是模型的推理和訓(xùn)練性能得到了大幅增強(qiáng)。

而隨著B(niǎo)300的推出，整個(gè)供應(yīng)鏈正在進(jìn)行重組和轉(zhuǎn)型，贏家將從中獲益（獲得禮物），而輸家則處境不妙（收到煤炭）。

這正是英偉達(dá)送給所有超大規(guī)模云計(jì)算供應(yīng)商、特定供應(yīng)鏈合作伙伴、內(nèi)存供應(yīng)商以及投資者的特別「圣誕禮物」

不過(guò)就在上周，天風(fēng)國(guó)際分析師郭明錤卻在研報(bào)中曝出，B300/GB300的DrMOS存在嚴(yán)重的過(guò)熱問(wèn)題！

而這，很可能會(huì)影響B(tài)300/GB300的量產(chǎn)進(jìn)度。

具體分析如下——

這已經(jīng)不是Blackwell第一次被曝出存在設(shè)計(jì)問(wèn)題了

B300和GB300：絕不僅是一次小升級(jí)

根據(jù)SemiAnalysis的最新爆料，B300 GPU對(duì)計(jì)算芯片的設(shè)計(jì)進(jìn)行了優(yōu)化，并采用了全新的TSMC 4NP工藝節(jié)點(diǎn)進(jìn)行流片。

相比于B200，其性能的提升主要在以下兩個(gè)方面：

1. 算力

FLOPS性能提升50%
功耗增加200W（GB300和B300 HGX的TDP分別達(dá)到1.4KW和1.2KW；前代則為1.2KW和1KW）
架構(gòu)改進(jìn)和系統(tǒng)級(jí)增強(qiáng)，例如CPU和GPU之間的動(dòng)態(tài)功率分配（power sloshing）

2. 內(nèi)存

HBM容量增加50%，從192GB提升至288GB
堆疊方案從8層HBM3E升級(jí)為12層
針腳速率保持不變，帶寬仍為8TB/s

專為「推理模型」優(yōu)化

序列長(zhǎng)度的增加，導(dǎo)致KV Cache也隨之?dāng)U大，從而限制了關(guān)鍵批處理大小和延遲。

因此，顯存的改進(jìn)對(duì)于OpenAI o3這類大模型的訓(xùn)練和推理至關(guān)重要。

下圖展示了英偉達(dá)H100和H200在處理1,000個(gè)輸入token和19,000個(gè)輸出token時(shí)的效能提升，這與OpenAI的o1和o3模型中的思維鏈（CoT）模式相似。

H100和H200的Roofline模擬，通過(guò)FP8精度的Llama 405B模型完成

H100到H200的升級(jí)，主要在于更大、更快的顯存：

更高的帶寬使交互性能普遍提升了43%（H200為4.8TB/s，而H100為3.35TB/s）
更大的批處理規(guī)模，使每秒token生成量提升了3倍，進(jìn)而使成本也降低了約3倍

而對(duì)運(yùn)營(yíng)商而言，這H100和H200之間的性能與經(jīng)濟(jì)差異，遠(yuǎn)遠(yuǎn)超過(guò)技術(shù)參數(shù)的數(shù)字那么簡(jiǎn)單。

首先，此前的推理模型時(shí)常因請(qǐng)求響應(yīng)時(shí)間長(zhǎng)而影響體驗(yàn)，而現(xiàn)在有了更快的推理速度后，用戶的使用意愿和付費(fèi)傾向都將顯著提高。

其次，成本降低3倍的效益，可是極為可觀的。僅通過(guò)中期顯存升級(jí)，硬件就能實(shí)現(xiàn)3倍性能提升，這種突破性進(jìn)展遠(yuǎn)遠(yuǎn)超過(guò)了摩爾定律、黃氏定律或任何已知的硬件進(jìn)步速度。

最后，性能最頂尖、具有顯著差異化優(yōu)勢(shì)的模型，能因此獲得更高溢價(jià)。

SOTA模型的毛利率已經(jīng)超過(guò)70%，而面臨開(kāi)源競(jìng)爭(zhēng)的次級(jí)模型利潤(rùn)率僅有20%以下。推理模型可突破單一思維鏈限制，通過(guò)擴(kuò)展搜索功能提升性能（如o1 Pro和o3），從而使模型更智能地解決問(wèn)題，提高GPU收益。

當(dāng)然，英偉達(dá)并非唯一能提供大容量顯存的廠商。

ASIC和AMD都具備這樣的能力。而AMD更是憑借更大的顯存容量（MI300X：192GB、MI325X：256GB、MI350X：288GB）占據(jù)了優(yōu)勢(shì)地位。

不過(guò)，老黃手里還有一張「絕對(duì)王牌」——NVLink。

NVL72在推理領(lǐng)域的核心優(yōu)勢(shì)在于，它能讓72個(gè)GPU以超低延遲協(xié)同工作、共享顯存。

而這也是全球唯一具備全連接交換（all-to-all switched connectivity）和全規(guī)約運(yùn)算（all reduce）能力的加速器系統(tǒng)。

英偉達(dá)的GB200 NVL72和GB300 NVL72，對(duì)以下這些關(guān)鍵能力的實(shí)現(xiàn)極其重要——

更高交互性，實(shí)現(xiàn)更低思維鏈延遲
72個(gè)GPU分散KV Cache，支持更長(zhǎng)思維鏈，提升智能水平
相比傳統(tǒng)8 GPU服務(wù)器，具備更優(yōu)批處理擴(kuò)展性
支持更多樣本并行搜索，提升準(zhǔn)確性和模型性能

總體而言，NVL72可以在經(jīng)濟(jì)效益上實(shí)現(xiàn)10倍以上提升，尤其是在長(zhǎng)推理鏈場(chǎng)景中。

而且，NVL72還是目前唯一能在高批處理下，將推理長(zhǎng)度擴(kuò)展至10萬(wàn)以上token的解決方案。

供應(yīng)鏈重構(gòu)

此前GB200時(shí)期，英偉達(dá)提供完整的Bianca主板（包含Blackwell GPU、Grace CPU、512GB LPDDR5X內(nèi)存以及集成在同一PCB上的電壓調(diào)節(jié)模塊VRM），同時(shí)還提供交換機(jī)托盤(pán)和銅質(zhì)背板。

但隨著GB300的推出，供應(yīng)鏈的結(jié)構(gòu)和產(chǎn)品內(nèi)容，將發(fā)生重大調(diào)整。

在新方案GB300中行，英偉達(dá)只提供三個(gè)核心組件的供應(yīng)：

搭載在「SXM Puck」模塊上的B300
BGA封裝的Grace CPU
由美國(guó)初創(chuàng)企業(yè)Axiado提供的基板管理控制器（HMC），取代了原有的Aspeed方案

終端客戶將需要直接采購(gòu)計(jì)算板上的其他組件。同時(shí)，第二級(jí)內(nèi)存方案，從焊接式LPDDR5X改為可更換的LPCAMM模塊，主要由美光供應(yīng)。交換機(jī)托盤(pán)和銅質(zhì)背板仍由英偉達(dá)全權(quán)負(fù)責(zé)。

相比此前僅有緯創(chuàng)和富士康工業(yè)互聯(lián)網(wǎng)（FII）能夠制造Bianca計(jì)算板的局面，SXM Puck方案打破了原有的市場(chǎng)格局。

它的采用為更多OEM和ODM廠商參與計(jì)算托盤(pán)制造創(chuàng)造了機(jī)會(huì)：

緯創(chuàng)在ODM領(lǐng)域受影響最大，Bianca主板份額顯著下降
富士康工業(yè)互聯(lián)網(wǎng)通過(guò)獨(dú)家生產(chǎn)SXM Puck及其插座，抵消了Bianca主板業(yè)務(wù)的損失
英偉達(dá)正在尋求Puck和插座的其他供應(yīng)商，但目前尚未確定新訂單

其次，是VRM供應(yīng)鏈。

盡管SXM Puck上仍保留部分VRM組件，但主要的板載VRM將由超大規(guī)模數(shù)據(jù)中心運(yùn)營(yíng)商和OEM直接從供應(yīng)商采購(gòu)：

Monolithic Power Systems的市場(chǎng)份額將因商業(yè)模式轉(zhuǎn)變而下降
市場(chǎng)格局重塑為新供應(yīng)商創(chuàng)造了更多的機(jī)會(huì)

第三，英偉達(dá)在互聯(lián)技術(shù)也取得了突破。

GB300平臺(tái)搭載了800G ConnectX-8網(wǎng)絡(luò)接口卡，可在InfiniBand和以太網(wǎng)上提供雙倍的擴(kuò)展帶寬。

相較于上一代ConnectX-7，ConnectX-8具有多項(xiàng)顯著優(yōu)勢(shì)：

帶寬提升100%
PCIe通道數(shù)從32增至48，支持空冷MGX B300A等創(chuàng)新性架構(gòu)設(shè)計(jì)
原生支持SpectrumX，無(wú)需借助效率較低的Bluefield 3 DPU（此前400G產(chǎn)品的方案）

對(duì)超算中心的影響

在2024年第三季度，受GB200和GB300發(fā)布延遲影響，大量訂單轉(zhuǎn)向了英偉達(dá)價(jià)格更高的新一代GPU。

截至上周，所有超算中心均已決定采用GB300方案。這一決策基于兩個(gè)因素：

GB300提供更高的FLOPS算力和更大的顯存容量
客戶擁有更多系統(tǒng)定制自主權(quán)

此前，由于上市時(shí)間壓力以及機(jī)架、散熱和供電密度的重大調(diào)整，超算中心此前難以對(duì)GB200服務(wù)器進(jìn)行深度定制。

這迫使Meta完全放棄了同時(shí)向博通和英偉達(dá)采購(gòu)網(wǎng)絡(luò)接口卡的計(jì)劃，轉(zhuǎn)而完全依賴英偉達(dá)。類似地，谷歌也放棄了自研網(wǎng)絡(luò)接口卡方案，轉(zhuǎn)而采用英偉達(dá)的解決方案。

對(duì)于那些一向精于優(yōu)化從處理器到網(wǎng)絡(luò)設(shè)備，甚至到螺絲和鈑金等各個(gè)環(huán)節(jié)成本的超算中心數(shù)千人研發(fā)團(tuán)隊(duì)來(lái)說(shuō)，為其帶去了極大的困擾。

另外，亞馬遜的案例最具代表性。他們選擇了一個(gè)次優(yōu)配置，導(dǎo)致總擁有成本（TCO）超過(guò)了參考設(shè)計(jì)。

由于使用PCIe交換機(jī)和需要風(fēng)冷的低效200G彈性網(wǎng)絡(luò)適配器，亞馬遜無(wú)法像Meta、谷歌、微軟、甲骨文、xAI和Coreweave那樣部署NVL72機(jī)架。

受限于其內(nèi)部網(wǎng)卡方案，亞馬遜被迫采用NVL36架構(gòu)，卻因更高的背板和交換機(jī)成本推高了每個(gè)GPU的支出。

總體而言，因定制化受限，導(dǎo)致亞馬遜的配置方案并不理想。

GB300的推出，為超算中提供了更大自主權(quán)，比如可以自主定制主板、散熱系統(tǒng)等。

這使得亞馬遜能夠開(kāi)發(fā)自己的定制主板，將此前需要風(fēng)冷的組件（如Astera Labs PCIe交換機(jī)）整合進(jìn)水冷系統(tǒng)。

隨著更多組件采用水冷設(shè)計(jì)，加上K2V6 400G網(wǎng)卡將在2025年第三季度實(shí)現(xiàn)規(guī)?；慨a(chǎn)，亞馬遜有望重返NVL72架構(gòu)，顯著提升TCO效率。

然而這也帶來(lái)了一個(gè)顯著挑戰(zhàn)：超算中心需要投入更多資源進(jìn)行設(shè)計(jì)、驗(yàn)證和確認(rèn)工作。

這無(wú)疑是超算中心面臨的最復(fù)雜系統(tǒng)設(shè)計(jì)項(xiàng)目（除谷歌TPU外）。部分超算中心能夠快速完成設(shè)計(jì)，但設(shè)計(jì)團(tuán)隊(duì)較慢的機(jī)構(gòu)則明顯落后。

盡管市場(chǎng)傳聞?dòng)泄救∠唵?，但SemiAnalysis觀察到由于設(shè)計(jì)進(jìn)度較慢，微軟可能是最晚部署GB300的機(jī)構(gòu)之一，他們?cè)诘谒募径热栽诓少?gòu)GB200。

隨著部分組件從英偉達(dá)轉(zhuǎn)移到原始設(shè)計(jì)制造商（ODM），客戶的總采購(gòu)成本出現(xiàn)較大差異。

這不僅影響了ODM的收入，更重要的是導(dǎo)致英偉達(dá)全年的毛利率產(chǎn)生波動(dòng)。下面將更詳細(xì)分析這些變動(dòng)對(duì)英偉達(dá)利潤(rùn)產(chǎn)生的影響。

值得一提的是，三星在未來(lái)至少9個(gè)月內(nèi)，都無(wú)法進(jìn)入GB200或GB300的供應(yīng)鏈。

對(duì)英偉達(dá)利潤(rùn)的影響

懷著「圣誕精神」的英偉達(dá)，在新的定價(jià)策略上也頗有看點(diǎn)——這將直接影響B(tài)lackwell系列的利潤(rùn)。

隨著顯存方案從SK海力士和美光的8層HBM3E堆棧升級(jí)至12層HBM3E堆棧，顯存容量獲得了顯著提升。

這一升級(jí)，直接導(dǎo)致英偉達(dá)芯片級(jí)物料清單（BOM）成本增加約2,500美元。

成本的增加主要來(lái)自——

更高的容量
堆棧層數(shù)增加帶來(lái)的每GB顯存溢價(jià)
封裝良率下降帶來(lái)的額外成本

第三點(diǎn)也反映出高帶寬顯存（HBM）在物料成本中的主導(dǎo)地位（隨著推理模型對(duì)顯存容量和帶寬需求增加，這一趨勢(shì)將持續(xù)加強(qiáng)）。

總體而言，GB300的平均售價(jià)較GB200提高約4,000美元，其中HBM成本增加約2,500美元，而增量利潤(rùn)率不足40%，而GB200整體的利潤(rùn)率維持在70%的中低水平。

然而，由于前述內(nèi)容變化，英偉達(dá)減少了整體供應(yīng)內(nèi)容，轉(zhuǎn)由超算中心自行采購(gòu)，由此，英偉達(dá)實(shí)現(xiàn)了成本平衡。

首先，英偉達(dá)不再提供每個(gè)Grace CPU配套的512GB LPDDR5X內(nèi)存，這抵消了大部分額外的HBM成本支出。

其次，PCB的成本節(jié)省最為顯著。

綜合各項(xiàng)因素，在平均銷售價(jià)格提升4,000美元的同時(shí)，英偉達(dá)的物料成本僅增加略超1,000美元。

GB300相對(duì)于GB200的增量毛利率達(dá)到73%，這意味著在良率保持穩(wěn)定的情況下，該產(chǎn)品的利潤(rùn)水平基本持平。

這一結(jié)果雖然看似平常，但值得注意的是，HBM升級(jí)周期通常會(huì)導(dǎo)致利潤(rùn)率下降（例如H200、MI325X的情況），而這次這一慣例被打破了。

此外，隨著各項(xiàng)工程技術(shù)問(wèn)題的逐步解決，良率將會(huì)提升，在度過(guò)Blackwell初期的產(chǎn)能爬升期后，利潤(rùn)率預(yù)計(jì)會(huì)在年內(nèi)逐步改善。

責(zé)任編輯：張燕妮來(lái)源：新智元

AI 算力英偉達(dá)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)