自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

英偉達(dá)年終大禮,最強(qiáng)AI GPU曝光!全新B300讓o1/o3推理性能上天算力爆表

人工智能 新聞
英偉達(dá)的圣誕大禮包曝光,最強(qiáng)B300、GB300算力和顯存直接提高50%,模型推理訓(xùn)練性能史詩(shī)級(jí)提升,同時(shí)還打破了利潤(rùn)率下降的魔咒。

多虧了老黃,圣誕節(jié)如期而至。

盡管Blackwell GPU多次因硅片、封裝和底板問(wèn)題而推遲發(fā)布,但這并不能阻擋他們前進(jìn)的腳步。

距離GB200和B200的發(fā)布才剛剛過(guò)去幾個(gè)月,英偉達(dá)便推出了全新一代的AI GPU——GB300和B300。

更為有趣的是,這次看似普通的更新背后,實(shí)則內(nèi)含玄機(jī)。其中最為突出的,便是模型的推理和訓(xùn)練性能得到了大幅增強(qiáng)。

而隨著B(niǎo)300的推出,整個(gè)供應(yīng)鏈正在進(jìn)行重組和轉(zhuǎn)型,贏家將從中獲益(獲得禮物),而輸家則處境不妙(收到煤炭)。

圖片

這正是英偉達(dá)送給所有超大規(guī)模云計(jì)算供應(yīng)商、特定供應(yīng)鏈合作伙伴、內(nèi)存供應(yīng)商以及投資者的特別「圣誕禮物」

不過(guò)就在上周,天風(fēng)國(guó)際分析師郭明錤卻在研報(bào)中曝出,B300/GB300的DrMOS存在嚴(yán)重的過(guò)熱問(wèn)題!

而這,很可能會(huì)影響B(tài)300/GB300的量產(chǎn)進(jìn)度。

圖片

具體分析如下——

圖片

這已經(jīng)不是Blackwell第一次被曝出存在設(shè)計(jì)問(wèn)題了

B300和GB300:絕不僅是一次小升級(jí)

根據(jù)SemiAnalysis的最新爆料,B300 GPU對(duì)計(jì)算芯片的設(shè)計(jì)進(jìn)行了優(yōu)化,并采用了全新的TSMC 4NP工藝節(jié)點(diǎn)進(jìn)行流片。

相比于B200,其性能的提升主要在以下兩個(gè)方面:

1. 算力

  • FLOPS性能提升50%
  • 功耗增加200W(GB300和B300 HGX的TDP分別達(dá)到1.4KW和1.2KW;前代則為1.2KW和1KW)
  • 架構(gòu)改進(jìn)和系統(tǒng)級(jí)增強(qiáng),例如CPU和GPU之間的動(dòng)態(tài)功率分配(power sloshing)

2. 內(nèi)存

  • HBM容量增加50%,從192GB提升至288GB
  • 堆疊方案從8層HBM3E升級(jí)為12層
  • 針腳速率保持不變,帶寬仍為8TB/s

專為「推理模型」優(yōu)化

序列長(zhǎng)度的增加,導(dǎo)致KV Cache也隨之?dāng)U大,從而限制了關(guān)鍵批處理大小和延遲。

因此,顯存的改進(jìn)對(duì)于OpenAI o3這類大模型的訓(xùn)練和推理至關(guān)重要。

下圖展示了英偉達(dá)H100和H200在處理1,000個(gè)輸入token和19,000個(gè)輸出token時(shí)的效能提升,這與OpenAI的o1和o3模型中的思維鏈(CoT)模式相似。

圖片

H100和H200的Roofline模擬,通過(guò)FP8精度的Llama 405B模型完成

H100到H200的升級(jí),主要在于更大、更快的顯存:

  1. 更高的帶寬使交互性能普遍提升了43%(H200為4.8TB/s,而H100為3.35TB/s)
  2. 更大的批處理規(guī)模,使每秒token生成量提升了3倍,進(jìn)而使成本也降低了約3倍

而對(duì)運(yùn)營(yíng)商而言,這H100和H200之間的性能與經(jīng)濟(jì)差異,遠(yuǎn)遠(yuǎn)超過(guò)技術(shù)參數(shù)的數(shù)字那么簡(jiǎn)單。

首先,此前的推理模型時(shí)常因請(qǐng)求響應(yīng)時(shí)間長(zhǎng)而影響體驗(yàn),而現(xiàn)在有了更快的推理速度后,用戶的使用意愿和付費(fèi)傾向都將顯著提高。

其次,成本降低3倍的效益,可是極為可觀的。僅通過(guò)中期顯存升級(jí),硬件就能實(shí)現(xiàn)3倍性能提升,這種突破性進(jìn)展遠(yuǎn)遠(yuǎn)超過(guò)了摩爾定律、黃氏定律或任何已知的硬件進(jìn)步速度。

最后,性能最頂尖、具有顯著差異化優(yōu)勢(shì)的模型,能因此獲得更高溢價(jià)。

SOTA模型的毛利率已經(jīng)超過(guò)70%,而面臨開(kāi)源競(jìng)爭(zhēng)的次級(jí)模型利潤(rùn)率僅有20%以下。推理模型可突破單一思維鏈限制,通過(guò)擴(kuò)展搜索功能提升性能(如o1 Pro和o3),從而使模型更智能地解決問(wèn)題,提高GPU收益。

當(dāng)然,英偉達(dá)并非唯一能提供大容量顯存的廠商。

ASIC和AMD都具備這樣的能力。而AMD更是憑借更大的顯存容量(MI300X:192GB、MI325X:256GB、MI350X:288GB)占據(jù)了優(yōu)勢(shì)地位。

不過(guò),老黃手里還有一張「絕對(duì)王牌」——NVLink。

NVL72在推理領(lǐng)域的核心優(yōu)勢(shì)在于,它能讓72個(gè)GPU以超低延遲協(xié)同工作、共享顯存。

而這也是全球唯一具備全連接交換(all-to-all switched connectivity)和全規(guī)約運(yùn)算(all reduce)能力的加速器系統(tǒng)。

英偉達(dá)的GB200 NVL72和GB300 NVL72,對(duì)以下這些關(guān)鍵能力的實(shí)現(xiàn)極其重要——

  1. 更高交互性,實(shí)現(xiàn)更低思維鏈延遲
  2. 72個(gè)GPU分散KV Cache,支持更長(zhǎng)思維鏈,提升智能水平
  3. 相比傳統(tǒng)8 GPU服務(wù)器,具備更優(yōu)批處理擴(kuò)展性
  4. 支持更多樣本并行搜索,提升準(zhǔn)確性和模型性能

總體而言,NVL72可以在經(jīng)濟(jì)效益上實(shí)現(xiàn)10倍以上提升,尤其是在長(zhǎng)推理鏈場(chǎng)景中。

而且,NVL72還是目前唯一能在高批處理下,將推理長(zhǎng)度擴(kuò)展至10萬(wàn)以上token的解決方案。

供應(yīng)鏈重構(gòu)

此前GB200時(shí)期,英偉達(dá)提供完整的Bianca主板(包含Blackwell GPU、Grace CPU、512GB LPDDR5X內(nèi)存以及集成在同一PCB上的電壓調(diào)節(jié)模塊VRM),同時(shí)還提供交換機(jī)托盤(pán)和銅質(zhì)背板。

但隨著GB300的推出,供應(yīng)鏈的結(jié)構(gòu)和產(chǎn)品內(nèi)容,將發(fā)生重大調(diào)整。

圖片

在新方案GB300中行,英偉達(dá)只提供三個(gè)核心組件的供應(yīng):

  • 搭載在「SXM Puck」模塊上的B300
  • BGA封裝的Grace CPU
  • 由美國(guó)初創(chuàng)企業(yè)Axiado提供的基板管理控制器(HMC),取代了原有的Aspeed方案

終端客戶將需要直接采購(gòu)計(jì)算板上的其他組件。同時(shí),第二級(jí)內(nèi)存方案,從焊接式LPDDR5X改為可更換的LPCAMM模塊,主要由美光供應(yīng)。交換機(jī)托盤(pán)和銅質(zhì)背板仍由英偉達(dá)全權(quán)負(fù)責(zé)。

圖片

相比此前僅有緯創(chuàng)和富士康工業(yè)互聯(lián)網(wǎng)(FII)能夠制造Bianca計(jì)算板的局面,SXM Puck方案打破了原有的市場(chǎng)格局。

它的采用為更多OEM和ODM廠商參與計(jì)算托盤(pán)制造創(chuàng)造了機(jī)會(huì):

  • 緯創(chuàng)在ODM領(lǐng)域受影響最大,Bianca主板份額顯著下降
  • 富士康工業(yè)互聯(lián)網(wǎng)通過(guò)獨(dú)家生產(chǎn)SXM Puck及其插座,抵消了Bianca主板業(yè)務(wù)的損失
  • 英偉達(dá)正在尋求Puck和插座的其他供應(yīng)商,但目前尚未確定新訂單

其次,是VRM供應(yīng)鏈。

盡管SXM Puck上仍保留部分VRM組件,但主要的板載VRM將由超大規(guī)模數(shù)據(jù)中心運(yùn)營(yíng)商和OEM直接從供應(yīng)商采購(gòu):

  • Monolithic Power Systems的市場(chǎng)份額將因商業(yè)模式轉(zhuǎn)變而下降
  • 市場(chǎng)格局重塑為新供應(yīng)商創(chuàng)造了更多的機(jī)會(huì)

第三,英偉達(dá)在互聯(lián)技術(shù)也取得了突破。

GB300平臺(tái)搭載了800G ConnectX-8網(wǎng)絡(luò)接口卡,可在InfiniBand和以太網(wǎng)上提供雙倍的擴(kuò)展帶寬。

相較于上一代ConnectX-7,ConnectX-8具有多項(xiàng)顯著優(yōu)勢(shì):

  • 帶寬提升100%
  • PCIe通道數(shù)從32增至48,支持空冷MGX B300A等創(chuàng)新性架構(gòu)設(shè)計(jì)
  • 原生支持SpectrumX,無(wú)需借助效率較低的Bluefield 3 DPU(此前400G產(chǎn)品的方案)

對(duì)超算中心的影響

在2024年第三季度,受GB200和GB300發(fā)布延遲影響,大量訂單轉(zhuǎn)向了英偉達(dá)價(jià)格更高的新一代GPU。

截至上周,所有超算中心均已決定采用GB300方案。這一決策基于兩個(gè)因素:

  • GB300提供更高的FLOPS算力和更大的顯存容量
  • 客戶擁有更多系統(tǒng)定制自主權(quán)

此前,由于上市時(shí)間壓力以及機(jī)架、散熱和供電密度的重大調(diào)整,超算中心此前難以對(duì)GB200服務(wù)器進(jìn)行深度定制。

這迫使Meta完全放棄了同時(shí)向博通和英偉達(dá)采購(gòu)網(wǎng)絡(luò)接口卡的計(jì)劃,轉(zhuǎn)而完全依賴英偉達(dá)。類似地,谷歌也放棄了自研網(wǎng)絡(luò)接口卡方案,轉(zhuǎn)而采用英偉達(dá)的解決方案。

對(duì)于那些一向精于優(yōu)化從處理器到網(wǎng)絡(luò)設(shè)備,甚至到螺絲和鈑金等各個(gè)環(huán)節(jié)成本的超算中心數(shù)千人研發(fā)團(tuán)隊(duì)來(lái)說(shuō),為其帶去了極大的困擾。

另外,亞馬遜的案例最具代表性。他們選擇了一個(gè)次優(yōu)配置,導(dǎo)致總擁有成本(TCO)超過(guò)了參考設(shè)計(jì)。

由于使用PCIe交換機(jī)和需要風(fēng)冷的低效200G彈性網(wǎng)絡(luò)適配器,亞馬遜無(wú)法像Meta、谷歌、微軟、甲骨文、xAI和Coreweave那樣部署NVL72機(jī)架。

受限于其內(nèi)部網(wǎng)卡方案,亞馬遜被迫采用NVL36架構(gòu),卻因更高的背板和交換機(jī)成本推高了每個(gè)GPU的支出。

總體而言,因定制化受限,導(dǎo)致亞馬遜的配置方案并不理想。

GB300的推出,為超算中提供了更大自主權(quán),比如可以自主定制主板、散熱系統(tǒng)等。

這使得亞馬遜能夠開(kāi)發(fā)自己的定制主板,將此前需要風(fēng)冷的組件(如Astera Labs PCIe交換機(jī))整合進(jìn)水冷系統(tǒng)。

隨著更多組件采用水冷設(shè)計(jì),加上K2V6 400G網(wǎng)卡將在2025年第三季度實(shí)現(xiàn)規(guī)?;慨a(chǎn),亞馬遜有望重返NVL72架構(gòu),顯著提升TCO效率。

然而這也帶來(lái)了一個(gè)顯著挑戰(zhàn):超算中心需要投入更多資源進(jìn)行設(shè)計(jì)、驗(yàn)證和確認(rèn)工作。

這無(wú)疑是超算中心面臨的最復(fù)雜系統(tǒng)設(shè)計(jì)項(xiàng)目(除谷歌TPU外)。部分超算中心能夠快速完成設(shè)計(jì),但設(shè)計(jì)團(tuán)隊(duì)較慢的機(jī)構(gòu)則明顯落后。

盡管市場(chǎng)傳聞?dòng)泄救∠唵?,但SemiAnalysis觀察到由于設(shè)計(jì)進(jìn)度較慢,微軟可能是最晚部署GB300的機(jī)構(gòu)之一,他們?cè)诘谒募径热栽诓少?gòu)GB200。

隨著部分組件從英偉達(dá)轉(zhuǎn)移到原始設(shè)計(jì)制造商(ODM),客戶的總采購(gòu)成本出現(xiàn)較大差異。

這不僅影響了ODM的收入,更重要的是導(dǎo)致英偉達(dá)全年的毛利率產(chǎn)生波動(dòng)。下面將更詳細(xì)分析這些變動(dòng)對(duì)英偉達(dá)利潤(rùn)產(chǎn)生的影響。

值得一提的是,三星在未來(lái)至少9個(gè)月內(nèi),都無(wú)法進(jìn)入GB200或GB300的供應(yīng)鏈。

對(duì)英偉達(dá)利潤(rùn)的影響

懷著「圣誕精神」的英偉達(dá),在新的定價(jià)策略上也頗有看點(diǎn)——這將直接影響B(tài)lackwell系列的利潤(rùn)。

隨著顯存方案從SK海力士和美光的8層HBM3E堆棧升級(jí)至12層HBM3E堆棧,顯存容量獲得了顯著提升。

這一升級(jí),直接導(dǎo)致英偉達(dá)芯片級(jí)物料清單(BOM)成本增加約2,500美元。

成本的增加主要來(lái)自——

  • 更高的容量
  • 堆棧層數(shù)增加帶來(lái)的每GB顯存溢價(jià)
  • 封裝良率下降帶來(lái)的額外成本

第三點(diǎn)也反映出高帶寬顯存(HBM)在物料成本中的主導(dǎo)地位(隨著推理模型對(duì)顯存容量和帶寬需求增加,這一趨勢(shì)將持續(xù)加強(qiáng))。

總體而言,GB300的平均售價(jià)較GB200提高約4,000美元,其中HBM成本增加約2,500美元,而增量利潤(rùn)率不足40%,而GB200整體的利潤(rùn)率維持在70%的中低水平。

然而,由于前述內(nèi)容變化,英偉達(dá)減少了整體供應(yīng)內(nèi)容,轉(zhuǎn)由超算中心自行采購(gòu),由此,英偉達(dá)實(shí)現(xiàn)了成本平衡。

首先,英偉達(dá)不再提供每個(gè)Grace CPU配套的512GB LPDDR5X內(nèi)存,這抵消了大部分額外的HBM成本支出。

其次,PCB的成本節(jié)省最為顯著。

綜合各項(xiàng)因素,在平均銷售價(jià)格提升4,000美元的同時(shí),英偉達(dá)的物料成本僅增加略超1,000美元。

GB300相對(duì)于GB200的增量毛利率達(dá)到73%,這意味著在良率保持穩(wěn)定的情況下,該產(chǎn)品的利潤(rùn)水平基本持平。

這一結(jié)果雖然看似平常,但值得注意的是,HBM升級(jí)周期通常會(huì)導(dǎo)致利潤(rùn)率下降(例如H200、MI325X的情況),而這次這一慣例被打破了。

此外,隨著各項(xiàng)工程技術(shù)問(wèn)題的逐步解決,良率將會(huì)提升,在度過(guò)Blackwell初期的產(chǎn)能爬升期后,利潤(rùn)率預(yù)計(jì)會(huì)在年內(nèi)逐步改善。

圖片

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2024-12-26 11:45:48

2024-11-21 14:00:00

模型AI

2025-03-19 10:10:43

2025-04-17 06:10:57

2024-10-17 13:30:00

2025-03-10 08:10:00

AI研究安全

2024-08-29 12:58:35

2025-01-02 11:00:34

2025-03-19 09:52:50

2024-09-24 11:01:03

2024-12-24 16:15:04

2024-11-07 15:40:00

2025-03-18 08:58:13

2025-04-23 08:30:05

2023-09-10 12:37:38

模型英偉達(dá)

2024-12-23 07:40:00

AI模型數(shù)學(xué)

2024-10-17 14:05:34

2025-01-02 13:00:00

2021-09-17 12:54:05

AI 數(shù)據(jù)人工智能

2019-09-25 14:34:15

AI 數(shù)據(jù)人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)