自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

英偉達(dá)超級(jí)Rubin細(xì)節(jié)曝光,黃氏法則再升級(jí)!最高1024GB顯存,免費(fèi)H100無人要

人工智能 新聞
老黃在GTC 2025大會(huì)上,再次亮出了英偉達(dá)未來GPU路線圖。隨著推理token的暴增,AI計(jì)算需要全新的范式,下一代BlackWell Ultra、Vera Rubin就是最強(qiáng)的回應(yīng)。

黃氏計(jì)算法則,幾乎每年一更。

今年GTC 2025大會(huì)上,黃仁勛兩個(gè)多小時(shí)演講中,又向世界帶來了最新的計(jì)算法則——

現(xiàn)在,GPU數(shù)量按照每個(gè)「封裝」內(nèi)的GPU芯片數(shù)量來計(jì)算,而不是以「封裝」數(shù)量計(jì)算。

這種全新的計(jì)算法則,將從英偉達(dá)下一代GPU Rubin系列開始應(yīng)用。

在SemiAnalysis獨(dú)家報(bào)道中,就英偉達(dá)GPU和系統(tǒng)路線圖、最新Blackwell Ultra 300、26年Vera Rubin、從芯片到系統(tǒng)再到軟件的全新推理優(yōu)化等方面進(jìn)行了詳細(xì)分析。

圖片

高級(jí)分析師指出,過去6個(gè)月里,模型的進(jìn)化超過了之前六個(gè)月的總和。

而且,這種趨勢仍將持續(xù),因?yàn)槿齻€(gè)Scaling Law正在疊加并協(xié)同作用:預(yù)訓(xùn)練Scaling、后訓(xùn)練Scaling、推理時(shí)Scaling。

恰恰,今年GTC大會(huì)全面聚焦的是全新Scaling范式。

圖片

推理Token爆發(fā)增長

一直以來,Claude模型以其強(qiáng)大的編程能力,得到開發(fā)者青睞,尤其是Claude 3.7在軟件工程方面展現(xiàn)出驚人的性能。

另一方面,Deepseek V3出世表明,上一代模型的能力成本正暴跌,促進(jìn)了更廣泛的應(yīng)用。

OpenAI最新實(shí)驗(yàn)?zāi)P蚾1、o3用時(shí)證明,更長的推理時(shí)間和搜索能帶來更好的答案。就像預(yù)訓(xùn)練Scaling的早期階段一樣,為這些模型增加更多后訓(xùn)練計(jì)算能力似乎沒有上限。

面對(duì)這一系列新事物,老黃給出最有力的回答。

他表示,「從GPT開始,到如今的推理AI,它不再是僅僅預(yù)測下一個(gè)token,而是生成100多倍的token」。

為了支持更多模型訓(xùn)練部署,英偉達(dá)推出了「AI工廠的操作系統(tǒng)」Dynamo,使得Blackwell推理性能相較Hopper暴漲40倍。

不僅如此,他們正致力于將推理成本效率提升35倍,以支持更多模型的訓(xùn)練和部署。

老黃的口頭禪也從以往「買越多,省越多」,變成了「省越多,買越多」。(the more you save, the more you buy.

圖片

英偉達(dá)在硬件和軟件方面的發(fā)展路線圖,著實(shí)帶來了顯著的推理效率提升。

這為LLM經(jīng)濟(jì)高效部署,以及其他變革性企業(yè)應(yīng)用開啟了全新機(jī)遇——這正是杰文斯悖論(Jevons’ paradox)的典型案例。

用老黃的話來說,「買越多,賺越多」。(the more you buy, the more you make)。

不過,市場對(duì)此卻表示擔(dān)憂。

他們的關(guān)注點(diǎn)在于類DeepSeek這樣的軟件優(yōu)化技術(shù)和英偉達(dá)推動(dòng)的硬件性能提升,正帶來過度的成本節(jié)省,這可能導(dǎo)致AI硬件需求下降,市場將出現(xiàn)token供過于求的現(xiàn)象。

誠然,價(jià)格會(huì)影響需求,但隨著智能成本的降低,智能能力的邊界不斷突破,需求也隨之增長。

目前的AI能力,仍受限于推理成本。而且,AI對(duì)我們生活的實(shí)際影響尚處于萌芽階段。

有趣的是,隨著成本下降,總體使用量反而會(huì)出現(xiàn)悖論性增長。

人們對(duì)token通縮的擔(dān)憂,就像當(dāng)年討論光纖泡沫時(shí)期只關(guān)注每個(gè)數(shù)據(jù)包的互聯(lián)網(wǎng)連接成本下降,卻忽視了網(wǎng)站和互聯(lián)網(wǎng)應(yīng)用最終將如何改變我們的生活、社會(huì)和經(jīng)濟(jì)。

這里有個(gè)關(guān)鍵區(qū)別:帶寬需求是有限的,而智能需求則會(huì)隨著能力的顯著提升和成本的下降,無限增長。

英偉達(dá)提供的數(shù)據(jù)印證了Jevons’ paradox。當(dāng)前的模型已經(jīng)需要超100萬億個(gè)token,而推理模型更需要20倍的token用量和150倍的計(jì)算資源。

測試階段的計(jì)算每次查詢需要數(shù)十萬個(gè)token,且每月查詢量高達(dá)數(shù)億次。

在后訓(xùn)練scaling階段,每個(gè)模型需要處理數(shù)萬億個(gè)token,同時(shí)存在數(shù)十萬個(gè)接受后訓(xùn)練的模型。

更重要的是,Agentic AI的出現(xiàn)意味著多個(gè)模型將協(xié)同合作,共同攻克越來越具有挑戰(zhàn)性的問題。

黃氏計(jì)算法則,每年一更

每年,老黃都會(huì)向業(yè)界引入全新的計(jì)算法則。

黃氏計(jì)算法則一直以其獨(dú)特性聞名,而今年情況更加特別,SemiAnalysis觀察到了第三條新的計(jì)算法則。

第一條黃氏計(jì)算法則涉及浮點(diǎn)運(yùn)算性能(FLOPs)的標(biāo)稱方式。

英偉達(dá)采用2:4稀疏計(jì)算方式(這種方式在實(shí)際應(yīng)用中幾乎未被采用)而非實(shí)際使用的密集計(jì)算來標(biāo)示性能。

比如,H100的FP16實(shí)際計(jì)算能力為989.4 TFLOPs,但官方數(shù)據(jù)卻標(biāo)示為 1979.81 TFLOPs。

第二條計(jì)算法則關(guān)于帶寬的計(jì)算方式。

NVLink5的帶寬被標(biāo)示為1.8TB/s,這是將900GB/s的發(fā)送帶寬和900GB/s的接收帶寬相加得出的結(jié)果。

雖然產(chǎn)品規(guī)格表采用這種計(jì)算方式,但網(wǎng)絡(luò)行業(yè)的通行做法是僅標(biāo)示單向帶寬。

最新出現(xiàn)的第三條計(jì)算法則與GPU數(shù)量有關(guān)。

正如開篇所言,GPU數(shù)量現(xiàn)在按照每個(gè)封裝內(nèi)的GPU芯片數(shù)量來計(jì)數(shù),而不是按照封裝數(shù)量。

這種新的命名方式將從Rubin產(chǎn)品開始實(shí)施。

比如,第一代Vera Rubin機(jī)架將被命名為NVL144,盡管它在系統(tǒng)架構(gòu)上與使用相同Oberon機(jī)架和72個(gè)GPU封裝的GB200 NVL72十分相似。

圖片

這種全新的計(jì)數(shù)方式無疑會(huì)給業(yè)界帶來理解上的困擾,需要不斷解釋說明,但這就是我們必須適應(yīng)的「黃氏世界」。

接下來,一起看看英偉達(dá)的產(chǎn)品路線圖。

圖片

Blackwell Ultra B300

Blackwell Ultra 300(簡稱B300)的預(yù)覽版已經(jīng)發(fā)布,與SemiAnalysis在去年12月分享的詳情保持一致。

主要規(guī)格如下:

GB300不會(huì)以獨(dú)立顯卡形式銷售,而是將作為配備Grace CPU的可插拔SXM模塊中的B300 GPU推出,同時(shí)還提供可插拔BGA封裝版本。

性能方面,B300的FP4浮點(diǎn)運(yùn)算密度,較B200同等產(chǎn)品提升超過50%。內(nèi)存容量提升至每個(gè)封裝288GB(采用8堆疊12層HBM3E高帶寬顯存),帶寬維持在8TB/s。

這一性能提升是通過減少部分(而非全部)FP64 ALU,并替換為FP4和FP6運(yùn)算單元實(shí)現(xiàn)的。

雙精度運(yùn)算主要用于HPC和超級(jí)計(jì)算領(lǐng)域,而非AI工作負(fù)載。盡管這讓HPC界感到失望,但從商業(yè)角度看,英偉達(dá)更注重發(fā)展規(guī)模更大的AI市場。

B300 HGX版本現(xiàn)已更名為B300 NVL16。

該產(chǎn)品將采用此前稱為「B300A」的Blackwell單GPU版本,現(xiàn)已更名為B300。

這相當(dāng)于雙芯片B300的一半配置,由于標(biāo)準(zhǔn)版B300在單個(gè)封裝中缺少連接兩個(gè)GPU芯片的高速D2D接口,可能會(huì)帶來額外的通信開銷。

B300 NVL16將取代現(xiàn)有的B200 HGX架構(gòu),在主板上配置16個(gè)封裝和GPU芯片。具體實(shí)現(xiàn)方式是,在每個(gè)SXM模塊上安裝2個(gè)單芯片封裝(總共8個(gè)這樣的模塊)。

英偉達(dá)選擇這種方案而非繼續(xù)使用8個(gè)雙芯片B300的原因尚不明確;高級(jí)分析師推測,采用更小尺寸的CoWoS封裝模塊和基板所帶來的良率提升可能是主要考慮因素。

值得注意的是,封裝技術(shù)將采用CoWoS-L而非CoWoS-S,這一決策意義重大。

此前選擇單芯片B300A是出于CoWoS-S的成熟度和產(chǎn)能考慮。此次轉(zhuǎn)向CoWoS-L表明該技術(shù)已經(jīng)從最初的不穩(wěn)定狀態(tài)快速發(fā)展為成熟可靠的解決方案,良率也已達(dá)到穩(wěn)定水平。

這16個(gè)GPU將通過NVLink協(xié)議進(jìn)行通信,與B200 HGX的設(shè)計(jì)類似,兩組SXM模塊之間將配置兩個(gè)NVSwitch 5.0專用芯片(ASIC)。

另有一個(gè)新的變化是,不同于先前幾代HGX產(chǎn)品,B300 NVL16將不再使用Astera Labs的信號(hào)重定時(shí)器。不過,部分超大規(guī)模云計(jì)算服務(wù)商可能會(huì)選擇改用PCIe交換機(jī)。

B300的另一個(gè)重要特性是,將搭載全新的CX-8 NIC,該接口卡提供4條200Gbps通道,使InfiniBand總吞吐量達(dá)到800Gbps,較當(dāng)前Blackwell采用的CX-7網(wǎng)絡(luò)接口卡的網(wǎng)絡(luò)速度翻了一番。

Vera Rubin:3nm制程,首個(gè)全自研CPU

Rubin將在臺(tái)積電3nm工藝上,采用兩個(gè)掩模尺寸的計(jì)算芯片。

這些計(jì)算芯片兩側(cè)將各配備一個(gè)I/O(輸入/輸出)芯片,整合所有NVLink、PCIe和NVLink C2C IP的SerDes,這樣可以為主計(jì)算芯片釋放更多空間用于核心計(jì)算功能。

Rubin將提供驚人的50 PFLOPs的密集FP4計(jì)算能力,相比B300提升了超過3倍。英偉達(dá)通過以下幾個(gè)關(guān)鍵方向?qū)崿F(xiàn)了這一突破:

  1. 首先,如前所述,獨(dú)立的I/O芯片設(shè)計(jì)釋放了大約20-30%的芯片面積,這些空間可用于增加流式多處理器和張量核心的數(shù)量。
  2. 其次,Rubin將采用3nm制程工藝,可選用定制的英偉達(dá)3NP或標(biāo)準(zhǔn)N3P工藝。從Blackwell世代的4NP工藝升級(jí)到3NP,邏輯密度獲得顯著提升,但SRAM的尺寸幾乎保持不變。
  3. 第三,Rubin的熱設(shè)計(jì)功耗(TDP)將提升至約1800瓦,這可能支持更高的運(yùn)行頻率。
  4. 最后是架構(gòu)層面的scaling。英偉達(dá)在每代產(chǎn)品中都采用更大規(guī)模的張量核心脈動(dòng)陣列。

據(jù)分析,這一規(guī)模從Hopper架構(gòu)的32×32,增加到了Blackwell的64×64,在Rubin中可能會(huì)進(jìn)一步擴(kuò)大到128×128。

更大的脈動(dòng)陣列能夠提供更好的數(shù)據(jù)復(fù)用效率和更低的控制復(fù)雜度,在面積利用率和功耗效率方面都具有優(yōu)勢。

雖然編程難度隨之增加,這也是英偉達(dá)沒有像谷歌TPU那樣采用256×256規(guī)模的原因之一。

同時(shí),這種設(shè)計(jì)對(duì)制造良率也會(huì)產(chǎn)生影響。值得注意的是,英偉達(dá)的掩模尺寸單片芯片具有很高的參數(shù)良率,這得益于其架構(gòu)中內(nèi)置的冗余設(shè)計(jì)和可修復(fù)機(jī)制,包含眾多小型計(jì)算單元。

當(dāng)發(fā)現(xiàn)缺陷的計(jì)算單元時(shí),可以將其禁用,從而保證產(chǎn)品良率。

圖片

這與谷歌TPU采用的設(shè)計(jì)策略不同,后者使用數(shù)量較少但規(guī)模更大的張量核心,因此無法像英偉達(dá)的設(shè)計(jì)那樣靈活處理邏輯單元缺陷。

Rubin將延續(xù)GB200/300 NVL72所采用的Oberon機(jī)架架構(gòu)。它將搭配Vera CPU,采用3nm制程的Grace 繼任者。

值得注意的是,Vera是由英偉達(dá)自主設(shè)計(jì),采用全定制Arm核心。

此外,英偉達(dá)還開發(fā)了獨(dú)特的互聯(lián)架構(gòu),使單個(gè)CPU核心能夠根據(jù)需要訪問更大的內(nèi)存帶寬,這一點(diǎn)是AMD和英特爾CPU目前面臨的重大技術(shù)挑戰(zhàn)。

這就引出了新的命名方式。盡管新機(jī)架實(shí)際只配備72個(gè)GPU封裝,包含144個(gè)計(jì)算芯片,即72個(gè)封裝×每封裝2個(gè)計(jì)算芯片,但將被命名為VR200 NVL144。

不得不說,英偉達(dá)是如此富有創(chuàng)新精神,連GPU的計(jì)數(shù)方式都在改變!

在內(nèi)存方面,英偉達(dá)HBM容量將維持在288GB,但升級(jí)到了HBM4技術(shù):采用8堆12層設(shè)計(jì),保持每層24GB的密度。

升級(jí)到HBM4帶來了顯著的帶寬提升,總帶寬達(dá)到13TB/s,這主要得益于總線寬度翻倍至2048位,以及達(dá)到當(dāng)前JEDEC標(biāo)準(zhǔn)上限的6.5Gbps引腳速度。

互聯(lián)技術(shù)方面,新產(chǎn)品將采用第六代NVLink,通過翻倍通道數(shù)實(shí)現(xiàn)速度翻倍,達(dá)到3.6TB/s(雙向)。英偉達(dá)將繼續(xù)使用 224G 串并轉(zhuǎn)換器(SerDes)技術(shù)。

關(guān)于Oberon機(jī)架,它將繼續(xù)使用銅質(zhì)背板,但分析師預(yù)計(jì)隨著每個(gè)GPU通道數(shù)的翻倍,連接電纜的數(shù)量也會(huì)相應(yīng)翻倍。

在交換技術(shù)方面,NVSwitch專用芯片的總帶寬也將實(shí)現(xiàn)翻倍,同樣是通過增加通道數(shù)來實(shí)現(xiàn)的。

圖片

Rubin Ultra性能驚人,HBM達(dá)1024GB

Rubin Ultra將帶來革命性的性能提升。

英偉達(dá)在這款產(chǎn)品中將單個(gè)封裝HBM堆疊數(shù)量直接從8個(gè)提升至16個(gè)。其架構(gòu)采用4個(gè)掩模尺寸的GPU芯片呈線性排列,兩端各配備一個(gè)I/O芯片。

得益于計(jì)算面積的翻倍,密集FP4浮點(diǎn)運(yùn)算性能提升至100 PFLOPs。HBM容量達(dá)到驚人的1024GB,超過標(biāo)準(zhǔn)版Rubin的3.5倍。

這不僅體現(xiàn)在堆疊數(shù)量的翻倍,還包括密度和層數(shù)的提升。為實(shí)現(xiàn)單封裝1TB內(nèi)存容量,產(chǎn)品將采用16個(gè)HBM4E堆疊,每個(gè)堆疊包含16層、每層32Gb的DRAM核心芯片。

根據(jù)SemiAnalysis分析,這種封裝設(shè)計(jì)將在基板上采用雙中介層方案,以避免使用單個(gè)超大尺寸中介層(接近8個(gè)掩模尺寸)。

中間的兩個(gè)GPU芯片將通過D2D接口的超薄I/O芯片實(shí)現(xiàn)通信,信號(hào)傳輸通過基板完成。

這種設(shè)計(jì)需要使用超大型ABF基板,其尺寸將突破當(dāng)前JEDEC封裝標(biāo)準(zhǔn)的限制(長寬均為120毫米)。

在內(nèi)存系統(tǒng)方面,整體配備365TB快速內(nèi)存/二級(jí)LPDDR內(nèi)存。其中,每個(gè)Vera CPU配備1.2TB LPDDR,72個(gè)CPU總計(jì)提供86TB容量,剩余容量由每個(gè)GPU封裝配備的2TB LPDDR來實(shí)現(xiàn)。

這體現(xiàn)了自主研發(fā)的HBM基礎(chǔ)芯片功能:通過在基礎(chǔ)芯片上集成LPDDR內(nèi)存控制器來支持額外的二級(jí)內(nèi)存,這些內(nèi)存以LPCAMM模塊形式布置在電路板上的封裝周邊。這是對(duì)Vera CPU自帶二級(jí)內(nèi)存的重要補(bǔ)充。

同時(shí),這也標(biāo)志著創(chuàng)新的Kyber機(jī)架架構(gòu)的首次亮相。

圖片

全新Kyber機(jī)架:4個(gè)機(jī)柜,144塊GPU

Kyber機(jī)架架構(gòu)是此次發(fā)布的重要?jiǎng)?chuàng)新之一。

英偉達(dá)通過創(chuàng)新性地將機(jī)架旋轉(zhuǎn)90度來提升部署密度??紤]到NVL576配置(144個(gè)GPU封裝),這一設(shè)計(jì)在大規(guī)模集群部署方面實(shí)現(xiàn)了顯著的密度提升。

圖片

接下來,詳細(xì)對(duì)比Oberon和Kyber兩種機(jī)架架構(gòu)的主要區(qū)別。

1. 計(jì)算單元設(shè)計(jì):計(jì)算托盤采用90度旋轉(zhuǎn)設(shè)計(jì),以卡匣形式安裝,顯著提升機(jī)架密度。

2. 機(jī)架結(jié)構(gòu):每個(gè)機(jī)架配備4個(gè)機(jī)柜,每個(gè)機(jī)柜包含兩層共18個(gè)計(jì)算卡匣。

3. NVL576配置:

  • 每個(gè)計(jì)算卡匣裝配一個(gè)R300 GPU 和一個(gè)Vera CPU
  • 每個(gè)機(jī)柜總計(jì)36個(gè)R300 GPU和36個(gè)Vera CPU
  • 整體NVLink網(wǎng)絡(luò)規(guī)模達(dá)到144個(gè)GPU(合計(jì)576個(gè)計(jì)算芯片)

4. 互聯(lián)方案:采用PCB板背板替代傳統(tǒng)的銅纜背板,用于實(shí)現(xiàn)機(jī)架內(nèi)GPU與NVSwitch間的互聯(lián)。這一改變主要是為了解決在更緊湊空間內(nèi)布線的挑戰(zhàn)。

圖片

有趣的是,供應(yīng)鏈情報(bào)顯示,可能存在VR300 NVL 152版本(配備288個(gè)GPU封裝)的Kyber機(jī)架變體。

這一數(shù)字可以從GTC主題演講中展示的晶圓圖片得到證實(shí),其中標(biāo)紅顯示了288個(gè)GPU封裝。

SemiAnalysis推測這可能是一款正在開發(fā)中的產(chǎn)品型號(hào),旨在將機(jī)架密度NVLink網(wǎng)絡(luò)規(guī)模從GTC 2025展示的NVL576(144個(gè)GPU封裝)提升一倍,達(dá)到NVL 1152(288個(gè)封裝)的規(guī)模。

圖片

另一個(gè)重要進(jìn)展是第七代NVSwitch的推出。這是NVSwitch首次在平臺(tái)周期中期進(jìn)行升級(jí)。

新款交換芯片提供更高的聚合帶寬和端口數(shù),支持單個(gè)網(wǎng)絡(luò)域內(nèi)擴(kuò)展至576個(gè)GPU芯片(144個(gè)封裝)。

不過,網(wǎng)絡(luò)拓?fù)淇赡懿辉俨捎萌B接無阻塞的單層多平面優(yōu)化架構(gòu),而是改用具有一定超額認(rèn)購比的多平面優(yōu)化雙層網(wǎng)絡(luò)拓?fù)?,甚至可能采用非Clos架構(gòu)的創(chuàng)新拓?fù)湓O(shè)計(jì)。

Blackwell Ultra重疊計(jì)算,降低延遲

各種注意力機(jī)制變體(包括flash-attention、MLA、MQA和GQA)都需要進(jìn)行矩陣乘法(matmuls)和 softmax函數(shù)計(jì)算(包括行方向歸約和逐元素指數(shù)函數(shù))。

其中矩陣乘法又稱為GEMM,或通用矩陣乘法,專門用于處理神經(jīng)網(wǎng)絡(luò)計(jì)算中的矩陣乘法運(yùn)算。

在GPU架構(gòu)中,GEMM運(yùn)算由張量核心執(zhí)行。雖然張量核心的性能在每代產(chǎn)品中都有顯著提升,但負(fù)責(zé)逐元素指數(shù)計(jì)算(如softmax)的多功能單元(MUFU)的性能提升相對(duì)較小。

在采用bf16(bfloat16)格式的Hopper架構(gòu)中,注意力層的softmax計(jì)算需要消耗GEMM運(yùn)算50%的計(jì)算周期。

這迫使內(nèi)核工程師必須通過重疊計(jì)算來「掩蓋」softmax 的延遲,這大大增加了內(nèi)核編程的難度。

圖片

在采用FP8格式的Hopper架構(gòu)中,注意力層的softmax計(jì)算與GEMM運(yùn)算消耗相同的計(jì)算周期。

這意味著,如果不進(jìn)行任何重疊計(jì)算,注意力層的計(jì)算時(shí)間將翻倍:需要1536個(gè)周期用于矩陣乘法計(jì)算,再需要1536個(gè)周期進(jìn)行softmax計(jì)算。

這就是重疊計(jì)算發(fā)揮作用的地方。由于softmax和GEMM運(yùn)算需要相同的周期數(shù),內(nèi)核工程師需要優(yōu)化實(shí)現(xiàn)完美的重疊計(jì)算。

然而,完美的重疊在實(shí)際中是不可能實(shí)現(xiàn)的,根據(jù)Amdahl定律,這將導(dǎo)致硬件性能損失。

以上描述的挑戰(zhàn)主要存在于Hopper GPU架構(gòu)中,并且這個(gè)問題在第一代Blackwell中仍然存在。英偉達(dá)通過推出Blackwell Ultra來解決這個(gè)問題,他們重新設(shè)計(jì)了SM并增加了新的指令集來改進(jìn)性能。

在Blackwell Ultra中,用于計(jì)算注意力機(jī)制softmax部分的MUFU單元性能較標(biāo)準(zhǔn)Blackwell提升了2.5 倍。這大大降低了對(duì)完美重疊softma和 GEMM計(jì)算的要求。

借助MUFU的2.5倍性能提升,CUDA開發(fā)人員在實(shí)現(xiàn)重疊計(jì)算時(shí)有了更大的靈活性,同時(shí)不會(huì)影響注意力內(nèi)核的性能。

在這種情況下,英偉達(dá)全新的推理?xiàng):虳ynamo優(yōu)化引擎就能派上用場。

圖片

推理?xiàng)EcDynamo優(yōu)化引擎

在2023 GTC大會(huì)上,英偉達(dá)展示了GB200 NVL72憑借其72個(gè)GPU的大規(guī)模scaling能力,在FP8精度下實(shí)現(xiàn)了比H200高15倍的推理吞吐量。

而今年,英偉達(dá)的創(chuàng)新步伐不減。他們正通過硬件和軟件雙重突破,在多個(gè)維度推動(dòng)推理性能的提升。

新推出的Blackwell Ultra GB300 NVL72較GB200 NVL72在FP4密集計(jì)算方面提供了50%的性能提升,同時(shí)HBM容量也提升了50%。

這兩項(xiàng)提升都將直接促進(jìn)推理吞吐量的增長。

此外,產(chǎn)品路線圖中還包括Rubin世代多項(xiàng)網(wǎng)絡(luò)速度的升級(jí),這些改進(jìn)也將為推理吞吐量帶來實(shí)質(zhì)性提升。

在硬件層面,下一個(gè)重大突破將來自scaling網(wǎng)絡(luò)規(guī)模的提升:從Rubin的144個(gè)GPU芯片scaling到Rubin Ultra的576個(gè)GPU芯片。但這僅是硬件創(chuàng)新的一部分。

在軟件方面,英偉達(dá)發(fā)布了Nvidia Dynamo——這是一個(gè)致力于簡化推理部署和擴(kuò)展的開放式AI引擎技術(shù)棧。

它有望超越現(xiàn)有的VLLM和SGLang解決方案,不僅提供了VLLM所不具備的多項(xiàng)功能,還實(shí)現(xiàn)了更高的性能。

結(jié)合硬件層面的創(chuàng)新,Dynamo將進(jìn)一步推動(dòng)吞吐量與交互性能力的提升,尤其在高交互性應(yīng)用場景中可以實(shí)現(xiàn)更高的吞吐量。

圖片

Dynamo為現(xiàn)有推理加速技術(shù)棧引入了以下幾項(xiàng)關(guān)鍵創(chuàng)新功能:

1. 智能路由(Smart Router)

2. GPU任務(wù)規(guī)劃器(GPU Planner)

3. 增強(qiáng)型NCCL集合通信框架(Improved NCCL Collective)

4. NIXL(NVIDIA Inference Transfer Engine)

5. NVMe KV-Cach智能卸載系統(tǒng)

智能路由

智能路由管理系統(tǒng)在多GPU推理部署環(huán)境中,可以智能地將輸入序列中的每個(gè)token精確分配至負(fù)責(zé)預(yù)填充和解碼任務(wù)的GPU。

在預(yù)填充階段,系統(tǒng)確保輸入token均勻分布到執(zhí)行預(yù)填充任務(wù)的各個(gè) GPU,從而避免在專家模塊上出現(xiàn)性能瓶頸。

同樣,在解碼階段,系統(tǒng)著重確保序列長度和請(qǐng)求在執(zhí)行解碼的各個(gè)GPU之間實(shí)現(xiàn)最優(yōu)分配和負(fù)載均衡。

對(duì)于那些訪問頻率較高的專家模塊,GPU任務(wù)規(guī)劃器還可以創(chuàng)建額外的副本以維持整體負(fù)載平衡。

此外,該路由系統(tǒng)還能在服務(wù)于同一模型的多個(gè)副本之間實(shí)現(xiàn)負(fù)載均衡,這是當(dāng)前主流推理引擎(如vLLM等)所不具備的重要特性。

圖片

GPU任務(wù)規(guī)劃器

GPU任務(wù)規(guī)劃器是一個(gè)智能化的資源調(diào)度系統(tǒng),可以自動(dòng)管理預(yù)填充和解碼節(jié)點(diǎn)的動(dòng)態(tài)擴(kuò)縮。

該系統(tǒng)能夠根據(jù)全天負(fù)載的自然波動(dòng)情況,靈活調(diào)整計(jì)算節(jié)點(diǎn)數(shù)量。在MoE中,規(guī)劃器可以在預(yù)填充和解碼兩類節(jié)點(diǎn)上實(shí)現(xiàn)多個(gè)專家模塊之間的負(fù)載均衡。

當(dāng)某些專家模塊負(fù)載較高時(shí),規(guī)劃器會(huì)自動(dòng)配置額外的GPU資源提供計(jì)算支持。

此外,系統(tǒng)還能根據(jù)實(shí)時(shí)需求在預(yù)填充和解碼節(jié)點(diǎn)之間進(jìn)行動(dòng)態(tài)資源重分配,從而最大化資源利用效率。

該系統(tǒng)的一個(gè)重要特性是支持動(dòng)態(tài)調(diào)整解碼和預(yù)填充任務(wù)的GPU分配比例。

這項(xiàng)功能在深度研究等特定場景中特別有價(jià)值:由于這類應(yīng)用需要處理海量上下文信息,但實(shí)際生成的內(nèi)容相對(duì)較少,因此需要分配更多資源用于預(yù)填充處理而非解碼任務(wù)。

圖片

增強(qiáng)型NCCL集合通信框架

英偉達(dá)在其集合通信庫(NCCL)中引入了一組全新的低延遲通信算法。這些算法可以將小規(guī)模消息傳輸?shù)难舆t降低至原來的1/4,從而顯著提升整體推理性能和吞吐量。

在今年的GTC大會(huì)上,Sylvain的技術(shù)演講深入介紹了這些創(chuàng)新特性,重點(diǎn)闡述了新開發(fā)的one-shot和two-shot全規(guī)約算法,這些算法是性能提升的核心所在。

值得注意的是,AMD的RCCL庫本質(zhì)上是NVIDIA NCCL的一個(gè)分支復(fù)制版本。

因此,Sylvain主導(dǎo)的NCCL架構(gòu)重構(gòu)不僅進(jìn)一步鞏固了CUDA生態(tài)系統(tǒng)的技術(shù)優(yōu)勢,還迫使AMD團(tuán)隊(duì)不得不投入數(shù)千工程師小時(shí)來將英偉達(dá)的重構(gòu)更新同步到RCCL。在AMD忙于同步代碼變更的同時(shí),英偉達(dá)則可以繼續(xù)專注于推進(jìn)集合通信軟件棧和算法的創(chuàng)新發(fā)展。

圖片

NIXL

為了實(shí)現(xiàn)預(yù)填充節(jié)點(diǎn)和解碼節(jié)點(diǎn)之間的高效數(shù)據(jù)傳輸,需要采用低延遲、高帶寬的通信傳輸庫。

NIXL采用了創(chuàng)新的InfiniBand GPU異步初始化(IBGDA)技術(shù)。在當(dāng)前的NCCL架構(gòu)中,控制流需要通過CPU代理線程進(jìn)行處理,而數(shù)據(jù)流可以直接傳輸?shù)絅IC,無需經(jīng)過CPU緩沖區(qū)。

而采用IBGDA技術(shù)后,控制流和數(shù)據(jù)流都能夠繞過CPU,實(shí)現(xiàn)從GPU到網(wǎng)絡(luò)接口卡的直接傳輸。

此外,NIXL還通過抽象化簡化了各種存儲(chǔ)和內(nèi)存設(shè)備之間的數(shù)據(jù)傳輸復(fù)雜度,包括簡化CXL、本地NVMe 、遠(yuǎn)程N(yùn)VMe 、CPU內(nèi)存、遠(yuǎn)程 GPU內(nèi)存和本地GPU內(nèi)存。

圖片

NVMe KV-Cache智能卸載系統(tǒng)

KV緩存智能卸載管理系統(tǒng)采用創(chuàng)新方式,將用戶歷史對(duì)話產(chǎn)生的鍵值緩存保存在NVMe存儲(chǔ)設(shè)備中,而不是直接廢棄,從而顯著提升了整體預(yù)填充效率。

圖片

在用戶與LLM進(jìn)行多輪對(duì)話時(shí),模型需要將對(duì)話歷史中的問題和回答作為上下文輸入進(jìn)行處理。

在傳統(tǒng)實(shí)現(xiàn)中,推理系統(tǒng)會(huì)丟棄用于生成早期對(duì)話的鍵值緩存,這導(dǎo)致系統(tǒng)在處理后續(xù)對(duì)話時(shí)需要重新計(jì)算這些緩存內(nèi)容,造成重復(fù)計(jì)算。

而采用NVMe KV緩存卸載技術(shù)后,當(dāng)用戶暫時(shí)離開對(duì)話時(shí),系統(tǒng)會(huì)將鍵值緩存臨時(shí)保存到NVMe存儲(chǔ)系統(tǒng)中。

當(dāng)用戶返回并繼續(xù)對(duì)話時(shí),系統(tǒng)可以快速從NVMe存儲(chǔ)中恢復(fù)這些緩存數(shù)據(jù),避免了重復(fù)計(jì)算的開銷。

這項(xiàng)創(chuàng)新帶來兩個(gè)重要優(yōu)勢:

  1. 提升資源利用效率:釋放預(yù)填充節(jié)點(diǎn)的處理能力,支持更高的并發(fā)量,或降低所需的預(yù)填充部署規(guī)模
  2. 優(yōu)化用戶體驗(yàn):由于直接檢索緩存比重新計(jì)算更快,顯著減少了首個(gè)token的生成延遲

圖片

根據(jù)DeepSeek在GitHub上發(fā)布的第六天研發(fā)記錄顯示,其磁盤KV緩存的命中率達(dá)到了56.3%,這一數(shù)據(jù)表明其預(yù)填充部署效率獲得了顯著提升。

實(shí)踐表明,在用戶進(jìn)行多輪對(duì)話場景中,此類部署的典型KV緩存命中率通常在50-60%之間。

雖然部署NVMe存儲(chǔ)解決方案需要一定成本投入,存在一個(gè)效益平衡點(diǎn):對(duì)于較短的對(duì)話,直接重新計(jì)算比重新加載更經(jīng)濟(jì)高效;但在長對(duì)話場景下,該方案可以帶來巨大的性能收益。

對(duì)于持續(xù)關(guān)注DeepSeek開源周的開發(fā)者來說,上述技術(shù)都不會(huì)陌生。

在英偉達(dá)完善Dynamo技術(shù)文檔的同時(shí),上述內(nèi)容為開發(fā)者提供了快速了解這些技術(shù)的絕佳渠道。

這些創(chuàng)新功能的集成帶來了全方位的推理性能提升。英偉達(dá)還特別介紹了Dynamo在現(xiàn)有H100節(jié)點(diǎn)上部署后帶來的性能改進(jìn)。

從本質(zhì)上說,Dynamo實(shí)現(xiàn)了對(duì)DeepSeek創(chuàng)新技術(shù)的民主化,讓整個(gè)開發(fā)社區(qū)都能夠共享開源模型技術(shù)的最新成果。這意味著不僅是那些擁有強(qiáng)大推理部署工程團(tuán)隊(duì)的頂級(jí)AI實(shí)驗(yàn)室,所有開發(fā)者都能夠部署高效的推理系統(tǒng)。

最后,由于Dynamo在分布式推理和專家并行計(jì)算方面具有廣泛的適用性,它在獨(dú)立復(fù)制和高交互性部署場景中表現(xiàn)尤為出色。

當(dāng)然,要充分發(fā)揮Dynamo的性能優(yōu)勢并實(shí)現(xiàn)顯著改進(jìn),必須具備多節(jié)點(diǎn)的硬件基礎(chǔ)設(shè)施。

圖片

AI總擁有成本暴降99.97%

在結(jié)束Blackwell介紹后,老黃通過一個(gè)引人注目的說法強(qiáng)調(diào)了技術(shù)創(chuàng)新的影響力——這些創(chuàng)新使他成為了「降價(jià)推動(dòng)者」。

具體而言,Blackwell相較于上一代Hopper架構(gòu),實(shí)現(xiàn)了高達(dá)68倍的性能提升,使總成本降低了87%。

而下一代Rubin架構(gòu)的性能預(yù)計(jì)將比Hopper提升900倍,預(yù)計(jì)可使成本降低99.97%。

顯然,英偉達(dá)正在保持高速的技術(shù)創(chuàng)新步伐。正如老黃所說,「一旦Blackwell開始規(guī)?;鲐洠琀opper即使免費(fèi)提供也將無人問津」。

長期以來,SemiAnalysis持續(xù)建議生態(tài)系統(tǒng)合作伙伴優(yōu)先考慮部署B(yǎng)200和GB200 NVL72等新一代系統(tǒng),而非采購H100或H200。

事實(shí)上,H100租賃價(jià)格預(yù)測模型正是基于老黃所闡述的這一原理。

高級(jí)分析師綜合考慮了未來市場裝機(jī)量預(yù)測、集群總擁有成本以及下一代芯片性能等因素,構(gòu)建了完整的價(jià)格預(yù)測曲線。

該預(yù)測框架迄今表現(xiàn)出色:他們于2024年4月首次向客戶發(fā)布的H100租賃價(jià)格預(yù)測模型,從2024年初至今的預(yù)測準(zhǔn)確率高達(dá)98%。

圖片

首個(gè)光學(xué)封裝CPO,功耗節(jié)省12%

在主題演講中,英偉達(dá)發(fā)布了其首個(gè)用于擴(kuò)展型交換機(jī)的同封裝光學(xué)解決方案。

這項(xiàng)技術(shù)將傳統(tǒng)的光學(xué)收發(fā)器替換為外部激光源(ELS),并將光學(xué)引擎(OE)直接集成在芯片硅片旁邊,實(shí)現(xiàn)數(shù)據(jù)通信。

在新架構(gòu)中,光纖電纜不再連接傳統(tǒng)收發(fā)器端口,而是直接插入交換機(jī)上與光學(xué)引擎相連的專用端口。

CPO技術(shù)帶來的主要優(yōu)勢是顯著降低功耗,這源于多個(gè)方面:

  1. 交換機(jī)本身不再需要數(shù)字信號(hào)處理器(DSP)
  2. 可以使用更低功率的激光光源
  3. 雖然使用線性可插拔光學(xué)(LPO)收發(fā)器也能實(shí)現(xiàn)部分節(jié)能,但CPO獨(dú)特的優(yōu)勢在于支持更大的交換機(jī)基數(shù),使網(wǎng)絡(luò)層級(jí)從三層簡化為兩層
  4. 減少網(wǎng)絡(luò)層級(jí)不僅消除了一整層交換設(shè)備,還帶來了可觀的成本和能耗節(jié)省

根據(jù)SemiAnalysis分析,在部署400,000個(gè)GB200 NVL72設(shè)備的場景中,從傳統(tǒng)的基于DSP收發(fā)器的三層網(wǎng)絡(luò)遷移到基于CPO的兩層網(wǎng)絡(luò),可以實(shí)現(xiàn)高達(dá)12%的集群總功耗節(jié)省,將收發(fā)器功耗占比從計(jì)算資源的10%降低到僅1%。

圖片

英偉達(dá)本次發(fā)布了多款采用CPO技術(shù)的交換機(jī)產(chǎn)品:

  • Quantum X-800 3400 CPO版本(原型于2024年GTC發(fā)布)

a.144個(gè)800 Gbps端口

b.總吞吐量:115Tbps

c.配置:144個(gè)MPO端口 + 18個(gè)ELS

d.預(yù)計(jì)2025年下半年推出

  • Spectrum-X以太網(wǎng)CPO交換機(jī)
  • 512個(gè)800 Gbps端口
  • 支持高速大基數(shù)配置,實(shí)現(xiàn)快速扁平化網(wǎng)絡(luò)拓?fù)?/span>
  • 預(yù)計(jì)2026年下半年推出

雖然此次發(fā)布已經(jīng)展現(xiàn)出突破性的技術(shù)創(chuàng)新,但高級(jí)分析師認(rèn)為這僅是英偉達(dá)在CPO領(lǐng)域的起步。

從長遠(yuǎn)來看,CPO 技術(shù)在擴(kuò)展網(wǎng)絡(luò)中可能帶來更大的價(jià)值:它有潛力大幅提升GPU的網(wǎng)絡(luò)基數(shù)和總帶寬,實(shí)現(xiàn)更高效的扁平化擴(kuò)展網(wǎng)絡(luò)架構(gòu),突破當(dāng)前576個(gè)GPU的規(guī)模限制。

英偉達(dá)穩(wěn)坐王座,正重塑計(jì)算成本格局

The Information一篇文章稱,亞馬遜將Trainium芯片的價(jià)格定在H100的25%。

圖片

與此同時(shí),老黃會(huì)上表示「當(dāng) Blackwell大規(guī)模量產(chǎn)后,就算免費(fèi)送H100也沒人要」。

高級(jí)分析師認(rèn)為,后一種說法極具深意。

技術(shù)繼續(xù)驅(qū)動(dòng)著總擁有成本,在我們所見的各個(gè)領(lǐng)域(可能除了TPU),都能看到競爭對(duì)手在復(fù)制英偉達(dá)的技術(shù)路線圖。與此同時(shí),老黃正在推動(dòng)技術(shù)發(fā)展的邊界。

新架構(gòu)、機(jī)架結(jié)構(gòu)、算法改進(jìn)和CPO技術(shù),每一項(xiàng)都體現(xiàn)了英偉達(dá)與競爭對(duì)手的技術(shù)差異。

英偉達(dá)目前在幾乎所有領(lǐng)域都處于領(lǐng)先地位,當(dāng)競爭對(duì)手追趕上來時(shí),他們就會(huì)在另一個(gè)進(jìn)步方向上推進(jìn)。

隨著英偉達(dá)保持年度更新節(jié)奏,SemiAnalysis預(yù)計(jì)這種趨勢將會(huì)持續(xù)。

雖然有人說ASIC是計(jì)算的未來,但從CPU時(shí)代就看到,一個(gè)快速改進(jìn)的通用平臺(tái)是很難被超越的。

英偉達(dá)正在用GPU重新創(chuàng)造這個(gè)平臺(tái),高級(jí)分析師預(yù)計(jì)他們將繼續(xù)引領(lǐng)行業(yè)發(fā)展。

想要追趕這位「營收終結(jié)者」可不容易。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2023-11-21 09:14:33

微軟Azure AI

2024-05-27 00:50:00

2023-09-14 13:23:00

AI芯片

2023-03-22 10:09:26

AIChatGPT

2025-04-22 09:47:07

2023-09-11 12:58:00

AI訓(xùn)練

2023-08-14 08:07:46

ChatGPTAI

2024-03-13 11:49:04

人工智能Meta數(shù)據(jù)中心

2023-05-11 08:48:58

谷歌超級(jí)計(jì)算機(jī)

2023-09-18 12:50:16

訓(xùn)練數(shù)據(jù)

2023-06-14 12:08:51

2023-09-10 12:37:38

模型英偉達(dá)

2023-08-09 17:19:54

服務(wù)器計(jì)算

2023-08-06 13:01:34

AI開發(fā)

2023-07-13 23:16:19

英偉達(dá)GPU

2023-09-27 12:57:37

AI研究

2024-09-05 14:10:00

AI計(jì)算

2024-03-14 14:49:34

Meta人工智能

2025-03-18 09:36:04

2023-10-18 13:17:12

AI芯片英偉達(dá)美國
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)