自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

最近很火的“超節(jié)點(diǎn)”，到底是干啥的？

作者：小棗君 2025-04-29 00:00:00

網(wǎng)絡(luò)

在各大展會論壇上，超節(jié)點(diǎn)頻繁亮相。行業(yè)大佬們也紛紛搖旗吶喊，認(rèn)為它將是智算發(fā)展的重要趨勢，迎來一波發(fā)展熱潮。那么，到底什么是超節(jié)點(diǎn)呢？我們?yōu)槭裁磿枰?jié)點(diǎn)呢？

最近這段時(shí)間，有一個(gè)新名詞在AI圈里迅速走紅，那就是——超節(jié)點(diǎn)。

在各大展會論壇上，超節(jié)點(diǎn)頻繁亮相。行業(yè)大佬們也紛紛搖旗吶喊，認(rèn)為它將是智算發(fā)展的重要趨勢，迎來一波發(fā)展熱潮。

那么，到底什么是超節(jié)點(diǎn)呢？我們?yōu)槭裁磿枰?jié)點(diǎn)呢？

今天這篇文章，小棗君就給大家做一個(gè)深入解讀。

什么是超節(jié)點(diǎn)？

超節(jié)點(diǎn)，英文名叫SuperPod，是英偉達(dá)公司最先提出的概念。

大家都知道，GPU是重要的算力硬件，為AIGC大模型的訓(xùn)推提供了有力的支撐。

隨著大模型參數(shù)規(guī)模的不斷增長，對GPU集群的規(guī)模需求，也在不斷增長。從千卡級到萬卡級，再到十萬卡級，將來甚至可能更大。

那么，我們該如何構(gòu)建規(guī)模越來越大的GPU集群呢？

答案很簡單，就是Scale Up和Scale Out。

Scale Up，是向上擴(kuò)展，也叫縱向擴(kuò)展，增加單節(jié)點(diǎn)的資源數(shù)量。Scale Out，是向外擴(kuò)展，也叫橫向擴(kuò)展，增加節(jié)點(diǎn)的數(shù)量。

每臺服務(wù)器里，多塞幾塊GPU，這就是Scale Up。這時(shí)，一臺服務(wù)器就是一個(gè)節(jié)點(diǎn)。

通過網(wǎng)絡(luò)，將多臺電腦（節(jié)點(diǎn)）連接起來，這就是Scale Out。

先說說Scale Up。

對于單臺服務(wù)器來說，受限于空間、功耗和散熱，能塞入的GPU數(shù)量是有限的，一般也就8卡、12卡。

塞入這么多塊GPU，還要考慮服務(wù)器的內(nèi)部通信能力是否能夠支持。如果GPU互連存在瓶頸，那么就達(dá)不到Scale Up的預(yù)期效果。

以前，計(jì)算機(jī)內(nèi)部主要基于PCIe協(xié)議，數(shù)據(jù)傳輸速率慢，時(shí)延高，根本無法滿足要求。

2014年，英偉達(dá)為了解決這個(gè)問題，專門推出了自家私有的NVLINK總線協(xié)議。NVLINK允許GPU之間以點(diǎn)對點(diǎn)方式進(jìn)行通信，速度遠(yuǎn)高于PCIe，時(shí)延也低得多。

圖片來自：英偉達(dá)官網(wǎng)

NVLINK原本只用于機(jī)器內(nèi)部通信。2022年，英偉達(dá)將NVSwitch芯片獨(dú)立出來，變成了NVLink交換機(jī)，用于連接服務(wù)器之間的GPU設(shè)備。這意味著，節(jié)點(diǎn)已經(jīng)不再僅限于1臺服務(wù)器了，而是可以由多臺服務(wù)器和網(wǎng)絡(luò)設(shè)備共同組成。

這些設(shè)備處于同一個(gè)HBD（High Bandwidth Domain，超帶寬域）。英偉達(dá)將這種以超大帶寬互聯(lián)16卡以上GPU-GPU的Scale Up系統(tǒng)，稱為超節(jié)點(diǎn)。

歷經(jīng)多年的發(fā)展，NVLINK已經(jīng)迭代到第五代。每塊GPU擁有18個(gè)NVLink連接，Blackwell GPU的總帶寬可達(dá)到1800GB/秒，遠(yuǎn)遠(yuǎn)超過PCIe Gen6的總線帶寬。

2024年3月，英偉達(dá)發(fā)布了NVL72，可以將36個(gè)Grace CPU和72個(gè)Blackwell GPU集成到一個(gè)液冷機(jī)柜中，實(shí)現(xiàn)總計(jì)720 PFLOPs的AI訓(xùn)練性能，或1440 PFLOPs的推理性能。

英偉達(dá)GB200 NVL72機(jī)柜（來自英偉達(dá)GTC大會直播）

超節(jié)點(diǎn)，有哪些優(yōu)點(diǎn)？

說到這里，大家可能會提出疑問——為什么一定要搞超節(jié)點(diǎn)呢？如果Scale Up這條路線不好走，我們就走Scale Out路線，增加節(jié)點(diǎn)數(shù)，不也能做出大規(guī)模GPU集群嗎？

答案很簡單。之所以要搞超節(jié)點(diǎn)這種加強(qiáng)版的Scale Up，是因?yàn)樵谛阅?、成本、組網(wǎng)、運(yùn)維等方面，能帶來巨大優(yōu)勢。

Scale Out，考驗(yàn)的是節(jié)點(diǎn)之間的通信能力。目前，主要采用的通信網(wǎng)絡(luò)技術(shù)，是Infiniband（IB）和RoCEv2。

這兩個(gè)技術(shù)都是基于RDMA（遠(yuǎn)程直接內(nèi)存訪問）協(xié)議，擁有比傳統(tǒng)以太網(wǎng)更高的速率、更低的時(shí)延，負(fù)載均衡能力也更強(qiáng)。

IB是英偉達(dá)的私有技術(shù)，起步早，性能強(qiáng)，價(jià)格貴。RoCEv2是開放標(biāo)準(zhǔn)，是傳統(tǒng)以太網(wǎng)融合RDMA的產(chǎn)物，價(jià)格便宜。兩者之間的差距，在不斷縮小。

在帶寬方面，IB和RoCEv2僅能提供Tbps級別的帶寬。而Scale Up，能夠?qū)崿F(xiàn)數(shù)百個(gè)GPU間10Tbps帶寬級別的互聯(lián)。

在時(shí)延方面，IB和RoCEv2的時(shí)延時(shí)延高達(dá)10微秒。而Scale Up對網(wǎng)絡(luò)時(shí)延的要求極為嚴(yán)苛，需要達(dá)到百納秒（100納秒=0.1微秒）級別。

在AI訓(xùn)練過程中，包括多種并行計(jì)算方式，例如TP（張量并行）、 EP（專家并行）、PP（流水線并行）和DP（數(shù)據(jù)并行）。

通常來說，PP和DP的通信量較小，一般交給Scale Out搞定。而TP和EP的通信量大，需要交給Scale Up（超節(jié)點(diǎn)內(nèi)部）搞定。

超節(jié)點(diǎn)，作為Scale Up的當(dāng)前最優(yōu)解，通過內(nèi)部高速總線互連，能夠有效支撐并行計(jì)算任務(wù)，加速GPU之間的參數(shù)交換和數(shù)據(jù)同步，縮短大模型的訓(xùn)練周期。

超節(jié)點(diǎn)一般也都會支持內(nèi)存語義能力，GPU之間可以直接讀取對方的內(nèi)存，這也是Scale Out不具備的。

站在組網(wǎng)和運(yùn)維的角度來看，超節(jié)點(diǎn)也有明顯優(yōu)勢。

超節(jié)點(diǎn)的HBD（超帶寬域）越大，Scale Up的GPU越多，Scale Out的組網(wǎng)就越簡單，大幅降低組網(wǎng)復(fù)雜度。

Scale Up & Scale Out組網(wǎng)示意圖

超節(jié)點(diǎn)是一個(gè)高度集成的小型集群，內(nèi)部總線已經(jīng)連好。這也降低了網(wǎng)絡(luò)部署的難度，縮短了部署周期。后期的運(yùn)維，也會方便很多。

當(dāng)然，超節(jié)點(diǎn)也不能無限大，也要考慮本身的成本因素。具體的規(guī)模，需要根據(jù)需求場景進(jìn)行測算。

概括來說，超節(jié)點(diǎn)的優(yōu)勢，就是增加局部的帶寬，減少增加全局帶寬的成本，以此獲得更大的收益。

超節(jié)點(diǎn)，有哪些可選的方案？

正因?yàn)槌?jié)點(diǎn)擁有顯著的優(yōu)勢，所以，在英偉達(dá)提出這一概念后，立刻受到了業(yè)界的關(guān)注。也有很多廠商，加入到超節(jié)點(diǎn)的研究之中。

當(dāng)前，業(yè)界主流的超節(jié)點(diǎn)方案，主要包括如下幾種：

一、私有協(xié)議方案。

代表廠商，當(dāng)然就是英偉達(dá)。

除了英偉達(dá)之外，國內(nèi)大廠華為，前段時(shí)間高調(diào)發(fā)布的AI核彈級技術(shù)——CloudMatrix 384超節(jié)點(diǎn)，也屬于私有協(xié)議。

CloudMatrix 384以384張昇騰算力卡組成一個(gè)超節(jié)點(diǎn)，在目前已商用的超節(jié)點(diǎn)中單體規(guī)模最大，可提供高達(dá)300 PFLOPs的密集BF16算力，接近達(dá)到英偉達(dá)GB200 NVL72系統(tǒng)的兩倍。

華為CloudMatrix 384超節(jié)點(diǎn)（來自華為云生態(tài)大會）

二、開放組織方案。

有私有協(xié)議，當(dāng)然就會有開放標(biāo)準(zhǔn)?；ヂ?lián)網(wǎng)時(shí)代，開放解耦是大勢所趨。

私有協(xié)議往往意味著高昂的成本。對于AI這個(gè)熱門方向來說，發(fā)展開放標(biāo)準(zhǔn)，有利于降低行業(yè)門檻，幫助實(shí)現(xiàn)技術(shù)平權(quán)。

目前來看，超節(jié)點(diǎn)的開放標(biāo)準(zhǔn)還不止一個(gè)，但基本上都是以以太網(wǎng)技術(shù)（ETH）為基礎(chǔ)。因?yàn)橐蕴W(wǎng)技術(shù)最成熟、最開放，也擁有最多的參與企業(yè)。

從技術(shù)的角度來看，以太網(wǎng)具有最大交換芯片容量（單芯片51.2T已商用）、最高速Serdes技術(shù)（目前達(dá)到112Gbps），交換芯片時(shí)延也很低（200ns），完全可以滿足Scale Up的性能要求。

在超節(jié)點(diǎn)開放標(biāo)準(zhǔn)中，其中比較有代表性的，是由開放數(shù)據(jù)中心委員會（ODCC）主導(dǎo)、中國信通院與騰訊牽頭設(shè)計(jì)的ETH-X開放超節(jié)點(diǎn)項(xiàng)目。

這個(gè)項(xiàng)目一共有30余家產(chǎn)學(xué)研機(jī)構(gòu)共同參與。其中，既包括運(yùn)營商（中國移動(dòng)）、云廠商（騰訊等），也包括設(shè)備商（銳捷、中興等）、算卡提供商（燧原科技、壁仞科技等）商，以及高速互連技術(shù)方案提供商（立訊技術(shù)等）。

我們來簡單了解一下ETH-X開放超節(jié)點(diǎn)的技術(shù)細(xì)節(jié)。

ETH-X基于以太網(wǎng)技術(shù)構(gòu)建大帶寬、彈性可擴(kuò)展的HBD，具備高算力密度、高互聯(lián)帶寬、高功率密度和高能效等特點(diǎn)。

值得注意的是，ETH-X不僅包括了Scale Up，也包括了Scale Out。典型的組網(wǎng)拓?fù)?，如下圖所示：

ETH-X網(wǎng)絡(luò)架構(gòu)圖（來自O(shè)DCC）

根據(jù)騰訊在2024開放數(shù)據(jù)中心大會提供的數(shù)據(jù)，基于ETH-X超節(jié)點(diǎn)，在訓(xùn)練場景下，LLama-70B稠密型模型在64K集群下的性能/成本進(jìn)行對比，采用256卡的Scale Up，比8卡的Scale Up低了38%的訓(xùn)練成本。

在推理場景下，LLama-70B在FP4精度128卡實(shí)例推理性能/成本對比中，256卡的Scale Up比8卡的Scale Up增加了40.48%的推理收益。

這個(gè)效果還是非常不錯(cuò)的。

目前，ETH-X超節(jié)點(diǎn)技術(shù)規(guī)范1.0已經(jīng)發(fā)布。不久前（4月8日），ETH-X開放超節(jié)點(diǎn)項(xiàng)目在華勤技術(shù)東莞智能制造基地，舉行了首臺原型機(jī)的下線點(diǎn)亮儀式。

圖片來自O(shè)DCC

我們再來看看ETH-X開放超節(jié)點(diǎn)的實(shí)物架構(gòu)。

AI Rack整機(jī)柜是ETH-X超節(jié)點(diǎn)的具體實(shí)現(xiàn)方式。整機(jī)柜內(nèi)Serdes速率目前最高支持112Gbps，未來支持到224Gbps。

機(jī)柜包括計(jì)算節(jié)點(diǎn)、交換節(jié)點(diǎn)和關(guān)鍵組件。

AI Rack整機(jī)柜布局（來自O(shè)DCC）

整機(jī)柜內(nèi)部可以實(shí)現(xiàn)多GPU間NOC（Network-on-Chip）級通信拓?fù)?，通過統(tǒng)一內(nèi)存編址與內(nèi)存語義接口，支持跨GPU直接訪問（Direct Access）與零拷貝傳輸（Direct Copy）。

根據(jù)實(shí)際測試的數(shù)據(jù)，跨卡數(shù)據(jù)訪問時(shí)延能夠降低12.7倍，動(dòng)態(tài)重構(gòu)8~512卡超節(jié)點(diǎn)的彈性組合單元。

在關(guān)鍵組件中，Cable Tray特別值得關(guān)注。

Cable Tray（圖片來自：立訊技術(shù)公眾號）

ETH-X超節(jié)點(diǎn)AI Rack采用機(jī)柜銅連接方案。而Cable Tray，就是實(shí)現(xiàn)各個(gè)子系統(tǒng)硬件互通的高速銅纜方案，也是提供高速互連能力的重要連接器硬件。

英偉達(dá)的最新NVLINK方案，也用的Cable Cartridge方案。在短距傳輸場景，相對于光纖，機(jī)柜內(nèi)采用銅連接，可以實(shí)現(xiàn)高可靠性和低成本（減少了光模塊的使用），也有利于布線。目前看來，在Scale Up內(nèi)部使用銅纜直連技術(shù)，已經(jīng)是一個(gè)主流趨勢。

最后的話

好啦，以上就是關(guān)于超節(jié)點(diǎn)的全部介紹。大家都看懂了沒？

隨著AI浪潮的繼續(xù)發(fā)展，業(yè)界對超節(jié)點(diǎn)的需求會變得越來越強(qiáng)烈。更多的廠商，將會加入到相關(guān)的開放標(biāo)準(zhǔn)中。這將有力推動(dòng)相關(guān)技術(shù)和標(biāo)準(zhǔn)的成熟，帶來更加繁榮和多元的生態(tài)。

超節(jié)點(diǎn)，未來可期！

責(zé)任編輯：姜華來源：小棗課堂

超節(jié)點(diǎn)SuperPod 大模型

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<style id="88g3d"></style>

<p id="88g3d"><li id="88g3d"></li></p>

^{<blockquote id="88g3d"></blockquote>}
<legend id="88g3d"><track id="88g3d"></track></legend>