最近很火的“超節(jié)點(diǎn)”,到底是干啥的?
最近這段時(shí)間,有一個(gè)新名詞在AI圈里迅速走紅,那就是——超節(jié)點(diǎn)。
在各大展會論壇上,超節(jié)點(diǎn)頻繁亮相。行業(yè)大佬們也紛紛搖旗吶喊,認(rèn)為它將是智算發(fā)展的重要趨勢,迎來一波發(fā)展熱潮。
那么,到底什么是超節(jié)點(diǎn)呢?我們?yōu)槭裁磿枰?jié)點(diǎn)呢?
今天這篇文章,小棗君就給大家做一個(gè)深入解讀。
什么是超節(jié)點(diǎn)?
超節(jié)點(diǎn),英文名叫SuperPod,是英偉達(dá)公司最先提出的概念。
大家都知道,GPU是重要的算力硬件,為AIGC大模型的訓(xùn)推提供了有力的支撐。
隨著大模型參數(shù)規(guī)模的不斷增長,對GPU集群的規(guī)模需求,也在不斷增長。從千卡級到萬卡級,再到十萬卡級,將來甚至可能更大。
那么,我們該如何構(gòu)建規(guī)模越來越大的GPU集群呢?
答案很簡單,就是Scale Up和Scale Out。
Scale Up,是向上擴(kuò)展,也叫縱向擴(kuò)展,增加單節(jié)點(diǎn)的資源數(shù)量。Scale Out,是向外擴(kuò)展,也叫橫向擴(kuò)展,增加節(jié)點(diǎn)的數(shù)量。
每臺服務(wù)器里,多塞幾塊GPU,這就是Scale Up。這時(shí),一臺服務(wù)器就是一個(gè)節(jié)點(diǎn)。
通過網(wǎng)絡(luò),將多臺電腦(節(jié)點(diǎn))連接起來,這就是Scale Out。
先說說Scale Up。
對于單臺服務(wù)器來說,受限于空間、功耗和散熱,能塞入的GPU數(shù)量是有限的,一般也就8卡、12卡。
塞入這么多塊GPU,還要考慮服務(wù)器的內(nèi)部通信能力是否能夠支持。如果GPU互連存在瓶頸,那么就達(dá)不到Scale Up的預(yù)期效果。
以前,計(jì)算機(jī)內(nèi)部主要基于PCIe協(xié)議,數(shù)據(jù)傳輸速率慢,時(shí)延高,根本無法滿足要求。
2014年,英偉達(dá)為了解決這個(gè)問題,專門推出了自家私有的NVLINK總線協(xié)議。NVLINK允許GPU之間以點(diǎn)對點(diǎn)方式進(jìn)行通信,速度遠(yuǎn)高于PCIe,時(shí)延也低得多。
圖片來自:英偉達(dá)官網(wǎng)
NVLINK原本只用于機(jī)器內(nèi)部通信。2022年,英偉達(dá)將NVSwitch芯片獨(dú)立出來,變成了NVLink交換機(jī),用于連接服務(wù)器之間的GPU設(shè)備。這意味著,節(jié)點(diǎn)已經(jīng)不再僅限于1臺服務(wù)器了,而是可以由多臺服務(wù)器和網(wǎng)絡(luò)設(shè)備共同組成。
這些設(shè)備處于同一個(gè)HBD(High Bandwidth Domain,超帶寬域)。英偉達(dá)將這種以超大帶寬互聯(lián)16卡以上GPU-GPU的Scale Up系統(tǒng),稱為超節(jié)點(diǎn)。
歷經(jīng)多年的發(fā)展,NVLINK已經(jīng)迭代到第五代。每塊GPU擁有18個(gè)NVLink連接,Blackwell GPU的總帶寬可達(dá)到1800GB/秒,遠(yuǎn)遠(yuǎn)超過PCIe Gen6的總線帶寬。
2024年3月,英偉達(dá)發(fā)布了NVL72,可以將36個(gè)Grace CPU和72個(gè)Blackwell GPU集成到一個(gè)液冷機(jī)柜中,實(shí)現(xiàn)總計(jì)720 PFLOPs的AI訓(xùn)練性能,或1440 PFLOPs的推理性能。
英偉達(dá)GB200 NVL72機(jī)柜(來自英偉達(dá)GTC大會直播)
超節(jié)點(diǎn),有哪些優(yōu)點(diǎn)?
說到這里,大家可能會提出疑問——為什么一定要搞超節(jié)點(diǎn)呢?如果Scale Up這條路線不好走,我們就走Scale Out路線,增加節(jié)點(diǎn)數(shù),不也能做出大規(guī)模GPU集群嗎?
答案很簡單。之所以要搞超節(jié)點(diǎn)這種加強(qiáng)版的Scale Up,是因?yàn)樵谛阅?、成本、組網(wǎng)、運(yùn)維等方面,能帶來巨大優(yōu)勢。
Scale Out,考驗(yàn)的是節(jié)點(diǎn)之間的通信能力。目前,主要采用的通信網(wǎng)絡(luò)技術(shù),是Infiniband(IB)和RoCEv2。
這兩個(gè)技術(shù)都是基于RDMA(遠(yuǎn)程直接內(nèi)存訪問)協(xié)議,擁有比傳統(tǒng)以太網(wǎng)更高的速率、更低的時(shí)延,負(fù)載均衡能力也更強(qiáng)。
IB是英偉達(dá)的私有技術(shù),起步早,性能強(qiáng),價(jià)格貴。RoCEv2是開放標(biāo)準(zhǔn),是傳統(tǒng)以太網(wǎng)融合RDMA的產(chǎn)物,價(jià)格便宜。兩者之間的差距,在不斷縮小。
在帶寬方面,IB和RoCEv2僅能提供Tbps級別的帶寬。而Scale Up,能夠?qū)崿F(xiàn)數(shù)百個(gè)GPU間10Tbps帶寬級別的互聯(lián)。
在時(shí)延方面,IB和RoCEv2的時(shí)延時(shí)延高達(dá)10微秒。而Scale Up對網(wǎng)絡(luò)時(shí)延的要求極為嚴(yán)苛,需要達(dá)到百納秒(100納秒=0.1微秒)級別。
在AI訓(xùn)練過程中,包括多種并行計(jì)算方式,例如TP(張量并行)、 EP(專家并行)、PP(流水線并行)和DP(數(shù)據(jù)并行)。
通常來說,PP和DP的通信量較小,一般交給Scale Out搞定。而TP和EP的通信量大,需要交給Scale Up(超節(jié)點(diǎn)內(nèi)部)搞定。
超節(jié)點(diǎn),作為Scale Up的當(dāng)前最優(yōu)解,通過內(nèi)部高速總線互連,能夠有效支撐并行計(jì)算任務(wù),加速GPU之間的參數(shù)交換和數(shù)據(jù)同步,縮短大模型的訓(xùn)練周期。
超節(jié)點(diǎn)一般也都會支持內(nèi)存語義能力,GPU之間可以直接讀取對方的內(nèi)存,這也是Scale Out不具備的。
站在組網(wǎng)和運(yùn)維的角度來看,超節(jié)點(diǎn)也有明顯優(yōu)勢。
超節(jié)點(diǎn)的HBD(超帶寬域)越大,Scale Up的GPU越多,Scale Out的組網(wǎng)就越簡單,大幅降低組網(wǎng)復(fù)雜度。
Scale Up & Scale Out組網(wǎng)示意圖
超節(jié)點(diǎn)是一個(gè)高度集成的小型集群,內(nèi)部總線已經(jīng)連好。這也降低了網(wǎng)絡(luò)部署的難度,縮短了部署周期。后期的運(yùn)維,也會方便很多。
當(dāng)然,超節(jié)點(diǎn)也不能無限大,也要考慮本身的成本因素。具體的規(guī)模,需要根據(jù)需求場景進(jìn)行測算。
概括來說,超節(jié)點(diǎn)的優(yōu)勢,就是增加局部的帶寬,減少增加全局帶寬的成本,以此獲得更大的收益。
超節(jié)點(diǎn),有哪些可選的方案?
正因?yàn)槌?jié)點(diǎn)擁有顯著的優(yōu)勢,所以,在英偉達(dá)提出這一概念后,立刻受到了業(yè)界的關(guān)注。也有很多廠商,加入到超節(jié)點(diǎn)的研究之中。
當(dāng)前,業(yè)界主流的超節(jié)點(diǎn)方案,主要包括如下幾種:
一、私有協(xié)議方案。
代表廠商,當(dāng)然就是英偉達(dá)。
除了英偉達(dá)之外,國內(nèi)大廠華為,前段時(shí)間高調(diào)發(fā)布的AI核彈級技術(shù)——CloudMatrix 384超節(jié)點(diǎn),也屬于私有協(xié)議。
CloudMatrix 384以384張昇騰算力卡組成一個(gè)超節(jié)點(diǎn),在目前已商用的超節(jié)點(diǎn)中單體規(guī)模最大,可提供高達(dá)300 PFLOPs的密集BF16算力,接近達(dá)到英偉達(dá)GB200 NVL72系統(tǒng)的兩倍。
華為CloudMatrix 384超節(jié)點(diǎn)(來自華為云生態(tài)大會)
二、開放組織方案。
有私有協(xié)議,當(dāng)然就會有開放標(biāo)準(zhǔn)?;ヂ?lián)網(wǎng)時(shí)代,開放解耦是大勢所趨。
私有協(xié)議往往意味著高昂的成本。對于AI這個(gè)熱門方向來說,發(fā)展開放標(biāo)準(zhǔn),有利于降低行業(yè)門檻,幫助實(shí)現(xiàn)技術(shù)平權(quán)。
目前來看,超節(jié)點(diǎn)的開放標(biāo)準(zhǔn)還不止一個(gè),但基本上都是以以太網(wǎng)技術(shù)(ETH)為基礎(chǔ)。因?yàn)橐蕴W(wǎng)技術(shù)最成熟、最開放,也擁有最多的參與企業(yè)。
從技術(shù)的角度來看,以太網(wǎng)具有最大交換芯片容量(單芯片51.2T已商用)、最高速Serdes技術(shù)(目前達(dá)到112Gbps),交換芯片時(shí)延也很低(200ns),完全可以滿足Scale Up的性能要求。
在超節(jié)點(diǎn)開放標(biāo)準(zhǔn)中,其中比較有代表性的,是由開放數(shù)據(jù)中心委員會(ODCC)主導(dǎo)、中國信通院與騰訊牽頭設(shè)計(jì)的ETH-X開放超節(jié)點(diǎn)項(xiàng)目。
這個(gè)項(xiàng)目一共有30余家產(chǎn)學(xué)研機(jī)構(gòu)共同參與。其中,既包括運(yùn)營商(中國移動(dòng))、云廠商(騰訊等),也包括設(shè)備商(銳捷、中興等)、算卡提供商(燧原科技、壁仞科技等)商,以及高速互連技術(shù)方案提供商(立訊技術(shù)等)。
我們來簡單了解一下ETH-X開放超節(jié)點(diǎn)的技術(shù)細(xì)節(jié)。
ETH-X基于以太網(wǎng)技術(shù)構(gòu)建大帶寬、彈性可擴(kuò)展的HBD,具備高算力密度、高互聯(lián)帶寬、高功率密度和高能效等特點(diǎn)。
值得注意的是,ETH-X不僅包括了Scale Up,也包括了Scale Out。典型的組網(wǎng)拓?fù)?,如下圖所示:
ETH-X網(wǎng)絡(luò)架構(gòu)圖(來自O(shè)DCC)
根據(jù)騰訊在2024開放數(shù)據(jù)中心大會提供的數(shù)據(jù),基于ETH-X超節(jié)點(diǎn),在訓(xùn)練場景下,LLama-70B稠密型模型在64K集群下的性能/成本進(jìn)行對比,采用256卡的Scale Up,比8卡的Scale Up低了38%的訓(xùn)練成本。
在推理場景下,LLama-70B在FP4精度128卡實(shí)例推理性能/成本對比中,256卡的Scale Up比8卡的Scale Up增加了40.48%的推理收益。
這個(gè)效果還是非常不錯(cuò)的。
目前,ETH-X超節(jié)點(diǎn)技術(shù)規(guī)范1.0已經(jīng)發(fā)布。不久前(4月8日),ETH-X開放超節(jié)點(diǎn)項(xiàng)目在華勤技術(shù)東莞智能制造基地,舉行了首臺原型機(jī)的下線點(diǎn)亮儀式。
圖片來自O(shè)DCC
我們再來看看ETH-X開放超節(jié)點(diǎn)的實(shí)物架構(gòu)。
AI Rack整機(jī)柜是ETH-X超節(jié)點(diǎn)的具體實(shí)現(xiàn)方式。整機(jī)柜內(nèi)Serdes速率目前最高支持112Gbps,未來支持到224Gbps。
機(jī)柜包括計(jì)算節(jié)點(diǎn)、交換節(jié)點(diǎn)和關(guān)鍵組件。
AI Rack整機(jī)柜布局(來自O(shè)DCC)
整機(jī)柜內(nèi)部可以實(shí)現(xiàn)多GPU間NOC(Network-on-Chip)級通信拓?fù)?,通過統(tǒng)一內(nèi)存編址與內(nèi)存語義接口,支持跨GPU直接訪問(Direct Access)與零拷貝傳輸(Direct Copy)。
根據(jù)實(shí)際測試的數(shù)據(jù),跨卡數(shù)據(jù)訪問時(shí)延能夠降低12.7倍,動(dòng)態(tài)重構(gòu)8~512卡超節(jié)點(diǎn)的彈性組合單元。
在關(guān)鍵組件中,Cable Tray特別值得關(guān)注。
Cable Tray(圖片來自:立訊技術(shù)公眾號)
ETH-X超節(jié)點(diǎn)AI Rack采用機(jī)柜銅連接方案。而Cable Tray,就是實(shí)現(xiàn)各個(gè)子系統(tǒng)硬件互通的高速銅纜方案,也是提供高速互連能力的重要連接器硬件。
英偉達(dá)的最新NVLINK方案,也用的Cable Cartridge方案。在短距傳輸場景,相對于光纖,機(jī)柜內(nèi)采用銅連接,可以實(shí)現(xiàn)高可靠性和低成本(減少了光模塊的使用),也有利于布線。目前看來,在Scale Up內(nèi)部使用銅纜直連技術(shù),已經(jīng)是一個(gè)主流趨勢。
最后的話
好啦,以上就是關(guān)于超節(jié)點(diǎn)的全部介紹。大家都看懂了沒?
隨著AI浪潮的繼續(xù)發(fā)展,業(yè)界對超節(jié)點(diǎn)的需求會變得越來越強(qiáng)烈。更多的廠商,將會加入到相關(guān)的開放標(biāo)準(zhǔn)中。這將有力推動(dòng)相關(guān)技術(shù)和標(biāo)準(zhǔn)的成熟,帶來更加繁榮和多元的生態(tài)。
超節(jié)點(diǎn),未來可期!