自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

有錢買卡還不夠,10萬(wàn)卡H100集群有多難搭?一文解析算力集群技術(shù)要點(diǎn)

人工智能 新聞
在英偉達(dá)市值猛漲、各家科技巨頭囤芯片的熱潮中,我們往往會(huì)忽視GPU芯片是如何轉(zhuǎn)變?yōu)閿?shù)據(jù)中心算力的。最近,一篇SemiAnalysis的技術(shù)文章就深入解讀了10萬(wàn)卡H100集群的構(gòu)建過(guò)程。

如火如荼的AI競(jìng)爭(zhēng)中,「算力之戰(zhàn)」同樣熱火朝天。

包括但不限于OpenAI、微軟、xAI和Meta在內(nèi)的多個(gè)頭部公司都在爭(zhēng)相建立超過(guò)10萬(wàn)卡的GPU集群,在這個(gè)規(guī)模上,僅僅是服務(wù)器的成本就超過(guò)40億美元,還要受到數(shù)據(jù)中心容量和電力不足等多項(xiàng)因素的限制。

我們可以做一個(gè)簡(jiǎn)單的估算,一個(gè)10萬(wàn)卡集群每年耗電量約為1.59太瓦時(shí)(terawatt·h,即10e9千瓦時(shí)),按照美國(guó)電力的標(biāo)準(zhǔn)費(fèi)率0.78美元/千瓦時(shí),每年的用電成本就達(dá)到了1.24億美元。

圖片

為了說(shuō)明10萬(wàn)個(gè)GPU集群的強(qiáng)大計(jì)算能力,OpenAI在訓(xùn)練GPT-4時(shí)使用了大約2.15e25 BF16 FLOP(21.5百萬(wàn)億ExaFLOP),在大約2萬(wàn)個(gè)A100上進(jìn)行了90到100天的訓(xùn)練,峰值吞吐量只有6.28 ExaFLOPS。

若使用10萬(wàn)個(gè)H100代替A100,峰值將飆升至198/99 FP8/FP16 ExaFLOPS,增加了31.5倍。

在H100上,AI實(shí)驗(yàn)室在訓(xùn)練萬(wàn)億參數(shù)模型時(shí),F(xiàn)P8模型FLOP利用率(MFU)最高可達(dá)35%,F(xiàn)P16 MFU則為40%。

MFU全稱為model full utilization,是衡量潛在FLOP的有效吞吐量和利用率峰值的指標(biāo),考慮了功率限制、通信不穩(wěn)定、重新計(jì)算、滯后和低效內(nèi)核等各種瓶頸。

使用FP8,一個(gè)10萬(wàn)卡H100的集群只需4天就能訓(xùn)練GPT-4。如果進(jìn)行100天的訓(xùn)練,你可以實(shí)現(xiàn)大約6e26(600百萬(wàn)億ExaFLOP)的有效FP8 FLOP。不過(guò),硬件的低可靠性會(huì)顯著降低MFU。

圖片

很多人認(rèn)為,AI的三大基礎(chǔ)設(shè)施:數(shù)據(jù)、算法、算力中,門檻最低的就是算力。只要有錢有資源,買到足夠多的芯片,算力短缺就不是問(wèn)題。

但是,SemiAnalysis最近的一篇文章指出,事實(shí)絕非如此。構(gòu)建算力集群,絕對(duì)比一擲千金要復(fù)雜得多。

GPT-4發(fā)布以來(lái),似乎還沒有出現(xiàn)下一代能力更強(qiáng)的LLM,很重要的原因就是幾乎沒有組織能夠大規(guī)模增加專用于單個(gè)模型的計(jì)算量。

Gemini Ultra、Nemotron 340B和Llama 3這些模型與GPT-4的訓(xùn)練計(jì)算量相近(約為2e25 FLOP),甚至更高,但使用了較差的集群架構(gòu),導(dǎo)致它們無(wú)法進(jìn)一步釋放能力。

圖片

那么,在巨頭們部署10萬(wàn)卡GPU集群的過(guò)程中,究竟面臨哪些障礙?

電力挑戰(zhàn)

10萬(wàn)卡集群所需的關(guān)鍵IT部件的總功率約為150MW,相比之下,美國(guó)最大的國(guó)家實(shí)驗(yàn)室超算El Capitan的關(guān)鍵IT功率只有30MW,約為五分之一,可謂是相形見絀。

在如此龐大的功率中,GPU本身的耗電實(shí)際上只有不到一半。

根據(jù)官方參數(shù),每張H100的功率為700W,但服務(wù)器上還有CPU、網(wǎng)卡(NIC)、供電單元(power supply unit)等設(shè)備,功率約為575W。

除了H100服務(wù)器,集群中還需要部署一系列的存儲(chǔ)服務(wù)器、網(wǎng)絡(luò)交換機(jī)、CPU節(jié)點(diǎn)、光纖收發(fā)器和許多其他設(shè)備,約占IT功耗的10%。

目前沒有任何一座數(shù)據(jù)中心的大樓有能力部署150MW功率的設(shè)備。因此,已建成的10萬(wàn)GPU集群通常是分布在一整個(gè)園區(qū)中,而非單座大樓。

由于可用的數(shù)據(jù)中心有限,xAI甚至選擇將田納西州孟菲斯的一家舊工廠改造為數(shù)據(jù)中心。

因?yàn)榉?wù)器分布在整個(gè)園區(qū)而非單棟大樓內(nèi),聯(lián)網(wǎng)成本就會(huì)無(wú)形增高,因?yàn)楣饫w收發(fā)器的成本與傳輸距離成正比。

「多?!筍R和AOC收發(fā)器僅支持最長(zhǎng)約50m的傳輸距離,顯然不可用。長(zhǎng)距離「單?!笵R和FR收發(fā)器能可靠地在500m~2km范圍內(nèi)傳輸信號(hào),但成本是前者的2.5倍。

此外,園區(qū)級(jí)別的800相干光收發(fā)器的傳輸距離可以超過(guò)2km,但價(jià)格更貴,要高出10倍以上。

圖片

H100的小型集群通常只使用多模收發(fā)器,通過(guò)一層或兩層的交換機(jī),以400G的速度將每個(gè)GPU連接在一起。如果是大型集群,則需要增加更多層的交換機(jī),光纖設(shè)備也會(huì)極其昂貴。

在大型集群的園區(qū)中,每棟大樓包含一個(gè)或多個(gè)pod,由多模收發(fā)器(或者較為廉價(jià)的銅纜)相連,形成一個(gè)「計(jì)算島」。每個(gè)計(jì)算島之間再通過(guò)長(zhǎng)距離收發(fā)器互連,島內(nèi)帶寬較高,島間帶寬較低。

圖片

并行化方案

數(shù)據(jù)并行

在較大參數(shù)的訓(xùn)練中,一般有3種不同類型的并行化——數(shù)據(jù)并行(data parallelism)、張量并行(tensor parallelism)與流水線并行(pipeline parallelism)。

數(shù)據(jù)并行是其中最簡(jiǎn)單的并行方式:每個(gè)GPU擁有模型權(quán)重的全部副本,并分別保存一部分?jǐn)?shù)據(jù)。

前向計(jì)算過(guò)程中每個(gè)GPU獨(dú)自工作,梯度更新時(shí)將所有GPU計(jì)算出的梯度相加,再一起更新,因此在三種方式中,數(shù)據(jù)并行對(duì)GPU間通信的要求最低。

然而,這種方案要求每個(gè)GPU都有足夠內(nèi)存來(lái)存儲(chǔ)整個(gè)模型的權(quán)重、激活函數(shù)和優(yōu)化器狀態(tài)。像GPT-4這種級(jí)別的LLM,參數(shù)規(guī)模可以達(dá)到1.8萬(wàn)億,需要占據(jù)10.8TB內(nèi)存,顯然無(wú)法全部塞到一個(gè)GPU中。

圖片

張量并行

為了克服內(nèi)存的限制,就有人提出了張量并行:神經(jīng)網(wǎng)絡(luò)中每一層的權(quán)重和計(jì)算都分布在多個(gè)GPU上,一般會(huì)覆蓋全部隱藏層。在每一層的自注意力、前饋網(wǎng)絡(luò)和層歸一化等操作中,都需要設(shè)備間進(jìn)行多次歸約。

可以想象成,在每一層的前向計(jì)算中,所有GPU都在協(xié)同工作,仿佛組成了一個(gè)巨型GPU。

目前在NVLink上通常使用8個(gè)張量并行等級(jí),相當(dāng)于每個(gè)GPU的內(nèi)存消耗降低到了原來(lái)的八分之一。

由于這種方式中設(shè)備間需要頻繁通信,因此要求高帶寬、低延遲的網(wǎng)絡(luò)環(huán)境。

圖片

流水線并行

除了張量并行,GPU內(nèi)存不足的另一種解決方案就是流水線并行。

顧名思義,這種方案是將前向計(jì)算看成一個(gè)流水線,每個(gè)GPU負(fù)責(zé)其中一環(huán),也就是網(wǎng)絡(luò)中的一層或幾層,完成計(jì)算后將結(jié)果傳遞給下一個(gè)GPU。

流水線并行對(duì)跨設(shè)備通信的要求也很高,但沒有張量并行那么苛刻。

圖片

為了最大限度地提高模型FLOP利用率,三種并行模式通常結(jié)合使用,形成3D并行。

張量并行對(duì)通信要求最高,因此應(yīng)用于同一服務(wù)器內(nèi)的多個(gè)GPU, 再在同一計(jì)算島內(nèi)的節(jié)點(diǎn)間使用管道并行。

由于數(shù)據(jù)并行的通信量最小,而且島與島之間的聯(lián)網(wǎng)速度較慢,因此跨計(jì)算島時(shí)使用數(shù)據(jù)并行。

圖片

網(wǎng)絡(luò)設(shè)計(jì)

拓?fù)浣Y(jié)構(gòu)

進(jìn)行網(wǎng)絡(luò)拓?fù)湓O(shè)計(jì)時(shí)需要同時(shí)考慮到所用的并行化方案。

如果采用胖樹拓?fù)浣Y(jié)構(gòu)(fat-tree topology),每?jī)蓚€(gè)GPU之間都用最大帶寬相連,就需要4層交換,成本十分高昂。

圖片

論文《Adaptive Load Balancing Scheme For Data Center Networks Using Software Defined Network》

因此,沒有大型GPU集群會(huì)部署全胖樹架構(gòu)。取而代之的方案是,制造具有全胖樹架構(gòu)的計(jì)算島,同時(shí)減少島間的帶寬。

比如,Meta的上一代GPU集群架構(gòu)使用了3.2萬(wàn)張芯片,總共有8個(gè)計(jì)算島,島與島之間部署全速帶寬,然后在頂部另加一個(gè)7:1的收斂比(oversubscription)的交換層,于是島與島之間的聯(lián)網(wǎng)速度就是島內(nèi)的七分之一。

圖片

網(wǎng)絡(luò)設(shè)備部署

GPU部署有多種網(wǎng)絡(luò),包括前端網(wǎng)絡(luò)、后端網(wǎng)絡(luò)和擴(kuò)展網(wǎng)絡(luò)(NVLink),每個(gè)網(wǎng)絡(luò)中運(yùn)行不同的并行方案。

對(duì)于張量并行的帶寬要求而言, NVLink網(wǎng)絡(luò)可能是唯一足夠快的網(wǎng)絡(luò)。后端網(wǎng)絡(luò)通常可以輕松處理大多數(shù)其他類型的并行,但如果存在「收斂比」,通常只能采用數(shù)據(jù)并行。

此外,有些數(shù)據(jù)中心甚至沒有在頂層設(shè)置「收斂比」帶寬的孤島。相反,他們將后端網(wǎng)絡(luò)遷移到前端網(wǎng)絡(luò)。

一家大型公司利用前端以太網(wǎng)在多個(gè)InfiniBand計(jì)算島上進(jìn)行訓(xùn)練。這是因?yàn)榍岸寺?lián)網(wǎng)的成本要低得多,而且可以利用樓宇間現(xiàn)有的數(shù)據(jù)中心園區(qū)網(wǎng)絡(luò)和區(qū)域路由。

圖片

遺憾的是,由于采用了MoE等稀疏技術(shù),模型尺寸增長(zhǎng)速度加快,前端網(wǎng)絡(luò)需要處理的通信量也隨之增加。

這種權(quán)衡必須仔細(xì)優(yōu)化,否則最終會(huì)出現(xiàn)兩種方案網(wǎng)絡(luò)成本趨同的情況,因?yàn)榍岸司W(wǎng)絡(luò)帶寬最終會(huì)增長(zhǎng)到與后端網(wǎng)絡(luò)帶寬相匹配的程度。

值得注意的是,谷歌在多TPU pod訓(xùn)練運(yùn)行中只使用前端網(wǎng)絡(luò)。他們被稱為ICI的「計(jì)算結(jié)構(gòu)」最多只能擴(kuò)展到8960個(gè)芯片,每個(gè)包含64個(gè)TPU的水冷機(jī)架之間需要使用昂貴的800G光纖和光路交換機(jī)進(jìn)行連接。

因此,谷歌必須使TPU前端網(wǎng)絡(luò)比大多數(shù)GPU前端網(wǎng)絡(luò)更強(qiáng)大,以彌補(bǔ)這一不足。

圖片

在訓(xùn)練過(guò)程中使用前端網(wǎng)絡(luò)時(shí),全局歸約操作必須能夠依據(jù)各計(jì)算島之間的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。

首先,每個(gè)pod或計(jì)算島將在內(nèi)部的InfiniBand或ICI網(wǎng)絡(luò)中執(zhí)行局部的規(guī)約-分散操作,使每個(gè)GPU/TPU擁有梯度的一部分總和。

接下來(lái),將使用前端以太網(wǎng)絡(luò)在每個(gè)主機(jī)等級(jí)之間執(zhí)行跨pod歸約,最后每個(gè)pod將執(zhí)行pod級(jí)全收集。

前端網(wǎng)絡(luò)還負(fù)責(zé)加載數(shù)據(jù)。隨著多模態(tài)圖像和視頻訓(xùn)練數(shù)據(jù)的發(fā)展,對(duì)前端網(wǎng)絡(luò)的要求將呈指數(shù)級(jí)增長(zhǎng)。

在這種情況下,加載大型視頻文件和歸約這兩種操作之間將爭(zhēng)奪前端網(wǎng)絡(luò)帶寬。

此外,由于存儲(chǔ)網(wǎng)絡(luò)流量不規(guī)則,會(huì)導(dǎo)致整個(gè)歸約過(guò)程變慢,無(wú)法進(jìn)行預(yù)測(cè)建模,從而增加了滯后問(wèn)題。

另一種方法是使用4層InfiniBand網(wǎng)絡(luò), 采用 7:1的收斂比,4個(gè)pod, 每個(gè)pod有24576個(gè)H100,采用無(wú)阻塞3層系統(tǒng)。

與使用前端網(wǎng)絡(luò)相比,這為將來(lái)增加帶寬提供了更大的靈活性,因?yàn)榕c升級(jí)集群中每個(gè)機(jī)箱的前端網(wǎng)絡(luò)網(wǎng)卡相比,在兩個(gè)大樓的交換機(jī)之間添加更多光纖收發(fā)器要容易得多。

圖片

這樣可以創(chuàng)建一個(gè)更穩(wěn)定的網(wǎng)絡(luò)模式,因?yàn)榍岸司W(wǎng)絡(luò)可以只專注于加載數(shù)據(jù)和檢查點(diǎn),而后端網(wǎng)絡(luò)可以只專注于GPU間通信。但遺憾的是,由于需要額外的交換機(jī)和收發(fā)器,4層Infiniband網(wǎng)絡(luò)非常昂貴。

軌道優(yōu)化與中間架

為了提高可維護(hù)性并增加銅纜網(wǎng)絡(luò)(<3米)和多模網(wǎng)絡(luò)(<50米)的使用,一些客戶選擇放棄英偉達(dá)推薦的軌道優(yōu)化設(shè)計(jì)(rail optimized design),轉(zhuǎn)而采用中間架設(shè)計(jì)(Middle of Rack design)。

圖片

軌道優(yōu)化是一種技術(shù),可讓每臺(tái)H100服務(wù)器連接到8個(gè)不同的葉交換機(jī)(而不是全部連接到同一個(gè)機(jī)架中的交換機(jī)),這樣每個(gè)GPU只需跳一次交換機(jī)就能與更遠(yuǎn)的GPU通信,提高全對(duì)全集體通信(all-to-all collective communication)性能。

比如在混合專家(MoE)并行中,就大量使用了全對(duì)全集體通信。

圖片

軌道優(yōu)化設(shè)計(jì)的缺點(diǎn)則是,必須連接到不同距離的不同葉交換機(jī),而不是將一個(gè)機(jī)架中間的交換機(jī)靠近服務(wù)器中的所有8個(gè)GPU。

當(dāng)交換機(jī)位于同一機(jī)架時(shí),可以使用無(wú)源直連電纜(DAC)和有源電纜(AEC),但在軌道優(yōu)化設(shè)計(jì)中,交換機(jī)不一定位于同一機(jī)架,因此必須使用光學(xué)器件。

此外,葉交換機(jī)到骨架交換機(jī)的距離可能大于50米,因此必須使用單模光收發(fā)器。

如果采用非軌道優(yōu)化設(shè)計(jì),則可以用廉價(jià)的直連銅纜取代連接GPU和葉交換機(jī)的98304個(gè)光纖收發(fā)器,從而使您 GPU鏈路中銅纜占比達(dá)到 25-33% 。

從下面的機(jī)架圖中可以看到,每個(gè)GPU與板上交換機(jī)的連接不再是先連接到電纜托架,然后再?gòu)膫?cè)面穿過(guò)9個(gè)機(jī)架連接到專用的軌道優(yōu)化板上的交換機(jī)機(jī)架,而是將板上交換機(jī)放在機(jī)架中間,讓每個(gè)GPU都能使用DAC銅纜。

圖片

與光纜相比, DAC銅纜運(yùn)行溫度更低、耗電更少、成本更低,且可靠性更高,因此這種設(shè)計(jì)就減少了網(wǎng)絡(luò)鏈路間歇性癱瘓和故障,而這正是所有使用光學(xué)器件的高速互連所面臨的主要問(wèn)題。

在使用DAC銅纜時(shí),Quantum-2IB骨架交換機(jī)的耗電量為747瓦。使用多模光纖收發(fā)器時(shí),功耗會(huì)增加到1500瓦。

圖片

此外,軌道優(yōu)化設(shè)計(jì)的初始布線對(duì)于數(shù)據(jù)中心技術(shù)人員來(lái)說(shuō)非常耗時(shí),因?yàn)槊總€(gè)鏈路的兩端距離長(zhǎng)達(dá)50米,而且不在同一個(gè)機(jī)架上。

而在中間機(jī)架設(shè)計(jì)中,葉交換機(jī)與連接到葉交換機(jī)的所有GPU位于同一機(jī)架上,甚至設(shè)計(jì)完成之前,可以在集成工廠測(cè)試計(jì)算節(jié)點(diǎn)到葉交換機(jī)的鏈路,因?yàn)樗墟溌范荚谕粋€(gè)機(jī)架上。

圖片

可靠性與恢復(fù)

由于當(dāng)前的模型訓(xùn)練都是同步進(jìn)行,可靠性就成為了巨型集群最重要的運(yùn)行問(wèn)題之一。最常見的可靠性問(wèn)題包括GPU HBM ECC錯(cuò)誤、GPU驅(qū)動(dòng)器卡死、光纖收發(fā)器故障、網(wǎng)卡過(guò)熱等。

為了保持較短的平均故障恢復(fù)時(shí)間,數(shù)據(jù)中心必須在現(xiàn)場(chǎng)保留熱備用節(jié)點(diǎn)和冷備用組件。發(fā)生故障時(shí),最好的辦法不是直接停止訓(xùn)練,而是換上已經(jīng)開啟的備用節(jié)點(diǎn)繼續(xù)訓(xùn)練。

事實(shí)上,大部分服務(wù)器宕機(jī)的情況都可以通過(guò)重啟修復(fù),但有些時(shí)候則需要技術(shù)人員對(duì)設(shè)備進(jìn)行現(xiàn)場(chǎng)診斷和更換。

在最好的情況下,數(shù)據(jù)中心技術(shù)人員只需幾個(gè)小時(shí)就能修復(fù)損壞的GPU服務(wù)器,但很多情況下,損壞的節(jié)點(diǎn)可能需要幾天時(shí)間才能重新投入使用。

在訓(xùn)練模型時(shí),需要經(jīng)常將檢查點(diǎn)存儲(chǔ)到到CPU內(nèi)存或NAND SSD, 以防出現(xiàn)HBM ECC等錯(cuò)誤。發(fā)生錯(cuò)誤時(shí),必須重新加載模型和優(yōu)化器的權(quán)重,再繼續(xù)訓(xùn)練。

容錯(cuò)訓(xùn)練技術(shù)(如Oobleck))可用于提供用戶級(jí)應(yīng)用驅(qū)動(dòng)方法,以處理GPU和網(wǎng)絡(luò)故障。

遺憾的是,頻繁地備份檢查點(diǎn)和容錯(cuò)訓(xùn)練技術(shù)會(huì)損害系統(tǒng)的整體MFU,因?yàn)榧盒枰粩鄷和?,將?dāng)前權(quán)重保存到持久內(nèi)存或CPU內(nèi)存中。

此外,通常每100次迭代才保存一次檢查點(diǎn),這意味著每次重新加載時(shí)你最多會(huì)丟失99步有用的工作。在一個(gè)10萬(wàn)卡集群上,如果每次迭代耗時(shí)2秒,那么在第99次迭代失敗時(shí),最多會(huì)損失229個(gè)GPU日的工作。

故障恢復(fù)的另一種方法是讓備用節(jié)點(diǎn)通過(guò)后端結(jié)構(gòu)從其他GPU進(jìn)行 RDMA復(fù)制。后端GPU的速度約為400Gbps, 每個(gè) GPU有80GB的HBM內(nèi)存,因此復(fù)制權(quán)重大約需要1.6秒。

采用這種方法,最多只能損失1個(gè)步驟(因?yàn)楦郍PU HBM將擁有最新的權(quán)重副本),因此只需2.3個(gè)GPU日的計(jì)算時(shí)間,再加上從其他GPU HBM內(nèi)存RDMA復(fù)制權(quán)重的1.85個(gè)GPU日。

大多數(shù)領(lǐng)先的人工智能實(shí)驗(yàn)室都采用了這一技術(shù),但許多小型公司仍堅(jiān)持使用繁重、緩慢、低效的技術(shù),即從檢查點(diǎn)重新啟動(dòng)處理所有故障。通過(guò)內(nèi)存重構(gòu)實(shí)現(xiàn)故障恢復(fù)可為大型訓(xùn)練運(yùn)行的MFU提升好幾個(gè)百分點(diǎn)。

圖片

網(wǎng)絡(luò)故障方面,最常見問(wèn)題之一是Infiniband/RoCE鏈路故障。由于收發(fā)器數(shù)量較多,即使每個(gè)網(wǎng)卡到最底層交換機(jī)鏈路的平均故障率為5年,在一個(gè)全新的、正常運(yùn)行的集群上發(fā)生第一次作業(yè)故障也只需要26.28分鐘。

如果不通過(guò)內(nèi)存重建進(jìn)行故障恢復(fù),那么在10萬(wàn)卡的GPU集群中,由于光纖故障而重新啟動(dòng)運(yùn)行所花費(fèi)的時(shí)間,將比模型實(shí)質(zhì)進(jìn)行計(jì)算所花費(fèi)的時(shí)間更多。

圖片

由于每個(gè)GPU都直接連接到ConnectX-7網(wǎng)卡(通過(guò)PCIe交換機(jī)),在網(wǎng)絡(luò)架構(gòu)層面沒有容錯(cuò)能力,因此故障必須在用戶訓(xùn)練代碼中處理,增加了代碼庫(kù)的復(fù)雜性。

這是當(dāng)前英偉達(dá)和AMD的GPU網(wǎng)絡(luò)結(jié)構(gòu)的主要挑戰(zhàn)之一,即使一個(gè)網(wǎng)卡故障,該GPU無(wú)法與其他GPU通信。

由于大語(yǔ)言模型(LLM)在節(jié)點(diǎn)內(nèi)使用張量并行,如果一個(gè)網(wǎng)卡、一個(gè)收發(fā)器或一個(gè)GPU故障,整個(gè)服務(wù)器就會(huì)宕機(jī)。

目前有很多工作正在進(jìn)行,以使網(wǎng)絡(luò)可重配置,減少節(jié)點(diǎn)的脆弱性。這項(xiàng)工作至關(guān)重要,因?yàn)楝F(xiàn)狀意味著整個(gè)GB200 NVL72僅因一個(gè)GPU或光學(xué)故障就會(huì)宕機(jī)。

顯然,一個(gè)價(jià)值數(shù)百萬(wàn)美元的72 GPU機(jī)架宕機(jī)比一個(gè)價(jià)值幾十萬(wàn)美元的8 GPU服務(wù)器宕機(jī)更具災(zāi)難性。

英偉達(dá)已經(jīng)注意到這個(gè)重大問(wèn)題,并增加了一個(gè)專用的RAS(可靠性、可用性和可維護(hù)性)引擎。

其中,RAS引擎通過(guò)分析芯片級(jí)數(shù)據(jù),如溫度、恢復(fù)的ECC重試次數(shù)、時(shí)鐘速度、電壓等指標(biāo),來(lái)預(yù)測(cè)芯片可能的故障并提醒數(shù)據(jù)中心技術(shù)人員。

這將使技術(shù)人員能夠進(jìn)行主動(dòng)維護(hù),例如使用更高的風(fēng)扇速度配置來(lái)保持可靠性,并在以后的維護(hù)窗口期中將服務(wù)器從運(yùn)行隊(duì)列中撤出進(jìn)行進(jìn)一步的物理檢查。

此外,在開始訓(xùn)練任務(wù)之前,每個(gè)芯片的RAS引擎將執(zhí)行全面的自檢,例如運(yùn)行已知結(jié)果的矩陣乘法以檢測(cè)靜默數(shù)據(jù)損壞(SDC)。

成本優(yōu)化

Cedar-7

一些客戶如微軟和OpenAI正在使用Cedar Fever-7網(wǎng)絡(luò)模塊,而不是8個(gè)PCIe形式的ConnectX-7網(wǎng)絡(luò)卡。

使用Cedar Fever模塊的主要好處是,它僅需4個(gè)OSFP插槽而非8個(gè),并允許在計(jì)算節(jié)點(diǎn)端使用雙端口2x400G收發(fā)器。

這將每個(gè)H100節(jié)點(diǎn)連接到葉交換機(jī)的收發(fā)器數(shù)量從8個(gè)減少到4個(gè);計(jì)算節(jié)點(diǎn)端連接GPU到葉交換機(jī)的收發(fā)器總數(shù)從98304減少到49152。

圖片

由于GPU到葉交換機(jī)的鏈接減少了一半,這也有助于延長(zhǎng)首次作業(yè)失敗的時(shí)間。

根據(jù)估計(jì),每個(gè)雙端口2x400G鏈接的平均故障時(shí)間為4年(相比單端口400G鏈接的5年),這將使首次作業(yè)失敗的估計(jì)時(shí)間從26.28分鐘延長(zhǎng)至42.05分鐘。

圖片

Spectrum-X

InfiniBand的優(yōu)勢(shì)在于,以太網(wǎng)并不支持SHARP網(wǎng)絡(luò)內(nèi)縮減。

而SHARP能將每個(gè)GPU需要進(jìn)行的發(fā)送和寫入次數(shù)減少2倍,因此它的理論網(wǎng)絡(luò)帶寬也增加了2倍。

但I(xiàn)nfiniBand NDR Quantum-2交換機(jī)只有64個(gè)400G端口,而每個(gè)Spectrum-X以太網(wǎng)的SN5600交換機(jī)有128個(gè)400G端口,Broadcom的Tomahawk 5交換機(jī)ASIC也支持128個(gè)400G端口。

由于Quantum-2交換機(jī)的端口容量較低,在一個(gè)擁有10萬(wàn)節(jié)點(diǎn)的集群中,完全互聯(lián)的GPU數(shù)量最多只能達(dá)到65,536個(gè)H100。

不過(guò),下一代InfiniBand交換機(jī)——Quantum-X800,將通過(guò)144個(gè)800G端口解決這個(gè)問(wèn)題,但從「144」這個(gè)數(shù)字可以看出,這是為NVL72和NVL36系統(tǒng)設(shè)計(jì)的,不太可能在B200或B100集群中廣泛使用。

圖片

Spectrum-X的主要優(yōu)勢(shì)在于其得到了NVIDIA庫(kù)如NCCL的一級(jí)支持——老黃會(huì)將你推到他們新產(chǎn)品線的首批客戶隊(duì)列中。

相比之下,如果你使用的是Tomahawk 5芯片,就需要大量的內(nèi)部工程努力來(lái)優(yōu)化網(wǎng)絡(luò)以實(shí)現(xiàn)最大吞吐量。

然而,如果采用Spectrum-X,就必須加價(jià)購(gòu)買Nvidia LinkX產(chǎn)品線中的收發(fā)器,因?yàn)槠渌瞻l(fā)器可能無(wú)法正常工作或者通不過(guò)英偉達(dá)的驗(yàn)證。

此外,英偉達(dá)在第一代400G Spectrum-X中,使用了Bluefield-3來(lái)代替ConnectX-7作為臨時(shí)解決方案。(ConnectX-8預(yù)計(jì)能夠與800G Spectrum-X完美配合)

在超大規(guī)模的數(shù)據(jù)中心中,Bluefield-3和ConnectX-7的價(jià)格差異約為300美元ASP,但前者要多耗電50瓦。因此,每個(gè)節(jié)點(diǎn)需要額外的400瓦功率,降低了整體訓(xùn)練服務(wù)器的「每皮焦?fàn)栔悄芏取埂?/span>

現(xiàn)在,將Spectrum-X放入數(shù)據(jù)中心需要額外的5MW功率來(lái)部署10萬(wàn)個(gè)GPU,而使用相同網(wǎng)絡(luò)架構(gòu)的Broadcom Tomahawk 5則不需要。

圖片

Tomahawk 5

為了避免給英偉達(dá)支付高昂的費(fèi)用,許多客戶選擇部署基于Broadcom Tomahawk 5的交換機(jī)。

每個(gè)基于Tomahawk 5的交換機(jī)與Spectrum-X SN5600交換機(jī)一樣,擁有128個(gè)400G端口,如果公司有優(yōu)秀的網(wǎng)絡(luò)工程師,可以實(shí)現(xiàn)類似的性能。此外,你可以從任何供應(yīng)商購(gòu)買通用的收發(fā)器和銅纜,并進(jìn)行混合使用。

大多數(shù)客戶直接與ODM合作,如Celestica的交換機(jī),以及與Innolight和Eoptolink的收發(fā)器。

基于交換機(jī)和通用收發(fā)器的成本,Tomahawk 5相比Nvidia InfiniBand便宜得多,相比Nvidia Spectrum-X也更具成本效益。

不幸的是,你需要足夠的工程能力來(lái)為Tomahawk 5修補(bǔ)和優(yōu)化NCCL通信集群。畢竟,雖然后者開箱即用,但僅針對(duì)Nvidia Spectrum-X和Nvidia InfiniBand進(jìn)行了優(yōu)化。

好消息是,如果你有40億美元用于10萬(wàn)個(gè)集群,就應(yīng)該也有足夠的工程能力來(lái)修補(bǔ)NCCL并進(jìn)行優(yōu)化。

當(dāng)然,軟件開發(fā)是困難的,但Semianalysis認(rèn)為,每個(gè)超大規(guī)模數(shù)據(jù)中心都會(huì)進(jìn)行這些優(yōu)化并拋棄InfiniBand。

圖片

物料清單

每10萬(wàn)個(gè)H100集群的總資本支出約為40億美元,但具體金額會(huì)因所選擇的網(wǎng)絡(luò)類型而有所不同。

具體來(lái)說(shuō),可以分為四種:

1. 4層InfiniBand網(wǎng)絡(luò),包含32,768個(gè)GPU集群,軌道優(yōu)化,7:1收斂比

2. 3層Spectrum X網(wǎng)絡(luò),包含32,768個(gè)GPU集群,軌道優(yōu)化,7:1收斂比

3. 3層InfiniBand網(wǎng)絡(luò),包含24,576個(gè)GPU集群,非軌道優(yōu)化,用于前端網(wǎng)絡(luò)的集群間連接

4. 3層Broadcom Tomahawk 5以太網(wǎng)網(wǎng)絡(luò),包含32,768個(gè)GPU集群,軌道優(yōu)化,7:1收斂比

圖片

可以看到,選項(xiàng)1比其他選項(xiàng)貴了1.3到1.6倍;選項(xiàng)2雖然提供了更大的集群、更高的集群間帶寬和相似的成本,但需要更多的電力;而選項(xiàng)3則會(huì)嚴(yán)重降低并行方案的靈活性。

綜上,基于Broadcom Tomahawk 5的32k集群,搭配7:1的收斂比是最具成本效益的選項(xiàng),這也是多家公司選擇構(gòu)建類似網(wǎng)絡(luò)的原因。

平面布局

最后,在集群的設(shè)計(jì)上,還需要優(yōu)化機(jī)架布局。

從圖中可以看到,有些行的葉交換機(jī)并不在同一排,這其實(shí)是為了優(yōu)化使用50米多模光纖。

因?yàn)槿绻麑⒍嗄J瞻l(fā)器放在行的末端,中間的主干交換機(jī)將超出距離范圍。

圖片

使用軌道優(yōu)化的Spectrum-X / Tomahawk 5的32k集群平面圖

在這個(gè)微軟開發(fā)集群中,每個(gè)機(jī)架支持高達(dá)40kW的功率密度,每個(gè)機(jī)架容納四個(gè)H100節(jié)點(diǎn)。

圖片

目前,這個(gè)擁有10萬(wàn)個(gè)節(jié)點(diǎn)的集群的4棟建筑中,有3棟已經(jīng)建成

而從H100服務(wù)器到葉交換機(jī)的連接則使用多模AOC光纖,通過(guò)藍(lán)色電纜識(shí)別。

圖片

展望未來(lái),隨著博通幾乎主導(dǎo)了所有超大規(guī)模集群,他們的網(wǎng)絡(luò)收入將繼續(xù)飆升。

與此同時(shí),由于眾多新興云服務(wù)和企業(yè)傾向于選擇英偉達(dá)的參考設(shè)計(jì),這家巨頭在網(wǎng)絡(luò)方面也將繼續(xù)增長(zhǎng)。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2023-08-29 13:51:00

AI數(shù)據(jù)

2024-03-14 14:49:34

Meta人工智能

2024-09-05 13:30:00

2025-02-17 09:06:00

AI算力模型

2012-07-06 15:23:28

Linux集群

2009-12-24 14:02:57

Linux集群技術(shù)

2024-10-31 13:39:47

2024-07-29 14:27:38

2024-07-16 13:29:52

2024-03-15 09:00:00

2024-07-23 13:10:20

2022-08-09 09:10:43

Kubernetes容器

2024-05-27 00:50:00

2019-07-03 15:32:26

路由器網(wǎng)絡(luò)系統(tǒng)

2021-08-27 10:14:16

Thanos監(jiān)控開源

2021-08-09 10:20:04

Thanos監(jiān)控架構(gòu)

2009-03-04 14:29:32

RTX2008

2024-03-01 12:32:53

AI模型

2022-02-09 17:08:57

卡頓App 流暢性用戶
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)