自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

阿里 HPN:針對(duì)大規(guī)模 LLM 訓(xùn)練的萬(wàn)卡集群

發(fā)布于 2024-6-27 15:42
瀏覽
0收藏

一、背景

之前的文章中我們具體介紹了萬(wàn)卡 GPU 集群中的網(wǎng)絡(luò)拓?fù)湟约霸谌f(wàn)卡 GPU 集群中進(jìn)行大規(guī)模 LLM 訓(xùn)練面對(duì)的挑戰(zhàn)和解決方案;也進(jìn)一步介紹了阿里云的集合通信調(diào)度框架 C4 和 C4 底層的阿里云新一代智算集群網(wǎng)絡(luò)架構(gòu) HPN 7.0。不過(guò)上述 HPN 7.0 的相關(guān)介紹都是基于阿里官網(wǎng)或者之前的公開(kāi)分享,最近阿里正式公布了 HPN 相應(yīng)的 Paper,與我們之前了解到的稍有不同,此處進(jìn)行相應(yīng)補(bǔ)充。有關(guān)雙上聯(lián)、雙平面介紹這里不再贅述。

對(duì)應(yīng)的論文:??https://ennanzhai.github.io/pub/sigcomm24-hpn.pdf??

上面提到的幾個(gè)介紹可以參考:

二、拓?fù)?/h3>

如下圖所示為我們之前介紹的拓?fù)浞绞剑▓D片來(lái)自 Revolutionizing Data Center Networks: Alibaba’s SONiC Journey),是一個(gè)完全無(wú)收斂的方案。對(duì)于下圖的拓?fù)渲校?/p>

  • 每個(gè) Segment 有 128 個(gè)節(jié)點(diǎn),共 1024 GPU(單層千卡)。
  • 每個(gè) Pod 有 8 個(gè) Segment,也就是每個(gè) Pod 有 8192 GPU。
  • 總共有 128 個(gè) Pod,也就是可以支持 1,048,576 個(gè) GPU(三層 100 萬(wàn))。?

阿里 HPN:針對(duì)大規(guī)模 LLM 訓(xùn)練的萬(wàn)卡集群-AI.x社區(qū)

如下圖 Figure 7 所示,在 HPN Paper 中的拓?fù)浞绞脚c我們之前看到的稍有不同(雙上聯(lián)、雙平面等思路都是完全一樣的),我們這里簡(jiǎn)單進(jìn)行介紹:

  • 下面的拓?fù)渲邪饲跋蚓W(wǎng)絡(luò)(Frontend Network)和后向網(wǎng)絡(luò)(Backend Network):

后向網(wǎng)絡(luò):有收斂,使用每個(gè)節(jié)點(diǎn) 9 個(gè) NIC 中的 NIC1-NIC9 這 8 個(gè)互聯(lián),主要用于大規(guī)模分布式訓(xùn)練,并且一個(gè) GPU 連接一個(gè) NIC。

前向網(wǎng)絡(luò):無(wú)收斂,使用每個(gè)節(jié)點(diǎn) 9 個(gè) NIC 中的 NIC0 互聯(lián)。為了支持更多的場(chǎng)景,比如訓(xùn)練/推理混部,模型傳輸,數(shù)據(jù)加載等場(chǎng)景。

  • 后向網(wǎng)絡(luò)依然是 3 層:
  • Segment:依然采用雙上聯(lián)方式,一個(gè) NIC 上有 2 個(gè) 200Gbps 的 Port(PS:沒(méi)有采用之前介紹的 2 個(gè) 200 Gbps NIC 的方式),會(huì)連接兩個(gè)不同的 ToR 交換機(jī)。

一個(gè) Segment 里面依然有 16 個(gè) ToR 交換機(jī),每個(gè)交換機(jī) 128 個(gè) 400Gbps Port,但是有 60 連接 Spine 交換機(jī),68 個(gè)連接節(jié)點(diǎn)的 NIC。

68 個(gè) 400Gbps Port 可以對(duì)應(yīng) 136 個(gè) 200Gbps NIC Port,也就是一個(gè) Segment 里面 136 個(gè)節(jié)點(diǎn),共 138*8=1104 個(gè) GPU。

實(shí)際上 136 個(gè)節(jié)點(diǎn)中有 8 個(gè)是備份,以便節(jié)點(diǎn)故障(比如 GPU、網(wǎng)卡、硬盤(pán)、CPU 等)時(shí)可以快速替換。實(shí)際使用 128 個(gè)節(jié)點(diǎn),共 1024 GPU,對(duì)應(yīng)的網(wǎng)絡(luò)收斂比為 (1024*400)/(60*400*16)=1.067:1。

Pod:一個(gè) Pod 中的 Segment 從 8 個(gè)變成 15 個(gè),所以最多能支持 15*1024=15K GPU。

  • 在 Spine(Agg)交換機(jī)上采用 15:1 的收斂比,因此可以有更多的下行 Port 連接 Leaf 交換機(jī)。
  • 具體來(lái)說(shuō),每個(gè) Spine 交換機(jī)有 120 個(gè) Port 連接 Leaf 交換機(jī),也就可以連接 120/8=15 個(gè) Segment(每個(gè) Segment 里面同一平面的 8 個(gè) Leaf 交換機(jī)連接到同一個(gè) Spine 交換機(jī))。
  • Cluster:一個(gè) Cluster 可以包含多個(gè) Pod,通過(guò) Core 交換機(jī)連接。
  • Spine(Agg) 交換機(jī)有 8 個(gè) Port 連接 Core 交換機(jī)。這個(gè)是為了支持更大規(guī)模的 GPU,比如 8 個(gè) Pod,則可以支持 120K GPU。
  • 在大規(guī)模模型訓(xùn)練時(shí),可以將 PP(Pipeline Parallelism)中的不同切片放在不同的 Pod,這樣跨 Pod 的通信量比較小,也就不容易出現(xiàn)瓶頸。?

阿里 HPN:針對(duì)大規(guī)模 LLM 訓(xùn)練的萬(wàn)卡集群-AI.x社區(qū)

三、附錄

3.1 單 Segment 千卡

如下圖 Figure 6 所示,生產(chǎn)環(huán)境中 96.3% 的訓(xùn)練任務(wù)需要的 GPU 數(shù)都不超過(guò) 1024 GPU,也就是都可以放在 1 個(gè) Segment 里,這樣通信是非常高效的,不同 GPU 通信最多只用經(jīng)過(guò) 1 跳即可:

阿里 HPN:針對(duì)大規(guī)模 LLM 訓(xùn)練的萬(wàn)卡集群-AI.x社區(qū)

3.2 多 Pod 互聯(lián)

HPN 中在 Core 交換機(jī)上采用 15:1 的收斂比,也就是有額外 87.5% 的 Port 可以用于同一個(gè) Pod 中的 Segment。所以同一個(gè) Pod 的 Segment 從 8 個(gè)變成 15 個(gè),GPU 數(shù)從 8192 增加到 15360,可以支持更多的任務(wù)在同一 Pod 內(nèi)執(zhí)行。同一個(gè) Pod 內(nèi)的 GPU 通信最多只用通過(guò) 3 跳即可,而如果是 3 Tier 網(wǎng)絡(luò),則最多可能需要 5 跳。

那么為什么沒(méi)有直接搞成 2 Tier 網(wǎng)絡(luò)呢?主要是還需考慮到技術(shù)的演進(jìn),模型在不斷擴(kuò)大,訓(xùn)練的數(shù)據(jù)也越來(lái)越多,相應(yīng)需要的 GPU 也就越來(lái)越多,這就很難說(shuō)是否未來(lái)的某一天需要超過(guò) 15K GPU 來(lái)訓(xùn)練大模型。與此同時(shí),大模型訓(xùn)練通常會(huì)使用 DP(Data Parallelism)、TP(Tensor Parallelism)和 PP(Pipeline Parallelism)技術(shù),而 PP 相對(duì) DP 和 TP 的通信量要小得多,如下圖 Table 3 所示(GPT-175B,TP=8,PP=8,DP=512),因此就可以考慮為其提供較低的通信帶寬,比如跨 Pod。

阿里 HPN:針對(duì)大規(guī)模 LLM 訓(xùn)練的萬(wàn)卡集群-AI.x社區(qū)

3.3 大規(guī)模預(yù)訓(xùn)練對(duì)比

如下圖 Figure 20 所示為作者原來(lái)使用的 DCN+ 集群拓?fù)?,采用無(wú)收斂設(shè)計(jì)。一個(gè) Segment 中只有 16 個(gè)節(jié)點(diǎn),128 個(gè) GPU,一個(gè) Pod 只有 512 個(gè) GPU:

阿里 HPN:針對(duì)大規(guī)模 LLM 訓(xùn)練的萬(wàn)卡集群-AI.x社區(qū)

作者用一個(gè)相同的 LLM 預(yù)訓(xùn)練任務(wù)進(jìn)行了對(duì)比,該任務(wù)需要 2300+ GPU,共 288+ 個(gè)節(jié)點(diǎn),訓(xùn)練幾個(gè)月。在 DCN+ 中需要至少 5 個(gè) Pod,19 個(gè) Segment,而在 HPN 中只需要 3 個(gè) Segment。如下圖 Figure 15所示:

  • 15a:端到端訓(xùn)練吞吐提升 14.9%。
  • 15b:跨 Segment 流量平均降低 37%。
  • 15c:Agg 交換機(jī)下行隊(duì)列長(zhǎng)度大幅降低。

?

阿里 HPN:針對(duì)大規(guī)模 LLM 訓(xùn)練的萬(wàn)卡集群-AI.x社區(qū)

四、參考鏈接

  1. ??https://ennanzhai.github.io/pub/sigcomm24-hpn.pdf??
  2. ??https://sonicfoundation.dev/revolutionizing-data-center-networks-alibabas-sonic-journey/??

本文轉(zhuǎn)載自 ??AI閑談??,作者: AI閑談

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦