讓ChatGPT告訴你如何搭建支持ChatGPT算力的無損網(wǎng)絡(luò)
隨著全球企業(yè)數(shù)字化轉(zhuǎn)型的加速進(jìn)行,當(dāng)前以ChatGPT為代表的應(yīng)用在生產(chǎn)、生活領(lǐng)域的不斷深入,ChatGPT熱度暴增的背后,代表著人工智能等內(nèi)容自動生成技術(shù)所需要的基礎(chǔ)設(shè)施需求也水漲船高。
未來5年我國智能算力規(guī)模年復(fù)合增長率將達(dá)52.3%
據(jù)《2022-2023中國人工智能計算力發(fā)展評估報告》,2021年中國智能算力規(guī)模達(dá)155.2 EFLOPS(FP16), 預(yù)計到2026年中國智能算力規(guī)模將達(dá)到1271.4 EFLOPS。2021~2026年期間,預(yù)計中國智能算力規(guī)模年復(fù)合增長率達(dá)52.3%。
隨著“東數(shù)西算”工程、新型基礎(chǔ)設(shè)施等國家政策規(guī)劃出臺,我國智算中心掀起建設(shè)熱潮。當(dāng)前我國超過30個城市正在建設(shè)或提出建設(shè)智算中心,整體布局以東部地區(qū)為主,并逐漸向中西部地區(qū)拓展。從發(fā)展基礎(chǔ)層面看,圍繞AI產(chǎn)業(yè)化和產(chǎn)業(yè)AI化的發(fā)展思路,人工智能產(chǎn)業(yè)已初步形成以異構(gòu)芯片、算力設(shè)施、算法模型、產(chǎn)業(yè)應(yīng)用為核心的架構(gòu)體系,智算中心具備建設(shè)基礎(chǔ)。
構(gòu)建規(guī)?;悄芩懔Φ鬃?/h4>
當(dāng)前ChatGPT其訓(xùn)練模型主要是在通用基礎(chǔ)大模型底座GPT-3上。訓(xùn)練超大基礎(chǔ)模型需要多方面的關(guān)鍵技術(shù)作為支撐,算法、算力和數(shù)據(jù)缺一不可。算法依賴大模型參數(shù)的提升以及模型本身的優(yōu)化,而算力和數(shù)據(jù)則需要依賴傳統(tǒng)的GPU服務(wù)器、存儲以及網(wǎng)絡(luò)來實現(xiàn)相互促進(jìn)。
數(shù)據(jù)顯示,ChatGPT的總算力消耗約為3640PF-days(即假如每秒計算一千萬億次,需要計算3640天),需要7~8個投資規(guī)模30億、算力500P的數(shù)據(jù)中心才能支撐運(yùn)行。ChatGPT按照1300萬/天的訪問量,估算需要3萬+ GPU。GPU在訓(xùn)練過程中會進(jìn)行頻繁通信,包括P2P通信和Collective通信。在節(jié)點內(nèi),GPU之間的通信互聯(lián)帶寬可達(dá)400GB/s。在節(jié)點之間,GPU通信使用RDMA網(wǎng)絡(luò),通過GDR(GDR, GPU Direct RDMA)技術(shù)支持, RDMA網(wǎng)卡可以繞過CPU、內(nèi)存,直接從遠(yuǎn)端節(jié)點讀取數(shù)據(jù)到GPU顯存。
算力中心網(wǎng)絡(luò)層面需要通過智能無損存儲網(wǎng)絡(luò)等技術(shù)實現(xiàn)網(wǎng)絡(luò)和應(yīng)用系統(tǒng)融合優(yōu)化,通過流量控制技術(shù)和擁塞控制技術(shù)來提升網(wǎng)絡(luò)整體的吞吐量,降低網(wǎng)絡(luò)時延。
對于新華三智能無損網(wǎng)絡(luò)而言,具備超大規(guī)模組網(wǎng)是構(gòu)建智能算力的必經(jīng)之路。目前以ChatGPT為代表的AIGC,包括它背后的大模型的意義,不僅僅是在落地本身,它的科研價值可能更大。普遍認(rèn)為率先落地的幾個行業(yè)可能包括科研類、教育、互聯(lián)網(wǎng)相關(guān)產(chǎn)業(yè)等。
以大規(guī)?;渴鸬幕ヂ?lián)網(wǎng)行業(yè)為例,某互聯(lián)網(wǎng)公司緊跟chatGPT等AI訓(xùn)練為契機(jī)搭建單PoD支持4000個200G端口的集群算力網(wǎng)絡(luò)。在以科研、教育為依托的智算中心當(dāng)前PoD內(nèi)部署端口數(shù)通常在1000~4000個之間,因此新華三提供了多種可選的高性能網(wǎng)絡(luò)方案,完全滿足用戶不同業(yè)務(wù)場景規(guī)模。
盒盒組網(wǎng):當(dāng)前主力的GPU服務(wù)器100G/200G/400G網(wǎng)卡速率,以新華三采用最新的S9825/S9855等系列三層ToR/Leaf/Spine組網(wǎng)架構(gòu)為例,Spine采用雙平面并且保證ToR上下行收斂比滿足1:1要求。在服務(wù)器接入速率400G下單PoD可以支持1024臺服務(wù)器,集群可以提供2048臺400G服務(wù)器規(guī)模接入;若采用200G速率則可以提供單PoD支持2048臺服務(wù)器,集群最大支持32個PoD理論可滿足6.5萬臺服務(wù)器規(guī)模接入;若采用100G速率接入則可以滿足集群最大可超過十萬臺服務(wù)器規(guī)模接入。
圖1:三級盒式架構(gòu)200G接入組網(wǎng)
而對于確定性規(guī)模的無損網(wǎng)絡(luò)而言,新華三提供“一框即無損”的輕量級智能無損網(wǎng)絡(luò)部署方案,同樣可以滿足絕大多數(shù)場景的智算組網(wǎng)需求。
以S12516CR滿配576個400G端口為例,單框作為作為ToR直接于服務(wù)器網(wǎng)卡連接實現(xiàn)1:1收斂,最大可以支持單PoD 576個400G QSFP DD端口接入;200G QSFP56可以滿足最大1152個端口接入;而100G QSFP56可以滿足最大1536個端口接入。需要注意的是采用400G DR4直接拆分可以得到超過2000個DR1封裝的100G端口,而當(dāng)前主流網(wǎng)卡均不支持DR1。采用單框無損的優(yōu)勢顯而易見,采用組網(wǎng)架構(gòu)摒棄傳統(tǒng)的Leaf/Spine架構(gòu),可以有效降低設(shè)備數(shù)量,降低數(shù)據(jù)轉(zhuǎn)發(fā)跳數(shù)有效降低數(shù)據(jù)轉(zhuǎn)發(fā)時延,同時無需計算多層級下的收斂比以及設(shè)備規(guī)模等,大大簡化部署和選型難度并且有效提升組網(wǎng)效率。對于確定性規(guī)模的智能無損網(wǎng)絡(luò)不失為一種新的嘗試。
圖2:“一框即無損” 200G接入組網(wǎng)
框盒組網(wǎng):而對于有著更大規(guī)模組網(wǎng)的需求,新華三數(shù)據(jù)中心網(wǎng)絡(luò)提供框盒無損架構(gòu)。
同樣以GPU服務(wù)器100G/200G/400G網(wǎng)卡速率為例,若采用新華三旗艦數(shù)據(jù)中心框式產(chǎn)品S12500CR系列構(gòu)建ToR/Leaf/Spine三層組網(wǎng)架構(gòu),單臺S12516CR作為Spine并且保證ToR上下行收斂比滿足1:1要求。在服務(wù)器接入速率400G下單PoD可以支持千臺服務(wù)器,集群理論最大可以提供近59臺400G服務(wù)器規(guī)模接入;若采用200G速率則可以提供單PoD支持兩千臺服務(wù)器,集群提供近118萬臺服務(wù)器規(guī)模接入;若采用100G速率接入集群最大可以提供超200萬臺服務(wù)器規(guī)模接入。下圖即為三層框式架構(gòu)200G接入組網(wǎng)
兼?zhèn)湟?guī)模組網(wǎng)和信元交換
對于數(shù)據(jù)中心交換機(jī)而言,不論是傳統(tǒng)的機(jī)框式或者盒式交換機(jī)隨著端口速率從 100G 提升到 400G。不僅要面臨功耗問題,同樣要解決盒式組網(wǎng)的Hash精度以及大象老鼠流。因此新華三數(shù)據(jù)中心交換機(jī)在構(gòu)建智能無損算力數(shù)據(jù)中心網(wǎng)絡(luò)時優(yōu)先采用DDC(Distributed Disaggregated Chassis)技術(shù)應(yīng)對日益增長的算力網(wǎng)絡(luò)方案。DDC 技術(shù)通過對大機(jī)框設(shè)備進(jìn)行分布式解耦,采用盒式交換機(jī)作為轉(zhuǎn)發(fā)線卡和交換網(wǎng)板,靈活分布式部署在多個機(jī)柜, 優(yōu)化組網(wǎng)規(guī)模以及功耗分布問題,同時DDC盒式交換機(jī)之間依舊采用信元交換。
DDC系統(tǒng)各角色名稱:
NCP:Network Cloud Packet (Line card in Chassis)
NCF:Network Cloud Fabric (Fabric card in Chassis)
NCM:Network Cloud Management (Main Management card in Chassis)
圖4:DDC架構(gòu)
圖5:DDC架構(gòu)解耦,400G Full mesh全互聯(lián)
以S12516CR為例,單臺設(shè)備可支持2304臺100G服務(wù)器規(guī)模并且支持1:1收斂。DDC方案將控制端元獨立解耦,在NCP以及NCF之間采用400G全互聯(lián)同時支持信元轉(zhuǎn)發(fā),支持?jǐn)?shù)據(jù)中心Leaf和Spine無阻塞,有效提升數(shù)據(jù)報文轉(zhuǎn)發(fā)效率。經(jīng)測試DDC在Alltoall場景有一定優(yōu)勢,完成時間提高20-30%。同時相比傳統(tǒng)盒式組網(wǎng),DDC硬件收斂性能優(yōu)勢明顯,從端口的up down 測試對比可以發(fā)現(xiàn)采用DDC的收斂時間不足盒式組網(wǎng)時間的1%。
網(wǎng)絡(luò)智能化+流量可視化
智算中心的服務(wù)模式從提供算力為主向提供“算法+算力”轉(zhuǎn)變,在智能無損網(wǎng)絡(luò)中同樣需要AI無損算法加持。
無損網(wǎng)絡(luò)中各個隊列轉(zhuǎn)發(fā)的數(shù)據(jù)流量特征會隨時間動態(tài)變化,網(wǎng)絡(luò)管理員通過靜態(tài)設(shè)置ECN門限時,并不能滿足實時動態(tài)變化的網(wǎng)絡(luò)流量特征。新華三無損網(wǎng)絡(luò)交換機(jī)支持AI ECN功能利用設(shè)備本地或分析器上的AI業(yè)務(wù)組件,按照一定規(guī)則動態(tài)優(yōu)化ECN門限。其中,AI業(yè)務(wù)組件是實現(xiàn)ECN動態(tài)調(diào)優(yōu)的關(guān)鍵,是內(nèi)置在網(wǎng)絡(luò)設(shè)備或者分析器中的系統(tǒng)進(jìn)程,它主要包括三個層次的功能框架:
- 數(shù)據(jù)采集分析層:提供用于獲取海量待分析的特征數(shù)據(jù)的數(shù)據(jù)采集接口,并對獲取到的這些數(shù)據(jù)進(jìn)行預(yù)處理和分析。
- 模型管理層:管理模型文件,并基于用戶加載的AI功能模型,推理得到AI ECN門限。
- 算法層:調(diào)用數(shù)據(jù)采集分析層的接口得到實時特征數(shù)據(jù),按照固定步長的搜索試算法計算得到AI ECN門限。
圖6:AI ECN功能實現(xiàn)示意圖
另外,新華三數(shù)據(jù)中心網(wǎng)絡(luò)提供AI ECN運(yùn)維可視化。根據(jù)AI業(yè)務(wù)組件在網(wǎng)絡(luò)中的實施位置不同,AI ECN功能可以分為集中式AI ECN和分布式AI ECN兩種模式:
- 分布式AI ECN:AI業(yè)務(wù)組件集成在設(shè)備本地,通過在設(shè)備中增加專門的神經(jīng)網(wǎng)絡(luò)(GPU)芯片來滿足AI業(yè)務(wù)組件對算力的需求。
- 集中式AI ECN:AI業(yè)務(wù)組件由分析器實現(xiàn)。適用于未來SDN網(wǎng)絡(luò)架構(gòu),方便包括AI ECN在內(nèi)的所有AI業(yè)務(wù)進(jìn)行集中式管控和可視化運(yùn)維。
在上述兩種場景中,均可以借助SeerAnalyzer分析器的優(yōu)勢,為用戶呈現(xiàn)可視化的AI ECN參數(shù)調(diào)優(yōu)效果。
圖7:AI ECN調(diào)優(yōu)前后PFC反壓幀速率對比
回顧過去,新華三已經(jīng)在智能無損網(wǎng)絡(luò)領(lǐng)域與諸多頭部企業(yè)達(dá)成深度合作。而在未來,新華三數(shù)據(jù)中心網(wǎng)絡(luò)將持續(xù)聚焦超寬、智能、融合、綠色的演進(jìn),提供更智能、更綠色、更強(qiáng)算力的數(shù)據(jù)中心網(wǎng)絡(luò)產(chǎn)品與方案。
引用文獻(xiàn):
1、光明網(wǎng):ChatGPT火爆帶動算力需求,我國算力規(guī)模能否支撐?
2、《智能計算中心創(chuàng)新發(fā)展指南》
3、《DDC 技術(shù)白皮書》