自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

讓ChatGPT告訴你如何搭建支持ChatGPT算力的無損網(wǎng)絡(luò)

網(wǎng)絡(luò)
新華三數(shù)據(jù)中心網(wǎng)絡(luò)將持續(xù)聚焦超寬、智能、融合、綠色的演進(jìn),提供更智能、更綠色、更強(qiáng)算力的數(shù)據(jù)中心網(wǎng)絡(luò)產(chǎn)品與方案。

圖片

隨著全球企業(yè)數(shù)字化轉(zhuǎn)型的加速進(jìn)行,當(dāng)前以ChatGPT為代表的應(yīng)用在生產(chǎn)、生活領(lǐng)域的不斷深入,ChatGPT熱度暴增的背后,代表著人工智能等內(nèi)容自動生成技術(shù)所需要的基礎(chǔ)設(shè)施需求也水漲船高。

未來5年我國智能算力規(guī)模年復(fù)合增長率將達(dá)52.3%

據(jù)《2022-2023中國人工智能計算力發(fā)展評估報告》,2021年中國智能算力規(guī)模達(dá)155.2 EFLOPS(FP16),  預(yù)計到2026年中國智能算力規(guī)模將達(dá)到1271.4 EFLOPS。2021~2026年期間,預(yù)計中國智能算力規(guī)模年復(fù)合增長率達(dá)52.3%。

隨著“東數(shù)西算”工程、新型基礎(chǔ)設(shè)施等國家政策規(guī)劃出臺,我國智算中心掀起建設(shè)熱潮。當(dāng)前我國超過30個城市正在建設(shè)或提出建設(shè)智算中心,整體布局以東部地區(qū)為主,并逐漸向中西部地區(qū)拓展。從發(fā)展基礎(chǔ)層面看,圍繞AI產(chǎn)業(yè)化和產(chǎn)業(yè)AI化的發(fā)展思路,人工智能產(chǎn)業(yè)已初步形成以異構(gòu)芯片、算力設(shè)施、算法模型、產(chǎn)業(yè)應(yīng)用為核心的架構(gòu)體系,智算中心具備建設(shè)基礎(chǔ)。

構(gòu)建規(guī)?;悄芩懔Φ鬃?/h4>

當(dāng)前ChatGPT其訓(xùn)練模型主要是在通用基礎(chǔ)大模型底座GPT-3上。訓(xùn)練超大基礎(chǔ)模型需要多方面的關(guān)鍵技術(shù)作為支撐,算法、算力和數(shù)據(jù)缺一不可。算法依賴大模型參數(shù)的提升以及模型本身的優(yōu)化,而算力和數(shù)據(jù)則需要依賴傳統(tǒng)的GPU服務(wù)器、存儲以及網(wǎng)絡(luò)來實現(xiàn)相互促進(jìn)。

數(shù)據(jù)顯示,ChatGPT的總算力消耗約為3640PF-days(即假如每秒計算一千萬億次,需要計算3640天),需要7~8個投資規(guī)模30億、算力500P的數(shù)據(jù)中心才能支撐運(yùn)行。ChatGPT按照1300萬/天的訪問量,估算需要3萬+ GPU。GPU在訓(xùn)練過程中會進(jìn)行頻繁通信,包括P2P通信和Collective通信。在節(jié)點內(nèi),GPU之間的通信互聯(lián)帶寬可達(dá)400GB/s。在節(jié)點之間,GPU通信使用RDMA網(wǎng)絡(luò),通過GDR(GDR, GPU Direct RDMA)技術(shù)支持, RDMA網(wǎng)卡可以繞過CPU、內(nèi)存,直接從遠(yuǎn)端節(jié)點讀取數(shù)據(jù)到GPU顯存。

算力中心網(wǎng)絡(luò)層面需要通過智能無損存儲網(wǎng)絡(luò)等技術(shù)實現(xiàn)網(wǎng)絡(luò)和應(yīng)用系統(tǒng)融合優(yōu)化,通過流量控制技術(shù)和擁塞控制技術(shù)來提升網(wǎng)絡(luò)整體的吞吐量,降低網(wǎng)絡(luò)時延。

對于新華三智能無損網(wǎng)絡(luò)而言,具備超大規(guī)模組網(wǎng)是構(gòu)建智能算力的必經(jīng)之路。目前以ChatGPT為代表的AIGC,包括它背后的大模型的意義,不僅僅是在落地本身,它的科研價值可能更大。普遍認(rèn)為率先落地的幾個行業(yè)可能包括科研類、教育、互聯(lián)網(wǎng)相關(guān)產(chǎn)業(yè)等。

以大規(guī)?;渴鸬幕ヂ?lián)網(wǎng)行業(yè)為例,某互聯(lián)網(wǎng)公司緊跟chatGPT等AI訓(xùn)練為契機(jī)搭建單PoD支持4000個200G端口的集群算力網(wǎng)絡(luò)。在以科研、教育為依托的智算中心當(dāng)前PoD內(nèi)部署端口數(shù)通常在1000~4000個之間,因此新華三提供了多種可選的高性能網(wǎng)絡(luò)方案,完全滿足用戶不同業(yè)務(wù)場景規(guī)模。

盒盒組網(wǎng):當(dāng)前主力的GPU服務(wù)器100G/200G/400G網(wǎng)卡速率,以新華三采用最新的S9825/S9855等系列三層ToR/Leaf/Spine組網(wǎng)架構(gòu)為例,Spine采用雙平面并且保證ToR上下行收斂比滿足1:1要求。在服務(wù)器接入速率400G下單PoD可以支持1024臺服務(wù)器,集群可以提供2048臺400G服務(wù)器規(guī)模接入;若采用200G速率則可以提供單PoD支持2048臺服務(wù)器,集群最大支持32個PoD理論可滿足6.5萬臺服務(wù)器規(guī)模接入;若采用100G速率接入則可以滿足集群最大可超過十萬臺服務(wù)器規(guī)模接入。

圖片

圖1:三級盒式架構(gòu)200G接入組網(wǎng)

而對于確定性規(guī)模的無損網(wǎng)絡(luò)而言,新華三提供“一框即無損”的輕量級智能無損網(wǎng)絡(luò)部署方案,同樣可以滿足絕大多數(shù)場景的智算組網(wǎng)需求。

以S12516CR滿配576個400G端口為例,單框作為作為ToR直接于服務(wù)器網(wǎng)卡連接實現(xiàn)1:1收斂,最大可以支持單PoD  576個400G QSFP DD端口接入;200G QSFP56可以滿足最大1152個端口接入;而100G QSFP56可以滿足最大1536個端口接入。需要注意的是采用400G DR4直接拆分可以得到超過2000個DR1封裝的100G端口,而當(dāng)前主流網(wǎng)卡均不支持DR1。采用單框無損的優(yōu)勢顯而易見,采用組網(wǎng)架構(gòu)摒棄傳統(tǒng)的Leaf/Spine架構(gòu),可以有效降低設(shè)備數(shù)量,降低數(shù)據(jù)轉(zhuǎn)發(fā)跳數(shù)有效降低數(shù)據(jù)轉(zhuǎn)發(fā)時延,同時無需計算多層級下的收斂比以及設(shè)備規(guī)模等,大大簡化部署和選型難度并且有效提升組網(wǎng)效率。對于確定性規(guī)模的智能無損網(wǎng)絡(luò)不失為一種新的嘗試。

圖片

圖2:“一框即無損” 200G接入組網(wǎng)

框盒組網(wǎng):而對于有著更大規(guī)模組網(wǎng)的需求,新華三數(shù)據(jù)中心網(wǎng)絡(luò)提供框盒無損架構(gòu)。

同樣以GPU服務(wù)器100G/200G/400G網(wǎng)卡速率為例,若采用新華三旗艦數(shù)據(jù)中心框式產(chǎn)品S12500CR系列構(gòu)建ToR/Leaf/Spine三層組網(wǎng)架構(gòu),單臺S12516CR作為Spine并且保證ToR上下行收斂比滿足1:1要求。在服務(wù)器接入速率400G下單PoD可以支持千臺服務(wù)器,集群理論最大可以提供近59臺400G服務(wù)器規(guī)模接入;若采用200G速率則可以提供單PoD支持兩千臺服務(wù)器,集群提供近118萬臺服務(wù)器規(guī)模接入;若采用100G速率接入集群最大可以提供超200萬臺服務(wù)器規(guī)模接入。下圖即為三層框式架構(gòu)200G接入組網(wǎng)

圖片

兼?zhèn)湟?guī)模組網(wǎng)和信元交換

對于數(shù)據(jù)中心交換機(jī)而言,不論是傳統(tǒng)的機(jī)框式或者盒式交換機(jī)隨著端口速率從 100G 提升到 400G。不僅要面臨功耗問題,同樣要解決盒式組網(wǎng)的Hash精度以及大象老鼠流。因此新華三數(shù)據(jù)中心交換機(jī)在構(gòu)建智能無損算力數(shù)據(jù)中心網(wǎng)絡(luò)時優(yōu)先采用DDC(Distributed Disaggregated Chassis)技術(shù)應(yīng)對日益增長的算力網(wǎng)絡(luò)方案。DDC 技術(shù)通過對大機(jī)框設(shè)備進(jìn)行分布式解耦,采用盒式交換機(jī)作為轉(zhuǎn)發(fā)線卡和交換網(wǎng)板,靈活分布式部署在多個機(jī)柜, 優(yōu)化組網(wǎng)規(guī)模以及功耗分布問題,同時DDC盒式交換機(jī)之間依舊采用信元交換。

DDC系統(tǒng)各角色名稱:

NCP:Network Cloud Packet (Line card in Chassis)

NCF:Network Cloud Fabric (Fabric card in Chassis)

NCM:Network Cloud Management (Main Management card in Chassis)

圖片

圖4:DDC架構(gòu)

圖片

圖5:DDC架構(gòu)解耦,400G Full mesh全互聯(lián)

以S12516CR為例,單臺設(shè)備可支持2304臺100G服務(wù)器規(guī)模并且支持1:1收斂。DDC方案將控制端元獨立解耦,在NCP以及NCF之間采用400G全互聯(lián)同時支持信元轉(zhuǎn)發(fā),支持?jǐn)?shù)據(jù)中心Leaf和Spine無阻塞,有效提升數(shù)據(jù)報文轉(zhuǎn)發(fā)效率。經(jīng)測試DDC在Alltoall場景有一定優(yōu)勢,完成時間提高20-30%。同時相比傳統(tǒng)盒式組網(wǎng),DDC硬件收斂性能優(yōu)勢明顯,從端口的up down 測試對比可以發(fā)現(xiàn)采用DDC的收斂時間不足盒式組網(wǎng)時間的1%。

網(wǎng)絡(luò)智能化+流量可視化

智算中心的服務(wù)模式從提供算力為主向提供“算法+算力”轉(zhuǎn)變,在智能無損網(wǎng)絡(luò)中同樣需要AI無損算法加持。

無損網(wǎng)絡(luò)中各個隊列轉(zhuǎn)發(fā)的數(shù)據(jù)流量特征會隨時間動態(tài)變化,網(wǎng)絡(luò)管理員通過靜態(tài)設(shè)置ECN門限時,并不能滿足實時動態(tài)變化的網(wǎng)絡(luò)流量特征。新華三無損網(wǎng)絡(luò)交換機(jī)支持AI ECN功能利用設(shè)備本地或分析器上的AI業(yè)務(wù)組件,按照一定規(guī)則動態(tài)優(yōu)化ECN門限。其中,AI業(yè)務(wù)組件是實現(xiàn)ECN動態(tài)調(diào)優(yōu)的關(guān)鍵,是內(nèi)置在網(wǎng)絡(luò)設(shè)備或者分析器中的系統(tǒng)進(jìn)程,它主要包括三個層次的功能框架:

  • 數(shù)據(jù)采集分析層:提供用于獲取海量待分析的特征數(shù)據(jù)的數(shù)據(jù)采集接口,并對獲取到的這些數(shù)據(jù)進(jìn)行預(yù)處理和分析。
  • 模型管理層:管理模型文件,并基于用戶加載的AI功能模型,推理得到AI ECN門限。
  • 算法層:調(diào)用數(shù)據(jù)采集分析層的接口得到實時特征數(shù)據(jù),按照固定步長的搜索試算法計算得到AI ECN門限。

圖片

圖6:AI ECN功能實現(xiàn)示意圖

另外,新華三數(shù)據(jù)中心網(wǎng)絡(luò)提供AI ECN運(yùn)維可視化。根據(jù)AI業(yè)務(wù)組件在網(wǎng)絡(luò)中的實施位置不同,AI ECN功能可以分為集中式AI ECN和分布式AI ECN兩種模式:

  • 分布式AI ECN:AI業(yè)務(wù)組件集成在設(shè)備本地,通過在設(shè)備中增加專門的神經(jīng)網(wǎng)絡(luò)(GPU)芯片來滿足AI業(yè)務(wù)組件對算力的需求。
  • 集中式AI ECN:AI業(yè)務(wù)組件由分析器實現(xiàn)。適用于未來SDN網(wǎng)絡(luò)架構(gòu),方便包括AI ECN在內(nèi)的所有AI業(yè)務(wù)進(jìn)行集中式管控和可視化運(yùn)維。

在上述兩種場景中,均可以借助SeerAnalyzer分析器的優(yōu)勢,為用戶呈現(xiàn)可視化的AI ECN參數(shù)調(diào)優(yōu)效果。

圖片

圖7:AI ECN調(diào)優(yōu)前后PFC反壓幀速率對比

回顧過去,新華三已經(jīng)在智能無損網(wǎng)絡(luò)領(lǐng)域與諸多頭部企業(yè)達(dá)成深度合作。而在未來,新華三數(shù)據(jù)中心網(wǎng)絡(luò)將持續(xù)聚焦超寬、智能、融合、綠色的演進(jìn),提供更智能、更綠色、更強(qiáng)算力的數(shù)據(jù)中心網(wǎng)絡(luò)產(chǎn)品與方案。

引用文獻(xiàn):

1、光明網(wǎng):ChatGPT火爆帶動算力需求,我國算力規(guī)模能否支撐?

2、《智能計算中心創(chuàng)新發(fā)展指南》

3、《DDC 技術(shù)白皮書》

責(zé)任編輯:張燕妮 來源: 新華三智能聯(lián)接
相關(guān)推薦

2023-09-07 16:18:50

網(wǎng)絡(luò)方案

2023-02-25 22:05:16

算力數(shù)據(jù)

2024-11-29 08:53:46

2023-02-15 16:22:10

人工智能ChatGPT模型開發(fā)

2023-04-25 14:56:24

ChatGPT人工智能

2023-03-02 15:46:13

2024-03-25 08:18:31

2023-03-11 00:16:08

2023-08-17 11:53:22

2023-04-06 16:21:52

2023-02-03 16:39:39

ChatGPT算力人工智能

2023-02-27 10:45:16

2023-02-07 10:09:20

ChatGPT人工智能

2023-05-25 14:06:45

ChatGPT人工智能工具

2014-11-05 10:58:00

編程

2023-04-27 13:16:45

2023-09-13 07:00:54

2023-03-27 14:33:50

ChatGPT
點贊
收藏

51CTO技術(shù)棧公眾號