自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

用DDC來構(gòu)建AI網(wǎng)絡(luò)?這可能只是一個美好的幻覺

人工智能 網(wǎng)絡(luò)
在這場AI的軍備競賽中,DDC高調(diào)出鏡,一夜之間似乎成為了構(gòu)建高性能AI網(wǎng)絡(luò)革命性技術(shù)的代名詞。但真如看上去那么美好嗎?讓我們詳細(xì)分析,冷靜判斷。

ChatGPT、AIGC、大模型……一系列眼花繚亂的名詞橫空出世,AI商業(yè)價值引發(fā)社會的高度關(guān)注。隨著訓(xùn)練模型規(guī)模的增長,支撐AI算力的數(shù)據(jù)中心網(wǎng)絡(luò)也成為熱點(diǎn)。提升算力效率,構(gòu)建高性能網(wǎng)絡(luò)……大廠們各顯神通,努力在以太產(chǎn)業(yè)宏圖上開辟AI網(wǎng)絡(luò)的“F1新賽道”。

在這場AI的軍備競賽中,DDC高調(diào)出鏡,一夜之間似乎成為了構(gòu)建高性能AI網(wǎng)絡(luò)革命性技術(shù)的代名詞。但真如看上去那么美好嗎?讓我們詳細(xì)分析,冷靜判斷。

始于2019年,DDC的本質(zhì)是以盒盒路由器替代框式路由器

隨著DCN流量的快速增長,DCI網(wǎng)絡(luò)升級需求日益迫切。然而,DCI路由器框式設(shè)備擴(kuò)容能力受機(jī)框大小限制;同時設(shè)備功耗大,擴(kuò)容機(jī)框時對機(jī)柜電力、散熱等要求較高,改造成本高。在此背景下,2019年AT&T向OCP提交了基于商用芯片的盒式路由器規(guī)范,提出了DDC(Disaggregated Distributed Chassis)的概念。簡單來說,DDC就是使用若干個低功耗盒式設(shè)備組成的集群替換框式設(shè)備業(yè)務(wù)線卡和網(wǎng)板等硬件單元,盒式設(shè)備間通過線纜互聯(lián)。整個集群通過集中式或者分布式的NOS(網(wǎng)絡(luò)操作系統(tǒng))管理,以期突破DCI單框設(shè)備性能和功耗瓶頸的問題。

DDC宣稱的優(yōu)勢包括:

突破框式設(shè)備擴(kuò)容限制:通過多設(shè)備集群實(shí)現(xiàn)擴(kuò)容,不受機(jī)框尺寸限制;

降低單點(diǎn)功耗:多臺低功耗的盒式設(shè)備分散部署,解決了功耗集中的問題,降低機(jī)柜電力和散熱的要求;

提升帶寬利用率:與傳統(tǒng)的ETH網(wǎng)Hash交換相比,DDC采用信元(Cell)交換,基于Cell進(jìn)行負(fù)載均衡,有助于提升帶寬利用率;

緩解丟包:使用設(shè)備大緩存能力滿足DCI場景高收斂比要求。先通過VOQ(Virtual Output Queue)技術(shù)先將網(wǎng)絡(luò)中接收到的報文分配到不同的虛擬出隊列中,再通過Credit通信機(jī)制確定接收端有足夠的緩存空間后再發(fā)送這些報文,從而減少由于出口擁塞帶來的丟包。

DDC方案在DCI場景僅曇花一現(xiàn)

想法看起來很完美,可落地卻并非一帆風(fēng)順。DriveNets公司的Network Cloud產(chǎn)品是業(yè)界第一個、也是唯一一個商用的DDC解決方案,整套軟件適配通用白盒路由器。但至今在市面上未見到明確的銷售案例。AT&T作為DDC架構(gòu)方案提出者,在2020年自建的IP骨干網(wǎng)中灰度部署了DDC方案,但后續(xù)也基本沒有多少聲響。為什么這朵水花并沒有掀起多大的浪呢?這應(yīng)該歸咎于DDC存在的四大缺陷。

缺陷一:不可靠的設(shè)備管控平面

框式設(shè)備各部件通過硬件高度集成、可靠性極高的PCIe總線實(shí)現(xiàn)控制管理面互聯(lián),并設(shè)備都使用雙主控板設(shè)計,確保設(shè)備的管控平面高可靠。DDC則使用“壞了就換”的易損模塊線纜互聯(lián),構(gòu)筑多設(shè)備集群并支撐集群管控平面運(yùn)行。雖突破了框式設(shè)備的規(guī)模,但這種不可靠的互聯(lián)方式給管控面帶來了極大風(fēng)險。兩臺設(shè)備堆疊,異常時會出現(xiàn)腦裂、表項不同步等問題。對于DDC這不可靠的管控平面而言,這種問題更容易發(fā)生。

缺陷二:高度復(fù)雜的設(shè)備NOS

SONiC社區(qū)已有基于VOQ架構(gòu)下的分布式轉(zhuǎn)發(fā)機(jī)框設(shè)計,并持續(xù)迭代補(bǔ)充和修改以便于滿足對DDC的支持。雖然白盒確實(shí)已經(jīng)有很多落地案例,但“白框”卻少有人挑戰(zhàn)。構(gòu)筑一個拉遠(yuǎn)的“白框”,不僅僅需要考慮集群內(nèi)多設(shè)備的狀態(tài)、表項信息的同步和管理,還需要考慮到版本升級、回滾、熱補(bǔ)丁等多個實(shí)際場景在多設(shè)備下的系統(tǒng)化實(shí)現(xiàn)。DDC對集群的NOS復(fù)雜度要求指數(shù)級提升,目前業(yè)界沒有成熟商用案例,存在很大的開發(fā)風(fēng)險。

缺陷三:可維護(hù)方案缺失

網(wǎng)絡(luò)是不可靠的,因此ETH網(wǎng)絡(luò)做了大量可維護(hù)和可定位的特性或工具,比如耳熟能詳?shù)腎NT、MOD。這些工具可以對具體的流進(jìn)行監(jiān)控,識別丟包的流特征,從而進(jìn)行定位排障。但DDC使用的信元僅是報文的一個切片,沒有相關(guān)IP等五元組信息,無法關(guān)聯(lián)到具體的業(yè)務(wù)流。DDC一旦出現(xiàn)丟包問題,當(dāng)前的運(yùn)維手段無法定位到丟包點(diǎn),維護(hù)方案嚴(yán)重缺失。

缺陷四:成本提升

DDC為突破機(jī)框尺寸限制,需要將集群的各設(shè)備通過高速的線纜/模塊互聯(lián);互聯(lián)成本是遠(yuǎn)高于框式設(shè)備線卡和網(wǎng)板之間通過PCB走線和高速鏈接器互聯(lián),且規(guī)模越大互聯(lián)成本越高。

同時為降低單點(diǎn)功耗集中,通過線纜/模塊互聯(lián)的DDC集群整體功耗高于框式設(shè)備。相同一代的芯片,假設(shè)DDC集群設(shè)備之間用模塊互聯(lián),集群功耗較框式設(shè)備高30%。

拒絕炒剩飯,DDC方案同樣不適用于AI網(wǎng)絡(luò)

DDC方案的不成熟和不完善,在DCI場景上已黯然退場。但當(dāng)前在AI風(fēng)口下竟然死灰復(fù)燃。筆者認(rèn)為,DDC同樣不適用于AI網(wǎng)絡(luò),接下來我們詳細(xì)分析。

AI網(wǎng)絡(luò)的兩大核心訴求:高吞吐、低時延

AI網(wǎng)絡(luò)支撐的業(yè)務(wù)其特征是流數(shù)量少,單條流的帶寬大;同時流量不均勻,經(jīng)常出現(xiàn)多打一或者多打多的情況(All-to-All和All-Reduce)。所以極易出現(xiàn)流量負(fù)載不均、鏈路利用率低、頻繁的流量擁塞導(dǎo)致的丟包等問題,無法充分釋放算力。

DDC僅解決了Hash問題,同樣帶來眾多缺陷

DDC使用信元交換將報文切片成Cells,并根據(jù)可達(dá)信息采用輪詢機(jī)制發(fā)送。流量負(fù)載會較為均衡的分配到每一條鏈路,實(shí)現(xiàn)帶寬的充分利用,并較好解決了Hash問題。但在這個之外,DDC在AI場景依然存在四大缺陷。

缺陷一:硬件要求特定設(shè)備,封閉專網(wǎng)不通用

DDC架構(gòu)中的信元交換和VOQ技術(shù),均依賴特定硬件芯片實(shí)現(xiàn)。當(dāng)前DCN網(wǎng)絡(luò)設(shè)備均無法利舊使用。ETH網(wǎng)的飛速發(fā)展,得益于其即插即用的便利和通用化、標(biāo)準(zhǔn)化。DCC依賴硬件并通過私有的交換協(xié)議構(gòu)建了一張封閉的專網(wǎng),并不通用。

缺陷二:大緩存設(shè)計增加網(wǎng)絡(luò)成本,不適合大規(guī)格DCN組網(wǎng)

DDC方案若進(jìn)入DCN,除去高昂的互聯(lián)成本外,還背負(fù)著芯片大緩存的成本負(fù)擔(dān)。DCN網(wǎng)絡(luò)當(dāng)前均使用小緩存設(shè)備,最大僅64M;而源于DCI場景的DDC方案通常芯片的HBM達(dá)到上GB。大規(guī)模的DCN網(wǎng)絡(luò)相較DCI而言,更在意網(wǎng)絡(luò)成本。

缺陷三:網(wǎng)絡(luò)靜態(tài)時延增加,不匹配AI場景

作為釋放算力的高性能AI網(wǎng)絡(luò),目標(biāo)時縮短業(yè)務(wù)的完成時間。DDC的大緩存能力將報文緩存,勢必增加硬件轉(zhuǎn)發(fā)靜態(tài)時延。同時信元交換,對報文的切片、封裝和重組,同樣增加網(wǎng)絡(luò)轉(zhuǎn)發(fā)時延。通過測試數(shù)據(jù)比較,DDC較傳統(tǒng)ETH網(wǎng)轉(zhuǎn)發(fā)時延增大1.4倍。

缺陷四:隨著DC規(guī)模增大,DDC不可靠的問題會更加劣化

相對DDC在DCI場景替代框式設(shè)備的場景而言,DDC進(jìn)入DCN需要滿足更大的一個集群,至少要滿足一個網(wǎng)絡(luò)POD。這意味著這個拉遠(yuǎn)的“框“,各個部件距離更遠(yuǎn)。那么對于這個集群的管控平面的可靠性、設(shè)備網(wǎng)絡(luò)NOS的同步管理、網(wǎng)絡(luò)POD級的運(yùn)維管理要求更高。DDC的各種缺陷將會裂化。

DDC最多是個過渡方案

當(dāng)然,任何問題都不是不能解決的。接受部分約束,對于這種特定場景,很容易成為各個大廠“炫技”的舞臺。網(wǎng)絡(luò)追求可靠、極簡、高效,厭棄復(fù)雜度。特別是當(dāng)前“減員增效”的大背景下,確實(shí)要考慮下DDC落地的代價。

在AI場景下面對網(wǎng)絡(luò)負(fù)載分擔(dān)問題,當(dāng)前已經(jīng)有很多案例通過轉(zhuǎn)發(fā)路徑的全局靜態(tài)或動態(tài)編排解決,未來也可以通過端側(cè)的網(wǎng)卡基于Packet Spray和亂序重排解決。所以DDC最多是個短期過渡方案。

深度扒一扒,DDC背后的推手或許是DNX

最后說下主流網(wǎng)絡(luò)芯片公司博通(Broadcom),我們較為熟悉的有StrataXGS和StrataDNX兩個產(chǎn)品系列。XGS延續(xù)高帶寬、低成本的路線,快速推出小緩存、大帶寬的芯片產(chǎn)品,在DCN網(wǎng)絡(luò)占用率持續(xù)獨(dú)占鰲頭。StrataDNX卻背著大緩存的成本,延續(xù)著VOQ+信元交換的神話,期望DDC進(jìn)入DC續(xù)命。北美似乎并無案例,國內(nèi)DDC或許是DNX最后的救命稻草吧。

當(dāng)今GPU等大量硬件設(shè)施在我國已經(jīng)受到一定程度的限制,我們真的需要DDC么?還是多給國產(chǎn)化器件留些機(jī)會吧!

責(zé)任編輯:龐桂玉 來源: C114通信網(wǎng)
相關(guān)推薦

2016-01-25 13:22:45

SparkSparkSQL數(shù)據(jù)分析

2018-09-17 15:12:25

人工智能神經(jīng)網(wǎng)絡(luò)編程語言

2024-11-04 10:20:00

模型數(shù)據(jù)

2018-03-19 17:40:10

Python區(qū)塊鏈

2025-01-20 11:24:56

2023-07-11 13:34:19

Rust開發(fā)軟件

2009-02-05 09:34:51

SaaSSaaS服務(wù)成本縮減

2017-11-21 09:20:06

深度學(xué)習(xí)TensorFlow游戲AI

2025-04-16 08:35:00

2019-01-29 14:36:52

AI人工智能市政

2021-05-10 15:05:18

消息通信本地網(wǎng)絡(luò)

2021-08-27 12:16:34

fastjarJAR文件Java

2019-07-05 08:39:39

GoSQL解析器

2012-08-30 10:01:40

OpenStack

2025-04-03 09:51:20

2023-05-24 15:15:55

2018-08-27 17:05:48

tensorflow神經(jīng)網(wǎng)絡(luò)圖像處理
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號