銳捷網(wǎng)絡(luò)加入超以太網(wǎng)聯(lián)盟UEC,助力智算網(wǎng)絡(luò)持續(xù)升級(jí)
近日,銳捷網(wǎng)絡(luò)正式成為超以太網(wǎng)聯(lián)盟 (Ultra Ethernet Consortium,UEC)新成員,該聯(lián)盟是在 Linux 基金會(huì)的牽頭下由多家全球頭部科技企業(yè)聯(lián)合成立,致力于突破傳統(tǒng)以太網(wǎng)的性能瓶頸,滿足AI和高性能計(jì)算對(duì)智能算力日益激增的需求。
銳捷網(wǎng)絡(luò)始終致力于將技術(shù)與應(yīng)用創(chuàng)造性融合,以開(kāi)放的態(tài)度全面擁抱面向下一代智算網(wǎng)絡(luò)的創(chuàng)新技術(shù),為優(yōu)化以太網(wǎng)標(biāo)準(zhǔn)、實(shí)現(xiàn)高性能網(wǎng)絡(luò)注入新的活力,并為未來(lái)網(wǎng)絡(luò)技術(shù)持續(xù)做出貢獻(xiàn)。
RoCE用于未來(lái)AI/HPC網(wǎng)絡(luò)的局限性
RDMA(Remote Direct Memory Access)是當(dāng)今 AI 訓(xùn)練作業(yè)的基本組成部分,允許 CPU、GPU、TPU等加速器將數(shù)據(jù)直接從發(fā)送方內(nèi)存?zhèn)鬏數(shù)浇邮辗絻?nèi)存,單個(gè)GPU/TPU加速器可以集成多個(gè)同構(gòu)或異構(gòu)網(wǎng)絡(luò) I/O。其中RoCE (RDMA over Converged Ethernet) 通過(guò) Verbs API 表達(dá)的方式可追溯到上世紀(jì)末,多年前才首次由InfiniBand貿(mào)易協(xié)會(huì)(InfiniBand Trade Association,IBTA)進(jìn)行標(biāo)準(zhǔn)化,其底層的以太網(wǎng)絡(luò)已經(jīng)提供每秒400G甚至800G速率,這比最初設(shè)想的場(chǎng)景提高了幾個(gè)數(shù)量級(jí),重新審視AI/HPC網(wǎng)絡(luò)核心所采用的底層傳輸協(xié)議和網(wǎng)絡(luò)API成為必然。
實(shí)際上,隨著人工智能模型規(guī)模擴(kuò)大、通信模式及計(jì)算方法的多樣化,傳統(tǒng)基于RoCE的RDMA方案存在諸多問(wèn)題:
- RoCE和DCQCN是擁塞控制算法,用于避免鏈路超限并提高速率。但DCQCN對(duì)其下方網(wǎng)絡(luò)和負(fù)載性質(zhì)敏感,需手動(dòng)調(diào)整性能。未來(lái)的AI網(wǎng)絡(luò)需要一種適用于任何數(shù)據(jù)中心的傳輸協(xié)議。
- 網(wǎng)絡(luò)運(yùn)營(yíng)商在“無(wú)損”網(wǎng)絡(luò)(InfiniBand和RoCE)上運(yùn)行RDMA以避免此行為,但效率低。優(yōu)先級(jí)流量控制 (PFC) 生成逐跳背壓以太網(wǎng)是無(wú)損的,但背壓(Back Pressure)傳播導(dǎo)致?lián)砣麡?shù)、隊(duì)頭阻塞、環(huán)路死鎖等,使網(wǎng)絡(luò)性能下降。PFC/ECN、DCQCN需根據(jù)網(wǎng)絡(luò)情況調(diào)整、操作和監(jiān)控,成本高。未來(lái)的AI網(wǎng)絡(luò)急需不依賴于無(wú)損結(jié)構(gòu)的傳輸協(xié)議。
- 無(wú)論是在帶寬還是對(duì)等點(diǎn)數(shù)量方面。Verbs API設(shè)計(jì)規(guī)模已經(jīng)捉襟見(jiàn)肘。RC(可靠連接)傳輸模式如果不減少快速路徑狀態(tài),就不適合高速率下的高效硬件卸載。此外,固有的流程到流程 (N*P*P)的可擴(kuò)展性問(wèn)題也是一大限制。這些問(wèn)題還沒(méi)有完美的解決方案,而未來(lái)的AI網(wǎng)絡(luò)需要能支撐Verbs API設(shè)計(jì)規(guī)模的傳輸協(xié)議。
- AI應(yīng)用程序傳輸大量數(shù)據(jù),受NIC QP Scale和AI模型數(shù)據(jù)交互方式限制,傳統(tǒng)RoCE需仔細(xì)進(jìn)行大象流負(fù)載均衡以防止鏈路過(guò)載。AI工作負(fù)載決定了整個(gè)計(jì)算周期受限于所有流成功交付,而未來(lái)更高性能的AI網(wǎng)絡(luò)需要改進(jìn)的負(fù)載均衡技術(shù)。
另一方面,TCP/IP具有RoCE沒(méi)有的的優(yōu)點(diǎn),包括生態(tài)系統(tǒng)、性能/規(guī)模、工具、成本、標(biāo)準(zhǔn)調(diào)整和GPU超大規(guī)模部署。但為真正滿足AI網(wǎng)絡(luò)需求,以太網(wǎng)需要進(jìn)行改進(jìn)創(chuàng)新,盡快將消息傳遞到所有參與端點(diǎn),避免少數(shù)端點(diǎn)出現(xiàn)長(zhǎng)時(shí)間延遲,并盡量減少“尾部延遲”,提供更高性能并適應(yīng)未來(lái)AI/HPC和Cloud網(wǎng)絡(luò)規(guī)模擴(kuò)大、帶寬提高和時(shí)延降低的需求。
超以太網(wǎng)傳輸協(xié)議(UET)
盡管TCP/IP具有一些RoCE不具備的優(yōu)點(diǎn),但是在無(wú)損架構(gòu)下(Lossless Network)運(yùn)行并提供丟包重傳功能,同時(shí)避免觸發(fā)隊(duì)頭阻塞和擁塞擴(kuò)散,這一挑戰(zhàn)仍然存在。為了應(yīng)對(duì)這一挑戰(zhàn),超以太網(wǎng)聯(lián)盟(UEC)提出了超以太網(wǎng)傳輸協(xié)議(Ultra Ethernet Transport, UET),該協(xié)議可以在保留以太網(wǎng)/IP生態(tài)系統(tǒng)優(yōu)勢(shì)的同時(shí),為AI和HPC應(yīng)用程序提供所需的性能。UET傳輸協(xié)議通過(guò)提供以下功能超越了現(xiàn)狀:
- 開(kāi)放協(xié)議規(guī)范從一開(kāi)始就設(shè)計(jì)為在 IP 和以太網(wǎng)上運(yùn)行
- 多路徑、數(shù)據(jù)包噴射傳輸,充分利用 AI 網(wǎng)絡(luò),不會(huì)造成擁塞或隊(duì)頭阻塞,無(wú)需集中式負(fù)載均衡算法和路由控制器
- Incast 管理機(jī)制可控制到目標(biāo)主機(jī)的最終鏈路上的扇入,并以最小的丟包率進(jìn)行控制
- 高效的速率控制算法,允許傳輸快速提升至線速,同時(shí)不會(huì)導(dǎo)致競(jìng)爭(zhēng)流的性能損失
- 用于無(wú)序(out-of-order)數(shù)據(jù)包傳輸?shù)?API,也可選擇按順序 (in-order)完成消息,最大限度地提高網(wǎng)絡(luò)和應(yīng)用程序的并發(fā)性,并最大限度地減少消息延遲
- 可擴(kuò)展未來(lái)網(wǎng)絡(luò),支持 1,000,000 個(gè)端點(diǎn)
- 性能和網(wǎng)絡(luò)利用率優(yōu)化無(wú)需針對(duì)網(wǎng)絡(luò)和工作負(fù)載進(jìn)行擁塞算法參數(shù)調(diào)整
- 旨在在商用硬件上實(shí)現(xiàn) 800G、1.6T 和未來(lái)更快以太網(wǎng)的線速性能
UET協(xié)議將超越傳輸層,定義標(biāo)準(zhǔn)語(yǔ)義層、改進(jìn)的低延遲交付機(jī)制以及一致的 AI 和 HPC API,并提供標(biāo)準(zhǔn)的多供應(yīng)商支持,以便通過(guò) UEC 傳輸協(xié)議實(shí)現(xiàn)這些 API。
為了實(shí)現(xiàn)全行業(yè)在互操作性方面的合作,UEC構(gòu)建了完整的基于以太網(wǎng)的通信堆棧架構(gòu),以最好地匹配快速發(fā)展的、大規(guī)模的AI/HPC工作負(fù)載,并提供一流的功能、性能、互操作性、TCO以及開(kāi)發(fā)人員和最終用戶友好性。UEC由在高性能解決方案方面擁有悠久歷史和經(jīng)驗(yàn)的公司創(chuàng)立,每個(gè)成員都以平等的方式為更廣泛的高性能生態(tài)系統(tǒng)做出了重大貢獻(xiàn)。這些成員包括AMD、Arista、博通、思科、Eviden、HPE、Intel、Meta和微軟,他們都有數(shù)十年的網(wǎng)絡(luò)、人工智能、云和高性能計(jì)算大規(guī)模部署經(jīng)驗(yàn),將為UEC的四個(gè)工作組——物理層、鏈路層、傳輸層和軟件層做出貢獻(xiàn)。
銳捷網(wǎng)絡(luò)在行動(dòng)
銳捷網(wǎng)絡(luò)作為智算中心網(wǎng)絡(luò)建設(shè)者,也在踐行以太無(wú)損網(wǎng)絡(luò)解決方案的路線,支撐超大規(guī)模的算力集群建設(shè)。銳捷網(wǎng)絡(luò)推出了AI-Fabric智算中心網(wǎng)絡(luò)解決方案,天然支持無(wú)損機(jī)制和負(fù)載均衡,方案優(yōu)勢(shì)具體如下:
- 基于AI fabric的架構(gòu)設(shè)計(jì),NCP層面采用1. 1 : 1的超速比緩解網(wǎng)絡(luò)中Incast的問(wèn)題規(guī)避擁塞,基于Cell的高效路由可以加速互聯(lián)鏈路的故障收斂時(shí)間,不需要部署復(fù)雜低效的BGP路由。
- 基于Cell的切片技術(shù),優(yōu)化鏈路的負(fù)載均衡效果提升網(wǎng)絡(luò)帶寬利用率,縮短業(yè)務(wù)的流完成時(shí)間FCT 。
- 基于VoQ緩存和Credit的擁塞控制機(jī)制實(shí)現(xiàn)Fabric網(wǎng)絡(luò)中的數(shù)據(jù)無(wú)損轉(zhuǎn)發(fā),徹底解決丟包重傳的問(wèn)題確保業(yè)務(wù)持續(xù)高吞吐地轉(zhuǎn)發(fā),進(jìn)而來(lái)提升整個(gè)算力集群的GPU利用率。
(詳見(jiàn)《銳捷網(wǎng)絡(luò)高性能網(wǎng)絡(luò)方案,為AIGC打通 “任督二脈”》)
同時(shí),在傳統(tǒng)RoCE協(xié)議的基礎(chǔ)上,銳捷網(wǎng)絡(luò)在多路徑流量調(diào)度技術(shù)上進(jìn)行了創(chuàng)新,推出RALB(Remote Adaptive Load Balancing)技術(shù)。通過(guò)感知鏈路質(zhì)量,進(jìn)行逐包的全局動(dòng)態(tài)負(fù)載均衡,讓網(wǎng)絡(luò)帶寬利用率可達(dá)97.6%,有效實(shí)現(xiàn)端網(wǎng)聯(lián)動(dòng)。(詳見(jiàn)《解決數(shù)據(jù)中心網(wǎng)絡(luò)擁塞,銳捷RALB負(fù)載均衡技術(shù)助力高效數(shù)據(jù)傳輸》)
在全球互聯(lián)網(wǎng)流量不斷增長(zhǎng)和數(shù)據(jù)應(yīng)用需求日益多樣化的背景下,銳捷網(wǎng)絡(luò)致力于推動(dòng)網(wǎng)絡(luò)技術(shù)的進(jìn)步和發(fā)展,全局負(fù)載均衡解決方案的推出正是其不斷探索和創(chuàng)新的有力證明。通過(guò)持續(xù)的技術(shù)研發(fā)和產(chǎn)品創(chuàng)新,銳捷網(wǎng)絡(luò)將繼續(xù)開(kāi)放創(chuàng)新,積極探索國(guó)內(nèi)外先進(jìn)技術(shù),為全球的數(shù)據(jù)中心提供更加高效、可靠、智能的網(wǎng)絡(luò)解決方案,助力互聯(lián)網(wǎng)、運(yùn)營(yíng)商及各行各業(yè)的快速發(fā)展。