顯著提升深度學(xué)習(xí) GPU 利用率,阿里云拿下國際網(wǎng)絡(luò)頂會優(yōu)勝獎
8月9日,國際網(wǎng)絡(luò)通信頂會 SIGCOMM 昨日落下帷幕,阿里云 7 篇論文入選本次 SIGCOMM,其中 AI 網(wǎng)絡(luò)調(diào)度成果論文斬獲 SIGCOMM 2024 優(yōu)勝獎。據(jù)了解,獲獎?wù)撐慕榻B了阿里云自研的集合通信優(yōu)化調(diào)度器 Crux,可提升高達 14.8% 的 GPU 計算利用率。
阿里云獲 SIGCOMM 2024優(yōu)勝獎
ACM SIGCOMM是計算機網(wǎng)絡(luò)通信領(lǐng)域歷史最悠久、最權(quán)威的頂級學(xué)術(shù)會議,至今已有 50 多年的歷史。SIGCOMM 對論文質(zhì)量要求極高,成果也被學(xué)術(shù)界和業(yè)界視為網(wǎng)絡(luò)通信領(lǐng)域未來發(fā)展的風(fēng)向標(biāo),現(xiàn)在耳熟能詳?shù)母鞣N協(xié)議、技術(shù)幾乎都發(fā)表在SIGCOMM上。2024年度的SIGCOMM僅錄用62篇論文,錄取率不到 17%,為近五年最低。
AI 網(wǎng)絡(luò)是今年最熱門的領(lǐng)域之一。阿里云網(wǎng)絡(luò)研發(fā)團隊從實際業(yè)務(wù)環(huán)境的深度學(xué)習(xí)任務(wù)出發(fā),發(fā)現(xiàn)任務(wù)之間存在通信競爭,是 GPU 集群的訓(xùn)練效率不高的基礎(chǔ)性原因。對此,團隊從學(xué)術(shù)理論層面突破,證明了 GPU 利用率問題與基于任務(wù)優(yōu)先級的通信調(diào)度問題是近似的,進而創(chuàng)新設(shè)計了集合通信優(yōu)化調(diào)度器 Crux,實現(xiàn)更高效的選路和優(yōu)先級分配機制,提升了 GPU 計算利用率。
阿里云自研集合通信優(yōu)化調(diào)度器 Crux,提升 GPU 計算利用率
實驗結(jié)果表明,在 96卡GPU測試環(huán)境中,Crux可以提高GPU計算利用率8.3%至14.8%。在基于大規(guī)模生產(chǎn)跟蹤仿真中,與Sincronia、TACCL和CASSINI等已有方案相比,Crux可以將 GPU 計算利用率最多提高 23%。據(jù)了解,Crux 已被集成到阿里云自研通信庫,實現(xiàn)規(guī)?;褂谩?/span>
SIGCOMM 2024 優(yōu)勝獎(Honorable Mentions,也即最佳論文候選),是對論文成果的業(yè)務(wù)創(chuàng)新價值和行業(yè)影響力的綜合評價。SIGCOMM 評審專家認為 Crux 解決了多租環(huán)境深度學(xué)習(xí)中的一個基礎(chǔ)性問題,通過理論創(chuàng)新和實踐分析設(shè)計了一套高效的解決方案,因此授予 Crux 成果論文SIGCOMM優(yōu)勝獎。
從2019年以來,阿里云有20余篇成果論文先后發(fā)表在SIGCOMM上,為國內(nèi)機構(gòu)之首。今年,阿里云有7篇論文入選SIGCOMM。除上述介紹的 Crux 論文外,今年關(guān)于智算集群網(wǎng)絡(luò)架構(gòu) HPN 7.0 的成果論文,成為SIGCOMM在AI智算集群網(wǎng)絡(luò)架構(gòu)領(lǐng)域的首篇論文。HPN 7.0 創(chuàng)新性地設(shè)計了“雙上聯(lián)+多軌+雙平面”的新型數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu),可實現(xiàn)單層千卡、兩層萬卡 GPU 的高性能和高穩(wěn)定互聯(lián)。
阿里云網(wǎng)絡(luò)研發(fā)團隊與大會程序委員會主席合影
據(jù)了解,阿里巴巴曾在 2022 年獲評AMiner全球十大網(wǎng)絡(luò)研究機構(gòu),是榜單中唯一的中國科技企業(yè)。阿里云在網(wǎng)絡(luò)技術(shù)領(lǐng)域創(chuàng)新成果不斷,業(yè)界首個提出了端網(wǎng)融合的可預(yù)期網(wǎng)絡(luò)技術(shù)體系,并在全球率先大規(guī)模實踐RDMA低延時網(wǎng)絡(luò)、AI 智算集群網(wǎng)絡(luò)架構(gòu) HPN 7.0 等先進技術(shù),為下一代 AI 基礎(chǔ)設(shè)施的設(shè)計提供了新范式。