自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

騰訊星脈網(wǎng)絡(luò)2.0升級(jí) 支持十萬(wàn)卡超級(jí)集群

原創(chuàng)
網(wǎng)絡(luò)
星脈高性能計(jì)算網(wǎng)絡(luò)全面升級(jí),升級(jí)后的星脈網(wǎng)絡(luò)2.0搭載全自研的網(wǎng)絡(luò)設(shè)備與AI算力網(wǎng)卡,支持超10萬(wàn)卡大規(guī)模組網(wǎng),網(wǎng)絡(luò)通信效率比上一代提升60%,讓大模型訓(xùn)練效率提升20%。

隨著人工智能技術(shù)的飛速發(fā)展,模型規(guī)模的不斷膨脹對(duì)底層算力提出了前所未有的挑戰(zhàn)。為了支撐AIGC領(lǐng)域中海量數(shù)據(jù)的大規(guī)模訓(xùn)練,大量服務(wù)器通過(guò)高速網(wǎng)絡(luò)組成大規(guī)模算力集群,互聯(lián)互通,共同完成訓(xùn)練任務(wù)。

然而,集群規(guī)模的擴(kuò)大也伴隨著通信開銷的激增,成為制約計(jì)算效率的關(guān)鍵因素。在模型訓(xùn)練過(guò)程中,GPU頻繁地在計(jì)算與等待數(shù)據(jù)同步之間切換,造成了寶貴計(jì)算資源的閑置。只有把提升通信的效率不斷提升、把通信成本占到降到最低,才能充分利用計(jì)算資源。因此,要充分發(fā)揮GPU計(jì)算資源的強(qiáng)大算力,必須構(gòu)建一個(gè)全新的高性能網(wǎng)絡(luò)底座,用高速網(wǎng)絡(luò)的大帶寬來(lái)助推整個(gè)集群計(jì)算的高效率。

2023年,騰訊云首次公開展示了其自研的星脈高性能計(jì)算網(wǎng)絡(luò),全面提升企業(yè)大模型的訓(xùn)練效率,在云上加速大模型技術(shù)的迭代升級(jí)和落地應(yīng)用。一年后,星脈高性能計(jì)算網(wǎng)絡(luò)全面升級(jí),升級(jí)后的星脈網(wǎng)絡(luò)2.0搭載全自研的網(wǎng)絡(luò)設(shè)備與AI算力網(wǎng)卡,支持超10萬(wàn)卡大規(guī)模組網(wǎng),網(wǎng)絡(luò)通信效率比上一代提升60%,讓大模型訓(xùn)練效率提升20%。

騰訊云副總裁王亞晨形象地比喻道,AI大模型就像是一場(chǎng)F1比賽,騰訊云專門設(shè)計(jì)了星脈高性能算力網(wǎng)絡(luò)“賽道”,并自研了TiTa和TCCL網(wǎng)絡(luò)協(xié)議作為“道路控制系統(tǒng)與專業(yè)車隊(duì)”,共同讓“騰訊云高性能計(jì)算集群HCC的GPU服務(wù)器”這臺(tái)馬力強(qiáng)大的F1賽車發(fā)揮最大的算力性能,助力客戶在AI大模型的競(jìng)爭(zhēng)中遙遙領(lǐng)先。同時(shí)配備了專業(yè)的搶修隊(duì),一旦故障發(fā)生,快速定位和搶救,讓賽事快速恢復(fù)運(yùn)行。

騰訊云副總裁王亞晨騰訊云副總裁王亞晨

此次星脈網(wǎng)絡(luò)2.0就針對(duì)自研網(wǎng)絡(luò)設(shè)備、通信協(xié)議、通信庫(kù)以及運(yùn)營(yíng)系統(tǒng)四大關(guān)鍵組件進(jìn)行了全面升級(jí)。

賽道升級(jí)-自研網(wǎng)絡(luò)硬件

通過(guò)自研網(wǎng)絡(luò)硬件設(shè)備,星脈網(wǎng)絡(luò)“賽道”也進(jìn)行了全新升級(jí)。自研交換機(jī)容量從25.6T升級(jí)到51.2T,光模塊的速率從200G升級(jí)到了400G,讓網(wǎng)絡(luò)延遲降低40%,整體組網(wǎng)規(guī)模翻倍,同一訓(xùn)練集群最大可支持超過(guò)10萬(wàn)卡。同時(shí)支持可插拔控制卡,全面降低了低功耗與運(yùn)維成本。

值得注意的是,星脈網(wǎng)絡(luò)2.0搭載了騰訊自研的全新算力網(wǎng)卡CNIC,這是公用云業(yè)內(nèi)首款為AI訓(xùn)練設(shè)計(jì)的網(wǎng)卡,網(wǎng)卡采用最新一代 FPGA 芯片,整卡帶寬可達(dá)400Gbps,具備業(yè)界最高的3.2T整機(jī)通信帶寬。

指揮中心升級(jí)-自研通信協(xié)議TiTA

自研TITA協(xié)議相當(dāng)于指揮中心,分配車流量,避免單一車道擁堵,釋放賽車速度極限。相比起上一代,TiTa協(xié)議2.0從部署在交換機(jī)轉(zhuǎn)移到了端側(cè)的網(wǎng)卡上,協(xié)議算法也從原來(lái)的被動(dòng)擁塞算法升級(jí)到了更為智能的主動(dòng)擁塞控制算法,可主動(dòng)調(diào)整數(shù)據(jù)包發(fā)送速率,從而避免網(wǎng)絡(luò)擁堵;并通過(guò)擁堵智能調(diào)度,實(shí)現(xiàn)網(wǎng)絡(luò)擁塞快速自愈。這讓MoE訓(xùn)練下網(wǎng)絡(luò)通信性能相比1.0提升30%,帶來(lái)訓(xùn)練效率10%的提升。

車隊(duì)升級(jí)-集合通信庫(kù)TCCL

星脈網(wǎng)絡(luò)1.0的通信庫(kù)TCCL相當(dāng)于智能導(dǎo)航系統(tǒng),縮短到達(dá)路徑。而星脈網(wǎng)絡(luò)2.0的TCCL通信庫(kù)就像一支更專業(yè)的車隊(duì),原來(lái)只給車加了導(dǎo)航,現(xiàn)在可以根據(jù)不同的場(chǎng)景,對(duì)賽車本身進(jìn)行改裝,讓賽車時(shí)刻處于最佳性能。TCCL 2.0 階段,騰訊云通過(guò)NVLINK+NET異構(gòu)并行通信、Auto-Tune Network Expert自適應(yīng)算法等通信庫(kù)的升級(jí),在MoE模型訓(xùn)練下,給星脈網(wǎng)絡(luò)帶來(lái)了30%的通信效率提升,讓模型訓(xùn)練效率提升10%。

搶修隊(duì)升級(jí)-運(yùn)營(yíng)系統(tǒng)GOM&GOA

運(yùn)營(yíng)系統(tǒng)是搶修隊(duì),全棧網(wǎng)絡(luò)運(yùn)營(yíng)系統(tǒng)保障了道路的可用性,出現(xiàn)異常后第一時(shí)間搶修,讓網(wǎng)絡(luò)盡快恢復(fù)訓(xùn)練。運(yùn)營(yíng)系統(tǒng)2.0新增靈境仿真平臺(tái),通過(guò)收集訓(xùn)練過(guò)程中的日志記錄與GPU相關(guān)信息,通過(guò)仿真模擬還原訓(xùn)練任務(wù)的空間關(guān)系和通信的時(shí)序關(guān)系,定位大模型訓(xùn)練的卡死和性能抖動(dòng)類故障,定位效率從傳統(tǒng)手段的天級(jí)別縮短到10分鐘以內(nèi)。

面對(duì)GPU性能的暴增,網(wǎng)絡(luò)成為了集群算力的瓶頸。騰訊正在規(guī)劃星脈3.0,將基于以太網(wǎng)技術(shù)構(gòu)建開放、彈性的ETH-X超節(jié)點(diǎn)系統(tǒng),以突破集群算力的瓶頸,降低集群成本,為AI技術(shù)的進(jìn)一步發(fā)展提供更強(qiáng)大的支持。

責(zé)任編輯:鳶瑋 來(lái)源: 51CTO
相關(guān)推薦

2024-07-01 20:45:55

2014-03-13 10:14:59

離線集群Hadoop 2.0淘寶

2009-06-19 13:12:05

Spring2.0Spring2.0.7

2016-10-24 15:45:19

2009-06-05 08:55:16

2009-06-23 08:35:12

微軟Windows 7操作系統(tǒng)

2009-09-17 08:39:52

Windows 7系統(tǒng)升級(jí)

2012-05-11 09:54:23

微軟Windows 8

2010-05-06 09:57:45

RHEL 5.5升級(jí)

2012-12-12 09:53:50

Windows 8

2009-08-16 09:25:55

Windows 7系統(tǒng)升級(jí)

2013-10-18 16:09:30

Windows8.1聯(lián)想

2013-10-18 12:14:34

聯(lián)想服務(wù)Windows8.1升級(jí)

2009-05-27 08:36:34

2020-05-21 09:17:51

Vue 3Vue代碼

2009-12-28 16:39:56

Fedora 9

2012-03-22 21:15:43

Android

2009-06-25 08:53:44

微軟Windows 7升級(jí)工具

2012-06-29 09:19:30

Windows 8微軟

2010-09-30 09:09:04

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)