華為王輝:超大規(guī)模集群訓(xùn)推和網(wǎng)絡(luò)自動駕駛,是AI在網(wǎng)絡(luò)中深度應(yīng)用的發(fā)展方向 | MEET 2025
Network for AI,AI訓(xùn)練對于算力要求越來越高,從萬卡集群到十萬卡集群,再到百萬卡集群,如何整合遠(yuǎn)距離分散的算力資源,實(shí)現(xiàn)規(guī)模算力躍升。
AI for Network,當(dāng)前工業(yè)領(lǐng)域面臨“如何讓自己的產(chǎn)品變得更加智能”的問題,如何用AI改變網(wǎng)絡(luò),讓網(wǎng)絡(luò)更智能、更安全、更可靠,實(shí)現(xiàn)網(wǎng)絡(luò)的“自動駕駛”。
在MEET2025智能未來大會上,華為NCE數(shù)據(jù)通信領(lǐng)域總裁王輝,為我們分享了他的看法。
為了完整體現(xiàn)王輝的思考,在不改變原意的基礎(chǔ)上,量子位對演講內(nèi)容進(jìn)行了編輯整理,希望能給你帶來更多啟發(fā)。
MEET 2025智能未來大會是由量子位主辦的行業(yè)峰會,20余位產(chǎn)業(yè)代表與會討論。線下參會觀眾1000+,線上直播觀眾320萬+,獲得了主流媒體的廣泛關(guān)注與報(bào)道。
核心觀點(diǎn)
- 網(wǎng)絡(luò)與AI的關(guān)系,可以總結(jié)為Network For AI和AI For Network。我們用網(wǎng)絡(luò)加速AI訓(xùn)練推理,通過AI手段讓網(wǎng)絡(luò)變得更加安全可靠。
- 在大模型訓(xùn)練方面,無阻塞網(wǎng)絡(luò)提升大規(guī)模訓(xùn)練的效率。
- 跨遠(yuǎn)距離的算力協(xié)同,通過構(gòu)建高速網(wǎng)絡(luò)互聯(lián),把分散的算力整合成大規(guī)模算力。
- 在垂直行業(yè)應(yīng)用AI和大模型時(shí),面臨決策實(shí)時(shí)性、推理嚴(yán)謹(jǐn)性和場景泛化性等挑戰(zhàn),解決問題的關(guān)鍵是大模型推理能力,與領(lǐng)域機(jī)理模型和工具的深度結(jié)合。
(以下為王輝演講全文)
AI和網(wǎng)絡(luò)的關(guān)系,就是“Network For AI和AI For Network”
大家上午好!今天大會的主題是智變千行,惠及百業(yè),很多嘉賓從產(chǎn)品和廠商的視角,講解了AI如何改變千行百業(yè)。
接下來,我會從工業(yè)領(lǐng)域視角,談一談在To B行業(yè)中,AI大模型與其背后的通信網(wǎng)絡(luò)的內(nèi)在聯(lián)系。
這個(gè)話題非常重要,我在全球見過的超過100個(gè)行業(yè)客戶,都面臨著一個(gè)共同的問題,那就是在AI大模型時(shí)代到來之際如何武裝自己,使得自己的產(chǎn)品、產(chǎn)業(yè)更智能。
我們看到以O(shè)penAI為代表的AI大模型一路高歌猛進(jìn),但反觀工業(yè)領(lǐng)域,大模型在垂直行業(yè)落地時(shí)遇到了很多實(shí)際的困難,甚至可以說是步履維艱。所以今天我想從垂直行業(yè),從網(wǎng)絡(luò)行業(yè)的視角來看我們一些思考。
因此,我想從垂直行業(yè)的視角來談關(guān)于AI的一些思考。
講到網(wǎng)絡(luò),大家比較熟悉的概念是我們現(xiàn)在用的5G、Wifi,但網(wǎng)絡(luò)跟AI有什么關(guān)系?
總結(jié)成兩句話,非常清晰,一個(gè)叫Network For AI,一個(gè)叫AI For Network。
Network for AI是指用網(wǎng)絡(luò)加速現(xiàn)在的AI訓(xùn)練推理,AI For NetWork則是通過AI手段讓網(wǎng)絡(luò)變得更加智能和可靠。
大模型訓(xùn)練不中斷,需要保持網(wǎng)絡(luò)均衡
Network for AI,業(yè)界有很多不同的路線。
英偉達(dá)全力推廣NVLink體系, AMD也在主推自己Infinity Link,國內(nèi)華為也在推HCCS,在開放標(biāo)準(zhǔn)方面,還有UALink、超級以太等等;
這么多路線背后反映的邏輯是什么?
在集群節(jié)點(diǎn)內(nèi),Scale up的模式追求極致的通訊效率,進(jìn)行AI訓(xùn)練時(shí),采用計(jì)算和網(wǎng)絡(luò)強(qiáng)耦合的方式,旨在大幅提升計(jì)算性能,廠商大部分都是相對封閉的技術(shù)路線。
在集群節(jié)點(diǎn)外部,Scale out的模式追求計(jì)算資源的互聯(lián)互通,網(wǎng)絡(luò)技術(shù)逐步朝著以太路線統(tǒng)一發(fā)展。
大規(guī)模集群訓(xùn)練當(dāng)前普遍面臨的挑戰(zhàn)是如何長時(shí)間的穩(wěn)定訓(xùn)練,正如開場時(shí)李開復(fù)老師所提到的,OpenAI也曾遭遇訓(xùn)練中斷的問題。
據(jù)統(tǒng)計(jì)數(shù)據(jù)顯示,現(xiàn)今的大模型訓(xùn)練平均不到兩天就會中斷一次,而這些中斷的原因,除了顯卡故障外,光模塊和鏈路故障也占了相當(dāng)比例。
從萬卡集群到十萬卡集群,甚至明年的百萬卡集群,有兩個(gè)關(guān)鍵的挑戰(zhàn):
- 如何確保大模型訓(xùn)練在長時(shí)間內(nèi)保持穩(wěn)定?
- 如何把多個(gè)跨上千公里的小規(guī)模訓(xùn)練資源連接起來,變成一個(gè)超大規(guī)模訓(xùn)練集群?
第一個(gè)問題的關(guān)鍵是借助先進(jìn)的算法來維持整個(gè)網(wǎng)絡(luò)的負(fù)載均衡,進(jìn)而加速AI訓(xùn)練進(jìn)程。
在這方面,我們已做到了業(yè)界最好的水平,通過NLSB算法能夠?qū)⒄w訓(xùn)練效率提升10%以上;
與此同時(shí),通過故障預(yù)測算法讓潛在故障在開始訓(xùn)練之前能夠被發(fā)現(xiàn)、被提前排除,這樣保持整個(gè)訓(xùn)練不中斷,大幅度提升訓(xùn)練的效率。
第二個(gè)問題的關(guān)鍵是跨遠(yuǎn)距離的異構(gòu)計(jì)算,這個(gè)會成為下一階段的重要趨勢,同時(shí)也是業(yè)界難題。
我們通過AI DC內(nèi)網(wǎng)絡(luò)與DC間網(wǎng)絡(luò)的算法協(xié)同,以及業(yè)界首個(gè)跨上千公里的無損網(wǎng)絡(luò),實(shí)現(xiàn)遠(yuǎn)距離數(shù)據(jù)中心協(xié)同訓(xùn)練。
AI For Network
不僅是網(wǎng)絡(luò)領(lǐng)域,每個(gè)垂直行業(yè)都在思考如何讓AI落地的問題,小到做咖啡的機(jī)器人,大到鋼鐵行業(yè)的巡檢機(jī)器人,都面臨著類似的問題。
我們在網(wǎng)絡(luò)領(lǐng)域?qū)I的探索早在2017年就開始了,當(dāng)時(shí)是圍繞“網(wǎng)絡(luò)自動駕駛”這一解決方案展開的
經(jīng)過這些年的實(shí)踐,我們發(fā)現(xiàn)了一些在各個(gè)垂直行業(yè)應(yīng)用 AI 和大模型時(shí)都會面臨的共同挑戰(zhàn)。
第一個(gè),是決策實(shí)時(shí)性問題。工業(yè)領(lǐng)域和To C領(lǐng)域不一樣的地方在于,工業(yè)領(lǐng)域很多決策必須在毫秒級的時(shí)間內(nèi)完成;
如果不能實(shí)時(shí)獲取本系統(tǒng)的數(shù)據(jù), 決策的實(shí)時(shí)性也就無從談起。
第二個(gè),是推理嚴(yán)謹(jǐn)性問題。像做視頻和圖片,即使效果不太好,也不會引發(fā)嚴(yán)重后果。
但在工業(yè)領(lǐng)域,一個(gè)小小的網(wǎng)絡(luò)配置下發(fā)錯(cuò)誤,就可能釀成重大事故。一個(gè)核心網(wǎng)絡(luò),承載著幾億人上網(wǎng)的使命,一旦出現(xiàn)故障,影響極大,必須要做到推理的嚴(yán)謹(jǐn)性。
第三個(gè),是場景泛化性問題。通信大模型不能只用于單一任務(wù),而是要能夠適應(yīng)不同客戶、不同場景的需求。
這三個(gè)挑戰(zhàn),是AI在垂直領(lǐng)域落地普遍遇到的問題。怎么解決這些問題呢?
這些挑戰(zhàn)需要一個(gè)系統(tǒng)的解決方案,一個(gè)AI Native的智能網(wǎng)絡(luò)系統(tǒng),包括三個(gè)部分:我們稱之為“一網(wǎng)一圖一腦”,分別對應(yīng)著智能網(wǎng)元,網(wǎng)絡(luò)數(shù)字地圖以及通信大模型。
智能網(wǎng)元
首先要解決的是硬件自身的智能化問題。
網(wǎng)絡(luò)數(shù)據(jù)主要由設(shè)備網(wǎng)元產(chǎn)生,如果網(wǎng)絡(luò)設(shè)備單純只是生成日志以及告警,這些數(shù)據(jù)在大部分時(shí)間也很難恢復(fù)成網(wǎng)絡(luò)的數(shù)字孿生,需要將傳統(tǒng)設(shè)備網(wǎng)元升級成智能網(wǎng)元。
一方面,智能網(wǎng)元要提供數(shù)據(jù)。
數(shù)據(jù)是核心要素,這里的數(shù)據(jù)不求數(shù)量多,而是要用最少的數(shù)據(jù)來支撐精準(zhǔn)決策。另
一方面,精準(zhǔn)控制問題。類似無人駕駛新發(fā)布的車底盤,在下雨天能夠?qū)崿F(xiàn)精準(zhǔn)控制,提前剎車。
這是因?yàn)橄到y(tǒng)能夠檢測輪胎與道路的摩擦力,當(dāng)摩擦力變化時(shí)就能提前預(yù)判,快速做出動作,相比人的反應(yīng)時(shí)間(超過500毫秒),智能系統(tǒng)僅需200毫秒。
網(wǎng)絡(luò)數(shù)字地圖
接著是網(wǎng)絡(luò)自身的數(shù)字孿生問題,類似物理世界的谷歌地圖,我們打造了業(yè)界首個(gè)網(wǎng)絡(luò)數(shù)字地圖,用于構(gòu)建網(wǎng)絡(luò)世界的數(shù)字孿生。
它可以實(shí)現(xiàn)數(shù)字世界的精準(zhǔn)導(dǎo)航、仿真以及多維可視,并且為通訊大模型提供了精準(zhǔn)的上下文信息。
智慧大腦
最后是作為智慧大腦的通信大模型,大模型一定會改變每個(gè)行業(yè),讓每個(gè)行業(yè)走向“自動駕駛”,但現(xiàn)階段在工業(yè)領(lǐng)域的實(shí)際落地很難。
怎么解決這個(gè)難題?我認(rèn)為有3個(gè)關(guān)鍵點(diǎn):
首先,當(dāng)前對系統(tǒng)影響最大的其實(shí)不是大模型,而是領(lǐng)域的專有模型。
比如專門處理安全策略的模型、專門負(fù)責(zé)路徑調(diào)優(yōu)的模型,這些模型大幅度提升執(zhí)行任務(wù)的精度,決定了系統(tǒng)的能力上限;
其次,類o1的強(qiáng)推理能力,它決定了系統(tǒng)的泛化能力和決策的準(zhǔn)確性;
最后是高質(zhì)量的領(lǐng)域知識治理,我們的通信大模型融合了500億通信語料以及1萬多名網(wǎng)絡(luò)運(yùn)維專家的經(jīng)驗(yàn),從而成為通信領(lǐng)域的專家。
總結(jié)來說,我們需要底層的智能網(wǎng)元、系統(tǒng)的數(shù)字化建模、領(lǐng)域知識、API治理以及大模型的強(qiáng)推理能力等結(jié)合起來,才能讓網(wǎng)絡(luò)走向L4級“自動駕駛”。
謝謝!