自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

OpenAI陷巨大算力荒,國(guó)內(nèi)大廠搶先破局!打破單芯片限制,算力效率提升33%

人工智能
多模態(tài)Llama 3還未發(fā)布,已經(jīng)用在科幻中存在的AR眼鏡上了!不僅能為你搭配衣服,還能打視頻、實(shí)時(shí)翻譯,只要你能想到的,它全能實(shí)現(xiàn)。

國(guó)內(nèi)AI不行,是因?yàn)樾酒恍校?/span>

我們跟國(guó)外的差距,是因?yàn)楹陀ミ_(dá)芯片的差距過大?

最近,圈內(nèi)有許多這樣的論調(diào)。

其實(shí)深挖下去,就會(huì)發(fā)現(xiàn)事實(shí)完全不是這樣。即使是英偉達(dá)最先進(jìn)的芯片,依然無法滿足當(dāng)下人工智能在算力上的需求。

隨著模型參數(shù)量和數(shù)據(jù)量的增加,智慧不斷涌現(xiàn),我們對(duì)更大集群的需求,也更加迫切。無論是國(guó)外,還是在國(guó)內(nèi),大家離終點(diǎn)都很遙遠(yuǎn)。

算力≠芯片

如今,大規(guī)模神經(jīng)網(wǎng)絡(luò)的訓(xùn)練現(xiàn)狀是這樣的。

新鮮出爐的8B和70B參數(shù)的Llama 3訓(xùn)練,需要24576塊H100組成的集群。

小扎曾透露截止今年底,Meta將建成由35萬塊H100搭建的基礎(chǔ)設(shè)施小扎曾透露截止今年底,Meta將建成由35萬塊H100搭建的基礎(chǔ)設(shè)施

而據(jù)稱有1.8萬億參數(shù)的GPT-4,是在10000-25000張A100上完成了訓(xùn)練。

圖片圖片

爆火的Sora訓(xùn)練參數(shù)量可能僅有30億,爆料稱,估計(jì)使用了4200-10500塊H100訓(xùn)了1個(gè)月。

圖片圖片

特斯拉FSD V12,則是在1000萬個(gè)海量視頻片段進(jìn)行訓(xùn)練,需要用大概10000塊H100,耗資3億美元。

圖片圖片

就連奧特曼最近在20VC的采訪中,提及了OpenAI目前增長(zhǎng)的「核心瓶頸」:

我們有世界上最優(yōu)秀的研究人員和研究文化。如果計(jì)算資源不足,將會(huì)拖慢我們的步伐。

一句話概括就是:給我算力!

然而,由于摩爾定律限制,從14nm到7nm再到5nm的制程進(jìn)步,所帶來的性能增益越來越有限。

我們需要有這樣一個(gè)認(rèn)知,即AI對(duì)算力的需求無窮盡,不能僅依靠AI芯片去滿足算力需求。

那該怎么辦?

瓶頸何解?

其實(shí),英偉達(dá)在GTC 24大會(huì)上推出的由DGX GB200系統(tǒng)構(gòu)建的全新DGX SuperPOD,早已給出了答案。

通過在加速計(jì)算、網(wǎng)絡(luò)和軟件方面同時(shí)發(fā)力,新集群為萬億參數(shù)模型的訓(xùn)練和推理,提供了穩(wěn)定的支持。

而且與上一代產(chǎn)品相比,新一代DGX SuperPOD架構(gòu)的網(wǎng)絡(luò)計(jì)算能力提升了4倍。

也就是說,剛剛的問題就迎刃而解了——通過更大的集群來突破算力的瓶頸。

然而,隨著集成的芯片越來越多,我們不得不應(yīng)對(duì)算法效率不高、計(jì)算資源不足、互聯(lián)帶寬受限等眾多技術(shù)挑戰(zhàn)。

圖片圖片

計(jì)算資源不足

一方面,AI系統(tǒng)的性能主要源于GPU等加速器,因此需要其具備強(qiáng)大的異構(gòu)擴(kuò)展能力。

但是,傳統(tǒng)的計(jì)算機(jī)體系結(jié)構(gòu)將加速計(jì)算模塊作為CPU的配屬,通過PCI-e總線接入系統(tǒng),只支持有限數(shù)量的異構(gòu)單元,限制了異構(gòu)加速器的擴(kuò)展性。

并且,同CPU的通信帶寬也十分有限。

互聯(lián)帶寬受限

另一方面,互聯(lián)成為了新的瓶頸。

AI集群早已從千卡、增長(zhǎng)到萬卡、十萬卡,節(jié)點(diǎn)間并行所產(chǎn)生的海量通信需求,嚴(yán)重挑戰(zhàn)了現(xiàn)有的互聯(lián)能力。

比如,剛剛提到的GPT-4集群有2.5萬塊A100,而算力利用率(MFU)僅在32%到36%之間。

可見利用率非常之低,不過在當(dāng)前技術(shù)條件下,幾乎觸頂了。

圖片圖片

文章地址:https://www.semianalysis.com/p/gpt-4-architecture-infrastructure

部分原因是故障數(shù)量過多,需要從checkpoint重新啟動(dòng)訓(xùn)練。

如果OpenAI在云端使用A100的成本是1美元/h,那么僅這一次的訓(xùn)練,成本就會(huì)高達(dá)6300萬美元。

算法效率不高

當(dāng)然,系統(tǒng)不是全部,AI訓(xùn)練是一個(gè)超級(jí)復(fù)雜的計(jì)算系統(tǒng)。

如果模型算法結(jié)構(gòu)與硬件結(jié)構(gòu)匹配不合理、并行化處理不科學(xué)等都會(huì)導(dǎo)致整個(gè)計(jì)算平臺(tái)的利用率偏低。

除此以外,機(jī)柜之間若想實(shí)現(xiàn)高速的互聯(lián),不僅耗電,且散熱不夠的挑戰(zhàn)也需要面對(duì)。

總而言之,解決以上難題,我們需要?jiǎng)?chuàng)新:用系統(tǒng)性開創(chuàng)思維去應(yīng)對(duì)AI的挑戰(zhàn)。

萬卡集群

如今很多人都愛說,AI產(chǎn)業(yè)的發(fā)展「缺芯少魂」,仿佛AI發(fā)展不起來,都是芯片制造業(yè)的責(zé)任。

但實(shí)際上呢?

稍微一分析就會(huì)知道,如今AI的算力設(shè)計(jì)已經(jīng)到了萬卡級(jí)別,其中某一張卡的性能,并沒有決定性的作用。

對(duì)于動(dòng)輒千億、萬億參數(shù)的大模型來說,單機(jī)、單卡的效率不再那么重要了。這時(shí)要看的,是算力平臺(tái)的整體效率。

就拿GPT-3來說,它的訓(xùn)練算法效率MFU只有21.3%,近79%的算力,都被浪費(fèi)掉了。

圖片

論文地址:https://arxiv.org/pdf/2204.02311.pdf

之所以有如此嚴(yán)重的浪費(fèi),就是因?yàn)樵诖笠?guī)模計(jì)算中,單點(diǎn)效率很有限。因此算力再強(qiáng)都沒有用,接近80%的時(shí)間,都是在等。

為什么?一是由于互聯(lián)帶寬的限制,二是由于算法沒有考慮帶寬的優(yōu)化,導(dǎo)致效率奇低。

圖片圖片

在這種情況下,系統(tǒng)的互聯(lián)優(yōu)化、高效組織協(xié)調(diào)、算法優(yōu)化,重要性也愈發(fā)凸顯。

硬件

為此,浪潮信息在去年發(fā)布了「融合架構(gòu)3.0」。

這是一個(gè)全新的大規(guī)模計(jì)算架構(gòu),通過高速互聯(lián)總線,對(duì)計(jì)算存儲(chǔ)進(jìn)行了解耦。

圖片圖片

當(dāng)GPU算力不足時(shí),需要構(gòu)建一個(gè)GPU池,這樣一臺(tái)服務(wù)器可以對(duì)接不僅僅是8卡,可也以是16卡、32卡。

同時(shí),用相對(duì)比較低的算力堆積也存在瓶頸,因?yàn)镃PU和GPU之間需要有個(gè)最佳的配比。

針對(duì)不同模型的類型、以及模型之間的交互量,有些GPU發(fā)揮的作用大一些,有些小一些。

通過高速的系統(tǒng)總線將多個(gè)節(jié)點(diǎn)連接,CPU、GPU、內(nèi)存全部基于池化去做,實(shí)現(xiàn)了融合架構(gòu)和算法模型之間的適配。

這種全新的架構(gòu),不以芯片為核心的單機(jī)系統(tǒng),而是以萬卡集群為設(shè)計(jì)出發(fā)點(diǎn)、以系統(tǒng)為核心的架構(gòu)。

在未來,AI計(jì)算領(lǐng)域重要的創(chuàng)新點(diǎn),就落在了如何發(fā)揮系統(tǒng)價(jià)值、提升系統(tǒng)效率上。

而這個(gè)系統(tǒng)里,接下來要解決的問題,就是如何互聯(lián)。

互聯(lián)

顯然,從千卡走向萬卡,系統(tǒng)集群之間的高速互聯(lián)變得愈加重要。

以往單一任務(wù)的AI工廠模式,早已不能滿足需求。

集群不僅僅是面向大模型訓(xùn)練,還需提供服務(wù),正是AICloud模式所能解決的。

但過去面向超級(jí)計(jì)算的專用網(wǎng)絡(luò),無法很好地支持多用戶、多任務(wù)、多租戶的靈活需求。

提升GPU與GPU之間的高速互聯(lián),英偉達(dá)閉源NVLink網(wǎng)絡(luò)成為最典型的代表。

英偉達(dá)在DGX SuperPOD,利用了第五代NVLink鏈接,同時(shí)采用了Quantum-X800 InfiniBand網(wǎng)絡(luò),可為系統(tǒng)中每個(gè)GPU提供高達(dá)每秒1800GB/s的帶寬。

可以看到,GPU點(diǎn)對(duì)點(diǎn)的通信效率已從2017年32GB/S,過渡到了如今最高的1800GB/S,提升了56倍。

圖片圖片

而在未來大模型訓(xùn)練中,浪潮信息篤定的以「超級(jí)AI以太網(wǎng)」來支撐——相比于傳統(tǒng)RoCE可以實(shí)現(xiàn)1.6倍的效率提升。

為什么這么說?

圖片圖片

因?yàn)椋軌驅(qū)崿F(xiàn)「端網(wǎng)協(xié)同」,為模型訓(xùn)練帶來極致的計(jì)算效率。

端網(wǎng)協(xié)同,是指AI交換機(jī)和智能網(wǎng)卡之間,能夠?qū)崿F(xiàn)緊密配合,并結(jié)合開放技術(shù)為網(wǎng)絡(luò)引入創(chuàng)新功能。

多路徑負(fù)載均衡功能,便是其中的一個(gè)最佳應(yīng)用。

交換機(jī)(網(wǎng)側(cè))可以部署逐包噴灑技術(shù),最大地提升帶寬利用率,但會(huì)導(dǎo)致數(shù)據(jù)包亂序。

這個(gè)問題,是很難僅靠交換機(jī)本身去解決。

而智能網(wǎng)卡(端側(cè))卻擁有足夠的算力和資源進(jìn)行亂序重排,將不可能變成可能,大大釋放了網(wǎng)絡(luò)潛力。

具體來說,通過報(bào)文保序(亂序重組)技術(shù),可將亂序達(dá)到的報(bào)文,重新編排順序上交到上層AI應(yīng)用,將帶寬效率從60%提升到95%以上。

正是超級(jí)AI以太網(wǎng)的出現(xiàn),實(shí)現(xiàn)了交換機(jī)和網(wǎng)卡更加緊耦合的配合。

一邊,交換機(jī)可以對(duì)網(wǎng)絡(luò)數(shù)據(jù)包進(jìn)行精細(xì)化的路由調(diào)度。另一邊,智能網(wǎng)卡提供保序服務(wù),實(shí)現(xiàn)了網(wǎng)絡(luò)流量的高效均衡。

與此同時(shí),網(wǎng)卡可以針對(duì)交換機(jī)上標(biāo)注出的多維遙測(cè)信息,進(jìn)行動(dòng)態(tài)可編程的擁塞控制,實(shí)現(xiàn)全程無阻塞、零丟包。

由交換機(jī)+智能網(wǎng)卡實(shí)現(xiàn)高效的網(wǎng)絡(luò),便是「超級(jí)AI以太網(wǎng)」很典型的特點(diǎn)。

可見,若要真正發(fā)揮網(wǎng)絡(luò)的性能,不僅需要提供大帶寬,更重要的是通過良好的調(diào)度,提高「有效帶寬」。

軟件

有了如此復(fù)雜的系統(tǒng),就要開發(fā)相應(yīng)的調(diào)度軟件,包括業(yè)務(wù)感知,資源自動(dòng)調(diào)度和彈性擴(kuò)展。

此外,在大模型開發(fā)過程中,故障隔離自愈變得越來越重要。

對(duì)于這一點(diǎn),同樣可以通過軟件系統(tǒng)實(shí)現(xiàn)斷點(diǎn)續(xù)算——一旦出現(xiàn)故障,就可以無縫退回到上一個(gè)checkpoint。

圖片圖片

散熱

與此同時(shí),在萬卡集群里面,要提升效率,就要使得每個(gè)節(jié)點(diǎn)的計(jì)算力越來越強(qiáng)。

所以,高密度AI計(jì)算是必然趨勢(shì),這樣機(jī)柜供電就要從12-16千瓦走到120千瓦,散熱將逐漸走向液冷。

無獨(dú)有偶,英偉達(dá)也在最新的DGX SuperPOD中,采用的也是液冷散熱。

圖片圖片

算法

而且,算力是驅(qū)動(dòng)不僅僅是源于芯片,也要靠算法。

從2017年,Transformer誕生之日至今,如果按照摩爾定律(18個(gè)月芯片性能翻一番)來算,芯片性能只提升了8倍。

然而實(shí)際上,AI計(jì)算的性能,已經(jīng)提升了超過1000倍。

圖片圖片

這就絕不僅僅是由于芯片制程的優(yōu)化,而是源于整個(gè)系統(tǒng)的提升。

從算法層面來看,過去的大模型精度是FP32,后來變成了FP16,到今年已經(jīng)進(jìn)入了FP8,在未來還會(huì)走向FP4。

這種變化之下,算法對(duì)算力的需求會(huì)急劇減小,但對(duì)創(chuàng)新會(huì)很饑渴。

而浪潮信息正是基于包括算法并行、參數(shù)并行等技術(shù)上的優(yōu)化,讓算力效率提升了33%之多。

圖片圖片

具體來說,浪潮信息在源2.0上采用了非均勻流水并行+優(yōu)化器參數(shù)并行(ZeRO)+ 數(shù)據(jù)并行 + Loss計(jì)算分塊的方法,相比于經(jīng)典的3D并行方法,對(duì)帶寬的需求更小,同時(shí)還能獲得高性能。

舉個(gè)例子,在均勻流水并行的時(shí)候,24層模型分到8個(gè)計(jì)算設(shè)備上,每個(gè)設(shè)備上會(huì)平均分到3層。

從下圖中可以看到,這時(shí)內(nèi)存在第一階段就已經(jīng)達(dá)到了GPU的上限。由此,模型的訓(xùn)練便需要更多設(shè)備、更長(zhǎng)的流水并行線路,從而導(dǎo)致更低的算力效率。

而采用非均勻流水并行的方法,就可以根據(jù)模型每層對(duì)于內(nèi)存的需求,結(jié)合內(nèi)存的容量進(jìn)行均衡分配,這樣就能在有限的算力資源里把模型訓(xùn)起來了。

圖片圖片

不過,流水線并行策略下,整個(gè)階段依然是比較長(zhǎng)的。

針對(duì)這個(gè)問題,團(tuán)隊(duì)通過引了優(yōu)化器參數(shù)并行,進(jìn)一步降低各個(gè)節(jié)點(diǎn)上內(nèi)存的開銷。

內(nèi)存空間省下來了,就可以合并成更大的流水線,減少節(jié)點(diǎn)使用數(shù)量,節(jié)省算力資源。

圖片圖片

算法創(chuàng)新的理念,在大模型領(lǐng)域也有一個(gè)佐證——MoE。

一個(gè)千億級(jí)模型很難做到萬億級(jí),是因?yàn)檫\(yùn)算量和計(jì)算時(shí)間都遠(yuǎn)遠(yuǎn)超過了承載,效率奇低。

但混合專家系統(tǒng)MoE架構(gòu)中,則是若干個(gè)千億參數(shù)模型的混合。

而且,這樣的專家調(diào)度系統(tǒng),反而更符合人類大腦這種復(fù)雜的協(xié)同智慧涌現(xiàn)系統(tǒng)。

親身嘗試

發(fā)展AI應(yīng)當(dāng)「以系統(tǒng)為核心」的創(chuàng)新策略,正是浪潮信息多年來,在算力、大模型等領(lǐng)域深耕的結(jié)果。

早在2021年,ChatGPT還未出世之前,浪潮信息已然成為大模型的踐行者之一,并發(fā)布了「源1.0」。

圖片圖片

經(jīng)過兩年多的迭代,千億級(jí)參數(shù)基礎(chǔ)大模型「源2.0」全面開源。

從某種角度上來講,他們做大模型,并不是希望成為一個(gè)靠大模型「吃飯」的公司。

而只是為了探索:LLM對(duì)計(jì)算的需求多大?萬卡互聯(lián)中什么最重要?應(yīng)用場(chǎng)景是什么?創(chuàng)新的價(jià)值點(diǎn)在哪?

因?yàn)?,只有親身嘗試去做,才能找到答案,獲得深刻的理解。

IPF 2024大會(huì)上,浪潮信息董事長(zhǎng)彭震給舉了一個(gè)栗子:

團(tuán)隊(duì)曾在國(guó)產(chǎn)平臺(tái)上做大模型訓(xùn)練時(shí),發(fā)現(xiàn)了互聯(lián)帶寬速率并不理想。為了克服這個(gè)的難題,工程師們?cè)谒惴▽幼隽舜罅康膬?yōu)化,采用了算法并行、參數(shù)并行,使得整個(gè)算力效率提升了33%。

要知道,一個(gè)芯片的性能提升30%,至少要制程迭代一次才行。但通過實(shí)踐,浪潮信息發(fā)現(xiàn),軟件算法很快就可以解決這個(gè)問題。

再比如,在近2500億參數(shù)「源1.0」的開發(fā)中,團(tuán)隊(duì)們獲得了一個(gè)認(rèn)知大模型的基礎(chǔ),即參數(shù)量的增加,LLM精度也得到了提升。

圖片圖片

所以說,創(chuàng)新不是站在岸邊去想在水里怎么游泳,而是要投入其中,真干實(shí)干。

從解決問題的過程中,找到創(chuàng)新的路徑。

這便是浪潮信息一直以來所踐行的理念,通過技術(shù)、框架和規(guī)范的全方位創(chuàng)新構(gòu)建計(jì)算系統(tǒng),開辟AI新時(shí)代!

參考資料:

https://mp.weixin.qq.com/s/Cl6lxxjs2UTXEMlh9-EDfg

責(zé)任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2024-04-17 12:03:01

AI中心化模型

2023-02-25 22:05:16

算力數(shù)據(jù)

2025-01-17 13:54:03

2021-11-05 11:55:14

智能自動(dòng)駕駛芯片

2025-04-07 08:38:00

AIGPU芯片

2023-11-15 18:55:27

2024-11-14 11:09:09

銳捷網(wǎng)絡(luò)

2023-08-29 13:50:00

AI谷歌

2023-03-11 00:16:08

2021-06-24 20:28:44

辦公

2022-08-05 20:17:44

算力網(wǎng)絡(luò)計(jì)算與網(wǎng)絡(luò)

2020-12-16 22:31:53

AI人工智能

2022-11-23 14:52:21

2024-09-29 09:21:46

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)