自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

1.6萬塊H100訓(xùn)Llama 3.1,每3小時(shí)故障1次!罪魁禍?zhǔn)拙故荊PU和HBM3顯存

人工智能 新聞
在Meta的Llama 3.1訓(xùn)練過程中,其運(yùn)行的1.6萬個(gè)GPU訓(xùn)練集群每3小時(shí)就會(huì)出現(xiàn)一次故障,意外故障中的半數(shù)都是由英偉達(dá)H100 GPU和HBM3內(nèi)存故障造成的。

隨著大模型的迭代,其GPU用量也在不斷增長。

Meta的Llama 1使用了2028塊GPU,而到了Llama 3.1 405B,這個(gè)數(shù)字變成了16384。

圖片

規(guī)模如此龐大的超算系統(tǒng)迎來了可靠性和運(yùn)行方面的巨大挑戰(zhàn)——

據(jù)Meta最近公布的研究顯示,Llama 3.1訓(xùn)練持續(xù)了54天,在此期間集群遇到了419次意外組件故障,平均每3小時(shí)發(fā)生一次!

在一半的故障案例中,罪魁禍?zhǔn)渍怯ミ_(dá)的H100 GPU及其板載的HBM3內(nèi)存。

圖片

在超算領(lǐng)域,有一句古老的諺語,「大規(guī)模系統(tǒng)唯一可以確定的事就是發(fā)生故障」。

一個(gè)由成千上萬個(gè)處理器、數(shù)十萬個(gè)其他芯片和數(shù)百英里的電纜組成的超算集群,是極其復(fù)雜的。這樣復(fù)雜的系統(tǒng)不可避免地會(huì)發(fā)生故障,甚至以幾個(gè)小時(shí)為間隔單位都很正常。

開發(fā)人員要做的是確保系統(tǒng)在這些局部故障的情況下仍然能夠正常運(yùn)行。

Meta已經(jīng)為抵御故障對(duì)系統(tǒng)的影響而耗費(fèi)了不少精力,馬斯克的包含10萬塊H100的超算集群比Llama 3.1的訓(xùn)練集群足足多了6倍,很難想象,其故障發(fā)生的頻率將會(huì)有多高。

圖片

419次意外中斷

Meta的Llama 3.1 405B的訓(xùn)練集群共包含16384個(gè)Nvidia H100 80GB GPU的集群上進(jìn)行訓(xùn)練的。

1.6萬塊GPU訓(xùn)練的復(fù)雜性和潛在故障情況超出了Llama團(tuán)隊(duì)的既有經(jīng)驗(yàn),這是他們迄今為止運(yùn)行過的最大的集群。

此外,訓(xùn)練的同步性也降低了容錯(cuò)性——單個(gè)GPU故障可能會(huì)導(dǎo)致整個(gè)訓(xùn)練任務(wù)中斷,整個(gè)作業(yè)必須要重新啟動(dòng)。

在54天的預(yù)訓(xùn)練期間,共有466次作業(yè)中斷,其中47次是計(jì)劃內(nèi)的,419次是意外的。

計(jì)劃內(nèi)的中斷是由于自動(dòng)維護(hù),如固件和Linux內(nèi)核升級(jí)、數(shù)據(jù)集更新等操作員發(fā)起的操作,這導(dǎo)致每天至少有一次訓(xùn)練中斷。

而意外的中斷主要是由硬件問題引起的,約78%的意外中斷歸因于已確認(rèn)的硬件問題。如GPU或主機(jī)組件故障、靜默數(shù)據(jù)損壞、計(jì)劃外的單個(gè)主機(jī)維護(hù)事件等。

其中,GPU問題是最大的一類,占所有意外問題的58.7%(下圖中紅色部分)。

圖片

在419次意外中斷中,有148次(30.1%)是由于各種GPU故障(包括NVLink故障)引起的,而72次(17.2%)是由HBM3內(nèi)存故障引起的。

這并不意外——英偉達(dá)H100 GPU有著高達(dá)700W的功耗,并因此需要承受大量熱應(yīng)力。

相比之下,在54天內(nèi)只有兩個(gè)CPU發(fā)生故障(上圖中藍(lán)色部分)。

雖然GPU是最重要但也最脆弱的組件,占到意外問題的58.7%,但剩余41.3%的意外中斷是由多種因素引起的,包括軟件錯(cuò)誤、網(wǎng)絡(luò)電纜和網(wǎng)絡(luò)適配器。

盡管故障數(shù)量眾多,Llama團(tuán)隊(duì)還是保持了超過90%的有效訓(xùn)練時(shí)間,在訓(xùn)練期間僅有三次需要大量人工干預(yù),其余問題均由自動(dòng)化處理。

解決辦法

為了提高效率,Meta團(tuán)隊(duì)減少了作業(yè)啟動(dòng)和檢查點(diǎn)時(shí)間,并開發(fā)了專有的診斷工具。

PyTorch的NCCL飛行記錄器被廣泛使用,該功能可將集體元數(shù)據(jù)和堆棧跟蹤記錄到環(huán)形緩沖區(qū)中,從而使研究人員能夠快速診斷大規(guī)模掛起和性能問題,尤其是NCCLX方面的問題。

圖片

NCCLX在故障檢測(cè)和定位中發(fā)揮了關(guān)鍵作用,特別是在訓(xùn)練網(wǎng)絡(luò)中,NVLink和RoCE的混合使用使大規(guī)模訓(xùn)練中的調(diào)試問題變得復(fù)雜。

對(duì)于NVLink和RoCE帶來的復(fù)雜性問題,NCCLX通過與PyTorch的緊密協(xié)同設(shè)計(jì)提高了故障檢測(cè)和定位的速度和準(zhǔn)確性,允許PyTorch訪問NCCLX的內(nèi)部狀態(tài)并跟蹤相關(guān)信息。

雖然NVLink故障導(dǎo)致的停滯無法完全避免,但這個(gè)系統(tǒng)會(huì)監(jiān)控通信庫的狀態(tài),并在檢測(cè)到此類停滯時(shí)自動(dòng)超時(shí)。

除此之外,有時(shí)一些仍在運(yùn)行但速度緩慢的滯留器很難被檢測(cè)到。

Meta團(tuán)隊(duì)開發(fā)的工具,能夠用于識(shí)別「拖后腿」的GPU。

這個(gè)工具的原理是對(duì)來自選定進(jìn)程組的可能有問題的通信進(jìn)行優(yōu)先排序,只需調(diào)查幾個(gè)最大的嫌疑人,通常就能有效地識(shí)別出滯后的GPU。

從而有效地檢測(cè)和及時(shí)解決滯后問題,確保減慢速度的情況最小化,保持整體訓(xùn)練效率。

運(yùn)行挑戰(zhàn)

Meta透露,超算集群還有來自環(huán)境因素和功耗劇烈波動(dòng)帶來的運(yùn)行挑戰(zhàn)。

環(huán)境因素

Meta團(tuán)隊(duì)發(fā)現(xiàn)一個(gè)有趣的現(xiàn)象是環(huán)境因素對(duì)大規(guī)模培訓(xùn)性能的影響,研究人員注意到,吞吐量會(huì)有1-2%的晝夜變化。

這種波動(dòng)是由于中午較高的溫度影響了GPU的動(dòng)態(tài)電壓和頻率縮放,從而影響訓(xùn)練性能。

圖片

功耗波動(dòng)

Llama 3.1 405B大語言模型訓(xùn)練團(tuán)隊(duì)面臨的另一個(gè)挑戰(zhàn)是數(shù)萬GPU同時(shí)功耗變化,這給他們的數(shù)據(jù)中心電網(wǎng)帶來了壓力。

這些波動(dòng)有時(shí)高達(dá)數(shù)十兆瓦,達(dá)到了電網(wǎng)的極限,這意味著Meta必須確保其數(shù)據(jù)中心有足夠的電力。

在訓(xùn)練過程中,數(shù)以萬計(jì)的GPU可能會(huì)同時(shí)增加或減少功耗,例如,由于所有GPU都在等待檢查點(diǎn)或集體通信的完成,或者整個(gè)訓(xùn)練任務(wù)的啟動(dòng)或關(guān)閉。

當(dāng)這種情況發(fā)生時(shí),整個(gè)數(shù)據(jù)中心的功耗會(huì)瞬間波動(dòng)數(shù)十兆瓦,從而挑戰(zhàn)電網(wǎng)的極限。

Meta認(rèn)為,在為未來更大型的Llama模型擴(kuò)展訓(xùn)練時(shí),這將會(huì)是一個(gè)持續(xù)的挑戰(zhàn)。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-03-15 09:00:00

2024-01-19 13:21:21

OpenAI人工智能AGI

2009-07-27 13:56:10

2024-07-29 14:27:38

2019-05-27 10:22:26

Oracle日志數(shù)據(jù)庫

2024-04-07 00:20:00

2011-04-21 16:34:56

打印亂碼接口

2018-09-10 09:43:26

2019-06-04 14:19:53

AWS谷歌巖機(jī)

2015-11-23 10:29:48

app隱藏通信安卓耗電

2017-06-19 10:57:13

2023-03-02 08:35:38

內(nèi)存算法設(shè)計(jì)

2023-03-07 09:40:33

內(nèi)存死鎖操作系統(tǒng)

2024-01-19 12:34:39

2009-12-03 10:25:32

微軟補(bǔ)丁黑屏故障

2018-01-29 23:13:47

大數(shù)據(jù)戰(zhàn)略數(shù)據(jù)分析

2022-11-16 16:14:46

單踏板模式特斯拉

2020-12-01 06:58:29

富領(lǐng)域模型服務(wù)

2009-02-25 08:58:30

裁員上網(wǎng)本微軟

2010-07-12 16:24:20

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)