自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Meta公布Llama 3訓(xùn)練集群細(xì)節(jié)!儲備60萬塊H100迎接AGI

人工智能 新聞
LLM開源從Infra做起!Meta公布了自己訓(xùn)練Llama 3的H100集群細(xì)節(jié),看來Llama 3快來了。

每年3月份,照例各家大廠又要開始秀自己最新的產(chǎn)品和研究了。

OpenAI剛剛發(fā)布了震驚世人的Sora,最新的ChatGPT版本似乎也是箭在弦上。

谷歌更是舉全公司之力,從去年底就開始放出了包括Gemini Ultra,Gemini 1.5,Gemma在內(nèi),各分支賽道上的驚艷成果。

可是作為開源AI的扛把子,Meta在去年發(fā)布了Llama 2和后續(xù)的模型后,就一直缺少有影響力的產(chǎn)品問世。

而對于開源社區(qū)來說,OpenAI雖好,可Meta才是大家真的衣食父母。大家都在翹首以待Llama 3的發(fā)布。

在Llama 3公開之前,不甘寂寞的Meta還是想到辦法在行業(yè)內(nèi)刷了一波存在感——秀肌肉。

Meta AI剛剛發(fā)表了一份技術(shù)博客,向公眾展示了自己擁有的算力資源,以及Meta布局AI Infra的具體細(xì)節(jié)和路線圖。

圖片

根據(jù)Meta的規(guī)劃,到2024年底它將擁有35萬個英偉達(dá)H100GPU,而未來算力儲備將達(dá)到夸張的60萬個H100。

而光有大量的GPU還遠(yuǎn)遠(yuǎn)不夠,如如何有效地把硬件資源組織成高效的算力集群才是關(guān)鍵。

Meta還公布了它構(gòu)建的由24576個H100GPU構(gòu)成的,正在用于訓(xùn)練Llama 3的集群細(xì)節(jié)。

Pytorch創(chuàng)始人的給出的總結(jié):

Meta用來訓(xùn)練Llama3的Meta 24k H100 Cluster Pods 的詳細(xì)信息。

-網(wǎng)絡(luò):RoCEv2/Infiniband兩個版本。

  Llama3在RoCEv2 上訓(xùn)練

-存儲: 基于Tectonic/Hammerspace的NFS/FUSE

-Stock PyTorch:no real modifications that aren't upstreamed

-帶有一些補丁的NCCL:補丁和交換機優(yōu)化使集群實現(xiàn)了相當(dāng)高的網(wǎng)絡(luò)帶寬。

-各種調(diào)試和集群監(jiān)控工具,如 NCCL 去同步調(diào)試、內(nèi)存行重映射檢測等。

正在訓(xùn)練大模型的公司趕快來抄Meta的作業(yè)了!

Meta的H100集群細(xì)節(jié)

在Meta2022年公布的研究超級集群(RSC)基礎(chǔ)之上,這兩個100集群進(jìn)一步在高性能網(wǎng)絡(luò)結(jié)構(gòu)的效率、一些關(guān)鍵存儲決策上進(jìn)行了優(yōu)化。

從而使得這兩個集群都能支持比RSC所能支持的模型更大,更復(fù)雜的模型,從而為未來AI研究提供更加強悍的動力。

集群的網(wǎng)絡(luò)細(xì)節(jié)

Meta每天處理數(shù)百萬億個人工智能模型的任務(wù)和操作。

大規(guī)模提供這些服務(wù)需要高度先進(jìn)且靈活的基礎(chǔ)設(shè)施。定制設(shè)計Meta自己的大部分硬件、軟件和網(wǎng)絡(luò)結(jié)構(gòu),使他們能夠優(yōu)化人工智能研究人員的端到端體驗,同時確保數(shù)據(jù)中心高效運行。

考慮到Meta的這個具體需求,它構(gòu)建了這一個集群。

該集群采用基于Arista 7800的遠(yuǎn)程直接內(nèi)存訪問 (RDMA) 融合以太網(wǎng) (RoCE) 網(wǎng)絡(luò)結(jié)構(gòu)解決方案,配備Wedge400和Minipack2 OCP機架式交換機。

另一個集群采用英偉達(dá)Quantum2 InfiniBand Fabric。這兩種解決方案都能實現(xiàn)400 Gbps端點互聯(lián)。

有了這兩個解決方案,Meta就能夠評估這些不同類型的互連是否適合大規(guī)模培訓(xùn)以及是否具有可擴(kuò)展性,從而為Meta今后如何設(shè)計和構(gòu)建更大、更大規(guī)模的集群提供更多經(jīng)驗。

通過對網(wǎng)絡(luò)、軟件和模型架構(gòu)的精心共同設(shè)計,Meta已經(jīng)成功地將RoCE和 InfiniBand集群用于大型GenAI工作負(fù)載(包括Meta正在RoCE集群上對Llama 3進(jìn)行的訓(xùn)練),并且沒有出現(xiàn)任何網(wǎng)絡(luò)瓶頸。

計算平臺細(xì)節(jié)

這兩個集群均使用Grand Teton構(gòu)建,Grand Teton是Meta內(nèi)部設(shè)計的開放式 GPU 硬件平臺,Meta已將其貢獻(xiàn)給開放計算項目 (OCP)。

Grand Teton建立在多代AI系統(tǒng)的基礎(chǔ)上,將電源、控制、計算和結(jié)構(gòu)接口集成到一個機箱中,以獲得更好的整體性能、信號完整性和散熱性能。

它采用簡化設(shè)計,具有快速可擴(kuò)展性和靈活性,可快速部署到數(shù)據(jù)中心機群中,并易于維護(hù)和擴(kuò)展。

結(jié)合其他內(nèi)部創(chuàng)新技術(shù),如Meta的開放式機架電源和機架架構(gòu),Grand Teton使Meta能夠針對自己當(dāng)前和未來的應(yīng)用構(gòu)建新的集群。

從2015 年的Big Sur平臺開始,Meta一直在公開設(shè)計自己的GPU硬件平臺。

存儲系統(tǒng)細(xì)節(jié)

存儲在人工智能訓(xùn)練中扮演著重要角色,但卻是最不受關(guān)注的方面。

隨著時間的推移,GenAI訓(xùn)練工作變得越來越多模態(tài)化,需要消耗大量的圖像、視頻和文本數(shù)據(jù),因此對數(shù)據(jù)存儲的需求迅速增長。

將所有數(shù)據(jù)存儲納入一個高性能、高能效的空間的需求,使得問題變得更加有趣。

Meta的存儲部署通過自創(chuàng)的用戶空間Linux文件系統(tǒng)(FUSE)應(yīng)用程序接口(API)來滿足人工智能集群的數(shù)據(jù)和檢查點需求,該應(yīng)用程序接口由 Meta 針對閃存媒體進(jìn)行了優(yōu)化的 「Tectonic 」分布式存儲解決方案版本提供支持。

這個解決方案使數(shù)千個GPU能夠以同步方式保存和加載檢查點(這對任何存儲解決方案來說都是一個挑戰(zhàn)),同時還提供了數(shù)據(jù)加載所需的靈活、高吞吐量的外字節(jié)級存儲。

Meta還與Hammerspace合作,共同開發(fā)并部署并行網(wǎng)絡(luò)文件系統(tǒng) (NFS),以滿足該人工智能集群對開發(fā)人員體驗的要求。

除其他優(yōu)勢外,Hammerspace還能讓工程師使用數(shù)千個GPU對作業(yè)進(jìn)行交互式調(diào)試,因為環(huán)境中的所有節(jié)點都能立即訪問代碼更改。

將Meta的Tectonic分布式存儲解決方案和Hammerspace結(jié)合在一起,可以在不影響規(guī)模的情況下實現(xiàn)快速迭代。

在Meta的GenAI集群中,Tectonic和Hammerspace支持的存儲部署都基于YV3 Sierra Point服務(wù)器平臺,并升級了Meta目前在市場上可以采購到的最新高容量E1.S SSD。

除了更高的固態(tài)硬盤容量外,每個機架的服務(wù)器也進(jìn)行了定制,以實現(xiàn)每臺服務(wù)器吞吐能力、機架數(shù)量減少和相關(guān)能效之間的適當(dāng)平衡。

利用OCP服務(wù)器作為像樂高積木一樣的基本模塊,Meta的存儲層能夠靈活擴(kuò)展,以滿足該集群以及未來更大的人工智能集群的未來需求,同時具有容錯能力,可滿足日?;A(chǔ)設(shè)施維護(hù)操作的要求。

性能

Meta構(gòu)建大規(guī)模人工智能集群的原則之一是同時最大限度地提高性能和易用性,而不會顧此失彼。

這是創(chuàng)建一流人工智能模型的重要原則。

隨著Meta不斷挑戰(zhàn)人工智能系統(tǒng)的極限,測試Meta擴(kuò)展設(shè)計能力的最佳方法就是簡單地構(gòu)建系統(tǒng)、優(yōu)化系統(tǒng)并進(jìn)行實際測試(雖然模擬器可以提供幫助,但也只能到此為止)。

在這次設(shè)計過程中,Meta比較了小型集群和大型集群的性能,從而找出瓶頸所在。

下圖顯示了AllGather的集體性能(以 0-100 為單位的歸一化帶寬),即大量GPU在信息大小為屋頂線性能預(yù)期的情況下相互通信時的性能。

從圖中可以看到,小型集群性能(整體通信帶寬和利用率)開箱即達(dá)到90%+,但未經(jīng)優(yōu)化的大型集群性能利用率非常低,從10%到90%不等。在優(yōu)化整個系統(tǒng)(軟件、網(wǎng)絡(luò)等)后,看到大型集群性能恢復(fù)到理想的90%+范圍。

與優(yōu)化后的小型集群性能相比,Meta的大型集群開箱即用性能最初較差且不一致。

為了解決這個問題,Meta對內(nèi)部作業(yè)調(diào)度程序的調(diào)度方式做了一些改變,使其具有網(wǎng)絡(luò)拓?fù)湟庾R——這帶來了延遲優(yōu)勢,并最大限度地減少了流向網(wǎng)絡(luò)上層的流量。

Meta還結(jié)合英偉達(dá)集體通信庫(NCCL)的變化優(yōu)化了網(wǎng)絡(luò)路由策略,以實現(xiàn)最佳網(wǎng)絡(luò)利用率。

這有助于推動Meta的大型集群實現(xiàn)與小型集群一樣出色的預(yù)期性能。

除了針對內(nèi)部基礎(chǔ)設(shè)施的軟件變更外,Meta還與編寫培訓(xùn)框架和模型的團(tuán)隊密切合作,以適應(yīng)不斷發(fā)展的基礎(chǔ)設(shè)施。

例如,英偉達(dá)H100 GPU為利用8位浮點(FP8)等新數(shù)據(jù)類型進(jìn)行訓(xùn)練提供了可能。

充分利用更大的集群需要投資更多的并行化技術(shù),而新的存儲解決方案則為高度優(yōu)化數(shù)千個等級的檢查點提供了機會,使其能夠在數(shù)百毫秒內(nèi)運行。

Meta還認(rèn)識到,可調(diào)試性是大規(guī)模訓(xùn)練的主要挑戰(zhàn)之一。

在大規(guī)模訓(xùn)練中,識別導(dǎo)致整個訓(xùn)練工作停滯的問題GPU變得非常困難。

Meta正在開發(fā)desync調(diào)試或分布式集體飛行記錄器等工具,以揭示分布式訓(xùn)練的細(xì)節(jié),幫助以更快、更簡單的方式發(fā)現(xiàn)問題。

最后,Meta還在繼續(xù)改進(jìn)PyTorch(為Meta的人工智能工作負(fù)載提供動力的基礎(chǔ)人工智能框架),使其能夠滿足數(shù)萬甚至數(shù)十萬GPU的訓(xùn)練需求。

Meta已經(jīng)發(fā)現(xiàn)了流程組初始化的多個瓶頸,并將啟動時間從有時的幾個小時縮短到幾分鐘。

致力于開放式人工智能創(chuàng)新

Meta始終致力于人工智能軟件和硬件的開放式創(chuàng)新。

他們相信,開源硬件和軟件將始終是幫助行業(yè)大規(guī)模解決問題的寶貴工具。

如今,Meta作為OCP的創(chuàng)始成員,繼續(xù)支持開放式硬件創(chuàng)新,向OCP社區(qū)提供Grand Teton和Open Rack等設(shè)計。

Meta還是PyTorch的最大和主要貢獻(xiàn)者,PyTorch是一個人工智能軟件框架,為整個行業(yè)提供了強大的動力。

Meta還繼續(xù)致力于人工智能研究社區(qū)的開放式創(chuàng)新。

Meta已經(jīng)啟動了開放創(chuàng)新人工智能研究社區(qū),這是一項面向?qū)W術(shù)研究人員的合作計劃,旨在加深Meta對如何負(fù)責(zé)任地開發(fā)和共享人工智能技術(shù)的理解——尤其關(guān)注LLM。

Meta還發(fā)起了人工智能聯(lián)盟(AI Alliance),這是一個由人工智能行業(yè)領(lǐng)先組織組成的團(tuán)體,致力于在一個開放的社區(qū)內(nèi)加速人工智能領(lǐng)域負(fù)責(zé)任的創(chuàng)新。

Meta的人工智能工作建立在開放科學(xué)和交叉合作的理念之上。開放的生態(tài)系統(tǒng)為人工智能開發(fā)帶來了透明度、監(jiān)督和信任,并帶來了每個人都能從中受益的創(chuàng)新,這些創(chuàng)新都是以安全和責(zé)任為首要考慮的。

Meta AI基礎(chǔ)設(shè)施的未來

這兩個人工智能訓(xùn)練集群設(shè)計是Meta未來人工智能更大路線圖的一部分。

到2024年底,Meta的目標(biāo)是繼續(xù)擴(kuò)大Meta的基礎(chǔ)設(shè)施建設(shè),其中將包括35萬個H100,未來會擴(kuò)充到60萬個H100 GPU的等效算力。

展望未來,Meta認(rèn)識到,昨天或今天的工作可能無法滿足明天的需求。

因此,Meta會不斷評估和改進(jìn)基礎(chǔ)設(shè)施的各個方面,從物理層、虛擬層到軟件層,以及未來出現(xiàn)的新維度。

Meta的目標(biāo)是創(chuàng)建靈活可靠的系統(tǒng),以支持快速發(fā)展的新模式和研究。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-01-19 13:21:21

OpenAI人工智能AGI

2024-01-19 12:34:39

2024-03-13 11:49:04

人工智能Meta數(shù)據(jù)中心

2024-04-07 00:20:00

2024-07-23 13:10:20

2024-03-26 16:48:00

2024-03-14 14:49:34

Meta人工智能

2024-07-29 14:06:57

2024-07-16 13:29:52

2024-03-13 13:36:57

Llama-3GPUAI

2024-05-27 13:05:20

2024-07-29 14:27:38

2024-12-09 14:00:00

AI生成

2024-05-27 00:50:00

2023-08-28 13:06:19

AI模型

2024-07-24 13:58:25

2019-09-26 11:04:39

電腦硬件配置

2024-03-27 13:31:00

模型AI

2023-09-09 13:03:17

AI智能

2025-02-19 10:28:22

點贊
收藏

51CTO技術(shù)棧公眾號