自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Llama-3背后基礎(chǔ)訓練設(shè)施全揭秘:兩個24KGPU集群,共4.9萬個H100

譯文 精選
人工智能
展望未來,我們認識到昨天或今天奏效的方法可能無法滿足明天的需求。因此,我們不斷地評估和完善基礎(chǔ)設(shè)施的各個方面,從物理和虛擬層到軟件層乃至更多層面。我們的目標是創(chuàng)建既靈活又可靠的系統(tǒng),以支持快速演進的新模型和研究。

作者丨Kevin Lee、Adi Gangidi、Mathew Oldham

編譯丨諾亞

出品 | 51CTO技術(shù)棧(微信號:blog51cto)

日前,Meta在官網(wǎng)公布了兩個全新的24K H100 GPU集群(49,152個),并就新集群的技術(shù)細節(jié)做了逐一剖析。它們各自擁有超過2.4萬個GPU,并在硬件、網(wǎng)絡(luò)、存儲、設(shè)計、性能和軟件等方面上,專為支持大型語言模型如Llama 3進行訓練而深度優(yōu)化。

此次公告也被Meta團隊視為其基礎(chǔ)設(shè)施路線圖中的一個關(guān)鍵步驟。“到2024年底,我們的目標是繼續(xù)擴大基礎(chǔ)設(shè)施建設(shè),其中包括350,000個NVIDIA H100 GPU,構(gòu)成的計算能力相當于近600,000個H100 GPU的組合?!?/p>

要在人工智能開發(fā)領(lǐng)域保持領(lǐng)先地位就意味著要引領(lǐng)對硬件基礎(chǔ)設(shè)施的投資。硬件基礎(chǔ)設(shè)施對于AI的未來發(fā)展起著至關(guān)重要的作用。今天,我們在Meta公布了兩個版本的24,576-GPU數(shù)據(jù)中心規(guī)模集群的具體細節(jié)。這些集群支持我們當前及下一代的人工智能模型,包括作為已公開發(fā)布的LLM——Llama 2的繼任者Llama 3,以及GenAI和其他領(lǐng)域的AI研究與開發(fā)工作。

一、深入探索Meta的大規(guī)模人工智能集群

Meta 的長期愿景是構(gòu)建開放且負責任地構(gòu)建的通用人工智能 (AGI),以便它能夠廣泛可用,讓每個人都能從中受益。在我們努力實現(xiàn) AGI 的同時,我們也專注于擴展我們的集群以提供所需動力。我們在AGI方面取得的進步催生出新產(chǎn)品、我們旗下一系列應(yīng)用的新AI功能,以及以AI為核心的新型計算設(shè)備。

盡管我們在構(gòu)建AI基礎(chǔ)設(shè)施方面有著悠久的歷史,但在2022年首次公開介紹了搭載16,000個NVIDIA A100 GPU的AI研究超級集群(RSC)。RSC加速了我們開放且負責任的AI研究進程,幫助我們構(gòu)建第一代先進AI模型。它在Llama和Llama 2的發(fā)展過程中發(fā)揮了重要作用,并且仍在發(fā)揮作用,同時也在計算機視覺、自然語言處理、語音識別、圖像生成甚至編程等應(yīng)用領(lǐng)域的先進AI模型研發(fā)中扮演著重要角色。

圖片圖片

二、深入了解技術(shù)細節(jié)

我們的新一代AI集群建立在RSC的成功和經(jīng)驗教訓基礎(chǔ)之上。我們專注于構(gòu)建端到端的人工智能系統(tǒng),特別強調(diào)提升研究者和開發(fā)者的體驗及工作效率。這些集群內(nèi)部采用高效的高性能網(wǎng)絡(luò)架構(gòu),結(jié)合關(guān)鍵存儲解決方案,在每個集群中配備多達24,576個NVIDIA Tensor Core H100 GPU,使得這些新版本的集群能夠支持比RSC時期更大的、更復雜的模型訓練。這種硬件配置為推進AI產(chǎn)品開發(fā)中的新一代(GenAI)技術(shù)和研究鋪平了道路。

1.網(wǎng)絡(luò)部分

在Meta,我們每天處理數(shù)以萬億計的AI模型執(zhí)行任務(wù)。要在如此大規(guī)模上提供這些服務(wù),需要高度先進且靈活的基礎(chǔ)架構(gòu)。通過定制大量自己的硬件、軟件和網(wǎng)絡(luò)結(jié)構(gòu),我們可以針對AI研究人員優(yōu)化端到端體驗,同時確保數(shù)據(jù)中心高效運行。

為此,我們構(gòu)建了一個基于Arista 7800系列交換機配合Wedge400和Minipack2 OCP機架式交換機構(gòu)建的遠程直接內(nèi)存訪問(RDMA)在聚合以太網(wǎng)(RoCE)網(wǎng)絡(luò)結(jié)構(gòu)方案的集群;另一個集群則采用了NVIDIA Quantum2 InfiniBand網(wǎng)絡(luò)結(jié)構(gòu)。這兩種方案均能連接400 Gbps端點。通過這兩個不同類型的互連解決方案,我們能夠評估它們在大規(guī)模訓練中的適用性和可擴展性,從而獲得更多的見解,指導未來更大規(guī)模集群的設(shè)計與構(gòu)建。經(jīng)過精心的網(wǎng)絡(luò)、軟件和模型架構(gòu)協(xié)同設(shè)計,我們成功地在RoCE和InfiniBand集群上運行大型、面向新一代AI(GenAI)的工作負載(包括在RoCE集群上對我們正在進行的Llama 3模型訓練),并且未出現(xiàn)任何網(wǎng)絡(luò)瓶頸。

2.計算部分

這兩個集群都基于我們內(nèi)部設(shè)計并貢獻給開放計算項目(OCP)的開放式GPU硬件平臺“大提頓”(Grand Teton)構(gòu)建。大提頓整合了多代AI系統(tǒng)的優(yōu)點,將電源、控制、計算和結(jié)構(gòu)接口集成在一個單一機箱中,以實現(xiàn)更好的整體性能、信號完整性和熱性能。該平臺提供了快速的可擴展性和簡化設(shè)計下的靈活性,使其能夠迅速部署到數(shù)據(jù)中心群集,并易于維護和擴展。結(jié)合我們其他的內(nèi)部創(chuàng)新成果,如Open Rack供電和機架架構(gòu),大提頓讓我們能夠以針對Meta當前和未來應(yīng)用的方式構(gòu)建新的集群。

自2015年的Big Sur平臺開始,我們就一直在公開設(shè)計GPU硬件平臺。

3.存儲部分

在AI訓練中,存儲扮演著重要角色,但往往也是討論最少的部分之一。隨著GenAI訓練任務(wù)逐漸變得更加多模態(tài),消耗大量圖像、視頻和文本數(shù)據(jù),數(shù)據(jù)存儲的需求快速增長。然而,如何在保證高性能的同時兼顧節(jié)能,將所有這些數(shù)據(jù)存儲空間緊湊化的問題依然存在,這使得問題更具挑戰(zhàn)性。

我們的存儲部署通過由Meta專為Flash介質(zhì)優(yōu)化的“Tectonic”分布式存儲解決方案支持的用戶空間Linux文件系統(tǒng)(FUSE)API來滿足AI集群的數(shù)據(jù)和檢查點需求。這一解決方案使數(shù)千個GPU能夠同步保存和加載檢查點(這對任何存儲解決方案都是一個挑戰(zhàn)),同時也提供了用于數(shù)據(jù)加載所需的靈活、高吞吐量的EB級存儲容量。

此外,我們還與Hammerspace合作共同開發(fā)并實施了一種并行網(wǎng)絡(luò)文件系統(tǒng)(NFS)部署,以滿足此AI集群的開發(fā)者體驗要求。Hammerspace帶來諸多優(yōu)勢,其中之一便是能夠讓工程師在數(shù)千個GPU環(huán)境中進行交互式調(diào)試,代碼更改會立即對所有節(jié)點可見。當Tectonic分布式存儲解決方案與Hammerspace相結(jié)合時,能夠在不犧牲規(guī)模的前提下實現(xiàn)快速迭代速度。

我們GenAI集群中的Tectonic和Hammerspace支持的存儲部署均基于YV3 Sierra Point服務(wù)器平臺,并升級到了市場上最新、最大容量的E1.S SSD。除了更高的SSD容量外,我們還根據(jù)每臺服務(wù)器的吞吐量容量、減少機架數(shù)量和相關(guān)的電源效率等因素定制了每機架的服務(wù)器數(shù)量。利用OCP服務(wù)器如同樂高積木般的構(gòu)建模塊,我們的存儲層能夠靈活地按需擴展,適應(yīng)這個集群以及未來更大規(guī)模AI集群的要求,同時在日?;A(chǔ)設(shè)施維護操作中保持容錯性。

4.性能部分

在構(gòu)建大規(guī)模AI集群時,我們堅持的一個原則是同時最大限度地提高性能和易用性,而不會相互影響,這對于創(chuàng)造最佳級別的AI模型至關(guān)重要。

當我們不斷探索AI系統(tǒng)的極限時,檢驗我們設(shè)計擴展能力的最好方式就是實際構(gòu)建系統(tǒng)、優(yōu)化它并進行測試(雖然模擬器有所幫助,但其局限性明顯)。在這個設(shè)計過程中,我們將小集群和大集群的性能進行了對比,找出瓶頸所在。下圖顯示的是,在大量GPU之間以預期達到峰值性能的消息大小進行通信時,AllGather集體操作性能(以0-100標度標準化帶寬表示)。

最初,相比優(yōu)化后的中小型集群,我們大型集群的開箱即用性能較差且不穩(wěn)定。為了解決這個問題,我們對內(nèi)部作業(yè)調(diào)度器進行了改進,使其具有網(wǎng)絡(luò)拓撲感知能力,從而降低延遲,減少流入網(wǎng)絡(luò)高層的流量。同時,我們還優(yōu)化了網(wǎng)絡(luò)路由策略,并結(jié)合NVIDIA Collective Communications Library (NCCL) 的調(diào)整,以實現(xiàn)網(wǎng)絡(luò)資源的最佳利用。這些舉措促使我們的大型集群達到了與小型集群同樣出色且預期的性能水平。

圖片圖片

在圖表中,我們可以觀察到小型集群(總體通信帶寬和利用率)未經(jīng)優(yōu)化就能達到90%以上的水平,而未經(jīng)優(yōu)化的大規(guī)模集群性能表現(xiàn)非常差,利用率僅在10%至90%之間波動。然而,在我們對整個系統(tǒng)(包括軟件、網(wǎng)絡(luò)等方面)進行優(yōu)化之后,大型集群的性能恢復到了理想的90%以上范圍。

除了針對內(nèi)部基礎(chǔ)設(shè)施的軟件改動,我們還與編寫訓練框架和模型的團隊緊密合作,以適應(yīng)我們不斷發(fā)展的基礎(chǔ)設(shè)施。例如,NVIDIA H100 GPU開啟了使用8位浮點數(shù)(FP8)等新型數(shù)據(jù)類型進行訓練的可能性。充分利用大型集群需要投入額外的并行化技術(shù),而新的存儲解決方案則為跨數(shù)千個rank的高度優(yōu)化檢查點運行提供了機會,使其能在數(shù)百毫秒內(nèi)完成。

我們還認識到調(diào)試能力是大規(guī)模訓練的主要挑戰(zhàn)之一。在大規(guī)模環(huán)境下,識別導致整個訓練作業(yè)停滯的問題GPU變得極其困難。因此,我們正在開發(fā)諸如desync debug(異步調(diào)試)或分布式集體飛行記錄器之類的工具,以揭示分布式訓練的詳細信息,更快更容易地識別問題。

最后,我們正持續(xù)改進PyTorch這一支撐我們AI工作負載的基礎(chǔ)AI框架,使其準備好應(yīng)對成千甚至數(shù)萬個GPU的訓練需求。我們已經(jīng)識別出了進程組初始化過程中的多個瓶頸,并將啟動時間從有時需要數(shù)小時縮短到了幾分鐘。

三、對開放AI創(chuàng)新的承諾

Meta始終堅持在AI軟件和硬件方面的開放創(chuàng)新承諾。我們堅信開源硬件和軟件始終是幫助行業(yè)解決大規(guī)模問題的寶貴工具。

如今,作為OCP(開放計算項目)的創(chuàng)始成員,我們繼續(xù)支持開放硬件創(chuàng)新,將諸如Grand Teton和Open Rack等設(shè)計向OCP社區(qū)開放。同時,我們?nèi)匀皇荘yTorch的主要貢獻者,這是為行業(yè)內(nèi)大部分應(yīng)用場景提供動力的AI軟件框架。

我們同樣持續(xù)致力于AI研究領(lǐng)域的開放創(chuàng)新。我們已經(jīng)推出了“開放創(chuàng)新AI研究社區(qū)”,這是一個與學術(shù)研究者合作的伙伴計劃,旨在深化我們對如何負責任地開發(fā)和分享AI技術(shù)的理解,尤其是關(guān)注大型語言模型(LLMs)。

對于Meta來說,采取開放的AI方法并不新鮮。我們還發(fā)起了AI聯(lián)盟,這是一個集結(jié)了AI行業(yè)領(lǐng)先組織的團體,專注于在開放社區(qū)中加速負責任的AI創(chuàng)新。我們的AI努力建立在開放科學和跨協(xié)作的理念之上。開放生態(tài)帶來了透明度、審查機制和信任,促進了AI開發(fā)的信任與安全,并引領(lǐng)出人人皆可受益、以安全和責任為核心構(gòu)建的創(chuàng)新成果。

四、Meta未來AI基礎(chǔ)設(shè)施展望

這兩個AI訓練集群設(shè)計只是我們更大規(guī)模AI未來藍圖的一部分。到2024年底,我們的目標是繼續(xù)擴大基礎(chǔ)設(shè)施建設(shè),其中包括350,000個NVIDIA H100 GPU,總計算能力相當于近600,000個H100 GPU。

展望未來,我們認識到昨天或今天奏效的方法可能無法滿足明天的需求。因此,我們不斷地評估和完善基礎(chǔ)設(shè)施的各個方面,從物理和虛擬層到軟件層乃至更多層面。我們的目標是創(chuàng)建既靈活又可靠的系統(tǒng),以支持快速演進的新模型和研究。

參考鏈接:

https://engineering.fb.com/2024/03/12/data-center-engineering/building-metas-genai-infrastructure/

責任編輯:武曉燕 來源: 51CTO技術(shù)棧
相關(guān)推薦

2024-03-15 09:00:00

2024-04-19 09:26:43

人工智能Llama 3 模型Meta

2024-01-19 13:21:21

OpenAI人工智能AGI

2024-03-13 11:49:04

人工智能Meta數(shù)據(jù)中心

2024-07-29 14:27:38

2010-03-03 16:16:33

Linux基礎(chǔ)訓練

2024-01-19 12:34:39

2024-03-14 14:49:34

Meta人工智能

2023-11-21 09:14:33

微軟Azure AI

2024-07-23 13:10:20

2023-09-01 13:26:03

2024-05-27 09:16:37

2013-08-22 09:55:19

數(shù)據(jù)中心云計算基礎(chǔ)設(shè)施

2024-03-26 16:48:00

2023-08-06 13:01:34

AI開發(fā)

2024-07-29 14:06:57

2023-08-29 13:51:00

AI數(shù)據(jù)

2010-09-13 16:55:27

DIV橫向排列

2024-09-05 13:30:00

2018-05-04 12:55:10

超融合基礎(chǔ)設(shè)施
點贊
收藏

51CTO技術(shù)棧公眾號