自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Meta兩個豪華AI集群曝光:每個配備2.4萬塊英偉達H100,價值幾十億

人工智能 數(shù)據(jù)中心
Meta表示,這種升級不僅在數(shù)量上有所增加,其性能上的躍進也將支持更大、更復(fù)雜的模型,為生成式人工智能產(chǎn)品的開發(fā)鋪平道路。

3月13日消息,美國時間周二,F(xiàn)acebook母公司Meta公布了兩個數(shù)據(jù)中心規(guī)模新集群的技術(shù)細節(jié),它們各自擁有超過2.4萬個GPU,并在硬件、網(wǎng)絡(luò)、存儲、設(shè)計、性能和軟件等方面上,專為支持大型語言模型如Llama 3進行訓(xùn)練而深度優(yōu)化。

這兩個新集群基于Meta先前研究超級集群(RSC)的成功。RSC自2022年啟用以來,已展現(xiàn)出強大的計算力。

在硬件配置方面,每個集群都配備了24576個英偉達Tensor Core H100 GPU(每個數(shù)萬美元),與之前使用的16000個英偉達A100 GPU相比有了明顯提升,這將極大地促進自然語言處理、語音識別和圖像生成等人工智能研究和開發(fā)工作。

Meta表示,這種升級不僅在數(shù)量上有所增加,其性能上的躍進也將支持更大、更復(fù)雜的模型,為生成式人工智能產(chǎn)品的開發(fā)鋪平道路。

Meta計劃在2024年底之前,將其人工智能基礎(chǔ)設(shè)施擴大到高達35萬個H100 GPU。目標是擁有相當于近60萬個H100 GPU的算力。

圖片來源:Meta官方博客

雖然兩個新集群的GPU數(shù)量相同,但它們在網(wǎng)絡(luò)基礎(chǔ)設(shè)施方面各有差異,均支持400 Gbps端點之間的互聯(lián)。其中一個集群采用了基于Arista 7800交換機配合Wedge400和Minipack2 OCP機架交換機的遠程直接內(nèi)存訪問(RDMA)和融合以太網(wǎng)(RoCE)網(wǎng)絡(luò)解決方案,而另一個則應(yīng)用了英偉達Quantum2 InfiniBand網(wǎng)絡(luò)架構(gòu)。

值得一提的是,兩個集群均基于Meta自研的開放GPU硬件平臺Grand Teton構(gòu)建,這是公司為支撐大型AI工作負載而開發(fā)的GPU基礎(chǔ)硬件平臺。作為Zion-EX平臺的后續(xù)產(chǎn)品,Grand Teton在主機到GPU的帶寬、計算及數(shù)據(jù)網(wǎng)絡(luò)帶寬、以及功率包絡(luò)等方面都實現(xiàn)了顯著的增強。

此外,這些集群充分利用了Meta專為Grand Teton等方案設(shè)計的Open Rack電源和機架架構(gòu),提高了數(shù)據(jù)中心的靈活性。

Meta的Open Rack v3硬件設(shè)計引入了一個靈活的機架配置方案。與傳統(tǒng)的固定母線設(shè)計相比,它允許在機架中的任意位置安裝電源架,從而使機架配置更加靈活。

在建設(shè)這些新集群時,Meta特別關(guān)注了每臺服務(wù)器吞吐量、機架數(shù)量減少及能源效率之間的平衡。通過對機架內(nèi)服務(wù)器數(shù)量的定制化設(shè)計,Meta確保了這些集群在提供高性能的同時,也達到了能源的高效利用。

在存儲技術(shù)上,這些集群運用了Linux Filesystem中的Userspace API,并得到了Meta自家Tectonic分布式存儲方案的加持。與此同時,Meta還與Hammerspace合作,一道開發(fā)了并行網(wǎng)絡(luò)文件系統(tǒng)(NFS)。

兩個集群均基于配備了最新高容量E1.S SSD的YV3 Sierra Point服務(wù)器平臺。為了優(yōu)化網(wǎng)絡(luò)利用率,Meta進行了網(wǎng)絡(luò)拓撲和路由的調(diào)整,并部署了英偉達的集體通信庫(NCCL)。NCCL是一套針對英偉達GPU和網(wǎng)絡(luò)進行優(yōu)化的標準通信例程庫。

Meta還在積極推進其PyTorch基礎(chǔ)AI框架的發(fā)展,以應(yīng)對數(shù)十萬GPU的訓(xùn)練需求。Meta的技術(shù)項目經(jīng)理凱文·李(Kevin Lee)、生產(chǎn)網(wǎng)絡(luò)工程師阿迪·甘吉迪(Adi Gangidi)以及生產(chǎn)工程總監(jiān)馬修·奧爾德姆(Mathew Oldham)在最新博客中共同表達了公司的技術(shù)愿景和戰(zhàn)略。他們強調(diào),Meta將致力于人工智能軟件和硬件的開放式創(chuàng)新,啟動人工智能聯(lián)盟,建立一個開放的生態(tài)系統(tǒng),“為人工智能開發(fā)帶來透明度、審查和信任,并帶來每個人都能從中受益的創(chuàng)新,這些創(chuàng)新以安全和責(zé)任為首要考慮因素”。

這篇博文繼續(xù)強調(diào):“面對未來,我們意識到昨天和今天有效的方法可能無法滿足明天的需求。因此,Meta將不斷評估和改進其基礎(chǔ)設(shè)施的各個方面,從物理和虛擬層到軟件層等。我們的目標是創(chuàng)建一個既靈活又可靠的系統(tǒng),以支撐快速發(fā)展中的新模型和研究工作?!?/p>

責(zé)任編輯:姜華 來源: 網(wǎng)易科技
相關(guān)推薦

2024-03-14 14:49:34

Meta人工智能

2024-05-27 00:50:00

2024-03-15 09:00:00

2023-11-21 09:14:33

微軟Azure AI

2024-10-31 13:39:47

2024-05-27 13:05:20

2024-07-23 13:10:20

2024-04-07 00:20:00

2024-01-19 12:34:39

2024-07-16 13:29:52

2025-04-22 09:47:07

2024-01-19 13:21:21

OpenAI人工智能AGI

2024-01-22 13:06:00

AI訓(xùn)練

2023-08-06 13:01:34

AI開發(fā)

2024-03-26 16:48:00

2025-01-09 15:38:53

2024-09-05 14:10:00

AI計算

2024-03-13 13:36:57

Llama-3GPUAI

2023-08-24 14:26:00

數(shù)據(jù)中心利潤AI

2023-10-18 13:17:12

AI芯片英偉達美國
點贊
收藏

51CTO技術(shù)棧公眾號