自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

拆掉英偉達(dá)護(hù)城河,細(xì)節(jié)曝光!世界最快超算用3072塊AMD GPU訓(xùn)完超萬(wàn)億參數(shù)LLM

人工智能 新聞
世界上最快超算集群Frontier,用8%的GPU訓(xùn)練出了一個(gè)萬(wàn)億級(jí)規(guī)模的大模型,而且是在AMD硬件平臺(tái)之上完成。研究人員將訓(xùn)練的細(xì)節(jié)和克服的困難寫成了一篇論文,展示了如何用非英偉達(dá)的生態(tài)完成大模型訓(xùn)練的技術(shù)框架和細(xì)節(jié)。

用AMD的軟硬件系統(tǒng)也能訓(xùn)練GPT-3.5級(jí)別的大模型了。

位于美國(guó)橡樹嶺國(guó)家實(shí)驗(yàn)室(Oak Ridge National Laboratory)的全世界最大的超算Frontier,集合了37888個(gè)MI250X GPU和9472個(gè)Epyc 7A53 CPU。

最近,研究人員只使用了其中8%左右的GPU,就訓(xùn)練了一個(gè)GPT-3.5規(guī)模的模型。

研究人員成功地使用ROCM軟件平臺(tái)在AMD硬件上成功地突破了分布式訓(xùn)練模型的很多難點(diǎn),建立了使用ROCM平臺(tái)在AMD硬件上為大模型實(shí)現(xiàn)最先進(jìn)的分布式訓(xùn)練算法和框架。

成功地在非英偉達(dá)和非CUDA平臺(tái)上為高效訓(xùn)練LLM提供了可行的技術(shù)框架。

訓(xùn)練完成后,研究人員將在Frontier上訓(xùn)練大模型的經(jīng)驗(yàn)的總結(jié)成了一篇論文,詳細(xì)描述了期間遇到的挑戰(zhàn)以及克服的困難。

論文鏈接:https://arxiv.org/abs/2312.12705

在研究人員看來(lái),訓(xùn)練一萬(wàn)億參數(shù)規(guī)模的LLM最為重大的挑戰(zhàn)是所需的內(nèi)存量——至少需要14TB的內(nèi)存。

而單塊GPU最大的內(nèi)存只有64GB,這意味著需要并行使用多個(gè)AMD MI250X GPU才能完成訓(xùn)練。

而并行更多的GPU,對(duì)GPU之間的通信提出非常高的要求。如果不能有效地利用GPU之間的帶寬通信,大部分的GPU計(jì)算資源都會(huì)被浪費(fèi)。

具體來(lái)說(shuō),研究人員將Megatron-DeepSpeed分布式訓(xùn)練框架移植到Frontier上,以支持在AMD硬件和ROCM軟件平臺(tái)上進(jìn)行高效的分布式訓(xùn)練。

研究人員將基于CUDA的代碼轉(zhuǎn)換為HIP代碼,還預(yù)構(gòu)建DeepSpeed ops以避免ROCM平臺(tái)上的JIT編譯錯(cuò)誤,并且修改代碼以接受主節(jié)點(diǎn)IP地址為參數(shù)進(jìn)行PyTorch Distributed初始化。

在220億參數(shù)模型上,F(xiàn)rontier的訓(xùn)練峰值吞吐量達(dá)到了38.38%,1750億參數(shù)模型峰值吞吐量的36.14%,1萬(wàn)億參數(shù)模型峰值吞吐量的31.96%。

訓(xùn)練一個(gè)1000B級(jí)別的模型,最終研究團(tuán)隊(duì)將縮放效率(scaling efficiency)做到了87%。同時(shí),作為對(duì)比,研究人員還同時(shí)訓(xùn)練了另一個(gè)1750億參數(shù)的模型,縮放效率也達(dá)到了89%。

另一方面,因?yàn)楝F(xiàn)在這樣規(guī)模的模型訓(xùn)練都是在基于英偉達(dá)的硬件和CUDA生態(tài)中完成的,研究人員表示在AMD的GPU之上想要達(dá)到類似的訓(xùn)練效率和性能,還有很多工作需要做。

訓(xùn)練細(xì)節(jié)

GPT式模型結(jié)構(gòu)和模型尺寸

Transformer模型由兩個(gè)不同的部分組成,編碼器塊和解碼器塊。

編碼塊有助于捕捉非因果自注意力,即句子中的每個(gè)標(biāo)記都能注意到左右兩邊的token。

另一方面,解碼塊有助于捕捉因果自注意,即一個(gè)token只能注意到序列中過(guò)去的標(biāo)記。

最簡(jiǎn)單的GPT類模型由一疊類似的層組成。

每一層都有一個(gè)注意力區(qū)塊和一個(gè)前饋網(wǎng)絡(luò)(FFN)2。注意力區(qū)塊有三組參數(shù)圖片,其中d是模型的隱藏維度。FFN模塊有兩層,分別為權(quán)重圖片圖片所以,每層有11d^2個(gè)參數(shù)。

由于嵌入層位于模型的起始層,參數(shù)數(shù)大致為12Ld^2,其中L為層數(shù),d為隱藏維度。

根據(jù)這個(gè)公式,研究人員可以定義出下表中大小分別為22B、175B和1T的三個(gè)模型。

大部分內(nèi)存需求來(lái)自模型權(quán)重、優(yōu)化器狀態(tài)和梯度。

在混合精度訓(xùn)練中,每個(gè)模型參數(shù)需要6個(gè)字節(jié),4個(gè)字節(jié)用于在fp32中保存模型,2個(gè)字節(jié)用于在fp16中進(jìn)行計(jì)算。

優(yōu)化器狀態(tài)的每個(gè)參數(shù)需要4個(gè)字節(jié),以將動(dòng)量保存在fp32中。

研究人員需要為每個(gè)參數(shù)保存一個(gè)fp32梯度值。因此,在使用Adam優(yōu)化器進(jìn)行混合精度訓(xùn)練時(shí),最小內(nèi)存需求如下表所示。

每個(gè)Frontier節(jié)點(diǎn)有8個(gè)MI250X GPU構(gòu)成,每個(gè)都有64GB的HBM內(nèi)存。

因此,內(nèi)存需求表中,可以得出結(jié)論:要擬合模型的一個(gè)副本,模型并行化是必要的。模型并行可以通過(guò)張量和碎片數(shù)據(jù)并行在隱維度上實(shí)現(xiàn),也可以通過(guò)管線并行(pipeline paralism)在層維度上實(shí)現(xiàn)。

管線并行

管線并行將模型分成p個(gè)階段,每個(gè)階段大約有L/p層。然后,將批次分割成微批次,每執(zhí)行一步,一個(gè)微批次通過(guò)一個(gè)階段。

每個(gè)階段都放置在一個(gè)GPU上。

最初,只有第一個(gè)GPU可以處理第一個(gè)微批次。在第二個(gè)執(zhí)行步驟中,第一個(gè)微批次進(jìn)入第二個(gè)階段,而第一個(gè)微批次現(xiàn)在可以進(jìn)入第一個(gè)階段。

如此反復(fù),直到最后一個(gè)微批次到達(dá)最后一個(gè)階段。

然后,反向傳播開始,整個(gè)過(guò)程反向繼續(xù)。在每個(gè)批次之后引入同步點(diǎn),以保持正確的計(jì)算順序,這需要沖洗管線階段。

因此,在一個(gè)批次處理的開始和結(jié)束時(shí),托管較早和較晚階段的GPU會(huì)處于空閑狀態(tài),從而導(dǎo)致計(jì)算時(shí)間的浪費(fèi)或管線泡沫。

管線泡沫分?jǐn)?shù)為p-1m,其中m是批次中微批次的數(shù)量。

簡(jiǎn)單的GPipe調(diào)度會(huì)產(chǎn)生很大的管線泡沫。有一些額外的方法可以減少管線泡沫。

其中一種方法是PipeDream提出的1F1B調(diào)度,在前向傳遞過(guò)程中,最初允許微批次向前流動(dòng),直到最后一組收到第一個(gè)微批次。

但隨后第一個(gè)批次開始向后傳播,從那時(shí)起,前向傳遞總是伴隨著后向傳遞,因此被稱為1F1B。為了進(jìn)一步縮小氣泡大小,研究人員提出了一種交錯(cuò)計(jì)劃,即在單個(gè)GPU上放置多個(gè)較小的管線組,而不是在單個(gè)GPU上放置一個(gè)管線組。

1F1B計(jì)劃的管線泡沫大小大約為p/m,其中p是管線組的數(shù)量,m是微批次的數(shù)量。

微批次的數(shù)量。對(duì)于帶交錯(cuò)功能的1F1B計(jì)劃,泡沫大小為m×v p-1,其中v是放置在單個(gè)GPU上的交錯(cuò)組的數(shù)量。

分片數(shù)據(jù)并行(Sharded Data Parallelism)

分片數(shù)據(jù)并行將模型參數(shù)、優(yōu)化器狀態(tài)和梯度按行分片,并在每個(gè)GPU上放置一個(gè)分區(qū)。

由于訓(xùn)練一次推進(jìn)一個(gè)層,因此計(jì)算設(shè)備的內(nèi)存中只需要一個(gè)完整的層和相關(guān)值(優(yōu)化器狀態(tài)、梯度和參數(shù))。

分片數(shù)據(jù)并行性正是利用了這一點(diǎn);在執(zhí)行一個(gè)層之前,通過(guò)在所有GPU上執(zhí)行該層的所有收集,在所有GPU 上將該層實(shí)體化4b。

現(xiàn)在,所有GPU都有相同層的副本。然后,在不同的GPU上對(duì)不同的數(shù)據(jù)批次執(zhí)行該層。之后,每個(gè)GPU會(huì)刪除該層的所有收集部分,并通過(guò)全收集為下一層的實(shí)體化做好準(zhǔn)備。

通過(guò)這種方式,它模擬了數(shù)據(jù)并行性,但不是每個(gè)GPU都托管了整個(gè)模型的完整副本,而只是托管當(dāng)前活動(dòng)層的副本。

分片數(shù)據(jù)并行可以促進(jìn)大型模型在GPU上的數(shù)據(jù)并行訓(xùn)練,即使模型太大,無(wú)法容納在單個(gè)GPU的內(nèi)存中。

DeepSpeed的ZeRO優(yōu)化器在不同程度上支持分片數(shù)據(jù)并行。ZeRO-1只對(duì)優(yōu)化器狀態(tài)進(jìn)行分片,ZeRO-2對(duì)梯度和優(yōu)化器狀態(tài)進(jìn)行分片,ZeRO-3則對(duì)優(yōu)化器狀態(tài)、梯度和模型參數(shù)進(jìn)行分片。

另一方面,PyTorch FSDP(完全分片數(shù)據(jù)并行)對(duì)所有三種數(shù)據(jù)進(jìn)行了分片,并通過(guò)將分片數(shù)據(jù)并行與傳統(tǒng)數(shù)據(jù)并行相結(jié)合,支持混合數(shù)據(jù)并行。

3D并行和Megatron-DeepSpeed

僅使用單一并行策略來(lái)實(shí)現(xiàn)模型并行可能是一種低效方法。例如,如果研究人員只使用張量并行來(lái)對(duì)模型進(jìn)行水平切分,那么張量可能太薄,需要頻繁進(jìn)行全還原通信,從而減慢訓(xùn)練速度。

另一方面,如果研究人員將模型劃分為過(guò)多的管線階段,每個(gè)階段的計(jì)算量就會(huì)很小,這就需要頻繁的通信。一個(gè)已知的問題是,在多個(gè)節(jié)點(diǎn)上執(zhí)行張量并行訓(xùn)練需要緩慢的樹狀allreduce。

以混合方式使用多種并行模式,可以最大限度地減少性能不佳的地方。三維并行結(jié)合了張量、管線和數(shù)據(jù)(傳統(tǒng)和分片)并行技術(shù),以充分利用資源。

通過(guò)適當(dāng)?shù)脑O(shè)置,三維并行技術(shù)可將通信與計(jì)算重疊,從而減少通信延遲。

人工智能領(lǐng)域使用的三維并行標(biāo)準(zhǔn)代碼庫(kù)基于Megatron-LM。MegatronDeepSpeed擴(kuò)展了Megatron-LM的功能,增加了DeepSpeed功能,如ZeRO-1 sharded數(shù)據(jù)并行和重疊1F1B的管線并行。

計(jì)劃的管線并行。不過(guò),這些標(biāo)準(zhǔn)代碼庫(kù)都是針對(duì)英偉達(dá)GPU和CUDA平臺(tái)開發(fā)的。

作為最完整的框架,研究人員希望在Frontier上使用Megatron-DeepSpeed,F(xiàn)rontier 是AMD系統(tǒng),其軟件棧建立在ROCM軟件平臺(tái)上。

將Megatron-DeepSpeed移植到Frontier

Megatron-DeepSpeed代碼庫(kù)來(lái)源自英偉達(dá)公司的Megatron-LM代碼庫(kù),然后微軟在其中添加了DeepSpeed ZeRO優(yōu)化器、管線并行性和MoE。

英偉達(dá)負(fù)責(zé)開發(fā)Megatron-LM,因此其代碼庫(kù)是以英偉達(dá)GPU和CUDA環(huán)境為目標(biāo)平臺(tái)開發(fā)的。

將該代碼庫(kù)移植到AMD平臺(tái)上運(yùn)行會(huì)面臨一些挑戰(zhàn)。

1. CUDA代碼:CUDA代碼不能在AMD硬件上運(yùn)行,但HIP(一種類似CUDA的C/C++擴(kuò)展語(yǔ)言)可以。

研究人員使用hipify工具將CUDA源代碼轉(zhuǎn)換為HIP代碼,使用hipcc構(gòu)建可共享對(duì)象(so文件)然后使用pybind從Python代碼訪問這些可共享對(duì)象。

2. DeepSpeed操作:大多數(shù)DeepSpeed操作都是在執(zhí)行訓(xùn)練管線期間通過(guò)JIT(及時(shí))編譯構(gòu)建的。

但是,DeepSpeed操作的JIT編譯在ROCM平臺(tái)上不起作用,因此研究人員在安裝DeepSpeed時(shí)預(yù)先構(gòu)建了所有操作。

研究人員禁用了Megatron-DeepSpeed代碼庫(kù)中的所有JIT功能,以避免任何運(yùn)行時(shí)錯(cuò)誤。

3. 初始化PyTorch分布式環(huán)境:Megatron-DeepSpeed利用PyTorch分布式初始化創(chuàng)建各種數(shù)據(jù)和模型并行組。

初始化過(guò)程需要指定一個(gè)計(jì)算節(jié)點(diǎn)作為「主」節(jié)點(diǎn),所有分布式進(jìn)程都需要它的IP地址。

研究人員修改了代碼庫(kù),以接受MASTER ADDR作為參數(shù)。

研究人員準(zhǔn)備了一個(gè)啟動(dòng)腳本,從SLURM節(jié)點(diǎn)列表中讀取第一個(gè)節(jié)點(diǎn)的IP地址,并將其作為參數(shù)傳遞給所有使用srun啟動(dòng)的進(jìn)程。

然后,初始化代碼會(huì)使用這個(gè)MASTER ADDR進(jìn)行PyTorch分布式初始化。

4. 通過(guò)ROCM平臺(tái)軟件提供的庫(kù)/軟件包:研究人員與AMD開發(fā)人員合作,獲得了一些基本CUDA軟件包的ROCM版本,如APEX。

APEX是英偉達(dá)的混合精度庫(kù),Megatron-DeepSpeed代碼庫(kù)大量使用該庫(kù)進(jìn)行混合精度訓(xùn)練。

他們還改編了支持ROCM的FlashAttention和FlashAttention2庫(kù)版本,供Frontier上的編譯器使用。Flash-Attention操作被移植到AMDGPU上,使用的內(nèi)核來(lái)自Composable Kernel庫(kù)。

各種分配策略的實(shí)證分析

張量并行

張量并行法按行劃分模型層,每層之后都需要通過(guò)Allreduce對(duì)部分激活值進(jìn)行聚合。

每層執(zhí)行后的AllReduce成本很高,這取決于張量并行組中GPU之間的通信帶寬,通信量取決于隱藏大小和微批量大小。

下圖5顯示了前沿GPU之間的通信帶寬。一個(gè)節(jié)點(diǎn)中有8個(gè)GPU,單個(gè)芯片中的GPU通過(guò)四個(gè)(50+50 GB/s)無(wú)限結(jié)構(gòu)連接。

跨芯片的GPU之間的帶寬是它的一半。但是,跨節(jié)點(diǎn)的GPU之間的帶寬是25+25 GB/s。

因此,從網(wǎng)絡(luò)拓?fù)浜团渲脕?lái)看,TP = 2的通信速度最快,TP = 4或8的通信速度次之。

但是,如果TP ? 8,通信將通過(guò)較慢的以太網(wǎng)進(jìn)行,通信速度將大大降低。因此,將TP保持在[2, 4, 8]范圍內(nèi)應(yīng)該是最佳策略。

研究人員使用8個(gè)GPU訓(xùn)練一個(gè)1.4B的模型,TP值從1到8不等,結(jié)果發(fā)現(xiàn)TP值越小,吞吐量越高。

觀察結(jié)果III.1:TP值越大,訓(xùn)練效果越差。

B. 管線并行

管線并行化沿著層維度劃分模型,并將連續(xù)的層劃分為管線階段。一個(gè)微批次的執(zhí)行從一個(gè)階段流向下一個(gè)階段。

管線氣泡是使用這種并行方式進(jìn)行高效訓(xùn)練的限制因素。

研究人員觀察了大M或大GBS的效果,以了解22B參數(shù)和1T參數(shù)大小的兩個(gè)模型對(duì)GPU吞吐量的影響(下圖7)。

觀察結(jié)果III.2:使用大的全局批次大小或許多微批次使管線階段飽和,可將管線氣泡大小降至最低。

管線階段數(shù)量的影響:接下來(lái),研究人員研究管線級(jí)數(shù)對(duì)訓(xùn)練性能的影響。直觀地說(shuō),管線階段越多,意味著通信發(fā)生前的計(jì)算量越少。

在全局批次大小(微批次數(shù)量)固定的情況下,管線階段數(shù)量越多,計(jì)算量越少。

氣泡大小會(huì)隨著管線級(jí)數(shù)的增加而增加。研究人員還嘗試增加管線級(jí)數(shù),同時(shí)保持PMP固定不變,按比例增加全局批量大小。

觀察結(jié)果III.3:在保持全局批量大小不變的情況下,增加管線級(jí)數(shù)會(huì)增加管線氣泡的大小,并降低訓(xùn)練性能。

觀察結(jié)果III.4:如果管線級(jí)數(shù)與微批次數(shù)的比例保持不變,則隨著管線級(jí)數(shù)的增加,訓(xùn)練性能也會(huì)保持不變。

從第一個(gè)實(shí)驗(yàn)(上圖8a)來(lái)看,隨著管線級(jí)數(shù)的增加,訓(xùn)練性能會(huì)下降。但是,通過(guò)調(diào)整全局批次大小來(lái)固定氣泡比例,可以保持吞吐量(上圖8b)。

通過(guò)實(shí)驗(yàn)、超參數(shù)調(diào)整和分析,研究人員確定了在Frontier上訓(xùn)練Trillionparameter模型的高效策略,該策略結(jié)合了各種分布策略和軟件優(yōu)化。

訓(xùn)練萬(wàn)億參數(shù)模型

訓(xùn)練萬(wàn)億參數(shù)模型的高效策略

通過(guò)增加微批次數(shù)量使管線階段飽和:研究人員使用DeepSpeed(來(lái)自 DeepSpeed-Megatron,但不是Megatron的版本)提供的管線并行性。這種管線并行算法是PipeDream的算法,其中多個(gè)階段相互重疊,并采用1F1B算法來(lái)減少氣泡大小。

但是,如果管線級(jí)數(shù)沒有達(dá)到飽和,氣泡大小就會(huì)增大。為確保飽和,微批次的數(shù)量必須等于或超過(guò)管線級(jí)數(shù)。

將張量并行限制為單個(gè)節(jié)點(diǎn)/八個(gè)GPU:由于AllReduce操作過(guò)于頻繁,而且需要對(duì)每一層都執(zhí)行,因此分散在不同節(jié)點(diǎn)上的層會(huì)導(dǎo)致跨節(jié)點(diǎn)GPU之間基于樹狀結(jié)構(gòu)的AllReduce,而通信延遲則會(huì)成為一個(gè)重要瓶頸。

使用Flash-Attention v2:與普通注意力實(shí)現(xiàn)相比,研究人員觀察到使用Flash-attention可將吞吐量提高30%。

使用ZeRO-1優(yōu)化器實(shí)現(xiàn)數(shù)據(jù)并行:研究人員使用ZeRO-1實(shí)現(xiàn)數(shù)據(jù)并行,以減少內(nèi)存開銷。

使用AWS的RCCL插件提高通信穩(wěn)定性:AWS OFI RCCL插件使EC2開發(fā)人員能夠在運(yùn)行基于AMD RCCL的應(yīng)用程序時(shí)將libfabric用作網(wǎng)絡(luò)提供商。在Frontier上,該插件的使用顯示了通信的穩(wěn)定性。

萬(wàn)億參數(shù)模型的訓(xùn)練性能

根據(jù)從超參數(shù)調(diào)整中吸取的經(jīng)驗(yàn)教訓(xùn),研究人員確定了一組大小為220億個(gè)參數(shù)和1750億個(gè)參數(shù)的模型組合。

在這兩個(gè)模型的GPU吞吐量的鼓舞下,研究人員最終使用表V中列出的分布策略組合訓(xùn)練了一個(gè)萬(wàn)億參數(shù)模型,并進(jìn)行了十次迭代,以觀察其訓(xùn)練性能。

對(duì)于22B參數(shù)模型,研究人員可以提取其峰值吞吐量(191.5 TFLOPS)的38.38%(73.5 TFLOPS)。

對(duì)于175B模型訓(xùn)練,研究人員實(shí)現(xiàn)了峰值吞吐量的36.14% (69.2 TFLOPs)。

最后,對(duì)于1T模型,實(shí)現(xiàn)了峰值吞吐量的31.96%(61.2 TFLOPs)。

擴(kuò)展性能

通過(guò)數(shù)據(jù)并行來(lái)維持模型并行訓(xùn)練的性能,讓系統(tǒng)中的大量GPU參與進(jìn)來(lái),是一項(xiàng)極具挑戰(zhàn)性的任務(wù)。性能最強(qiáng)的GPU通過(guò)不同速度的通信鏈路連接,如果對(duì)網(wǎng)絡(luò)中較大的部分施加壓力,可能會(huì)導(dǎo)致性能損失。

因此,研究人員通過(guò)數(shù)據(jù)并行化將175B模型的訓(xùn)練擴(kuò)展到1024個(gè)GPU,將1T模型的訓(xùn)練擴(kuò)展到3072個(gè)GPU,以衡量訓(xùn)練策略的擴(kuò)展效率。

1. 弱擴(kuò)展:研究人員在1024、2048和3072個(gè)GPU上使用全局批量大小3200、6400和9600執(zhí)行數(shù)據(jù)并行訓(xùn)練,對(duì)1T模型進(jìn)行弱擴(kuò)展實(shí)驗(yàn)。數(shù)據(jù)并行訓(xùn)練實(shí)現(xiàn)了100%的弱擴(kuò)展效率(下圖12)。

2. 強(qiáng)擴(kuò)展:研究人員進(jìn)行了強(qiáng)擴(kuò)展實(shí)驗(yàn),將全局批量大小保持在8000,然后改變GPU的數(shù)量。研究人員在1024個(gè)GPU上對(duì)一個(gè)175B模型實(shí)現(xiàn)了89.93%的強(qiáng)擴(kuò)展性能(圖13a)。研究人員在3072個(gè)GPU上對(duì)一個(gè)1萬(wàn)億參數(shù)的模型實(shí)現(xiàn)了87.05%的強(qiáng)擴(kuò)展性能(圖13b)。

世界最快超算

AMD加持的Frontier超級(jí)計(jì)算機(jī)現(xiàn)在是世界上第一臺(tái)官方認(rèn)可的百億億次超級(jí)計(jì)算機(jī),算力高達(dá)1.102 ExaFlop/s。

它在新發(fā)布的全球最快超級(jí)計(jì)算機(jī)Top500榜單中名列第一。

Frontier的速度比榜單上接下來(lái)的七臺(tái)超級(jí)計(jì)算機(jī)的總和還要快。

Frontier現(xiàn)在也被列為地球上最快的AI系統(tǒng),在HPL-AI基準(zhǔn)測(cè)試中提供6.88 ExaFlops的混合精度性能。

這相當(dāng)于大腦中860億個(gè)神經(jīng)元中的每一個(gè)每秒執(zhí)行6800萬(wàn)條指令。

Frontier超級(jí)計(jì)算機(jī)的規(guī)模之大令人驚嘆,但這只是AMD在今年Top500榜單中取得的眾多成就之一——全球排名前10的超級(jí)計(jì)算機(jī)中,有5臺(tái)采用AMD EPYC系統(tǒng),而排名前20的超級(jí)計(jì)算機(jī)中,有10臺(tái)采用AMD EPYC系統(tǒng)。

Frontier超級(jí)計(jì)算機(jī)由HPE制造,安裝在橡樹嶺國(guó)家實(shí)驗(yàn)室 (ORNL)。

該系統(tǒng)擁有9408個(gè)計(jì)算節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)配備一個(gè)64核AMD「Trento」CPU,搭配512 GB DDR4內(nèi)存和四個(gè)AMD Radeon Instinct MI250X GPU。

這些節(jié)點(diǎn)分布在74個(gè)HPE Cray EX機(jī)柜中,每個(gè)機(jī)柜重8000磅。整個(gè)系統(tǒng)擁有 602112個(gè)CPU核心,4.6 PB DDR4內(nèi)存。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2023-10-09 13:19:51

AI軟件

2024-09-18 07:50:00

超算AI

2010-10-29 14:34:10

中國(guó)超算世界最快電腦

2024-01-22 09:28:27

2012-06-20 10:19:00

IBM超級(jí)計(jì)算機(jī)Sequoia

2014-12-22 15:51:52

AMDAMD FirePro

2018-11-25 22:16:30

超算芯片計(jì)算機(jī)

2024-03-29 12:40:24

模型數(shù)據(jù)

2013-06-19 10:28:19

巴塞羅那超算中心部署

2015-07-16 15:15:55

超算Linux

2023-09-25 07:31:19

算力AI框架

2023-05-29 18:36:31

英偉達(dá)元宇宙AI

2023-07-21 15:05:27

超算算力

2024-08-05 08:20:00

馬斯克AI

2023-04-06 09:37:22

谷歌AI

2022-09-01 18:20:15

GPU

2010-12-16 15:14:39

IBM超算

2024-03-28 12:44:09

英偉達(dá)CUDA高通

2024-05-22 08:36:30

2013-02-25 15:20:29

超算競(jìng)賽TOP500
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)