自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<pre id="ocey9"><strike id="ocey9"></strike></pre><sub id="ocey9"><p id="ocey9"></p></sub><meter id="ocey9"><cite id="ocey9"></cite></meter>

<blockquote id="ocey9"><p id="ocey9"></p></blockquote>

<sup id="ocey9"><rt id="ocey9"><form id="ocey9"></form></rt></sup>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

拆掉英偉達(dá)護(hù)城河，細(xì)節(jié)曝光！世界最快超算用3072塊AMD GPU訓(xùn)完超萬(wàn)億參數(shù)LLM

作者：新智元 2024-01-15 07:10:00

人工智能新聞

世界上最快超算集群Frontier，用8%的GPU訓(xùn)練出了一個(gè)萬(wàn)億級(jí)規(guī)模的大模型，而且是在AMD硬件平臺(tái)之上完成。研究人員將訓(xùn)練的細(xì)節(jié)和克服的困難寫成了一篇論文，展示了如何用非英偉達(dá)的生態(tài)完成大模型訓(xùn)練的技術(shù)框架和細(xì)節(jié)。

用AMD的軟硬件系統(tǒng)也能訓(xùn)練GPT-3.5級(jí)別的大模型了。

位于美國(guó)橡樹嶺國(guó)家實(shí)驗(yàn)室（Oak Ridge National Laboratory）的全世界最大的超算Frontier，集合了37888個(gè)MI250X GPU和9472個(gè)Epyc 7A53 CPU。

最近，研究人員只使用了其中8%左右的GPU，就訓(xùn)練了一個(gè)GPT-3.5規(guī)模的模型。

研究人員成功地使用ROCM軟件平臺(tái)在AMD硬件上成功地突破了分布式訓(xùn)練模型的很多難點(diǎn)，建立了使用ROCM平臺(tái)在AMD硬件上為大模型實(shí)現(xiàn)最先進(jìn)的分布式訓(xùn)練算法和框架。

成功地在非英偉達(dá)和非CUDA平臺(tái)上為高效訓(xùn)練LLM提供了可行的技術(shù)框架。

訓(xùn)練完成后，研究人員將在Frontier上訓(xùn)練大模型的經(jīng)驗(yàn)的總結(jié)成了一篇論文，詳細(xì)描述了期間遇到的挑戰(zhàn)以及克服的困難。

論文鏈接：https://arxiv.org/abs/2312.12705

在研究人員看來(lái)，訓(xùn)練一萬(wàn)億參數(shù)規(guī)模的LLM最為重大的挑戰(zhàn)是所需的內(nèi)存量——至少需要14TB的內(nèi)存。

而單塊GPU最大的內(nèi)存只有64GB，這意味著需要并行使用多個(gè)AMD MI250X GPU才能完成訓(xùn)練。

而并行更多的GPU，對(duì)GPU之間的通信提出非常高的要求。如果不能有效地利用GPU之間的帶寬通信，大部分的GPU計(jì)算資源都會(huì)被浪費(fèi)。

具體來(lái)說(shuō)，研究人員將Megatron-DeepSpeed分布式訓(xùn)練框架移植到Frontier上，以支持在AMD硬件和ROCM軟件平臺(tái)上進(jìn)行高效的分布式訓(xùn)練。

研究人員將基于CUDA的代碼轉(zhuǎn)換為HIP代碼，還預(yù)構(gòu)建DeepSpeed ops以避免ROCM平臺(tái)上的JIT編譯錯(cuò)誤，并且修改代碼以接受主節(jié)點(diǎn)IP地址為參數(shù)進(jìn)行PyTorch Distributed初始化。

在220億參數(shù)模型上，F(xiàn)rontier的訓(xùn)練峰值吞吐量達(dá)到了38.38%，1750億參數(shù)模型峰值吞吐量的36.14%，1萬(wàn)億參數(shù)模型峰值吞吐量的31.96%。

訓(xùn)練一個(gè)1000B級(jí)別的模型，最終研究團(tuán)隊(duì)將縮放效率（scaling efficiency）做到了87%。同時(shí)，作為對(duì)比，研究人員還同時(shí)訓(xùn)練了另一個(gè)1750億參數(shù)的模型，縮放效率也達(dá)到了89%。

另一方面，因?yàn)楝F(xiàn)在這樣規(guī)模的模型訓(xùn)練都是在基于英偉達(dá)的硬件和CUDA生態(tài)中完成的，研究人員表示在AMD的GPU之上想要達(dá)到類似的訓(xùn)練效率和性能，還有很多工作需要做。

訓(xùn)練細(xì)節(jié)

GPT式模型結(jié)構(gòu)和模型尺寸

Transformer模型由兩個(gè)不同的部分組成，編碼器塊和解碼器塊。

編碼塊有助于捕捉非因果自注意力，即句子中的每個(gè)標(biāo)記都能注意到左右兩邊的token。

另一方面，解碼塊有助于捕捉因果自注意，即一個(gè)token只能注意到序列中過(guò)去的標(biāo)記。

最簡(jiǎn)單的GPT類模型由一疊類似的層組成。

每一層都有一個(gè)注意力區(qū)塊和一個(gè)前饋網(wǎng)絡(luò)（FFN）2。注意力區(qū)塊有三組參數(shù)，其中d是模型的隱藏維度。FFN模塊有兩層，分別為權(quán)重和所以，每層有11d^2個(gè)參數(shù)。

由于嵌入層位于模型的起始層，參數(shù)數(shù)大致為12Ld^2，其中L為層數(shù)，d為隱藏維度。

根據(jù)這個(gè)公式，研究人員可以定義出下表中大小分別為22B、175B和1T的三個(gè)模型。

大部分內(nèi)存需求來(lái)自模型權(quán)重、優(yōu)化器狀態(tài)和梯度。

在混合精度訓(xùn)練中，每個(gè)模型參數(shù)需要6個(gè)字節(jié)，4個(gè)字節(jié)用于在fp32中保存模型，2個(gè)字節(jié)用于在fp16中進(jìn)行計(jì)算。

優(yōu)化器狀態(tài)的每個(gè)參數(shù)需要4個(gè)字節(jié)，以將動(dòng)量保存在fp32中。

研究人員需要為每個(gè)參數(shù)保存一個(gè)fp32梯度值。因此，在使用Adam優(yōu)化器進(jìn)行混合精度訓(xùn)練時(shí)，最小內(nèi)存需求如下表所示。

每個(gè)Frontier節(jié)點(diǎn)有8個(gè)MI250X GPU構(gòu)成，每個(gè)都有64GB的HBM內(nèi)存。

因此，內(nèi)存需求表中，可以得出結(jié)論：要擬合模型的一個(gè)副本，模型并行化是必要的。模型并行可以通過(guò)張量和碎片數(shù)據(jù)并行在隱維度上實(shí)現(xiàn)，也可以通過(guò)管線并行（pipeline paralism）在層維度上實(shí)現(xiàn)。

管線并行

管線并行將模型分成p個(gè)階段，每個(gè)階段大約有L/p層。然后，將批次分割成微批次，每執(zhí)行一步，一個(gè)微批次通過(guò)一個(gè)階段。

每個(gè)階段都放置在一個(gè)GPU上。

最初，只有第一個(gè)GPU可以處理第一個(gè)微批次。在第二個(gè)執(zhí)行步驟中，第一個(gè)微批次進(jìn)入第二個(gè)階段，而第一個(gè)微批次現(xiàn)在可以進(jìn)入第一個(gè)階段。

如此反復(fù)，直到最后一個(gè)微批次到達(dá)最后一個(gè)階段。

然后，反向傳播開始，整個(gè)過(guò)程反向繼續(xù)。在每個(gè)批次之后引入同步點(diǎn)，以保持正確的計(jì)算順序，這需要沖洗管線階段。

因此，在一個(gè)批次處理的開始和結(jié)束時(shí)，托管較早和較晚階段的GPU會(huì)處于空閑狀態(tài)，從而導(dǎo)致計(jì)算時(shí)間的浪費(fèi)或管線泡沫。

管線泡沫分?jǐn)?shù)為p-1m，其中m是批次中微批次的數(shù)量。

簡(jiǎn)單的GPipe調(diào)度會(huì)產(chǎn)生很大的管線泡沫。有一些額外的方法可以減少管線泡沫。

其中一種方法是PipeDream提出的1F1B調(diào)度，在前向傳遞過(guò)程中，最初允許微批次向前流動(dòng)，直到最后一組收到第一個(gè)微批次。

但隨后第一個(gè)批次開始向后傳播，從那時(shí)起，前向傳遞總是伴隨著后向傳遞，因此被稱為1F1B。為了進(jìn)一步縮小氣泡大小，研究人員提出了一種交錯(cuò)計(jì)劃，即在單個(gè)GPU上放置多個(gè)較小的管線組，而不是在單個(gè)GPU上放置一個(gè)管線組。

1F1B計(jì)劃的管線泡沫大小大約為p/m，其中p是管線組的數(shù)量，m是微批次的數(shù)量。

微批次的數(shù)量。對(duì)于帶交錯(cuò)功能的1F1B計(jì)劃，泡沫大小為m×v p-1，其中v是放置在單個(gè)GPU上的交錯(cuò)組的數(shù)量。

分片數(shù)據(jù)并行（Sharded Data Parallelism）

分片數(shù)據(jù)并行將模型參數(shù)、優(yōu)化器狀態(tài)和梯度按行分片，并在每個(gè)GPU上放置一個(gè)分區(qū)。

由于訓(xùn)練一次推進(jìn)一個(gè)層，因此計(jì)算設(shè)備的內(nèi)存中只需要一個(gè)完整的層和相關(guān)值（優(yōu)化器狀態(tài)、梯度和參數(shù)）。

分片數(shù)據(jù)并行性正是利用了這一點(diǎn)；在執(zhí)行一個(gè)層之前，通過(guò)在所有GPU上執(zhí)行該層的所有收集，在所有GPU 上將該層實(shí)體化4b。

現(xiàn)在，所有GPU都有相同層的副本。然后，在不同的GPU上對(duì)不同的數(shù)據(jù)批次執(zhí)行該層。之后，每個(gè)GPU會(huì)刪除該層的所有收集部分，并通過(guò)全收集為下一層的實(shí)體化做好準(zhǔn)備。

通過(guò)這種方式，它模擬了數(shù)據(jù)并行性，但不是每個(gè)GPU都托管了整個(gè)模型的完整副本，而只是托管當(dāng)前活動(dòng)層的副本。

分片數(shù)據(jù)并行可以促進(jìn)大型模型在GPU上的數(shù)據(jù)并行訓(xùn)練，即使模型太大，無(wú)法容納在單個(gè)GPU的內(nèi)存中。

DeepSpeed的ZeRO優(yōu)化器在不同程度上支持分片數(shù)據(jù)并行。ZeRO-1只對(duì)優(yōu)化器狀態(tài)進(jìn)行分片，ZeRO-2對(duì)梯度和優(yōu)化器狀態(tài)進(jìn)行分片，ZeRO-3則對(duì)優(yōu)化器狀態(tài)、梯度和模型參數(shù)進(jìn)行分片。

另一方面，PyTorch FSDP（完全分片數(shù)據(jù)并行）對(duì)所有三種數(shù)據(jù)進(jìn)行了分片，并通過(guò)將分片數(shù)據(jù)并行與傳統(tǒng)數(shù)據(jù)并行相結(jié)合，支持混合數(shù)據(jù)并行。

3D并行和Megatron-DeepSpeed

僅使用單一并行策略來(lái)實(shí)現(xiàn)模型并行可能是一種低效方法。例如，如果研究人員只使用張量并行來(lái)對(duì)模型進(jìn)行水平切分，那么張量可能太薄，需要頻繁進(jìn)行全還原通信，從而減慢訓(xùn)練速度。

另一方面，如果研究人員將模型劃分為過(guò)多的管線階段，每個(gè)階段的計(jì)算量就會(huì)很小，這就需要頻繁的通信。一個(gè)已知的問題是，在多個(gè)節(jié)點(diǎn)上執(zhí)行張量并行訓(xùn)練需要緩慢的樹狀allreduce。

以混合方式使用多種并行模式，可以最大限度地減少性能不佳的地方。三維并行結(jié)合了張量、管線和數(shù)據(jù)（傳統(tǒng)和分片）并行技術(shù)，以充分利用資源。

通過(guò)適當(dāng)?shù)脑O(shè)置，三維并行技術(shù)可將通信與計(jì)算重疊，從而減少通信延遲。

人工智能領(lǐng)域使用的三維并行標(biāo)準(zhǔn)代碼庫(kù)基于Megatron-LM。MegatronDeepSpeed擴(kuò)展了Megatron-LM的功能，增加了DeepSpeed功能，如ZeRO-1 sharded數(shù)據(jù)并行和重疊1F1B的管線并行。

計(jì)劃的管線并行。不過(guò)，這些標(biāo)準(zhǔn)代碼庫(kù)都是針對(duì)英偉達(dá)GPU和CUDA平臺(tái)開發(fā)的。

作為最完整的框架，研究人員希望在Frontier上使用Megatron-DeepSpeed，F(xiàn)rontier 是AMD系統(tǒng)，其軟件棧建立在ROCM軟件平臺(tái)上。

將Megatron-DeepSpeed移植到Frontier

Megatron-DeepSpeed代碼庫(kù)來(lái)源自英偉達(dá)公司的Megatron-LM代碼庫(kù)，然后微軟在其中添加了DeepSpeed ZeRO優(yōu)化器、管線并行性和MoE。

英偉達(dá)負(fù)責(zé)開發(fā)Megatron-LM，因此其代碼庫(kù)是以英偉達(dá)GPU和CUDA環(huán)境為目標(biāo)平臺(tái)開發(fā)的。

將該代碼庫(kù)移植到AMD平臺(tái)上運(yùn)行會(huì)面臨一些挑戰(zhàn)。

1. CUDA代碼：CUDA代碼不能在AMD硬件上運(yùn)行，但HIP（一種類似CUDA的C/C++擴(kuò)展語(yǔ)言）可以。

研究人員使用hipify工具將CUDA源代碼轉(zhuǎn)換為HIP代碼，使用hipcc構(gòu)建可共享對(duì)象（so文件）然后使用pybind從Python代碼訪問這些可共享對(duì)象。

2. DeepSpeed操作：大多數(shù)DeepSpeed操作都是在執(zhí)行訓(xùn)練管線期間通過(guò)JIT（及時(shí)）編譯構(gòu)建的。

但是，DeepSpeed操作的JIT編譯在ROCM平臺(tái)上不起作用，因此研究人員在安裝DeepSpeed時(shí)預(yù)先構(gòu)建了所有操作。

研究人員禁用了Megatron-DeepSpeed代碼庫(kù)中的所有JIT功能，以避免任何運(yùn)行時(shí)錯(cuò)誤。

3. 初始化PyTorch分布式環(huán)境：Megatron-DeepSpeed利用PyTorch分布式初始化創(chuàng)建各種數(shù)據(jù)和模型并行組。

初始化過(guò)程需要指定一個(gè)計(jì)算節(jié)點(diǎn)作為「主」節(jié)點(diǎn)，所有分布式進(jìn)程都需要它的IP地址。

研究人員修改了代碼庫(kù)，以接受MASTER ADDR作為參數(shù)。

研究人員準(zhǔn)備了一個(gè)啟動(dòng)腳本，從SLURM節(jié)點(diǎn)列表中讀取第一個(gè)節(jié)點(diǎn)的IP地址，并將其作為參數(shù)傳遞給所有使用srun啟動(dòng)的進(jìn)程。

然后，初始化代碼會(huì)使用這個(gè)MASTER ADDR進(jìn)行PyTorch分布式初始化。

4. 通過(guò)ROCM平臺(tái)軟件提供的庫(kù)/軟件包：研究人員與AMD開發(fā)人員合作，獲得了一些基本CUDA軟件包的ROCM版本，如APEX。

APEX是英偉達(dá)的混合精度庫(kù)，Megatron-DeepSpeed代碼庫(kù)大量使用該庫(kù)進(jìn)行混合精度訓(xùn)練。

他們還改編了支持ROCM的FlashAttention和FlashAttention2庫(kù)版本，供Frontier上的編譯器使用。Flash-Attention操作被移植到AMDGPU上，使用的內(nèi)核來(lái)自Composable Kernel庫(kù)。

各種分配策略的實(shí)證分析

張量并行

張量并行法按行劃分模型層，每層之后都需要通過(guò)Allreduce對(duì)部分激活值進(jìn)行聚合。

每層執(zhí)行后的AllReduce成本很高，這取決于張量并行組中GPU之間的通信帶寬，通信量取決于隱藏大小和微批量大小。

下圖5顯示了前沿GPU之間的通信帶寬。一個(gè)節(jié)點(diǎn)中有8個(gè)GPU，單個(gè)芯片中的GPU通過(guò)四個(gè)（50+50 GB/s）無(wú)限結(jié)構(gòu)連接。

跨芯片的GPU之間的帶寬是它的一半。但是，跨節(jié)點(diǎn)的GPU之間的帶寬是25+25 GB/s。

因此，從網(wǎng)絡(luò)拓?fù)浜团渲脕?lái)看，TP = 2的通信速度最快，TP = 4或8的通信速度次之。

但是，如果TP ? 8，通信將通過(guò)較慢的以太網(wǎng)進(jìn)行，通信速度將大大降低。因此，將TP保持在[2, 4, 8]范圍內(nèi)應(yīng)該是最佳策略。

研究人員使用8個(gè)GPU訓(xùn)練一個(gè)1.4B的模型，TP值從1到8不等，結(jié)果發(fā)現(xiàn)TP值越小，吞吐量越高。

觀察結(jié)果III.1：TP值越大，訓(xùn)練效果越差。

B. 管線并行

管線并行化沿著層維度劃分模型，并將連續(xù)的層劃分為管線階段。一個(gè)微批次的執(zhí)行從一個(gè)階段流向下一個(gè)階段。

管線氣泡是使用這種并行方式進(jìn)行高效訓(xùn)練的限制因素。

研究人員觀察了大M或大GBS的效果，以了解22B參數(shù)和1T參數(shù)大小的兩個(gè)模型對(duì)GPU吞吐量的影響（下圖7）。

觀察結(jié)果III.2：使用大的全局批次大小或許多微批次使管線階段飽和，可將管線氣泡大小降至最低。

管線階段數(shù)量的影響：接下來(lái)，研究人員研究管線級(jí)數(shù)對(duì)訓(xùn)練性能的影響。直觀地說(shuō)，管線階段越多，意味著通信發(fā)生前的計(jì)算量越少。

在全局批次大小（微批次數(shù)量）固定的情況下，管線階段數(shù)量越多，計(jì)算量越少。

氣泡大小會(huì)隨著管線級(jí)數(shù)的增加而增加。研究人員還嘗試增加管線級(jí)數(shù)，同時(shí)保持PMP固定不變，按比例增加全局批量大小。

觀察結(jié)果III.3：在保持全局批量大小不變的情況下，增加管線級(jí)數(shù)會(huì)增加管線氣泡的大小，并降低訓(xùn)練性能。

觀察結(jié)果III.4：如果管線級(jí)數(shù)與微批次數(shù)的比例保持不變，則隨著管線級(jí)數(shù)的增加，訓(xùn)練性能也會(huì)保持不變。

從第一個(gè)實(shí)驗(yàn)（上圖8a）來(lái)看，隨著管線級(jí)數(shù)的增加，訓(xùn)練性能會(huì)下降。但是，通過(guò)調(diào)整全局批次大小來(lái)固定氣泡比例，可以保持吞吐量（上圖8b）。

通過(guò)實(shí)驗(yàn)、超參數(shù)調(diào)整和分析，研究人員確定了在Frontier上訓(xùn)練Trillionparameter模型的高效策略，該策略結(jié)合了各種分布策略和軟件優(yōu)化。

訓(xùn)練萬(wàn)億參數(shù)模型

訓(xùn)練萬(wàn)億參數(shù)模型的高效策略

通過(guò)增加微批次數(shù)量使管線階段飽和：研究人員使用DeepSpeed（來(lái)自 DeepSpeed-Megatron，但不是Megatron的版本）提供的管線并行性。這種管線并行算法是PipeDream的算法，其中多個(gè)階段相互重疊，并采用1F1B算法來(lái)減少氣泡大小。

但是，如果管線級(jí)數(shù)沒有達(dá)到飽和，氣泡大小就會(huì)增大。為確保飽和，微批次的數(shù)量必須等于或超過(guò)管線級(jí)數(shù)。

將張量并行限制為單個(gè)節(jié)點(diǎn)/八個(gè)GPU：由于AllReduce操作過(guò)于頻繁，而且需要對(duì)每一層都執(zhí)行，因此分散在不同節(jié)點(diǎn)上的層會(huì)導(dǎo)致跨節(jié)點(diǎn)GPU之間基于樹狀結(jié)構(gòu)的AllReduce，而通信延遲則會(huì)成為一個(gè)重要瓶頸。

使用Flash-Attention v2：與普通注意力實(shí)現(xiàn)相比，研究人員觀察到使用Flash-attention可將吞吐量提高30%。

使用ZeRO-1優(yōu)化器實(shí)現(xiàn)數(shù)據(jù)并行：研究人員使用ZeRO-1實(shí)現(xiàn)數(shù)據(jù)并行，以減少內(nèi)存開銷。

使用AWS的RCCL插件提高通信穩(wěn)定性：AWS OFI RCCL插件使EC2開發(fā)人員能夠在運(yùn)行基于AMD RCCL的應(yīng)用程序時(shí)將libfabric用作網(wǎng)絡(luò)提供商。在Frontier上，該插件的使用顯示了通信的穩(wěn)定性。

萬(wàn)億參數(shù)模型的訓(xùn)練性能

根據(jù)從超參數(shù)調(diào)整中吸取的經(jīng)驗(yàn)教訓(xùn)，研究人員確定了一組大小為220億個(gè)參數(shù)和1750億個(gè)參數(shù)的模型組合。

在這兩個(gè)模型的GPU吞吐量的鼓舞下，研究人員最終使用表V中列出的分布策略組合訓(xùn)練了一個(gè)萬(wàn)億參數(shù)模型，并進(jìn)行了十次迭代，以觀察其訓(xùn)練性能。

對(duì)于22B參數(shù)模型，研究人員可以提取其峰值吞吐量（191.5 TFLOPS）的38.38%（73.5 TFLOPS）。

對(duì)于175B模型訓(xùn)練，研究人員實(shí)現(xiàn)了峰值吞吐量的36.14% （69.2 TFLOPs）。

最后，對(duì)于1T模型，實(shí)現(xiàn)了峰值吞吐量的31.96%（61.2 TFLOPs）。

擴(kuò)展性能

通過(guò)數(shù)據(jù)并行來(lái)維持模型并行訓(xùn)練的性能，讓系統(tǒng)中的大量GPU參與進(jìn)來(lái)，是一項(xiàng)極具挑戰(zhàn)性的任務(wù)。性能最強(qiáng)的GPU通過(guò)不同速度的通信鏈路連接，如果對(duì)網(wǎng)絡(luò)中較大的部分施加壓力，可能會(huì)導(dǎo)致性能損失。

因此，研究人員通過(guò)數(shù)據(jù)并行化將175B模型的訓(xùn)練擴(kuò)展到1024個(gè)GPU，將1T模型的訓(xùn)練擴(kuò)展到3072個(gè)GPU，以衡量訓(xùn)練策略的擴(kuò)展效率。

1. 弱擴(kuò)展：研究人員在1024、2048和3072個(gè)GPU上使用全局批量大小3200、6400和9600執(zhí)行數(shù)據(jù)并行訓(xùn)練，對(duì)1T模型進(jìn)行弱擴(kuò)展實(shí)驗(yàn)。數(shù)據(jù)并行訓(xùn)練實(shí)現(xiàn)了100%的弱擴(kuò)展效率（下圖12）。

2. 強(qiáng)擴(kuò)展：研究人員進(jìn)行了強(qiáng)擴(kuò)展實(shí)驗(yàn)，將全局批量大小保持在8000，然后改變GPU的數(shù)量。研究人員在1024個(gè)GPU上對(duì)一個(gè)175B模型實(shí)現(xiàn)了89.93%的強(qiáng)擴(kuò)展性能（圖13a）。研究人員在3072個(gè)GPU上對(duì)一個(gè)1萬(wàn)億參數(shù)的模型實(shí)現(xiàn)了87.05%的強(qiáng)擴(kuò)展性能（圖13b）。

世界最快超算

AMD加持的Frontier超級(jí)計(jì)算機(jī)現(xiàn)在是世界上第一臺(tái)官方認(rèn)可的百億億次超級(jí)計(jì)算機(jī)，算力高達(dá)1.102 ExaFlop/s。

它在新發(fā)布的全球最快超級(jí)計(jì)算機(jī)Top500榜單中名列第一。

Frontier的速度比榜單上接下來(lái)的七臺(tái)超級(jí)計(jì)算機(jī)的總和還要快。

Frontier現(xiàn)在也被列為地球上最快的AI系統(tǒng)，在HPL-AI基準(zhǔn)測(cè)試中提供6.88 ExaFlops的混合精度性能。

這相當(dāng)于大腦中860億個(gè)神經(jīng)元中的每一個(gè)每秒執(zhí)行6800萬(wàn)條指令。

Frontier超級(jí)計(jì)算機(jī)的規(guī)模之大令人驚嘆，但這只是AMD在今年Top500榜單中取得的眾多成就之一——全球排名前10的超級(jí)計(jì)算機(jī)中，有5臺(tái)采用AMD EPYC系統(tǒng)，而排名前20的超級(jí)計(jì)算機(jī)中，有10臺(tái)采用AMD EPYC系統(tǒng)。

Frontier超級(jí)計(jì)算機(jī)由HPE制造，安裝在橡樹嶺國(guó)家實(shí)驗(yàn)室 (ORNL)。

該系統(tǒng)擁有9408個(gè)計(jì)算節(jié)點(diǎn)，每個(gè)節(jié)點(diǎn)配備一個(gè)64核AMD「Trento」CPU，搭配512 GB DDR4內(nèi)存和四個(gè)AMD Radeon Instinct MI250X GPU。

這些節(jié)點(diǎn)分布在74個(gè)HPE Cray EX機(jī)柜中，每個(gè)機(jī)柜重8000磅。整個(gè)系統(tǒng)擁有 602112個(gè)CPU核心，4.6 PB DDR4內(nèi)存。

責(zé)任編輯：張燕妮來(lái)源：新智元

超算訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<big id="hb9jj"><progress id="hb9jj"></progress></big>

<sup id="hb9jj"></sup>