自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<tr id="rpyk6"><style id="rpyk6"></style></tr>

<tfoot id="rpyk6"><rt id="rpyk6"></rt></tfoot>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

#AIGC創(chuàng)新先鋒者征文大賽# 怎樣在 10k 個 H100 GPU 上訓(xùn)練模型？原創(chuàng) 精華

發(fā)布于 2024-10-28 10:51

瀏覽

0收藏

??【本文正在參與 AI.x社區(qū)AIGC創(chuàng)新先鋒者征文大賽】??
??http://www.scjtxx.cn/aigc/2223.html??

編者按： 怎樣在 10,000 個 H100 GPU 上訓(xùn)練大模型？如何充分利用每一塊 GPU 的算力？如何在這個復(fù)雜的 GPU 網(wǎng)絡(luò)中高效傳遞數(shù)據(jù)？當(dāng)不可避免的硬件故障發(fā)生時，又該如何快速恢復(fù)訓(xùn)練進(jìn)度？我們今天為大家?guī)淼奈恼轮?，作者為我們揭示了?yīng)對這些挑戰(zhàn)的關(guān)鍵策略。

作者 | Soumith Chintala

編譯 |?岳揚(yáng)

#AIGC創(chuàng)新先鋒者征文大賽# 怎樣在 10k 個 H100 GPU 上訓(xùn)練模型？-AI.x社區(qū)

我的好友 Francois Fleuret 提出了上述問題。我迅速總結(jié)了一些在大規(guī)模訓(xùn)練領(lǐng)域中相當(dāng)普遍的知識，內(nèi)容分為三部分。

首先，是如何將盡可能大的神經(jīng)網(wǎng)絡(luò)和 batch-size 適配到那 10000 張 H100s 上，這個步驟涉及到并行處理和使用節(jié)省內(nèi)存的各種技巧。
其次，是如何在這些 GPU 之間盡可能高效地傳遞模型狀態(tài)信息（state）。
最后，是如何在遇到硬件或軟件故障時，盡可能迅速地恢復(fù)系統(tǒng)。

01 如何將盡可能大的神經(jīng)網(wǎng)絡(luò)和 batch-size 適配到那 10000 張 H100s 上

1.1 并行策略

在數(shù)據(jù)批次（batches）上進(jìn)行并行處理（數(shù)據(jù)并行（data parallel））
在神經(jīng)網(wǎng)絡(luò)層上進(jìn)行并行處理（比如，將一層神經(jīng)網(wǎng)絡(luò)層分布到多個 GPU 上進(jìn)行計算）
對神經(jīng)網(wǎng)絡(luò)的不同模型層進(jìn)行分割，以便它們能夠在不同的 GPU 上運(yùn)行（比如，前 N 層運(yùn)行在 GPU1 上，第 N+1 層到第 N+10 層運(yùn)行在 GPU2 上）

持續(xù)優(yōu)化并行策略，直到所有 GPU 都能被高效利用，達(dá)到最高利用率。

1.2 Checkpointing / Compute vs memorize

在執(zhí)行前向傳播時，需要保存一些中間結(jié)果以便后續(xù)計算反向傳播（save_for_backward）。然而，當(dāng)神經(jīng)網(wǎng)絡(luò)規(guī)模非常大時，為了處理更大的數(shù)據(jù)批次，更有效的方法是釋放這些中間結(jié)果，待到需要計算反向傳播時再重新計算。
類似 FSDP 這樣的技術(shù)，通過在單個 GPU 上只保留模型的分片來節(jié)省內(nèi)存。當(dāng)需要其他權(quán)重時，會從其他 GPU 聚合模型的完整權(quán)重。

02 盡可能高效地在 GPU 集群間傳遞模型狀態(tài)信息

2.1 Communication overlap 策略：

在需要 GPU 間通信時，應(yīng)盡可能早地啟動通信過程：

例如，當(dāng)?shù)?N 層完成反向傳播后，在第 N-1 層還在進(jìn)行反向傳播計算時，負(fù)責(zé)第 N 層的所有 GPU 可以同時開始執(zhí)行梯度全歸約操作。

2.2 探索并利用網(wǎng)絡(luò)底層拓?fù)浣Y(jié)構(gòu)：

在多個計算節(jié)點間傳遞大量模型狀態(tài)信息（如梯度、優(yōu)化器狀態(tài)信息）是一項復(fù)雜的任務(wù)。在使用 Sync SGD 時，需要盡可能快地集中傳輸這些狀態(tài)信息。

網(wǎng)絡(luò)中可能包含多層交換機(jī)，并具備 RDMA 能力（可以直接將 GPU 內(nèi)存中的數(shù)據(jù)復(fù)制到網(wǎng)卡，完全繞過 CPU 內(nèi)存），同時擁有前端和后端網(wǎng)卡（前端網(wǎng)卡連接到如 NFS 之類的存儲系統(tǒng)，后端網(wǎng)卡則將 GPU 連接到集群中的其他 GPU）。

因此，在執(zhí)行 all-reduce 或 scatter/gather 等通信操作時，充分利用這些網(wǎng)絡(luò)信息至關(guān)重要。例如，通過樹形歸約算法（tree-reduce），all-reduce 操作的時間復(fù)雜度可以降低到O(log(n))；同時，網(wǎng)絡(luò)光纖連接節(jié)點間的不同類型光纖對常數(shù)因子的影響，對于減少整體延遲時間也是非常重要的。

像 NCCL 這樣的庫能夠智能地識別底層網(wǎng)絡(luò)拓?fù)洌⒃趫?zhí)行 all-reduce 和其他通信操作時加以利用。

在這樣的大規(guī)模計算中，我們還必須調(diào)整交換機(jī)和網(wǎng)卡中的數(shù)據(jù)包路由算法，以實現(xiàn)有效的負(fù)載均衡。交換機(jī)也需要大量的 HBM 內(nèi)存（不僅僅是 GPU 需要），因為當(dāng)數(shù)據(jù)包排隊等待時，需要在某個地方排隊而不會被丟棄——這就是交換機(jī)級別的 HBM 內(nèi)存。

03 如何在遇到硬件或軟件故障時，盡可能迅速地恢復(fù)系統(tǒng)？

故障是不可避免的，涉及GPU、網(wǎng)卡、電纜等多種硬件。有些故障能夠迅速被發(fā)現(xiàn)，而有些則可能因為某個節(jié)點沒有按時響應(yīng)（比如 NCCL 的 all-reduce 操作卡住了）才被察覺。我們開發(fā)了多種工具來監(jiān)控機(jī)群的健康狀況，并盡可能快地將故障節(jié)點從機(jī)群中移除。這可不是一件容易的事。

在這種規(guī)模下，內(nèi)存位隨機(jī)翻轉(zhuǎn)導(dǎo)致的隱性數(shù)據(jù)損壞概率增加，可能導(dǎo)致訓(xùn)練 loss 值異常升高。雖然這種問題在小規(guī)模系統(tǒng)中很少見，但在大規(guī)模系統(tǒng)中則可能頻繁發(fā)生。在軟件層面提前檢測這種問題非常困難。一些硬件設(shè)備配備了內(nèi)置校驗和的電路，可以在計算后進(jìn)行校驗 —— 這樣，一旦發(fā)生位翻轉(zhuǎn)，硬件就能觸發(fā)中斷。但 H100 和之前的 NVIDIA GPU 都不具備這一功能。

為了應(yīng)對這些故障，我們需要盡可能頻繁且迅速地保存模型狀態(tài)信息；一旦發(fā)生故障，我們也要能夠迅速恢復(fù)并繼續(xù)訓(xùn)練。通常，我們會迅速將模型狀態(tài)信息另存到 CPU 內(nèi)存的一個獨立線程中，并在后臺將數(shù)據(jù)從 CPU 內(nèi)存寫入到磁盤或遠(yuǎn)程存儲系統(tǒng)。我們還以分片的形式保存模型狀態(tài)信息（利用了 torch.distributed 的 checkpointing 功能），也就是說，不是每個 GPU 都需要保存完整的模型權(quán)重；每個 GPU 只需保存一部分權(quán)重 —— 其余部分可以通過其他 GPU 的分片 checkpoints 來恢復(fù)。

Thanks for reading!

Hope you have enjoyed and learned new things from this blog!

About the authors

Soumith Chintala

Cofounded and lead?@PyTorch?at Meta. Also dabble in robotics at NYU. AI is delicious when it is accessible and open-source.

END

本期互動內(nèi)容 ??

?還記得你第一次配置分布式訓(xùn)練環(huán)境時的經(jīng)歷嗎？有什么想對新手說的建議？

原文鏈接：

https://soumith.ch/blog/2024-10-02-training-10k-scale.md.html

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

Karpathy新教程爆火，網(wǎng)友搶著送他H100：從頭復(fù)現(xiàn)GPT-2訓(xùn)練

Crystalcxt ? 2690瀏覽 ? 0回復(fù)
單GPU訓(xùn)練一天，Transformer在100位數(shù)字加法上就達(dá)能到99%準(zhǔn)確率

輕薄滴假象 ? 2240瀏覽 ? 0回復(fù)
【活動結(jié)果公布】AIGC創(chuàng)新先鋒者征文大賽懸賞召集?

AI.x社區(qū)官方賬號 ? 6206瀏覽 ? 0回復(fù)
#AIGC創(chuàng)新先鋒者征文大賽#企業(yè)級智能知識庫搜索問答技術(shù)與應(yīng)用

瀾舟科技 ? 2031瀏覽 ? 0回復(fù)
#AIGC創(chuàng)新先鋒者征文大賽#加速AI應(yīng)用落地，大模型與智能體何以成為“雙驕”

58AILab ? 2205瀏覽 ? 0回復(fù)
#AIGC創(chuàng)新先鋒者征文大賽#AI Agent要如何修煉，才能真正落地？

九章云極 ? 2103瀏覽 ? 0回復(fù)
#AIGC創(chuàng)新先鋒者征文大賽#快手 B 端商業(yè)化技術(shù)探索：基于 LLM 構(gòu)建智能 RAG 與 Agent 平臺

快手技術(shù) ? 2477瀏覽 ? 0回復(fù)
#AIGC創(chuàng)新先鋒者征文大賽#去哪兒國際酒店AI生成視頻實踐

去哪兒旅行 ? 2013瀏覽 ? 0回復(fù)
#AIGC創(chuàng)新先鋒者征文大賽#百度內(nèi)容生態(tài)視頻AIGC新探索

姬冰燕 ? 2023瀏覽 ? 0回復(fù)
#AIGC創(chuàng)新先鋒者征文大賽# 部署 LLMs 前如何計算與優(yōu)化 GPU 內(nèi)存需求？

Baihai_IDP ? 2107瀏覽 ? 0回復(fù)
#AIGC創(chuàng)新先鋒者征文大賽#PyTorch深度學(xué)習(xí)基礎(chǔ)環(huán)境搭建

MinionPy ? 1761瀏覽 ? 0回復(fù)
#AIGC創(chuàng)新先鋒者征文大賽# RAG vs 長上下文 LLMs：誰主沉??？

Baihai_IDP ? 2045瀏覽 ? 0回復(fù)
#AIGC創(chuàng)新先鋒者征文大賽# 我與AIGC的緣分

萬里悲秋長做客 ? 1989瀏覽 ? 0回復(fù)
#AIGC創(chuàng)新先鋒者征文大賽#人工智能在醫(yī)療領(lǐng)域的全面應(yīng)用與未來展望

mb671227aaa63a2 ? 2245瀏覽 ? 0回復(fù)
#AIGC創(chuàng)新先鋒者征文大賽# 50億美元虧損背后：解析生成式 AI 的商業(yè)模式之爭

Baihai_IDP ? 1997瀏覽 ? 0回復(fù)
#AIGC創(chuàng)新先鋒者征文大賽#【文心智能體】探索AI的無限可能：帶你定制自己的優(yōu)質(zhì)智能體助手

I_am_Alex ? 1834瀏覽 ? 0回復(fù)
#AIGC創(chuàng)新先鋒者征文大賽# 告訴你一個小秘密！樹莓派跑LLM難上手？為什么不試試Intel

wx6726b53ddec5c ? 2190瀏覽 ? 0回復(fù)
#AIGC創(chuàng)新先鋒者征文大賽# AIGC算法：自回歸神經(jīng)網(wǎng)絡(luò) (Autoregressive Networks)

魚弦CTO ? 1820瀏覽 ? 0回復(fù)
16張H100只訓(xùn)練了26分鐘，與R1訓(xùn)練方法不同！

51CTO技術(shù)棧 ? 2239瀏覽 ? 0回復(fù)
4000+實驗揭秘：如何在512個GPU上訓(xùn)練大語言模型？

sbf_2000 ? 1608瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

Google 的 A2A 與 Anthropic 的 MCP 應(yīng)該如何選擇？ 13h前發(fā)布
面對開源大模型浪潮，基礎(chǔ)模型公司如何持續(xù)盈利？ 5天前發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇： #AIGC創(chuàng)新先鋒者征文大賽# 50億美元虧損背后：解析生成式 AI 的商業(yè)模式之爭

下一篇： Llama 3.2 Vision & Molmo：多模態(tài)開源生態(tài)系統(tǒng)基礎(chǔ)

社區(qū)精華內(nèi)容

目錄

<u id="eu79s"></u>

<table id="eu79s"><strong id="eu79s"></strong></table>