自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<kbd id="2fnla"></kbd>

<strong id="2fnla"><ruby id="2fnla"><span id="2fnla"></span></ruby></strong>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

大模型面經(jīng)—分布式訓練指南原創(chuàng)

發(fā)布于 2024-11-4 13:56

瀏覽

0收藏

?分布式訓練指南理論篇。

本篇來總結(jié)一些分布式訓練的知識，還是按照面經(jīng)的形式給出，希望能給到大家一些幫助。

題目

1 訓練一個LLM，需要的顯存規(guī)模跟參數(shù)的關(guān)系是什么？

2. 如果有N張顯存足夠大的顯卡，怎么加速訓練？

3. 如果有N張顯卡，但每個顯卡顯存都不足以裝下一個完整的模型，應(yīng)該怎么辦？

4. PP推理時是串行的，1個GPU計算但其他空閑，有什么其他的優(yōu)化方式？

5. DP、TP、PP這3種并行方式可以疊加嗎？

6. 3D并行或者直接上多機多卡的ZeRO的條件是什么？

答案

1. 訓練一個LLM，需要的顯存跟參數(shù)的關(guān)系是什么？

主要公式是模型本身占用顯存 + 多個batch數(shù)據(jù)運算的存儲，跟實際精度，模型大小、中間變量計算以及batch郵官。

2. 如果有N張顯存足夠大的顯卡，怎么加速訓練？

數(shù)據(jù)并行（DP），充分利用多張顯卡的算力。

3. 如果有N張顯卡，但每個顯卡顯存都不足以裝下一個完整的模型，應(yīng)該怎么辦？

PP，流水線并行，需要分層加載，把不同的層加載到不同的GPU上（accelerate的device_map）

4. PP推理時是串行的，1個GPU計算但其他空閑，有什么其他的優(yōu)化方式？

1) 流水線并行（PP），橫向切分，也就是分層加載到不同的顯卡上。

2) 張量并行（TP），縱向切分，在 DeepSpeed 里叫模型并行（MP）

下面來簡單梳理一下DP，PP，TP，ZeRO以及其中MP的關(guān)系。

DP Data parallelism

數(shù)據(jù)并行算法在多個設(shè)備上都拷貝一份完整的模型參數(shù)，彼此之間可以獨立計算，所以每個設(shè)備傳入的輸入數(shù)據(jù)不一樣，這也是為什么叫數(shù)據(jù)并行。

只不過每隔一段時間（比如一個batch或者若干個batch）后需要彼此之間同步模型權(quán)重的梯度。

PP Pipeline Parallelism

屬于 Model Parallelism (MP)，模型并行算法，它是模型做層間劃分，即inter-layer parallelism。

以下圖為例，如果模型原本有6層，你想在2個GPU之間運行pipeline，那么每個GPU只要按照先后順序存3層模型即可。

大模型面經(jīng)—分布式訓練指南-AI.x社區(qū)

TP Tensor Parallelism

Tensor Parallelism就是對模型層內(nèi)做劃分，也叫inter-layer parallelism。

就是把一個變量分散到多個設(shè)備并共同完成某個或多個計算操作。對于單個 Tensor/Op 很大或者模型很大（如GPT3, chatGPT等）的情況，Tensor parallelism 的重要性非常明顯。

大模型面經(jīng)—分布式訓練指南-AI.x社區(qū)

ZeRO

這個之前有比較詳細的介紹。??大模型微調(diào)實踐必看——一文看懂Deepspeed：用ZeRO訓練大模型原理解析及參數(shù)含義解釋??

5. DP、TP、PP這3種并行方式可以疊加嗎？

可以，DP+TP+PP，這就是3D并行。

如果真有1個超大模型需要預(yù)訓練，3D并行是必不可少的。

單卡80g，可以完整加載小于40B的模型，但是訓練時需要加上梯度和優(yōu)化器狀態(tài)，5B模型就是上限了，更別說 activation的參數(shù)也要占顯存，batch size還得大。而現(xiàn)在100億以下（10B以下）的LLM只能叫small LLM。

6. 3D并行或者直接上多機多卡的ZeRO的條件是什么？

3D并行的基礎(chǔ)是，節(jié)點內(nèi)顯卡間NVLINK超高速連接才能上TP。顯卡有沒有NVLINK都是個問題。

Zero3 需要滿足通信量，假設(shè)當65B模型用Zero3，每一個step的每一張卡上需要的通信量是195GB（3倍參數(shù)量），也就是1560Gb。萬兆網(wǎng)下每步也要156s的通信時間，非常不現(xiàn)實。

?

文轉(zhuǎn)載自公眾號瓦力算法學研所，作者：喜歡瓦力的卷卷

原文鏈接：??https://mp.weixin.qq.com/s/_Hg8k-uijw8ntACiiWnhiw??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責任

標簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

LLM分布式預(yù)訓練淺析

zhcs333 ? 2617瀏覽 ? 0回復(fù)
新加坡國立提出Video-Infinity：分布式長視頻生成

angel ? 2759瀏覽 ? 0回復(fù)
邊緣計算與AI：分布式智能的應(yīng)用前景

jim3000 ? 2257瀏覽 ? 0回復(fù)
大規(guī)模分布式 AI 模型訓練—張量并行

amei2000go ? 2836瀏覽 ? 0回復(fù)
大規(guī)模分布式 AI 模型訓練系列——流水線并行

amei2000go ? 3492瀏覽 ? 0回復(fù)
大規(guī)模分布式 AI 模型訓練系列—專家并行

amei2000go ? 8838瀏覽 ? 0回復(fù)
大模型面經(jīng)——LoRA最全總結(jié)

shizhi02 ? 2433瀏覽 ? 0回復(fù)
大模型面經(jīng)——Langchain總結(jié)

shizhi02 ? 2003瀏覽 ? 0回復(fù)
大模型面經(jīng)——MoE混合專家模型總結(jié)

shizhi02 ? 2429瀏覽 ? 0回復(fù)
大模型面經(jīng)—RAG工程實踐經(jīng)驗總結(jié)

shizhi02 ? 2234瀏覽 ? 0回復(fù)
大模型面經(jīng)—如何評估顯卡利用率及顯卡運用優(yōu)化方法

shizhi02 ? 2465瀏覽 ? 0回復(fù)
如何進行高效的LLM分布式推理

zhcs333 ? 2238瀏覽 ? 0回復(fù)
910B芯片Swift多模態(tài)模型分布式訓練實踐

zhcs333 ? 3389瀏覽 ? 0回復(fù)
LLM 分布式訓練六大關(guān)鍵技術(shù)介紹

Baihai_IDP ? 2528瀏覽 ? 0回復(fù)
分布式框架下的數(shù)據(jù)處理與模型推理實踐

zhcs333 ? 2738瀏覽 ? 0回復(fù)
分布式訓練通信優(yōu)化，重疊通信，參數(shù)子集同步，低精度外梯度量化

AI研究前瞻 ? 1865瀏覽 ? 0回復(fù)
大模型面經(jīng)：SFT和RL如何影響模型的泛化或記憶能力？

shizhi02 ? 1889瀏覽 ? 0回復(fù)
大模型面經(jīng)：目前不同階段的scaling law之間的區(qū)別和聯(lián)系是什么？

shizhi02 ? 2209瀏覽 ? 0回復(fù)
關(guān)于生成式人工智能訓練的綜合指南

51CTO內(nèi)容精選 ? 2054瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

大模型面經(jīng)：RAG與Long context“相愛相殺”背景下，如何設(shè)計最優(yōu)解決方案？ 2025-04-09 12:17:30發(fā)布
ZeroHSI-一種零樣本的四維人類-場景交互合成方法 2025-03-24 13:12:04發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：大模型思維鏈升級之DoT框架

下一篇：經(jīng)典圖像模型解讀之Swin-Transformer

社區(qū)精華內(nèi)容

目錄

<blockquote id="aqeop"><rt id="aqeop"></rt></blockquote>