自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

訓練大模型時，顯存都哪去了？原創(chuàng)

發(fā)布于 2024-11-19 12:41

瀏覽

0收藏

GPT-2（XL）有15億個參數(shù)，使用16位精度，一個參數(shù)占用2個字節(jié)的內(nèi)存，因此這些參數(shù)大約占用3GB的內(nèi)存。

訓練大模型時，顯存都哪去了？-AI.x社區(qū)

按照如下超參數(shù)設(shè)置：

優(yōu)化器 → Adam
批量大小 → 32
變換層數(shù)量 → 48
序列長度 → 1000

要想在單個GPU上訓練GPT-2，所需的最小內(nèi)存大概是多少？

訓練大模型時，顯存都哪去了？-AI.x社區(qū)

答案可能會嚇到你。

在一個擁有32GB內(nèi)存的單個GPU上，幾乎無法訓練一個3GB的GPT-2模型。

訓練大模型時，顯存都哪去了？-AI.x社區(qū)

但這怎么可能呢？內(nèi)存都去哪了？讓我們來了解一下。

模型在訓練過程中有很多方面會持續(xù)占用內(nèi)存。

#1)優(yōu)化器狀態(tài)，梯度，模型參數(shù)

混合精度訓練廣泛用于加速模型訓練。

顧名思義，這個方法的思想是在訓練過程中同時使用float16低精度（在卷積和矩陣乘法等操作中）和高精度（如32位浮點數(shù)，float32）。

這就是“混合精度”名稱的由來。

前向傳播和反向傳播都使用16位浮點數(shù)表示權(quán)重和梯度。

因此，如果模型有Φ個參數(shù)，那么：

● 權(quán)重將占用2 * Φ字節(jié)的內(nèi)存。

● 梯度將占用2 * Φ字節(jié)的內(nèi)存。

這里的“2”表示每個參數(shù)占用2個字節(jié)的內(nèi)存（16位）。

Adam 是最受歡迎的模型訓練優(yōu)化器之一。

雖然許多實踐者僅僅因為它流行而使用它，但他們沒有意識到，在訓練過程中，Adam 會存儲兩種優(yōu)化器狀態(tài)來計算更新——梯度的動量和方差。

訓練大模型時，顯存都哪去了？-AI.x社區(qū)

因此，如果模型有Φ個參數(shù)，那么這兩個優(yōu)化器狀態(tài)將消耗：

● 4 * Φ 字節(jié)用于動量。

● 另需 4 * Φ 字節(jié)用于方差。

這里的“4”表示每個參數(shù)占用 4 個字節(jié)的內(nèi)存（32 位）。

訓練大模型時，顯存都哪去了？-AI.x社區(qū)

此外，反向傳播結(jié)束時的更新仍然在32位精度下進行，以確保有效的計算。這導(dǎo)致：

● 另需 4 * Φ 字節(jié)用于模型參數(shù)。

讓我們把它們加起來：

訓練大模型時，顯存都哪去了？-AI.x社區(qū)

這就是 16 * Φ，或者 24GB 的內(nèi)存，遠遠高于 16 位參數(shù)所使用的 3GB 內(nèi)存。

而且我們還沒有考慮到所有的因素。

2#)激活值

對于像大型深度學習模型（如大語言模型，LLMs）來說，激活值在訓練過程中占用了大量內(nèi)存。

更確切地說，在GPT-2的一個Transformer塊中計算的激活值總數(shù)是：

訓練大模型時，顯存都哪去了？-AI.x社區(qū)

因此，在所有的Transformer塊中，總計就是：

訓練大模型時，顯存都哪去了？-AI.x社區(qū)

這是 GPT-2-XL 的配置：

訓練大模型時，顯存都哪去了？-AI.x社區(qū)

總共大約是 300 億個激活值。由于每個激活值使用 16 位表示，所有激活值總共占用 60GB 的內(nèi)存。

通過使用像梯度檢查點（在上一章討論過的）這樣的技術(shù)，可以將內(nèi)存消耗降低到大約 8-9GB，但這也會帶來額外 25-30% 的計算開銷。

除了可以計算的內(nèi)存開銷外，還有一些額外的開銷，例如內(nèi)存碎片化。

內(nèi)存碎片化是指在分配的內(nèi)存塊之間存在小的未使用間隙，導(dǎo)致可用內(nèi)存的低效使用。

訓練大模型時，顯存都哪去了？-AI.x社區(qū)

內(nèi)存分配請求失敗是因為沒有足夠的連續(xù)內(nèi)存塊可用。

在上述討論中，我們考慮了一個相對較小的模型——GPT-2（XL），它有 15 億個參數(shù)，與如今訓練的模型規(guī)模相比非常小。

然而，這個討論可能幫助你反思構(gòu)建大規(guī)模語言模型（LLMs）時的固有挑戰(zhàn)。很多人常說，GPT 模型只是簡單地堆疊更多的層并使網(wǎng)絡(luò)變得更大。

如果真是那么簡單，大家都會在做了。從這個討論中，你可能已經(jīng)理解到，這并不像僅僅添加更多層那么簡單。

即便是增加一層，也可能導(dǎo)致額外數(shù) GB 的內(nèi)存需求。多 GPU 訓練是這些模型的核心技術(shù)，我們將在另一篇文章中討論。

本文轉(zhuǎn)載自公眾號人工智能大講堂

原文鏈接：??https://mp.weixin.qq.com/s/PFQZnqJJ-tjFcv6oSjaV-A??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責任

標簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

OpenAI曾轉(zhuǎn)錄100萬小時視頻數(shù)據(jù)，訓練GPT-4

Aceryt ? 2147瀏覽 ? 0回復(fù)
大模型所謂的參數(shù)是什么？大模型為什么需要訓練？大模型訓練到底干了什么？

AI探索時代 ? 6071瀏覽 ? 0回復(fù)
大模型訓練完成之后可以直接使用嗎？該怎么使用訓練好的大模型？

AI探索時代 ? 4290瀏覽 ? 0回復(fù)
大模型到底需要消耗多少GPU顯存？公式和工具全都有

Syrupup ? 1.1w瀏覽 ? 1回復(fù)
GPU和CPU如何混合訓練？大模型訓練的GPU聯(lián)手CPU顯存優(yōu)化分析方法

angel ? 4053瀏覽 ? 0回復(fù)
大模型訓練集群的存儲設(shè)計

夜行神魚 ? 2661瀏覽 ? 0回復(fù)
關(guān)于大模型微調(diào)與訓練的問題，大模型訓練的難點在哪里？

AI探索時代 ? 2170瀏覽 ? 0回復(fù)
大模型訓練的本質(zhì)是什么？以及大模型訓練的核心要點

AI探索時代 ? 2311瀏覽 ? 0回復(fù)
Seed-Music：字節(jié)跳動的AI音樂大模型，讓每個人都成為音樂家

穿越時空111 ? 4793瀏覽 ? 0回復(fù)
測試時訓練(TTT)太強了！

NLP前沿1 ? 2275瀏覽 ? 0回復(fù)
大模型技術(shù)全面解析，從大模型的概念，技術(shù)，應(yīng)用和挑戰(zhàn)多個方面介紹大模型

AI探索時代 ? 1.4w瀏覽 ? 0回復(fù)
大模型三階段訓練方法(LLaMa Factory)

一起AI技術(shù) ? 1.1w瀏覽 ? 0回復(fù)
FineMedLM-o1: 基于監(jiān)督微調(diào)與測試時訓練的醫(yī)學推理增強型大語言模型

頓數(shù)AI ? 2581瀏覽 ? 0回復(fù)
DeepSeek 爆了，普通人如何3小時完全從0訓練自己的大模型

玄姐聊AGI ? 6083瀏覽 ? 0回復(fù)
Unsloth：僅需7GB顯存就能訓練自己的DeepSeek-R1！

PyTorch研習社 ? 3091瀏覽 ? 0回復(fù)
7G顯存，訓練自己的 DeepSeek-R1：GRPO 資源下降80%

鴻煊的學習筆記 ? 2552瀏覽 ? 0回復(fù)
Unsloth開源新算法：讓GRPO訓練大模型所需顯存降低90%，告別顯存焦慮！

sbf_2000 ? 2071瀏覽 ? 0回復(fù)
Kimi-VL開源多模態(tài)大模型結(jié)構(gòu)、訓練方法、訓練數(shù)據(jù)淺析

大模型自然語言處理 ? 1007瀏覽 ? 0回復(fù)
LLM實戰(zhàn)系列 | 大模型的多Lora部署，將顯存節(jié)省到極致

NLP工作站 ? 566瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

生產(chǎn)環(huán)境測試模型的四種方法 2024-11-15 11:22:05發(fā)布
什么是主動學習？ 2024-11-15 10:22:00發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：生產(chǎn)環(huán)境測試模型的四種方法

社區(qū)精華內(nèi)容

目錄

<style id="ypx42"><rp id="ypx42"></rp></style>

<legend id="ypx42"><track id="ypx42"></track></legend>