自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="08ilg"></sub>

<legend id="08ilg"><abbr id="08ilg"></abbr></legend>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質的IT技術網站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

大模型SFT暗藏大陷阱？梯度累計bug造成大范圍影響原創(chuàng)

發(fā)布于 2024-11-5 13:15

瀏覽

0收藏

在LLM的訓練時，由于顯存不足以支撐起大batch訓練，通常大家都會采用一種策略：梯度累計（gradient accumulate）。這種方法允許模型在多個batch的梯度回傳累計并求均值之后，再更新一次權重。這樣做相當于模擬了一個更大的批量大小，而實際上并沒有一次性處理那么多數據。這樣做的好處是，它可以減少內存的使用，因為不需要一次性加載所有數據到GPU上，同時也可以享受等價大batch帶來的訓練的穩(wěn)定性和模型的泛化能力。

大模型SFT暗藏大陷阱？梯度累計bug造成大范圍影響-AI.x社區(qū)

但是近期大家發(fā)現(xiàn)了一個bug：對于幾乎所有使用了梯度累積策略的庫，包括Huggingface的一系列庫，都暗藏了一個bug，這個bug尤其在LLM的后訓練階段影響顯著：使用梯度累計并不一定等價于大batch訓練，會有非常明顯的精度損失！

???https://github.com/huggingface/trl/issues/2175???

大模型SFT暗藏大陷阱？梯度累計bug造成大范圍影響-AI.x社區(qū)

如同上述issue描述的情況，圖中bs表示batch size即梯度大小, gas表示 gradient accumulate step即多少次梯度回傳累計后再更新一次模型權重。

對于LLM訓練而言，不像圖像任務有batch norm的影響，理論上，梯度累計在應等同于全批量訓練，但實際發(fā)現(xiàn)loss并不匹配。研究者通過公式和實驗證明，罪魁禍首是開源庫中使用基于平均交叉熵loss求和后進行梯度累計的實現(xiàn)導致了bug，這在輸出等長的訓練任務中并不影響（這也是為什么在CV任務和LLM預訓練階段，梯度累計沒有發(fā)生明顯性能損失，因為輸出通常是等長的）。 梯度累積后，過度重視短輸出序列的loss，而忽略長輸出序列的loss。

這個bug的數學推導也非常簡單：

我們首先注意到交叉熵損失的計算方法如下：

大模型SFT暗藏大陷阱？梯度累計bug造成大范圍影響-AI.x社區(qū)

請注意，分母計算了未填充或未忽略（賦值為-100）的token的數量。首先，我們把它們設置為整個文檔的平均長度，以簡化我們的計算。

假設兩個batch的平均序列長度不等長，一個是m1，1個是m2，對于full batch情況：

大模型SFT暗藏大陷阱？梯度累計bug造成大范圍影響-AI.x社區(qū)

對于梯度累計情況：

大模型SFT暗藏大陷阱？梯度累計bug造成大范圍影響-AI.x社區(qū)

明顯看出在m1和m2不相等時，兩者是明顯不等價的。尤其是在其中一個序列長度明顯更長，另一個序列長度很短時，問題更加嚴重：比如m1=10，m2=1000時，會發(fā)現(xiàn)l2的loss大小會被壓縮，而l1的loss大小相對于full batch情況下會被嚴重放大。

這是因為不同batch的文本長度不同，導致的問題。在梯度累積中，我們需要將每個小批量梯度累積器按梯度累積步驟的數量進行縮放，以便我們得到期望的結果。

修復分母問題后重新實驗：

大模型SFT暗藏大陷阱？梯度累計bug造成大范圍影響-AI.x社區(qū)

現(xiàn)在確實等價了，所有的訓練損失曲線都匹配上了！分母就是罪魁禍首！這意味著簡單地對每個梯度累積步驟進行平均是錯誤的，相反，我們必須事先推導出分母。

目前，這個bug已經引起了廣泛關注，不少開源庫包括huggingface系列正在針對這個問題進行修復。如果近期遇到SFT效果不佳的問題，可以關注是否踩到了這個坑，短期不要使用梯度累計，或在修復后及時更新，使用新版梯度累計算法。

本文轉載自公眾號思源數據科學作者：思源Source

原文鏈接：??https://mp.weixin.qq.com/s/Za62RV9BDrbuoMERzodCUA??

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

贊

收藏

回復

舉報

回復

相關推薦

今日arXiv最熱大模型論文：超越LoRA，北京大學提出預訓練模型非梯度優(yōu)化法

pangguiyu ? 2919瀏覽 ? 0回復
大模型的訓練與調優(yōu)，SFT(監(jiān)督微調)和RLHF(基于人類反饋的強化學習)到底是什么？

AI探索時代 ? 6989瀏覽 ? 0回復
大模型的訓練與調優(yōu)，SFT(監(jiān)督微調)和RLHF(基于人類反饋的強化學習)到底是什么？

AI探索時代 ? 7523瀏覽 ? 0回復
多模態(tài)大模型中，多模態(tài)融合后怎樣知道最終結果受哪種模態(tài)影響更大？

shizhi02 ? 1897瀏覽 ? 0回復
大模型技術全面解析，從大模型的概念，技術，應用和挑戰(zhàn)多個方面介紹大模型

AI探索時代 ? 1.4w瀏覽 ? 0回復
7大頂尖AI修bug系統(tǒng)大PK，誰才是"代碼醫(yī)生"？ | 法語版BERT CamemBERT 2.0讓AI更懂"法式幽默"

sbf_2000 ? 1884瀏覽 ? 0回復
SFT loss計算的那些坑，完美避開?。?！

丁師兄大模型 ? 2504瀏覽 ? 0回復
突發(fā)，美國開始拉黑國產大模型公司！智譜官方回應：手握全鏈路大模型核心技術，無實質影響！

51CTO技術棧 ? 1875瀏覽 ? 0回復
深度學習訓練崩潰的真兇：梯度消失與梯度爆炸背后的秘密

人工智能訓練營 ? 2074瀏覽 ? 0回復
2025年大模型與Transformer架構：技術前沿與未來趨勢報告

歐米伽未來研究所 ? 6064瀏覽 ? 0回復
聊聊DeepSeek大模型對AI Agent的影響

王吉偉自頻道 ? 1833瀏覽 ? 0回復
大模型面經：SFT和RL如何影響模型的泛化或記憶能力？

shizhi02 ? 1897瀏覽 ? 0回復
大模型 SFT 有監(jiān)督微調教程

AI悠閑區(qū) ? 1593瀏覽 ? 0回復
大模型應用落地：三道鴻溝，九大陷阱

云原生AI百寶箱 ? 1206瀏覽 ? 0回復
我們一起聊聊大模型 SFT 有監(jiān)督微調教程

AI悠閑區(qū) ? 1234瀏覽 ? 0回復
別讓大模型想太多了，過度思考會影響性能

Aceryt ? 1053瀏覽 ? 0回復
怎么學習使用大模型？論大模型和汽車的關系

AI探索時代 ? 948瀏覽 ? 0回復
2025年最值得關注的十大多模態(tài)大語言模型！

Halo咯咯 ? 1836瀏覽 ? 0回復
一文帶你了解【SFT微調】與【Unsloth】

碼農隨心筆記 ? 321瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

Jina CLIP v2：為多模態(tài)RAG設計的向量模型 2024-11-27 14:50:27發(fā)布
解密o1推理過程！DeepSeek-R1-Lite預覽版上線 2024-11-27 14:48:58發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復

王炸！MCP 架構設計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

只需5分鐘，教你用Python搭建MCP Server 0回復

上一篇：僅1.3B！Janus 統(tǒng)一多模態(tài)理解和生成

下一篇： Emu3: 統(tǒng)一多模態(tài)輸入與生成

社區(qū)精華內容

目錄