自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<var id="llm3n"><button id="llm3n"><span id="llm3n"></span></button></var>

<cite id="llm3n"></cite>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

DeepSeek并非完美，訓(xùn)練過程存在“深度詛咒” 精華

發(fā)布于 2025-2-12 15:53

瀏覽

0收藏

高性能大模型在訓(xùn)練的過程中通常需要數(shù)千個GPU，耗費(fèi)數(shù)月甚至更長時間才能完成一次訓(xùn)練。這種巨大的資源投入使得模型的每一層都必須高效訓(xùn)練，才能確保算力資源最大化利用。

但大連理工、西湖大學(xué)、牛津大學(xué)等研究人員對DeepSeek、Qwen、Llama和Mistral研究發(fā)現(xiàn)，這些模型的深層在訓(xùn)練過程中表現(xiàn)并不好，甚至可以被完全剪枝而不會影響模型性能。

例如，研究人員對DeepSeek-7B模型進(jìn)行了逐層剪枝，以評估每一層對模型整體性能的貢獻(xiàn)。結(jié)果顯示，移除模型的深層對性能的影響微乎其微，而移除淺層性能會明顯下降。這表明DeepSeek模型的深層在訓(xùn)練過程中未能有效學(xué)習(xí)到有用的特征，而淺層則承擔(dān)了大部分的特征提取任務(wù)。

這種現(xiàn)象稱為“深度詛咒”（Curse of Depth），同時研究人員也提出了一種有效的解決方法——LayerNorm Scaling（層歸一化縮放）。

DeepSeek并非完美，訓(xùn)練過程存在“深度詛咒”-AI.x社區(qū)

深度詛咒介紹

“深度詛咒”現(xiàn)象的根源在于Pre-LN的特性。Pre-LN是一種在Transformer架構(gòu)模型中廣泛使用的歸一化技術(shù)，它在每一層的輸入上進(jìn)行歸一化，而不是在輸出上。這種歸一化方式雖然能夠穩(wěn)定模型的訓(xùn)練過程，但也帶來了一個嚴(yán)重的問題，隨著模型深度的增加，Pre-LN的輸出方差會呈指數(shù)級增長。

這種方差的爆炸性增長導(dǎo)致深層的Transformer塊的導(dǎo)數(shù)接近于單位矩陣，使得這些層在訓(xùn)練過程中幾乎不貢獻(xiàn)任何有效的信息

。換句話說，深層在訓(xùn)練過程中變成了單位映射，無法學(xué)習(xí)到有用的特征。

DeepSeek并非完美，訓(xùn)練過程存在“深度詛咒”-AI.x社區(qū)

“深度詛咒”的存在對大語言模型的訓(xùn)練和優(yōu)化帶來了嚴(yán)重的挑戰(zhàn)。首先，深層的訓(xùn)練不足導(dǎo)致了資源的浪費(fèi)。在訓(xùn)練大語言模型時，通常需要大量的計算資源和時間。由于深層未能有效學(xué)習(xí)到有用的特征，算力資源在很大程度上被浪費(fèi)了。

深層的無效性限制了模型性能的進(jìn)一步提升。盡管淺層能夠承擔(dān)大部分的特征提取任務(wù)，但深層的無效性使得模型無法充分利用其深度優(yōu)勢。

此外，“深度詛咒”還對模型的可擴(kuò)展性帶來了難題。隨著模型規(guī)模的增加，深層的無效性愈發(fā)突出，這使得模型的訓(xùn)練和優(yōu)化變得更加困難。例如，在訓(xùn)練超大型模型時，深層的訓(xùn)練不足可能導(dǎo)致模型的收斂速度變慢，甚至無法收斂。

解決方法——LayerNorm Scaling

LayerNorm Scaling 的核心思想是對Pre-LN輸出方差的精準(zhǔn)控制。在一個多層的 Transformer 模型中，每一層的層歸一化輸出都會被乘以一個特定的縮放因子。這個縮放因子與當(dāng)前層的深度密切相關(guān)，是層深度平方根的倒數(shù)。

DeepSeek并非完美，訓(xùn)練過程存在“深度詛咒”-AI.x社區(qū)

為大家舉個簡單易懂的例子，大模型就像一座高樓，每一層都是其中的一層樓，而 LayerNorm Scaling 就是給每一層樓的 “能量輸出” 進(jìn)行了精細(xì)調(diào)節(jié)。

DeepSeek并非完美，訓(xùn)練過程存在“深度詛咒”-AI.x社區(qū)

對于較低的樓層（淺層），縮放因子相對較大，這意味著它們的輸出被調(diào)整的幅度較小，能夠保持相對較強(qiáng)的 “能量”；對于較高的樓層（深層），縮放因子較小，這樣就有效地降低了深層輸出的“能量強(qiáng)度”，避免了方差的過度積累。

通過這種方式，整個模型的輸出方差得到了有效控制，不會再出現(xiàn)深層方差爆炸的情況。（整個計算過程比較復(fù)雜，有興趣的小伙伴可以直接看論文）

從模型訓(xùn)練的視角來看，在傳統(tǒng)的 Pre-LN 模型訓(xùn)練中，由于深層方差的不斷增大，梯度在反向傳播過程中會受到很大干擾。深層的梯度信息變得不穩(wěn)定，這就像在傳遞接力棒時，接力棒在后面幾棒的傳遞過程中總是掉落，導(dǎo)致信息傳遞不暢。

使得深層在訓(xùn)練時難以學(xué)習(xí)到有效的特征，模型的整體訓(xùn)練效果大打折扣。而 LayerNorm Scaling通過控制方差，穩(wěn)定了梯度流。

在反向傳播過程中，梯度能夠更加順暢地從模型的輸出層傳遞到輸入層，每一層都能接收到準(zhǔn)確而穩(wěn)定的梯度信號，從而能夠更有效地進(jìn)行參數(shù)更新和學(xué)習(xí)。

實(shí)驗結(jié)果

為了驗證LayerNorm Scaling的有效性，研究人員在不同規(guī)模的模型上進(jìn)行了廣泛的實(shí)驗。實(shí)驗涵蓋了從1.3億參數(shù)到10億參數(shù)的模型。

實(shí)驗結(jié)果顯示，LayerNorm Scaling在預(yù)訓(xùn)練階段顯著提升了模型性能，與傳統(tǒng)的Pre-LN相比，降低了困惑度，并減少了訓(xùn)練所需的token數(shù)量。

例如，在LLaMA-130M模型上，LayerNorm Scaling將困惑度從26.73降低到25.76，而在10億參數(shù)的LLaMA-1B模型上，困惑度從17.02降低到15.71。這些結(jié)果表明，LayerNorm Scaling不僅能夠有效控制深層的方差增長，還能夠顯著提升模型的訓(xùn)練效率和性能。

DeepSeek并非完美，訓(xùn)練過程存在“深度詛咒”-AI.x社區(qū)

研究人員對LayerNorm Scaling在監(jiān)督微調(diào)階段的表現(xiàn)進(jìn)行了評估。實(shí)驗結(jié)果顯示，LayerNorm Scaling在多個下游任務(wù)上均優(yōu)于其他歸一化技術(shù)。

例如，在LLaMA-250M模型上，LayerNorm Scaling在ARC-e任務(wù)上的性能提升了3.56%，在所有任務(wù)上的平均性能提升了1.80%。這表明，LayerNorm Scaling不僅在預(yù)訓(xùn)練階段表現(xiàn)出色，在微調(diào)階段也能夠顯著提升模型的性能。

此外，研究人員將DeepSeek-7B模型的歸一化方法從傳統(tǒng)的Pre-LN替換為LayerNorm Scaling。在整個訓(xùn)練過程中，深層塊的學(xué)習(xí)能力得到了顯著提升，能夠積極地參與到模型的學(xué)習(xí)過程中，為模型的性能提升貢獻(xiàn)力量。困惑度下降的幅度更為明顯，下降速度也更穩(wěn)定。

論文地址：https://arxiv.org/abs/2502.05795

本文轉(zhuǎn)載自??AIGC開放社區(qū)??

標(biāo)簽

贊

收藏

回復(fù)

舉報

社區(qū)頭條

回復(fù)

相關(guān)推薦

萬引大神: 機(jī)器學(xué)習(xí)不存在了

ceesoft ? 2700瀏覽 ? 0回復(fù)
從做菜的角度來更形象的理解什么是大模型的參數(shù)，訓(xùn)練原理與過程，以及為什么要訓(xùn)練？

AI探索時代 ? 2642瀏覽 ? 0回復(fù)
汽車長翅膀：GPU 是如何加速深度學(xué)習(xí)模型的訓(xùn)練和推理過程的？

Baihai_IDP ? 2638瀏覽 ? 0回復(fù)
自回歸和Rectified Flow完美融合統(tǒng)一多模態(tài)理解和生成！DeepSeek&北大等開源JanusFlow

angel ? 2336瀏覽 ? 0回復(fù)
解密o1推理過程！DeepSeek-R1-Lite預(yù)覽版上線

kede96 ? 2729瀏覽 ? 0回復(fù)
Tokenizer不存在了？Meta開源BLT算法！

NLP前沿1 ? 1903瀏覽 ? 0回復(fù)
DeepSeek-V3 模型深度剖析：架構(gòu)創(chuàng)新、訓(xùn)練優(yōu)化與性能卓越

AI論文解讀 ? 9899瀏覽 ? 0回復(fù)
Agent不存在了？誰說必須用 Agent！

探索AGI ? 1795瀏覽 ? 0回復(fù)
深度學(xué)習(xí)訓(xùn)練崩潰的真兇：梯度消失與梯度爆炸背后的秘密

人工智能訓(xùn)練營 ? 2065瀏覽 ? 0回復(fù)
大推理模型DeepSeek-R1深度解讀：成本降低95%，推動語言模型推理效率新高度

風(fēng)云2002_1 ? 1.1w瀏覽 ? 0回復(fù)
DeepSeek 爆了，普通人如何3小時完全從0訓(xùn)練自己的大模型

玄姐聊AGI ? 6083瀏覽 ? 0回復(fù)
OpenAI揭示o3的推理過程，以彌合與DeepSeek-R1的差距

51CTO內(nèi)容精選 ? 1656瀏覽 ? 0回復(fù)
4090單卡部署滿血 671B DeepSeek，本地部署“成本驟降32倍”！?。?/a>

玄姐聊AGI ? 6133瀏覽 ? 0回復(fù)
無需訓(xùn)練奪得SOTA！K-LoRA巧用Top-K策略，讓風(fēng)格與主體完美融合

angel ? 1792瀏覽 ? 0回復(fù)
MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā)

玄姐聊AGI ? 7071瀏覽 ? 0回復(fù)
「DeepSeek-V3 技術(shù)解析」：DeepSeek-V3-Base 預(yù)訓(xùn)練階段解析

Baihai_IDP ? 704瀏覽 ? 0回復(fù)
IBM Granite 3.3：語音識別、推理增強(qiáng)與RAG的完美融合

Halo咯咯 ? 570瀏覽 ? 0回復(fù)
推理大模型并非一定要推理

NLP前沿1 ? 510瀏覽 ? 0回復(fù)
智能體深度解析：LangChain批駁OpenAI Agent手冊存在誤導(dǎo)性

王吉偉自頻道 ? 459瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

剛剛，OpenAI發(fā)布GPT-image-1模型，更強(qiáng)吉卜力版本來啦 6天前發(fā)布
字節(jié)跳動開源多模態(tài)AI Agent—UI-TARS-1.5 7天前發(fā)布

熱門推薦

微軟開源DeepSeek-R1魔改版：響應(yīng)99%敏感提示，風(fēng)險降50% 0回復(fù)

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

上一篇： Runway全面開放新文生圖模型Frames

下一篇：文本生成無限長視頻，無需任何訓(xùn)練

社區(qū)精華內(nèi)容

目錄

<sub id="w1rns"></sub>