一文搞懂 DeepSeek - 強(qiáng)化學(xué)習(xí)和蒸餾 原創(chuàng)
這個春節(jié),DeepSeek 實在太火爆了。
DeepSeek-R1 在其論文(??https://arxiv.org/abs/2501.12948??)引言部分指出,R1 模型通過融合冷啟動數(shù)據(jù)、多階段訓(xùn)練流程以及純粹的強(qiáng)化學(xué)習(xí)策略,顯著增強(qiáng)了大型語言模型的推理能力。這使得 R1 模型在性能上與 OpenAI 的 o1 系列模型持平,并且通過蒸餾技術(shù),成功地將這種推理能力傳遞給了更小型化的模型。
在 DeepSeek-R1 的“貢獻(xiàn)”章節(jié)中,著重強(qiáng)調(diào)了以下兩點創(chuàng)新:
1.模型訓(xùn)練完成后:對基礎(chǔ)模型實施了大規(guī)模的強(qiáng)化學(xué)習(xí)訓(xùn)練。通過這種方式,DeepSeek-R1 在基礎(chǔ)模型的基礎(chǔ)上,成功培育出了自我驗證和長思維鏈等高級推理能力。
2.蒸餾技術(shù):小型模型也能具備強(qiáng)大能力。本研究還證明了,大型模型的推理模式可以有效地通過蒸餾技術(shù)轉(zhuǎn)移到小型模型中,從而顯著提高小型模型的性能。
1、Post-Training:大規(guī)模強(qiáng)化學(xué)習(xí)
DeepSeek-R1-Zero 揭示了,大語言模型(LLMs)的推理能力能夠僅依靠強(qiáng)化學(xué)習(xí)得到提升,無需進(jìn)行監(jiān)督微調(diào)。DeepSeek 采取的策略是在基礎(chǔ)模型上直接實施強(qiáng)化學(xué)習(xí),跳過了監(jiān)督微調(diào)這一預(yù)備步驟。這種做法使得模型能夠深入探索解決復(fù)雜問題的思維鏈,進(jìn)而孕育出具備自我驗證、反思以及長思維鏈生成能力的 DeepSeek-R1-Zero,為學(xué)術(shù)研究樹立了一個重要的里程碑。通過純粹的強(qiáng)化學(xué)習(xí)手段,而非監(jiān)督微調(diào),DeepSeek 成功激發(fā)了 LLMs 的推理潛能,這一技術(shù)革新為領(lǐng)域的發(fā)展開辟了新路徑。中國的這一 0-1技術(shù)創(chuàng)新令硅谷震動,甚至導(dǎo)致英偉達(dá)市值大幅波動。
DeepSeek-R1 的開發(fā)流程是怎樣的?R1 的開發(fā)流程涉及兩個強(qiáng)化學(xué)習(xí)階段,目的是發(fā)掘更優(yōu)的推理模式,并與人類偏好相契合。此外,流程中還包含兩個監(jiān)督微調(diào)階段,這些階段構(gòu)成了模型推理和非推理能力的基礎(chǔ)。DeepSeek 堅信,這一流程將有助于構(gòu)建更出色的模型,從而為整個行業(yè)帶來益處。
2、蒸餾:小模型同樣強(qiáng)大
蒸餾技術(shù)是否真的能讓小型模型同樣強(qiáng)大?事實證明,大型模型的推理模式可以通過蒸餾技術(shù)轉(zhuǎn)移到小型模型中,這種方法相較于僅在小型模型上應(yīng)用強(qiáng)化學(xué)習(xí)發(fā)現(xiàn)的推理模式,能夠?qū)崿F(xiàn)更卓越的性能表現(xiàn)。
開源的 DeepSeek-R1 及其 API 將助力研究界在未來提煉出更優(yōu)秀的小型模型。DeepSeek-R1 系列通過蒸餾得到的小型模型在多項基準(zhǔn)測試中展現(xiàn)出顯著優(yōu)勢,超越了先前開源的模型。特別是 DeepSeek-R1-Distill-Qwen-32B,其性能足以與 o1-mini 匹敵,而 DeepSeek 已向?qū)W術(shù)界開源了基于 Qwen2.5 和 Llama3 系列的不同參數(shù)規(guī)模的模型,包括 150億、70億、80億、140億、320億 和 700億參數(shù)的檢查點。這一顛覆性的0-1技術(shù)創(chuàng)新,讓硅谷的技術(shù)巨頭們感到不安,因為這一創(chuàng)新已在全球技術(shù)人員的驗證下,證實了基于 R1 論文方法可以成功蒸餾出與 o1-mini 性能相當(dāng)?shù)男⌒湍P汀T俅蜗蛄何姆宕笊裰戮础?/p>
那么,如何蒸餾出 DeepSeek-R1-Distill-Qwen-32B 呢?以下是詳細(xì)的蒸餾步驟:
第一步、確定模型角色
1、教師模型:選取表現(xiàn)卓越、知識淵博的DeepSeek-R1作為指導(dǎo)。
2、學(xué)生模型:選擇參數(shù)適中、適合蒸餾的Qwen-32B作為學(xué)習(xí)對象。
第二步、準(zhǔn)備數(shù)據(jù)集
1、數(shù)據(jù)收集:整合跨領(lǐng)域的高質(zhì)量文本數(shù)據(jù),為蒸餾打下基礎(chǔ)。
2、數(shù)據(jù)預(yù)處理:對數(shù)據(jù)集進(jìn)行嚴(yán)格篩選和處理,確保蒸餾效果不受數(shù)據(jù)質(zhì)量影響。
第三步、模型訓(xùn)練與蒸餾
1、教師模型推理:DeepSeek-R1提供軟標(biāo)簽和中間層特征,作為Qwen-32B的學(xué)習(xí)標(biāo)準(zhǔn)。
2、學(xué)生模型訓(xùn)練:Qwen-32B模仿DeepSeek-R1的行為,吸收其知識和經(jīng)驗。
3、損失函數(shù)設(shè)計:使用KL散度或交叉熵等,衡量學(xué)生模型與教師模型之間的差異。
4、優(yōu)化算法選擇:采用SGD或Adam等算法,優(yōu)化學(xué)生模型參數(shù),降低損失函數(shù)值。
第四步、模型評估與調(diào)優(yōu)
1、模型評估:使用獨立的測試數(shù)據(jù)集,比較學(xué)生模型與教師模型的表現(xiàn),以評估蒸餾效果。
2、模型調(diào)優(yōu):根據(jù)評估結(jié)果,調(diào)整超參數(shù)、優(yōu)化損失函數(shù)等,以提高蒸餾效果。
本文轉(zhuǎn)載自公眾號玄姐聊AGI 作者:玄姐
