一文搞懂 DeepSeek 的蒸餾技術(shù)和案例實(shí)踐 原創(chuàng)
DeepSeek-R1 在其論文(???https://arxiv.org/abs/2501.12948???)引言部分指出,通過蒸餾技術(shù),成功地將大模型的推理能力(比如:DeepSeek R1 671B)傳遞給了更小型化的模型(比如:Qwen 7B)??梢钥闯觯麴s技術(shù)是 DeepSeek R1 重要的3大創(chuàng)新技術(shù)之一,下面詳細(xì)剖析。
1、DeepSeek 蒸餾技術(shù)深度解讀
蒸餾(Knowledge Distillation)是一種將大型復(fù)雜模型(教師模型,比如:D蒸餾(Knowledge Distillation)是一種將大型復(fù)雜模型(教師模型,比如:DeepSeek R1 671B)的知識(shí)遷移到小型高效模型(學(xué)生模型,比如:Qwen 7B)的技術(shù)。
蒸餾其核心目標(biāo)是在保持模型性能的同時(shí),顯著降低模型的計(jì)算復(fù)雜度和存儲(chǔ)需求,使其更適合在資源受限的環(huán)境中部署。
DeepSeek的蒸餾技術(shù)結(jié)合了數(shù)據(jù)蒸餾和模型蒸餾,通過教師模型(如DeepSeek R1)生成高質(zhì)量的推理數(shù)據(jù)樣本,對(duì)較小的學(xué)生模型(如Qwen、Llama系列)進(jìn)行微調(diào)。
蒸餾過程中不依賴強(qiáng)化學(xué)習(xí)階段,而是通過監(jiān)督微調(diào)(SFT)實(shí)現(xiàn)高效的知識(shí)遷移。
蒸餾技術(shù)是否真的能讓小型模型同樣強(qiáng)大?事實(shí)證明,大型模型的推理模式可以通過蒸餾技術(shù)轉(zhuǎn)移到小型模型中,這種方法相較于僅在小型模型上應(yīng)用強(qiáng)化學(xué)習(xí)發(fā)現(xiàn)的推理模式,能夠?qū)崿F(xiàn)更卓越的性能表現(xiàn)。
第一、蒸餾技術(shù)的優(yōu)勢(shì)
?顯著提升推理能力:通過從大模型中蒸餾知識(shí),小模型在推理任務(wù)中的表現(xiàn)大幅提升,蒸餾后的模型在推理基準(zhǔn)測(cè)試中表現(xiàn)出色,比如:DeepSeek-R1-Distill-Qwen-7B在 AIME 2024 上實(shí)現(xiàn)了55.5%的 Pass@1,超越了其他先進(jìn)開源模型
?資源效率高:小模型在推理任務(wù)中表現(xiàn)出色,同時(shí)計(jì)算成本大幅降低,通過減少模型參數(shù)量(如從671B 到7B),顯著降低了計(jì)算資源需求,提升了推理速度
?靈活性強(qiáng):蒸餾技術(shù)可以應(yīng)用于多種開源模型,具有廣泛的適用性
第二、蒸餾技術(shù)的應(yīng)用場(chǎng)景
?移動(dòng)與邊緣計(jì)算:蒸餾模型體積小巧,適合在資源受限的設(shè)備上運(yùn)行,如智能攝像頭、智能手表。
?在線推理服務(wù):在電商推薦、智能問答系統(tǒng)中,蒸餾模型能夠快速響應(yīng)用戶請(qǐng)求,提升用戶體驗(yàn)。
?拓展應(yīng)用場(chǎng)景:在醫(yī)療、金融、教育等領(lǐng)域,蒸餾模型將發(fā)揮更大作用,如疾病診斷、風(fēng)險(xiǎn)評(píng)估、個(gè)性化學(xué)習(xí)輔助等。
?多模態(tài)數(shù)據(jù)處理:開發(fā)更有效的信息融合和特征提取方法,提升蒸餾模型在多模態(tài)任務(wù)中的性能。
第三、DeepSeek 蒸餾技術(shù)4個(gè)核心步驟
步驟一、數(shù)據(jù)準(zhǔn)備
?使用 DeepSeek R1 模型生成高質(zhì)量的推理樣本(約800k個(gè)樣本)。
?這些樣本用于后續(xù)的小模型微調(diào),確保小模型能夠?qū)W習(xí)到大模型的關(guān)鍵能力。
步驟二、模型選擇
選擇不同參數(shù)量的開源模型(如6個(gè)不同規(guī)模的模型)作為蒸餾目標(biāo)。
?這些模型通過有監(jiān)督微調(diào)(SFT)的方式進(jìn)行訓(xùn)練。
步驟三、有監(jiān)督微調(diào)(SFT)
?使用從 DeepSeek R1 蒸餾出的數(shù)據(jù)對(duì)小模型進(jìn)行直接微調(diào)。
?通過這種方式,小模型能夠顯著提升在推理任務(wù)中的表現(xiàn)。
步驟四、性能評(píng)估
?在多個(gè)開源基準(zhǔn)測(cè)試中評(píng)估蒸餾模型的性能,如 LiveCodeBench和 MATH-500。
?結(jié)果顯示,蒸餾后的模型在推理任務(wù)中表現(xiàn)優(yōu)異,甚至超越了一些大規(guī)模模型。
開源的 DeepSeek-R1 及其 API 將助力研究界在未來提煉出更優(yōu)秀的小型模型。DeepSeek-R1 系列通過蒸餾得到的小型模型在多項(xiàng)基準(zhǔn)測(cè)試中展現(xiàn)出顯著優(yōu)勢(shì),超越了先前開源的模型。特別是 DeepSeek-R1-Distill-Qwen-32B,其性能足以與 o1-mini 匹敵,而 DeepSeek 已向?qū)W術(shù)界開源了基于 Qwen2.5 和 Llama3 系列的不同參數(shù)規(guī)模的模型,包括 150億、70億、80億、140億、320億 和 700億參數(shù)的檢查點(diǎn)。這一顛覆性的0-1技術(shù)創(chuàng)新,讓硅谷的技術(shù)巨頭們感到不安,因?yàn)檫@一創(chuàng)新已在全球技術(shù)人員的驗(yàn)證下,證實(shí)了基于 R1 論文方法可以成功蒸餾出與 o1-mini 性能相當(dāng)?shù)男⌒湍P?。再次向梁文峰大神致敬?/p>
2、李飛飛50美金蒸餾 s1 案例實(shí)踐
第一、擁有自己公司的 DeepSeek R1,李飛飛 50美金蒸餾出 s1 模型案例剖析
s1 是一個(gè)偏科的大模型,它解決數(shù)學(xué)問題的能力很強(qiáng),但其他方面就稍弱,但不妨礙這套方面在企業(yè)的落地應(yīng)用,因?yàn)槠髽I(yè)就是要解決專業(yè)領(lǐng)域問題。與 s1 最接近的是 DeepSeek R1 的一系列蒸餾模型,蒸餾微調(diào)訓(xùn)練得到較小參數(shù)規(guī)模模型,參數(shù)從 1.5B 到 70B。
s1 使用 Google Gemin 蒸餾數(shù)據(jù)集得到,DeepSeek 蒸餾模型微調(diào)訓(xùn)練使用了 80W條數(shù)據(jù),而 s1 只用了 1000條數(shù)據(jù),這是算力成本低到50美金的原因。第一、這1000條數(shù)據(jù)是從58000條數(shù)據(jù)中精選出來的。第二、推理階段引入了預(yù)算強(qiáng)制方法,強(qiáng)制設(shè)定思考過程的最大和最小長度,讓 AI 在回答問題時(shí)不能想都不想就瞎蒙,也不能一直陷入私循環(huán),這個(gè)方法簡(jiǎn)單,但有效提高了模型的推理性能。
每個(gè)公司都可以低成本擁有媲美 DeepSeek R1 的自己的 s1 大模型,仿照李飛飛教授精選 1000條左右專業(yè)領(lǐng)域高質(zhì)量數(shù)據(jù),注意包括推理過程的描述,也可以只準(zhǔn)備問題,推理過程及結(jié)果數(shù)據(jù)通過大模型蒸餾得到。
實(shí)際上李飛飛所使用的數(shù)據(jù)集里面有相當(dāng)一部分原本是有答案的,但是還是讓 Gemini 重新生成了過程和答案,這個(gè)量級(jí)的數(shù)據(jù)對(duì)于任何一個(gè)企業(yè)來說都不太難。
去年中科院有個(gè)團(tuán)隊(duì)利用“百度弱智吧”的腦筋急轉(zhuǎn)彎預(yù)料僅240條數(shù)據(jù),就有效提高了模型的效果。
有了這些數(shù)據(jù)以后,就去微調(diào)訓(xùn)練 Qwen 32B 或者類似規(guī)模的模型,最后推理任務(wù)時(shí),通過預(yù)算強(qiáng)制的方法限定推理長度,這就得到一個(gè)專屬您企業(yè)的領(lǐng)域?qū)<?nbsp;DeepSeek R1 大模型。
第二、s1 蒸餾實(shí)施過程和效果
基于阿里通義千問 Qwen2.5-32B-Instruct 開源模型為底座,僅使用16塊H100 GPU,通過26分鐘的有監(jiān)督微調(diào),便打造出了性能卓越比肩 OpenAI 的 O1 和 DeepSeek 的 R1 等尖端推理模型的 s1-32B 模型。
這一模型不僅在數(shù)學(xué)及編碼能力上與 OpenAI 的 o1 和 DeepSeek 的 R1 等頂尖推理模型相當(dāng),在競(jìng)賽數(shù)學(xué)問題上的表現(xiàn)更是比 o1-preview 高出27%。
不過,值得注意的是,雖然媒體報(bào)道中強(qiáng)調(diào) s1 模型只要不到50美元成本,但 s1 模型的訓(xùn)練并非從零開始,而是基于阿里云通義千問(Qwen)模型進(jìn)行監(jiān)督微調(diào)。
這意味著,s1 模型的神奇“低成本”,是建立在已具備強(qiáng)大能力的通義千問開源基礎(chǔ)模型“巨人肩膀”之上完成的。
第三、李飛飛 s1 模型、數(shù)據(jù)、代碼均已開源
獲取地址:??https://github.com/simplescaling/s1??
論文地址:???https://arxiv.org/pdf/2501.19393??
本文轉(zhuǎn)載自公眾號(hào)玄姐聊AGI 作者:玄姐
