自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

一文說清楚"知識蒸餾"(讓“小模型”也能擁有“大智慧”) 精華

發(fā)布于 2025-1-26 13:38
瀏覽
0收藏

最近 Distillation 這個詞見的非常多。

前兩天大火的DeepSeek團(tuán)隊(duì)發(fā)布的DeepSeek-R1,其670B參數(shù)的大模型通過強(qiáng)化學(xué)習(xí)與蒸餾技術(shù),成功將能力遷移至7B參數(shù)的輕量模型中。

蒸餾后的模型超越同規(guī)模傳統(tǒng)模型,甚至接近OpenAI的頂尖小模型OpenAI-o1-mini。

在人工智能領(lǐng)域,大型語言模型(如GPT-4、DeepSeek-R1)憑借數(shù)千億級參數(shù),展現(xiàn)出卓越的推理與生成能力。然而,其龐大的計(jì)算需求與高昂的部署成本,嚴(yán)重限制了其在移動設(shè)備、邊緣計(jì)算等場景的應(yīng)用。

如何在不損失性能的前提下壓縮模型規(guī)模?知識蒸餾(Knowledge Distillation)就是解決這個問題的一種關(guān)鍵技術(shù)

1. 什么是知識蒸餾 

知識蒸餾是一種機(jī)器學(xué)習(xí)技術(shù),目的是將預(yù)先訓(xùn)練好的大型模型(即 "教師模型")的學(xué)習(xí)成果轉(zhuǎn)移到較小的 "學(xué)生模型 "中。

在深度學(xué)習(xí)中,它被用作模型壓縮和知識轉(zhuǎn)移的一種形式,尤其適用于大規(guī)模深度神經(jīng)網(wǎng)絡(luò)。

知識蒸餾的本質(zhì)是知識遷移,模仿教師模型的輸出分布,使學(xué)生模型繼承其泛化能力與推理邏輯。

  • 教師模型(Teacher Model):通常為參數(shù)量大、訓(xùn)練充分的復(fù)雜模型(如DeepSeek-R1),其輸出不僅包含預(yù)測結(jié)果,還隱含類別間的相似性信息。
  • 學(xué)生模型(Student Model):結(jié)構(gòu)精簡、參數(shù)較少的小型模型,通過匹配教師模型的“軟目標(biāo)”(Soft Targets)實(shí)現(xiàn)能力遷移。

傳統(tǒng)深度學(xué)習(xí)的目標(biāo)是訓(xùn)練人工神經(jīng)網(wǎng)絡(luò),使其預(yù)測結(jié)果更接近訓(xùn)練數(shù)據(jù)集中提供的輸出示例,而知識蒸餾與傳統(tǒng)監(jiān)督學(xué)習(xí)不同,知識蒸餾要求學(xué)生模型不僅擬合正確答案(硬目標(biāo)),還讓學(xué)生模型學(xué)習(xí)教師模型的“思考邏輯”—即輸出的概率分布(軟目標(biāo))。

例如在圖像分類任務(wù)中,教師模型不僅會指出“這張圖是貓”(90%置信度),還會給出“像狐貍”(5%)、“其他動物”(5%)等可能性。

這些概率值如同老師批改試卷時(shí)標(biāo)注的“易錯點(diǎn)”,學(xué)生模型通過捕捉其中的關(guān)聯(lián)性(如貓與狐貍的尖耳、毛發(fā)特征相似),最終學(xué)會更靈活的判別能力,而非機(jī)械記憶標(biāo)準(zhǔn)答案

一文說清楚"知識蒸餾"(讓“小模型”也能擁有“大智慧”)-AI.x社區(qū)

2. 知識蒸餾的工作原理 

在 2015 年的論文《Distilling the Knowledge in a Neural Network》中,提出將訓(xùn)練分為兩個目的不同的階段,作者打了個比方:許多昆蟲的幼蟲形態(tài)優(yōu)化用于從環(huán)境中汲取能量和養(yǎng)分,而成蟲形態(tài)則完全不同,優(yōu)化用于旅行和繁殖,而傳統(tǒng)的深度學(xué)習(xí)則在訓(xùn)練和部署階段使用相同的模型,盡管它們的要求不同。

論文中對“知識”的理解也有不同:

論文發(fā)表之前,人們傾向于將訓(xùn)練模型中的知識與學(xué)習(xí)到的參數(shù)值等同起來,這使得很難看到通過改變模型的形式而保持相同的知識。

對知識的更抽象的看法是,它是一個學(xué)習(xí)到的從輸入向量到輸出向量的映射。


知識蒸餾技術(shù)不僅要復(fù)制教師模型的輸出,還要模仿他們的 "思維過程"。在LLMs時(shí)代,知識蒸餾實(shí)現(xiàn)了抽象品質(zhì)的轉(zhuǎn)移,如風(fēng)格、推理能力以及與人類偏好和價(jià)值觀的一致性。

知識蒸餾的實(shí)現(xiàn)可分解為三個核心步驟:

2.1. 軟目標(biāo)生成:讓答案“模糊化”

教師模型通過高溫Softmax技術(shù),將原本“非黑即白”的答案轉(zhuǎn)化為包含細(xì)節(jié)信息的“模糊提示”。

當(dāng)溫度(Temperature)升高(例如T=20),模型輸出的概率分布會更平滑。

例如,原始判斷“貓(90%)、狐貍(5%)”

可能變?yōu)椤柏垼?0%)、狐貍(20%)、其他(20%)”。

這種調(diào)整迫使學(xué)生模型關(guān)注類別間的關(guān)聯(lián)性(如貓與狐貍的耳朵形狀相似),而非機(jī)械記憶標(biāo)簽。

2.2. 目標(biāo)函數(shù)設(shè)計(jì):軟目標(biāo)與硬目標(biāo)的平衡

學(xué)生模型的學(xué)習(xí)目標(biāo)是雙重的:

  • 模仿教師的思考邏輯(軟目標(biāo)):通過匹配教師的高溫概率分布,學(xué)習(xí)類間關(guān)系。
  • 記住正確答案(硬目標(biāo)):確?;A(chǔ)準(zhǔn)確率不下降。

學(xué)生模型的損失函數(shù)為軟目標(biāo)與硬目標(biāo)的加權(quán)組合,兩者的權(quán)重需動態(tài)調(diào)整。

例如,賦予軟目標(biāo)70%的權(quán)重、硬目標(biāo)30%時(shí),類似于學(xué)生用70%時(shí)間研究老師的解題思路,30%時(shí)間鞏固標(biāo)準(zhǔn)答案,最終實(shí)現(xiàn)靈活性與準(zhǔn)確性的平衡。

2.3. 溫度參數(shù)的動態(tài)調(diào)節(jié),控制知識的“傳遞粒度”

溫度參數(shù)是知識蒸餾的“難度調(diào)節(jié)旋鈕”:

  • 高溫模式(如T=20):答案高度模糊,適合傳遞復(fù)雜關(guān)聯(lián)(如區(qū)分不同品種的貓)。
  • 低溫模式(如T=1):答案接近原始分布,適合簡單任務(wù)(如數(shù)字識別)。
  • 動態(tài)策略:初期用高溫廣泛吸收知識,后期降溫聚焦關(guān)鍵特征。

例如,語音識別任務(wù)需要更低溫度,以保持精準(zhǔn)性。這一過程如同教師根據(jù)學(xué)生水平調(diào)整教學(xué)深度—從啟發(fā)式教學(xué)到應(yīng)試訓(xùn)練。

3. 知識蒸餾的重要性 

對于大多數(shù)實(shí)際應(yīng)用案例來說,特定任務(wù)中性能最好的模型往往過于龐大、緩慢或昂貴,但它們具有優(yōu)秀的性能,這來自于它們的規(guī)模和在大量訓(xùn)練數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練的能力。

相反,小型模型雖然速度更快、計(jì)算要求更低,但在準(zhǔn)確性、精細(xì)度和知識容量方面卻不及參數(shù)更多的大型模型。

這時(shí)就體現(xiàn)出了知識蒸餾的應(yīng)用價(jià)值,如:

DeepSeek-R1的670B參數(shù)大模型通過知識蒸餾技術(shù),將其能力遷移至7B參數(shù)的輕量模型中:DeepSeek-R1-7B,在各方面超越了非推理模型如 GPT-4o-0513。DeepSeek-R1-14B 在所有評估指標(biāo)上超過了 QwQ-32BPreview,而 DeepSeek-R1-32B 和 DeepSeek-R1-70B 在大多數(shù)基準(zhǔn)測試中顯著超過了 o1-mini。

這些結(jié)果展示了蒸餾的強(qiáng)大潛力。知識蒸餾已經(jīng)成為一種重要的技術(shù)手段。

在自然語言處理領(lǐng)域,許多研究機(jī)構(gòu)和企業(yè)使用蒸餾技術(shù)將大型語言模型壓縮為小型版本,用于翻譯、對話系統(tǒng)和文本分類等任務(wù)。

例如,大型模型在蒸餾后,可以在移動設(shè)備上運(yùn)行,提供實(shí)時(shí)翻譯服務(wù),而無需依賴強(qiáng)大的云計(jì)算資源。

在物聯(lián)網(wǎng)和邊緣計(jì)算中,知識蒸餾的價(jià)值更加顯著。傳統(tǒng)的大模型往往需要強(qiáng)大的GPU集群支持,而小型模型經(jīng)過蒸餾后能夠以更低的功耗運(yùn)行在微處理器或嵌入式設(shè)備上。

這種技術(shù)不僅大幅度降低了部署成本,還使得智能系統(tǒng)可以更廣泛地應(yīng)用到醫(yī)療、自動駕駛和智能家居等領(lǐng)域。

本文轉(zhuǎn)載自 ??AI取經(jīng)路??,作者: AI取經(jīng)路


收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦