自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<ul id="s6ktq"></ul>

<optgroup id="s6ktq"></optgroup>

<th id="s6ktq"></th>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專(zhuān)業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

LLMs的知識(shí)蒸餾：技術(shù)和應(yīng)用精華

發(fā)布于 2025-2-19 12:01

瀏覽

0收藏

知識(shí)蒸餾通過(guò)創(chuàng)建更小、更快、更易于部署的模型，釋放了大語(yǔ)言模型（LLM）在實(shí)際應(yīng)用中的潛力。本文提供了知識(shí)蒸餾的全面指南，涵蓋視覺(jué)、自然語(yǔ)言處理（NLP）和語(yǔ)音領(lǐng)域中的算法、架構(gòu)和應(yīng)用。

大規(guī)模機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型越來(lái)越普遍。例如，據(jù)報(bào)道，GPT-4o有超過(guò)2000億個(gè)參數(shù)。然而，雖然訓(xùn)練大型模型有助于提升最先進(jìn)的性能，但部署這種龐大的模型，尤其是在邊緣設(shè)備上，并非易事。

此外，大多數(shù)數(shù)據(jù)科學(xué)建模工作側(cè)重于訓(xùn)練單個(gè)大型模型或不同模型的集合，使其在通常不代表真實(shí)數(shù)據(jù)的保留驗(yàn)證集上表現(xiàn)良好。

訓(xùn)練和測(cè)試目標(biāo)之間的這種不一致，導(dǎo)致開(kāi)發(fā)出的機(jī)器學(xué)習(xí)模型在精選的驗(yàn)證數(shù)據(jù)集上有不錯(cuò)的準(zhǔn)確率，但在對(duì)真實(shí)測(cè)試數(shù)據(jù)進(jìn)行推理時(shí)，往往無(wú)法滿(mǎn)足性能、延遲和吞吐量的標(biāo)準(zhǔn)。

知識(shí)蒸餾通過(guò)捕獲并“提煉”復(fù)雜機(jī)器學(xué)習(xí)模型或模型集合中的知識(shí)，將其轉(zhuǎn)化為更易于部署的單個(gè)較小模型，且不會(huì)導(dǎo)致性能大幅下降，從而幫助克服這些挑戰(zhàn)。

什么是知識(shí)蒸餾？

知識(shí)蒸餾是指將知識(shí)從一個(gè)大型復(fù)雜的模型或一組模型轉(zhuǎn)移到可以在現(xiàn)實(shí)世界的約束下實(shí)際部署的單個(gè)較小模型的過(guò)程。本質(zhì)上，它是一種模型壓縮形式，由Bucilua及其合作者于2006年首次成功演示。

知識(shí)蒸餾更常用于具有復(fù)雜架構(gòu)（包含多個(gè)層和模型參數(shù)）的神經(jīng)網(wǎng)絡(luò)模型。因此，隨著過(guò)去十年深度學(xué)習(xí)的興起，以及它在語(yǔ)音識(shí)別、圖像識(shí)別和自然語(yǔ)言處理等多個(gè)領(lǐng)域的成功，知識(shí)蒸餾技術(shù)在實(shí)際應(yīng)用中受到了廣泛關(guān)注。

對(duì)于內(nèi)存和計(jì)算能力有限的邊緣設(shè)備而言，部署大型深度神經(jīng)網(wǎng)絡(luò)模型的挑戰(zhàn)尤為突出。為應(yīng)對(duì)這一挑戰(zhàn)，人們首先提出了一種模型壓縮方法，將大型模型的知識(shí)轉(zhuǎn)移到訓(xùn)練較小的模型中，同時(shí)不會(huì)顯著降低性能。Hinton及其同事將這種從較大模型學(xué)習(xí)小模型的過(guò)程正式定義為“知識(shí)蒸餾”框架。

如圖1所示，在知識(shí)蒸餾中，一個(gè)小型“學(xué)生”模型學(xué)習(xí)模仿大型“教師”模型，并利用教師的知識(shí)獲得相似或更高的準(zhǔn)確率。在下一節(jié)中，我將更深入地研究知識(shí)蒸餾框架及其底層架構(gòu)和機(jī)制。

LLMs的知識(shí)蒸餾：技術(shù)和應(yīng)用-AI.x社區(qū)

深入研究知識(shí)蒸餾

知識(shí)蒸餾系統(tǒng)由三個(gè)主要組件構(gòu)成：知識(shí)、蒸餾算法和師生架構(gòu)。

知識(shí)

在神經(jīng)網(wǎng)絡(luò)中，知識(shí)通常指學(xué)習(xí)到的權(quán)重和偏差。同時(shí)，大型深度神經(jīng)網(wǎng)絡(luò)中的知識(shí)來(lái)源豐富多樣。典型的知識(shí)蒸餾使用logits（未經(jīng)過(guò)softmax激活函數(shù)處理的神經(jīng)網(wǎng)絡(luò)輸出）作為教師知識(shí)的來(lái)源，而其他方法則側(cè)重于中間層的權(quán)重或激活。其他相關(guān)知識(shí)還包括不同類(lèi)型的激活和神經(jīng)元之間的關(guān)系，或者教師模型本身的參數(shù)。

不同形式的知識(shí)可分為三種類(lèi)型：基于響應(yīng)的知識(shí)、基于特征的知識(shí)和基于關(guān)系的知識(shí)。圖2展示了教師模型中的這三種不同類(lèi)型的知識(shí)。

LLMs的知識(shí)蒸餾：技術(shù)和應(yīng)用-AI.x社區(qū)

基于響應(yīng)的知識(shí)

如圖2所示，基于響應(yīng)的知識(shí)側(cè)重于教師模型的最終輸出層。其假設(shè)是學(xué)生模型將學(xué)習(xí)模仿教師模型的預(yù)測(cè)。如圖3所示，這可以通過(guò)使用稱(chēng)為蒸餾損失的損失函數(shù)來(lái)實(shí)現(xiàn)，該函數(shù)分別捕獲學(xué)生模型和教師模型的logit之間的差異。在訓(xùn)練過(guò)程中，隨著這種損失逐漸最小化，學(xué)生模型將更擅長(zhǎng)做出與教師模型相同的預(yù)測(cè)。

LLMs的知識(shí)蒸餾：技術(shù)和應(yīng)用-AI.x社區(qū)

在圖像分類(lèi)等計(jì)算機(jī)視覺(jué)任務(wù)中，軟目標(biāo)包含基于響應(yīng)的知識(shí)。軟目標(biāo)表示輸出類(lèi)別的概率分布，通常使用softmax函數(shù)進(jìn)行估計(jì)。每個(gè)軟目標(biāo)對(duì)知識(shí)的貢獻(xiàn)由一個(gè)稱(chēng)為“溫度（temperature）”的參數(shù)進(jìn)行調(diào)整。基于軟目標(biāo)的基于響應(yīng)的知識(shí)蒸餾通常用于監(jiān)督學(xué)習(xí)場(chǎng)景。

基于特征的知識(shí)

經(jīng)過(guò)訓(xùn)練的教師模型還能在中間層捕獲數(shù)據(jù)知識(shí)，這對(duì)于深度神經(jīng)網(wǎng)絡(luò)尤為重要。中間層學(xué)習(xí)區(qū)分特定特征，這些知識(shí)可用于訓(xùn)練學(xué)生模型。如圖4所示，目標(biāo)是訓(xùn)練學(xué)生模型學(xué)習(xí)與教師模型相同的特征激活。蒸餾損失函數(shù)通過(guò)最小化教師模型和學(xué)生模型的特征激活之間的差異來(lái)實(shí)現(xiàn)這一點(diǎn)。

LLMs的知識(shí)蒸餾：技術(shù)和應(yīng)用-AI.x社區(qū)

基于關(guān)系的知識(shí)

除了神經(jīng)網(wǎng)絡(luò)輸出層和中間層表示的知識(shí)外，捕獲特征圖之間關(guān)系的知識(shí)也可用于訓(xùn)練學(xué)生模型。這種被稱(chēng)為基于關(guān)系的知識(shí)如圖5所示。這種關(guān)系可以建模為特征圖、圖形、相似性矩陣、特征嵌入或基于特征表示的概率分布之間的相關(guān)性。

LLMs的知識(shí)蒸餾：技術(shù)和應(yīng)用-AI.x社區(qū)

訓(xùn)練

訓(xùn)練學(xué)生模型和教師模型的方法主要有三種：離線蒸餾、在線蒸餾和自蒸餾。蒸餾訓(xùn)練方法的分類(lèi)取決于教師模型是否與學(xué)生模型同時(shí)被修改，如圖所示：

LLMs的知識(shí)蒸餾：技術(shù)和應(yīng)用-AI.x社區(qū)

離線蒸餾

離線蒸餾是最常見(jiàn)的方法，即使用預(yù)訓(xùn)練的教師模型來(lái)指導(dǎo)學(xué)生模型。在該方案中，首先在訓(xùn)練數(shù)據(jù)集上對(duì)教師模型進(jìn)行預(yù)訓(xùn)練，然后從教師模型中提取知識(shí)來(lái)訓(xùn)練學(xué)生模型。鑒于深度學(xué)習(xí)的最新進(jìn)展，有各種各樣的預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型可供公開(kāi)使用，可根據(jù)具體用例選擇作為教師模型。離線蒸餾是深度學(xué)習(xí)中一種成熟的技術(shù)，且更容易實(shí)現(xiàn)。

在線蒸餾

在離線蒸餾中，預(yù)訓(xùn)練的教師模型通常是大容量的深度神經(jīng)網(wǎng)絡(luò)。對(duì)于一些用例，可能無(wú)法獲得用于離線蒸餾的預(yù)訓(xùn)練模型。為解決這一限制，可以使用在線蒸餾，教師模型和學(xué)生模型在單個(gè)端到端訓(xùn)練過(guò)程中同時(shí)更新。在線蒸餾可以利用并行計(jì)算，因此是一種高效的方法。

自蒸餾

如圖6所示，在自蒸餾中，教師模型和學(xué)生模型使用相同的模型。例如，深度神經(jīng)網(wǎng)絡(luò)深層的知識(shí)可用于訓(xùn)練淺層。它可以被視為在線蒸餾的一個(gè)特殊情況，并以多種方式實(shí)例化。教師模型早期階段的知識(shí)可以轉(zhuǎn)移到后期階段，以訓(xùn)練學(xué)生模型。

架構(gòu)

師生網(wǎng)絡(luò)架構(gòu)的設(shè)計(jì)對(duì)于高效的知識(shí)獲取和提煉至關(guān)重要。通常，更復(fù)雜的教師模型和更簡(jiǎn)單的學(xué)生模型之間存在模型容量差距?？梢酝ㄟ^(guò)高效的師生架構(gòu)優(yōu)化知識(shí)轉(zhuǎn)移，來(lái)縮小這種結(jié)構(gòu)性差距。

由于深度神經(jīng)網(wǎng)絡(luò)的深度和廣度，從深度神經(jīng)網(wǎng)絡(luò)中傳輸知識(shí)并不簡(jiǎn)單。知識(shí)遷移最常見(jiàn)的架構(gòu)中，學(xué)生模型具有以下特點(diǎn)：

是教師模型的較淺版本，層數(shù)較少，每層神經(jīng)元數(shù)量也較少；
是教師模型的量化版本；
是具有高效基本操作的較小網(wǎng)絡(luò)；
是具有優(yōu)化全球網(wǎng)絡(luò)架構(gòu)的較小網(wǎng)絡(luò)；
與教師模型相同。

除上述方法外，神經(jīng)架構(gòu)搜索等最新進(jìn)展也可用于在給定特定教師模型的情況下，設(shè)計(jì)最佳的學(xué)生模型架構(gòu)。

用于知識(shí)蒸餾的算法

在本節(jié)中，我將重點(diǎn)介紹用于訓(xùn)練學(xué)生模型，以從教師模型中獲取知識(shí)的算法。

對(duì)抗性蒸餾

對(duì)抗性學(xué)習(xí)是最近在生成對(duì)抗網(wǎng)絡(luò)的背景下提出的概念，用于訓(xùn)練生成器模型和判別器模型。生成器模型學(xué)習(xí)生成盡可能接近真實(shí)數(shù)據(jù)分布的合成數(shù)據(jù)樣本，判別器模型則學(xué)習(xí)區(qū)分真實(shí)數(shù)據(jù)和合成數(shù)據(jù)樣本。這個(gè)概念已應(yīng)用于知識(shí)蒸餾，使學(xué)生模型和教師模型能夠更好地表示真實(shí)數(shù)據(jù)分布。

為實(shí)現(xiàn)學(xué)習(xí)真實(shí)數(shù)據(jù)分布的目標(biāo)，對(duì)抗性學(xué)習(xí)可用于訓(xùn)練生成器模型，以獲取合成訓(xùn)練數(shù)據(jù)，或用于擴(kuò)充原始訓(xùn)練數(shù)據(jù)集。第二種基于對(duì)抗學(xué)習(xí)的蒸餾方法側(cè)重于判別器模型，根據(jù)logits或特征圖區(qū)分學(xué)生模型和教師模型的樣本。這種方法有助于學(xué)生模型更好地模仿教師模型。第三種基于對(duì)抗學(xué)習(xí)的蒸餾技術(shù)側(cè)重于在線蒸餾，同時(shí)優(yōu)化學(xué)生模型和教師模型。

多教師蒸餾

在多教師蒸餾中，學(xué)生模型從多個(gè)不同的教師模型中獲取知識(shí)，如圖7所示。使用多個(gè)教師模型的集合可以為學(xué)生模型提供不同類(lèi)型的知識(shí)，這可能比從單個(gè)教師模型獲得的知識(shí)更有益。

LLMs的知識(shí)蒸餾：技術(shù)和應(yīng)用-AI.x社區(qū)

來(lái)自多個(gè)教師的知識(shí)可以合并為所有模型的平均響應(yīng)。通常從教師那里轉(zhuǎn)移的知識(shí)類(lèi)型基于logits和特征表示。

跨模態(tài)蒸餾

圖8展示了跨模態(tài)蒸餾訓(xùn)練方案。在此方案中，教師模型在一種模態(tài)中進(jìn)行訓(xùn)練，其知識(shí)被提煉到需要不同模態(tài)知識(shí)的學(xué)生模型中。當(dāng)在訓(xùn)練或測(cè)試期間特定模態(tài)的數(shù)據(jù)或標(biāo)簽不可用時(shí)，就需要跨模態(tài)傳遞知識(shí)。

LLMs的知識(shí)蒸餾：技術(shù)和應(yīng)用-AI.x社區(qū)

跨模態(tài)蒸餾最常用于視覺(jué)領(lǐng)域。例如，在標(biāo)記圖像數(shù)據(jù)上訓(xùn)練的教師模型的知識(shí)，可用于對(duì)具有未標(biāo)記輸入域（如光流、文本或音頻）的學(xué)生模型進(jìn)行蒸餾。在這種情況下，從教師模型的圖像中學(xué)習(xí)到的特征用于學(xué)生模型的監(jiān)督訓(xùn)練?？缒B(tài)蒸餾在視覺(jué)問(wèn)答、圖像描述等應(yīng)用中非常有用。

其他

除上述蒸餾算法外，還有幾種其他算法也應(yīng)用于知識(shí)蒸餾。

基于圖的蒸餾使用圖來(lái)捕獲數(shù)據(jù)內(nèi)部關(guān)系，而不是從教師到學(xué)生的單個(gè)實(shí)例知識(shí)。圖有兩種使用方式：作為知識(shí)轉(zhuǎn)移的手段，以及控制教師知識(shí)的轉(zhuǎn)移。在基于圖的蒸餾中，圖的每個(gè)頂點(diǎn)代表一個(gè)自監(jiān)督教師，可能分別基于基于響應(yīng)或基于特征的知識(shí)，如logits和特征圖。
基于注意力的蒸餾基于使用注意力圖從特征嵌入中轉(zhuǎn)移知識(shí)。
由于隱私、安全或保密原因，在沒(méi)有訓(xùn)練數(shù)據(jù)集的情況下，無(wú)數(shù)據(jù)蒸餾基于合成數(shù)據(jù)。合成數(shù)據(jù)通常從預(yù)訓(xùn)練教師模型的特征表示中生成。在其他應(yīng)用中，生成對(duì)抗網(wǎng)絡(luò)（GANs）也用于生成合成訓(xùn)練數(shù)據(jù)。
量化蒸餾用于將知識(shí)從高精度教師模型（如32位浮點(diǎn)型）轉(zhuǎn)移到低精度學(xué)生網(wǎng)絡(luò)（如8位）。
終身蒸餾基于持續(xù)學(xué)習(xí)、終身學(xué)習(xí)和元學(xué)習(xí)的學(xué)習(xí)機(jī)制，其中先前學(xué)到的知識(shí)被積累并轉(zhuǎn)移到未來(lái)的學(xué)習(xí)中。
基于神經(jīng)架構(gòu)搜索的蒸餾用于確定合適的學(xué)生模型架構(gòu)，以?xún)?yōu)化從教師模型的學(xué)習(xí)。

知識(shí)蒸餾的應(yīng)用

知識(shí)蒸餾已成功應(yīng)用于多個(gè)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)用例，如圖像識(shí)別、自然語(yǔ)言處理和語(yǔ)音識(shí)別。在本節(jié)中，我將重點(diǎn)介紹知識(shí)蒸餾技術(shù)的現(xiàn)有應(yīng)用和未來(lái)潛力。

視覺(jué)

知識(shí)蒸餾在計(jì)算機(jī)視覺(jué)領(lǐng)域的應(yīng)用廣泛。最先進(jìn)的計(jì)算機(jī)視覺(jué)模型越來(lái)越多地基于深度神經(jīng)網(wǎng)絡(luò)，這些網(wǎng)絡(luò)可從模型壓縮中受益，便于部署。知識(shí)蒸餾已成功用于以下用例：

圖像分類(lèi)
人臉識(shí)別
圖像分割
動(dòng)作識(shí)別
目標(biāo)檢測(cè)
車(chē)道檢測(cè)
行人檢測(cè)
面部特征點(diǎn)檢測(cè)
位姿估計(jì)
視頻字幕
圖像檢索
陰影檢測(cè)
文本到圖像合成
視頻分類(lèi)
視覺(jué)問(wèn)答等

知識(shí)蒸餾還可用于跨分辨率人臉識(shí)別等特定用例，基于高分辨率人臉教師模型和低分辨率人臉學(xué)生模型的架構(gòu)可以提高模型性能并降低延遲。由于知識(shí)蒸餾可以利用不同類(lèi)型的知識(shí)，包括跨模態(tài)數(shù)據(jù)、多域、多任務(wù)和低分辨率數(shù)據(jù)，因此可以針對(duì)特定的視覺(jué)識(shí)別用例訓(xùn)練各種提煉的學(xué)生模型。

自然語(yǔ)言處理

鑒于語(yǔ)言模型或翻譯模型等大容量深度神經(jīng)網(wǎng)絡(luò)的廣泛應(yīng)用，知識(shí)蒸餾在自然語(yǔ)言處理應(yīng)用中的應(yīng)用尤為重要。最先進(jìn)的語(yǔ)言模型包含數(shù)十億個(gè)參數(shù)，例如，GPT-3包含1750億個(gè)參數(shù)，這比之前最先進(jìn)的語(yǔ)言模型BERT（基本版本包含1.1億個(gè)參數(shù)）大了幾個(gè)數(shù)量級(jí)。

因此，知識(shí)蒸餾在自然語(yǔ)言處理中非常受歡迎，用于獲得快速、輕量級(jí)的模型，這些模型更易于訓(xùn)練，計(jì)算成本更低。除了語(yǔ)言建模之外，知識(shí)蒸餾還用于以下自然語(yǔ)言處理用例：

神經(jīng)機(jī)器翻譯
文本生成
問(wèn)答
文檔檢索
文本識(shí)別

通過(guò)知識(shí)蒸餾，可以獲得高效、輕量級(jí)的自然語(yǔ)言處理模型，這些模型可以在較低的內(nèi)存和計(jì)算要求下進(jìn)行部署。師生訓(xùn)練還可用于解決多語(yǔ)言自然語(yǔ)言處理問(wèn)題，其中多語(yǔ)言模型的知識(shí)可以相互傳遞和共享。

案例研究：DistilBERT

DistilBERT是由Hugging Face開(kāi)發(fā)的一種更小、更快、更便宜、更輕的BERT模型。在這里，作者預(yù)訓(xùn)練了一個(gè)較小的BERT模型，該模型可以在各種自然語(yǔ)言處理任務(wù)上進(jìn)行微調(diào)，并且具有相當(dāng)高的準(zhǔn)確率。在預(yù)訓(xùn)練階段應(yīng)用知識(shí)蒸餾，以獲得BERT模型的提煉版本，該版本的參數(shù)減少了40%（6600萬(wàn)個(gè)參數(shù)對(duì)比1.1億個(gè)參數(shù)），推理速度提高了60%（在GLUE情感分析任務(wù)中，推理時(shí)間從668秒縮短到410秒），同時(shí)保持了相當(dāng)于原始BERT模型準(zhǔn)確率97%的模型性能。在DistilBERT中，學(xué)生模型具有與BERT相同的架構(gòu)，并且是使用一種新的三元組損失獲得的，該損失結(jié)合了與語(yǔ)言建模、蒸餾和余弦距離損失相關(guān)的損失。

語(yǔ)音

最先進(jìn)的語(yǔ)音識(shí)別模型也基于深度神經(jīng)網(wǎng)絡(luò)?，F(xiàn)代自動(dòng)語(yǔ)音識(shí)別（ASR）模型經(jīng)過(guò)端到端訓(xùn)練，基于包括卷積層、具有注意力機(jī)制的序列到序列模型，以及最近的Transformer架構(gòu)。對(duì)于實(shí)時(shí)的設(shè)備端語(yǔ)音識(shí)別，獲得更小、更快的模型以實(shí)現(xiàn)有效性能至關(guān)重要。

語(yǔ)音領(lǐng)域中知識(shí)蒸餾的用例包括：

語(yǔ)音識(shí)別
口語(yǔ)識(shí)別
音頻分類(lèi)
說(shuō)話(huà)人識(shí)別
聲學(xué)事件檢測(cè)
語(yǔ)音合成
語(yǔ)音增強(qiáng)
抗噪ASR
多語(yǔ)言ASR
口音檢測(cè)

案例研究：Amazon Alexa的聲學(xué)建模

Parthasarathi和Strom（2019）利用師生訓(xùn)練為100萬(wàn)小時(shí)的未標(biāo)記語(yǔ)音數(shù)據(jù)生成軟目標(biāo)，而訓(xùn)練數(shù)據(jù)集僅包含7000小時(shí)的標(biāo)記語(yǔ)音。教師模型在所有輸出類(lèi)上生成概率分布。學(xué)生模型在給定相同特征向量的情況下，也在輸出類(lèi)上生成概率分布，目標(biāo)函數(shù)優(yōu)化這兩個(gè)分布之間的交叉熵?fù)p失。在這里，知識(shí)蒸餾有助于簡(jiǎn)化在大量語(yǔ)音數(shù)據(jù)語(yǔ)料庫(kù)上生成目標(biāo)標(biāo)簽的過(guò)程。

結(jié)論

現(xiàn)代深度學(xué)習(xí)應(yīng)用基于龐大的神經(jīng)網(wǎng)絡(luò)，這些網(wǎng)絡(luò)容量大、內(nèi)存占用高且推理延遲慢。將此類(lèi)模型部署到生產(chǎn)環(huán)境是一項(xiàng)巨大的挑戰(zhàn)。知識(shí)蒸餾是一種巧妙的機(jī)制，用于訓(xùn)練從大型復(fù)雜教師模型派生的更小、更輕、更快、更經(jīng)濟(jì)的學(xué)生模型。在Hinton及其同事（2015年）提出知識(shí)蒸餾的概念之后，為生產(chǎn)用例獲取高效輕量級(jí)模型而采用的知識(shí)蒸餾方案大幅增加。知識(shí)蒸餾是一種基于不同類(lèi)型的知識(shí)、訓(xùn)練方案、架構(gòu)和算法的復(fù)雜技術(shù)。知識(shí)蒸餾已經(jīng)在計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理、語(yǔ)音等多個(gè)領(lǐng)域取得了巨大成功。

引用

[1] Distilling the Knowledge in a Neural Network. Hinton G, Vinyals O, Dean J (2015) NIPS Deep Learning and Representation Learning Workshop. https://arxiv.org/abs/1503.02531

[2] Model Compression. Bucilua C, Caruana R, Niculescu-Mizil A (2006) https://dl.acm.org/doi/10.1145/1150402.1150464

[3] Knowledge distillation: a survey. You J, Yu B, Maybank SJ, Tao D (2021) https://arxiv.org/abs/2006.05525

[4] DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter (2019) Sanh V, Debut L, Chammond J, Wolf T. https://arxiv.org/abs/1910.01108v4

[5] Lessons from building acoustic models with a million hours of speech (2019) Parthasarathi SHK, Strom N. https://arxiv.org/abs/1904.01624

本文轉(zhuǎn)載自 ??柏企閱文??，作者：柏企

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

AIGC圖像技術(shù)在淘寶人生2的探索和應(yīng)用

pangguiyu ? 6000瀏覽 ? 0回復(fù)
LLM | 利用分布匹配蒸餾技術(shù)快速合成圖像

sbf_2000 ? 2796瀏覽 ? 0回復(fù)
精打細(xì)算用好 LLMs ：LLM 落地應(yīng)用成本及響應(yīng)延遲優(yōu)化

Baihai_IDP ? 2809瀏覽 ? 0回復(fù)
哪些基于 LLMs 的產(chǎn)品值得開(kāi)發(fā)？從用戶(hù)體驗(yàn)和市場(chǎng)接受度的角度探討

Baihai_IDP ? 2388瀏覽 ? 0回復(fù)
企業(yè)級(jí)智能知識(shí)庫(kù)搜索問(wèn)答技術(shù)與應(yīng)用

51CTO技術(shù)棧 ? 2210瀏覽 ? 0回復(fù)
GMeLLo：結(jié)合知識(shí)圖譜的 LLM 多跳問(wèn)答技術(shù)，效果顯著提升

大語(yǔ)言模型論文跟蹤 ? 3308瀏覽 ? 0回復(fù)
LLMs、MLLMs等領(lǐng)域的模型合并：方法、理論、應(yīng)用與機(jī)遇

sbf_2000 ? 3899瀏覽 ? 0回復(fù)
LLMs的基本組成：向量、Tokens和嵌入

lintoms ? 2175瀏覽 ? 0回復(fù)
基于知識(shí)圖譜的LangChain應(yīng)用實(shí)戰(zhàn)

ermulong ? 2592瀏覽 ? 0回復(fù)
FineTuneBench：商業(yè)精細(xì)調(diào)整API能夠如何融入LLMs中的新知識(shí)？

AI論文解讀 ? 1839瀏覽 ? 0回復(fù)
一文讀懂LLMs的幻覺(jué)問(wèn)題和對(duì)策

數(shù)字化助推器 ? 2285瀏覽 ? 0回復(fù)
大模型技術(shù)全面解析，從大模型的概念，技術(shù)，應(yīng)用和挑戰(zhàn)多個(gè)方面介紹大模型

AI探索時(shí)代 ? 1.4w瀏覽 ? 0回復(fù)
ACL2024 |解釋引導(dǎo)的大語(yǔ)言模型主動(dòng)蒸餾：一種優(yōu)化知識(shí)轉(zhuǎn)移的創(chuàng)新框架 "ELAD"

arnoldzhw ? 2531瀏覽 ? 0回復(fù)
“大模型+知識(shí)圖譜”雙輪驅(qū)動(dòng)的見(jiàn)解、技術(shù)和評(píng)估 - 英偉達(dá)的GraphRAG

知識(shí)圖譜科技 ? 2431瀏覽 ? 0回復(fù)
一文說(shuō)清楚"知識(shí)蒸餾"（讓“小模型”也能擁有“大智慧”）

AI取經(jīng)路 ? 1.5w瀏覽 ? 0回復(fù)
一文搞懂 DeepSeek - 強(qiáng)化學(xué)習(xí)和蒸餾

玄姐聊AGI ? 2762瀏覽 ? 0回復(fù)
一文搞懂 DeepSeek 的蒸餾技術(shù)和案例實(shí)踐

玄姐聊AGI ? 5732瀏覽 ? 0回復(fù)
基于代理知識(shí)蒸餾技術(shù)克服文檔提取和RAG策略失敗問(wèn)題?

51CTO內(nèi)容精選 ? 1015瀏覽 ? 0回復(fù)
你了解大模型的生態(tài)體系嗎？大模型從技術(shù)到應(yīng)用的內(nèi)容梳理

AI探索時(shí)代 ? 1011瀏覽 ? 0回復(fù)

這個(gè)用戶(hù)很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

清華大學(xué) | 強(qiáng)化學(xué)習(xí)是否激勵(lì)LLM中超越基本模型的推理能力？ 3天前發(fā)布
ScholarCopilot：借助精準(zhǔn)引用訓(xùn)練大語(yǔ)言模型助力學(xué)術(shù)寫(xiě)作 2025-04-16 06:04:58發(fā)布

熱門(mén)推薦

大半精銳盡出！o1下線！滿(mǎn)血o3之后，模型本身就是Manus，最大賣(mài)點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開(kāi)發(fā) 0回復(fù)

Dify從入門(mén)到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專(zhuān)屬極速開(kāi)源爬蟲(chóng)神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：深度剖析25種RAG變體：全網(wǎng)最全~沒(méi)有之一

下一篇：一萬(wàn)字用Python從零搭建AI智能體

社區(qū)精華內(nèi)容

目錄