自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

LLMs的知識(shí)蒸餾:技術(shù)和應(yīng)用 精華

發(fā)布于 2025-2-19 12:01
瀏覽
0收藏

知識(shí)蒸餾通過(guò)創(chuàng)建更小、更快、更易于部署的模型,釋放了大語(yǔ)言模型(LLM)在實(shí)際應(yīng)用中的潛力。本文提供了知識(shí)蒸餾的全面指南,涵蓋視覺(jué)、自然語(yǔ)言處理(NLP)和語(yǔ)音領(lǐng)域中的算法、架構(gòu)和應(yīng)用。

大規(guī)模機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型越來(lái)越普遍。例如,據(jù)報(bào)道,GPT-4o有超過(guò)2000億個(gè)參數(shù)。然而,雖然訓(xùn)練大型模型有助于提升最先進(jìn)的性能,但部署這種龐大的模型,尤其是在邊緣設(shè)備上,并非易事。

此外,大多數(shù)數(shù)據(jù)科學(xué)建模工作側(cè)重于訓(xùn)練單個(gè)大型模型或不同模型的集合,使其在通常不代表真實(shí)數(shù)據(jù)的保留驗(yàn)證集上表現(xiàn)良好。

訓(xùn)練和測(cè)試目標(biāo)之間的這種不一致,導(dǎo)致開(kāi)發(fā)出的機(jī)器學(xué)習(xí)模型在精選的驗(yàn)證數(shù)據(jù)集上有不錯(cuò)的準(zhǔn)確率,但在對(duì)真實(shí)測(cè)試數(shù)據(jù)進(jìn)行推理時(shí),往往無(wú)法滿(mǎn)足性能、延遲和吞吐量的標(biāo)準(zhǔn)。

知識(shí)蒸餾通過(guò)捕獲并“提煉”復(fù)雜機(jī)器學(xué)習(xí)模型或模型集合中的知識(shí),將其轉(zhuǎn)化為更易于部署的單個(gè)較小模型,且不會(huì)導(dǎo)致性能大幅下降,從而幫助克服這些挑戰(zhàn)。

什么是知識(shí)蒸餾?

知識(shí)蒸餾是指將知識(shí)從一個(gè)大型復(fù)雜的模型或一組模型轉(zhuǎn)移到可以在現(xiàn)實(shí)世界的約束下實(shí)際部署的單個(gè)較小模型的過(guò)程。本質(zhì)上,它是一種模型壓縮形式,由Bucilua及其合作者于2006年首次成功演示。

知識(shí)蒸餾更常用于具有復(fù)雜架構(gòu)(包含多個(gè)層和模型參數(shù))的神經(jīng)網(wǎng)絡(luò)模型。因此,隨著過(guò)去十年深度學(xué)習(xí)的興起,以及它在語(yǔ)音識(shí)別、圖像識(shí)別和自然語(yǔ)言處理等多個(gè)領(lǐng)域的成功,知識(shí)蒸餾技術(shù)在實(shí)際應(yīng)用中受到了廣泛關(guān)注。

對(duì)于內(nèi)存和計(jì)算能力有限的邊緣設(shè)備而言,部署大型深度神經(jīng)網(wǎng)絡(luò)模型的挑戰(zhàn)尤為突出。為應(yīng)對(duì)這一挑戰(zhàn),人們首先提出了一種模型壓縮方法,將大型模型的知識(shí)轉(zhuǎn)移到訓(xùn)練較小的模型中,同時(shí)不會(huì)顯著降低性能。Hinton及其同事將這種從較大模型學(xué)習(xí)小模型的過(guò)程正式定義為“知識(shí)蒸餾”框架。

如圖1所示,在知識(shí)蒸餾中,一個(gè)小型“學(xué)生”模型學(xué)習(xí)模仿大型“教師”模型,并利用教師的知識(shí)獲得相似或更高的準(zhǔn)確率。在下一節(jié)中,我將更深入地研究知識(shí)蒸餾框架及其底層架構(gòu)和機(jī)制。

LLMs的知識(shí)蒸餾:技術(shù)和應(yīng)用-AI.x社區(qū)

深入研究知識(shí)蒸餾

知識(shí)蒸餾系統(tǒng)由三個(gè)主要組件構(gòu)成:知識(shí)、蒸餾算法和師生架構(gòu)。

知識(shí)

在神經(jīng)網(wǎng)絡(luò)中,知識(shí)通常指學(xué)習(xí)到的權(quán)重和偏差。同時(shí),大型深度神經(jīng)網(wǎng)絡(luò)中的知識(shí)來(lái)源豐富多樣。典型的知識(shí)蒸餾使用logits(未經(jīng)過(guò)softmax激活函數(shù)處理的神經(jīng)網(wǎng)絡(luò)輸出)作為教師知識(shí)的來(lái)源,而其他方法則側(cè)重于中間層的權(quán)重或激活。其他相關(guān)知識(shí)還包括不同類(lèi)型的激活和神經(jīng)元之間的關(guān)系,或者教師模型本身的參數(shù)。

不同形式的知識(shí)可分為三種類(lèi)型:基于響應(yīng)的知識(shí)、基于特征的知識(shí)和基于關(guān)系的知識(shí)。圖2展示了教師模型中的這三種不同類(lèi)型的知識(shí)。

LLMs的知識(shí)蒸餾:技術(shù)和應(yīng)用-AI.x社區(qū)

基于響應(yīng)的知識(shí)

如圖2所示,基于響應(yīng)的知識(shí)側(cè)重于教師模型的最終輸出層。其假設(shè)是學(xué)生模型將學(xué)習(xí)模仿教師模型的預(yù)測(cè)。如圖3所示,這可以通過(guò)使用稱(chēng)為蒸餾損失的損失函數(shù)來(lái)實(shí)現(xiàn),該函數(shù)分別捕獲學(xué)生模型和教師模型的logit之間的差異。在訓(xùn)練過(guò)程中,隨著這種損失逐漸最小化,學(xué)生模型將更擅長(zhǎng)做出與教師模型相同的預(yù)測(cè)。

LLMs的知識(shí)蒸餾:技術(shù)和應(yīng)用-AI.x社區(qū)

在圖像分類(lèi)等計(jì)算機(jī)視覺(jué)任務(wù)中,軟目標(biāo)包含基于響應(yīng)的知識(shí)。軟目標(biāo)表示輸出類(lèi)別的概率分布,通常使用softmax函數(shù)進(jìn)行估計(jì)。每個(gè)軟目標(biāo)對(duì)知識(shí)的貢獻(xiàn)由一個(gè)稱(chēng)為“溫度(temperature)”的參數(shù)進(jìn)行調(diào)整。基于軟目標(biāo)的基于響應(yīng)的知識(shí)蒸餾通常用于監(jiān)督學(xué)習(xí)場(chǎng)景。

基于特征的知識(shí)

經(jīng)過(guò)訓(xùn)練的教師模型還能在中間層捕獲數(shù)據(jù)知識(shí),這對(duì)于深度神經(jīng)網(wǎng)絡(luò)尤為重要。中間層學(xué)習(xí)區(qū)分特定特征,這些知識(shí)可用于訓(xùn)練學(xué)生模型。如圖4所示,目標(biāo)是訓(xùn)練學(xué)生模型學(xué)習(xí)與教師模型相同的特征激活。蒸餾損失函數(shù)通過(guò)最小化教師模型和學(xué)生模型的特征激活之間的差異來(lái)實(shí)現(xiàn)這一點(diǎn)。

LLMs的知識(shí)蒸餾:技術(shù)和應(yīng)用-AI.x社區(qū)

基于關(guān)系的知識(shí)

除了神經(jīng)網(wǎng)絡(luò)輸出層和中間層表示的知識(shí)外,捕獲特征圖之間關(guān)系的知識(shí)也可用于訓(xùn)練學(xué)生模型。這種被稱(chēng)為基于關(guān)系的知識(shí)如圖5所示。這種關(guān)系可以建模為特征圖、圖形、相似性矩陣、特征嵌入或基于特征表示的概率分布之間的相關(guān)性。

LLMs的知識(shí)蒸餾:技術(shù)和應(yīng)用-AI.x社區(qū)

訓(xùn)練

訓(xùn)練學(xué)生模型和教師模型的方法主要有三種:離線蒸餾、在線蒸餾和自蒸餾。蒸餾訓(xùn)練方法的分類(lèi)取決于教師模型是否與學(xué)生模型同時(shí)被修改,如圖所示:

LLMs的知識(shí)蒸餾:技術(shù)和應(yīng)用-AI.x社區(qū)

離線蒸餾

離線蒸餾是最常見(jiàn)的方法,即使用預(yù)訓(xùn)練的教師模型來(lái)指導(dǎo)學(xué)生模型。在該方案中,首先在訓(xùn)練數(shù)據(jù)集上對(duì)教師模型進(jìn)行預(yù)訓(xùn)練,然后從教師模型中提取知識(shí)來(lái)訓(xùn)練學(xué)生模型。鑒于深度學(xué)習(xí)的最新進(jìn)展,有各種各樣的預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型可供公開(kāi)使用,可根據(jù)具體用例選擇作為教師模型。離線蒸餾是深度學(xué)習(xí)中一種成熟的技術(shù),且更容易實(shí)現(xiàn)。

在線蒸餾

在離線蒸餾中,預(yù)訓(xùn)練的教師模型通常是大容量的深度神經(jīng)網(wǎng)絡(luò)。對(duì)于一些用例,可能無(wú)法獲得用于離線蒸餾的預(yù)訓(xùn)練模型。為解決這一限制,可以使用在線蒸餾,教師模型和學(xué)生模型在單個(gè)端到端訓(xùn)練過(guò)程中同時(shí)更新。在線蒸餾可以利用并行計(jì)算,因此是一種高效的方法。

自蒸餾

如圖6所示,在自蒸餾中,教師模型和學(xué)生模型使用相同的模型。例如,深度神經(jīng)網(wǎng)絡(luò)深層的知識(shí)可用于訓(xùn)練淺層。它可以被視為在線蒸餾的一個(gè)特殊情況,并以多種方式實(shí)例化。教師模型早期階段的知識(shí)可以轉(zhuǎn)移到后期階段,以訓(xùn)練學(xué)生模型。

架構(gòu)

師生網(wǎng)絡(luò)架構(gòu)的設(shè)計(jì)對(duì)于高效的知識(shí)獲取和提煉至關(guān)重要。通常,更復(fù)雜的教師模型和更簡(jiǎn)單的學(xué)生模型之間存在模型容量差距??梢酝ㄟ^(guò)高效的師生架構(gòu)優(yōu)化知識(shí)轉(zhuǎn)移,來(lái)縮小這種結(jié)構(gòu)性差距。

由于深度神經(jīng)網(wǎng)絡(luò)的深度和廣度,從深度神經(jīng)網(wǎng)絡(luò)中傳輸知識(shí)并不簡(jiǎn)單。知識(shí)遷移最常見(jiàn)的架構(gòu)中,學(xué)生模型具有以下特點(diǎn):

  • 是教師模型的較淺版本,層數(shù)較少,每層神經(jīng)元數(shù)量也較少;
  • 是教師模型的量化版本;
  • 是具有高效基本操作的較小網(wǎng)絡(luò);
  • 是具有優(yōu)化全球網(wǎng)絡(luò)架構(gòu)的較小網(wǎng)絡(luò);
  • 與教師模型相同。

除上述方法外,神經(jīng)架構(gòu)搜索等最新進(jìn)展也可用于在給定特定教師模型的情況下,設(shè)計(jì)最佳的學(xué)生模型架構(gòu)。

用于知識(shí)蒸餾的算法

在本節(jié)中,我將重點(diǎn)介紹用于訓(xùn)練學(xué)生模型,以從教師模型中獲取知識(shí)的算法。

對(duì)抗性蒸餾

對(duì)抗性學(xué)習(xí)是最近在生成對(duì)抗網(wǎng)絡(luò)的背景下提出的概念,用于訓(xùn)練生成器模型和判別器模型。生成器模型學(xué)習(xí)生成盡可能接近真實(shí)數(shù)據(jù)分布的合成數(shù)據(jù)樣本,判別器模型則學(xué)習(xí)區(qū)分真實(shí)數(shù)據(jù)和合成數(shù)據(jù)樣本。這個(gè)概念已應(yīng)用于知識(shí)蒸餾,使學(xué)生模型和教師模型能夠更好地表示真實(shí)數(shù)據(jù)分布。

為實(shí)現(xiàn)學(xué)習(xí)真實(shí)數(shù)據(jù)分布的目標(biāo),對(duì)抗性學(xué)習(xí)可用于訓(xùn)練生成器模型,以獲取合成訓(xùn)練數(shù)據(jù),或用于擴(kuò)充原始訓(xùn)練數(shù)據(jù)集。第二種基于對(duì)抗學(xué)習(xí)的蒸餾方法側(cè)重于判別器模型,根據(jù)logits或特征圖區(qū)分學(xué)生模型和教師模型的樣本。這種方法有助于學(xué)生模型更好地模仿教師模型。第三種基于對(duì)抗學(xué)習(xí)的蒸餾技術(shù)側(cè)重于在線蒸餾,同時(shí)優(yōu)化學(xué)生模型和教師模型。

多教師蒸餾

在多教師蒸餾中,學(xué)生模型從多個(gè)不同的教師模型中獲取知識(shí),如圖7所示。使用多個(gè)教師模型的集合可以為學(xué)生模型提供不同類(lèi)型的知識(shí),這可能比從單個(gè)教師模型獲得的知識(shí)更有益。

LLMs的知識(shí)蒸餾:技術(shù)和應(yīng)用-AI.x社區(qū)

來(lái)自多個(gè)教師的知識(shí)可以合并為所有模型的平均響應(yīng)。通常從教師那里轉(zhuǎn)移的知識(shí)類(lèi)型基于logits和特征表示。

跨模態(tài)蒸餾

圖8展示了跨模態(tài)蒸餾訓(xùn)練方案。在此方案中,教師模型在一種模態(tài)中進(jìn)行訓(xùn)練,其知識(shí)被提煉到需要不同模態(tài)知識(shí)的學(xué)生模型中。當(dāng)在訓(xùn)練或測(cè)試期間特定模態(tài)的數(shù)據(jù)或標(biāo)簽不可用時(shí),就需要跨模態(tài)傳遞知識(shí)。

LLMs的知識(shí)蒸餾:技術(shù)和應(yīng)用-AI.x社區(qū)

跨模態(tài)蒸餾最常用于視覺(jué)領(lǐng)域。例如,在標(biāo)記圖像數(shù)據(jù)上訓(xùn)練的教師模型的知識(shí),可用于對(duì)具有未標(biāo)記輸入域(如光流、文本或音頻)的學(xué)生模型進(jìn)行蒸餾。在這種情況下,從教師模型的圖像中學(xué)習(xí)到的特征用于學(xué)生模型的監(jiān)督訓(xùn)練??缒B(tài)蒸餾在視覺(jué)問(wèn)答、圖像描述等應(yīng)用中非常有用。

其他

除上述蒸餾算法外,還有幾種其他算法也應(yīng)用于知識(shí)蒸餾。

  • 基于圖的蒸餾使用圖來(lái)捕獲數(shù)據(jù)內(nèi)部關(guān)系,而不是從教師到學(xué)生的單個(gè)實(shí)例知識(shí)。圖有兩種使用方式:作為知識(shí)轉(zhuǎn)移的手段,以及控制教師知識(shí)的轉(zhuǎn)移。在基于圖的蒸餾中,圖的每個(gè)頂點(diǎn)代表一個(gè)自監(jiān)督教師,可能分別基于基于響應(yīng)或基于特征的知識(shí),如logits和特征圖。
  • 基于注意力的蒸餾基于使用注意力圖從特征嵌入中轉(zhuǎn)移知識(shí)。
  • 由于隱私、安全或保密原因,在沒(méi)有訓(xùn)練數(shù)據(jù)集的情況下,無(wú)數(shù)據(jù)蒸餾基于合成數(shù)據(jù)。合成數(shù)據(jù)通常從預(yù)訓(xùn)練教師模型的特征表示中生成。在其他應(yīng)用中,生成對(duì)抗網(wǎng)絡(luò)(GANs)也用于生成合成訓(xùn)練數(shù)據(jù)。
  • 量化蒸餾用于將知識(shí)從高精度教師模型(如32位浮點(diǎn)型)轉(zhuǎn)移到低精度學(xué)生網(wǎng)絡(luò)(如8位)。
  • 終身蒸餾基于持續(xù)學(xué)習(xí)、終身學(xué)習(xí)和元學(xué)習(xí)的學(xué)習(xí)機(jī)制,其中先前學(xué)到的知識(shí)被積累并轉(zhuǎn)移到未來(lái)的學(xué)習(xí)中。
  • 基于神經(jīng)架構(gòu)搜索的蒸餾用于確定合適的學(xué)生模型架構(gòu),以?xún)?yōu)化從教師模型的學(xué)習(xí)。

知識(shí)蒸餾的應(yīng)用

知識(shí)蒸餾已成功應(yīng)用于多個(gè)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)用例,如圖像識(shí)別、自然語(yǔ)言處理和語(yǔ)音識(shí)別。在本節(jié)中,我將重點(diǎn)介紹知識(shí)蒸餾技術(shù)的現(xiàn)有應(yīng)用和未來(lái)潛力。

視覺(jué)

知識(shí)蒸餾在計(jì)算機(jī)視覺(jué)領(lǐng)域的應(yīng)用廣泛。最先進(jìn)的計(jì)算機(jī)視覺(jué)模型越來(lái)越多地基于深度神經(jīng)網(wǎng)絡(luò),這些網(wǎng)絡(luò)可從模型壓縮中受益,便于部署。知識(shí)蒸餾已成功用于以下用例:

  • 圖像分類(lèi)
  • 人臉識(shí)別
  • 圖像分割
  • 動(dòng)作識(shí)別
  • 目標(biāo)檢測(cè)
  • 車(chē)道檢測(cè)
  • 行人檢測(cè)
  • 面部特征點(diǎn)檢測(cè)
  • 位姿估計(jì)
  • 視頻字幕
  • 圖像檢索
  • 陰影檢測(cè)
  • 文本到圖像合成
  • 視頻分類(lèi)
  • 視覺(jué)問(wèn)答等

知識(shí)蒸餾還可用于跨分辨率人臉識(shí)別等特定用例,基于高分辨率人臉教師模型和低分辨率人臉學(xué)生模型的架構(gòu)可以提高模型性能并降低延遲。由于知識(shí)蒸餾可以利用不同類(lèi)型的知識(shí),包括跨模態(tài)數(shù)據(jù)、多域、多任務(wù)和低分辨率數(shù)據(jù),因此可以針對(duì)特定的視覺(jué)識(shí)別用例訓(xùn)練各種提煉的學(xué)生模型。

自然語(yǔ)言處理

鑒于語(yǔ)言模型或翻譯模型等大容量深度神經(jīng)網(wǎng)絡(luò)的廣泛應(yīng)用,知識(shí)蒸餾在自然語(yǔ)言處理應(yīng)用中的應(yīng)用尤為重要。最先進(jìn)的語(yǔ)言模型包含數(shù)十億個(gè)參數(shù),例如,GPT-3包含1750億個(gè)參數(shù),這比之前最先進(jìn)的語(yǔ)言模型BERT(基本版本包含1.1億個(gè)參數(shù))大了幾個(gè)數(shù)量級(jí)。

因此,知識(shí)蒸餾在自然語(yǔ)言處理中非常受歡迎,用于獲得快速、輕量級(jí)的模型,這些模型更易于訓(xùn)練,計(jì)算成本更低。除了語(yǔ)言建模之外,知識(shí)蒸餾還用于以下自然語(yǔ)言處理用例:

  • 神經(jīng)機(jī)器翻譯
  • 文本生成
  • 問(wèn)答
  • 文檔檢索
  • 文本識(shí)別

通過(guò)知識(shí)蒸餾,可以獲得高效、輕量級(jí)的自然語(yǔ)言處理模型,這些模型可以在較低的內(nèi)存和計(jì)算要求下進(jìn)行部署。師生訓(xùn)練還可用于解決多語(yǔ)言自然語(yǔ)言處理問(wèn)題,其中多語(yǔ)言模型的知識(shí)可以相互傳遞和共享。

案例研究:DistilBERT

DistilBERT是由Hugging Face開(kāi)發(fā)的一種更小、更快、更便宜、更輕的BERT模型。在這里,作者預(yù)訓(xùn)練了一個(gè)較小的BERT模型,該模型可以在各種自然語(yǔ)言處理任務(wù)上進(jìn)行微調(diào),并且具有相當(dāng)高的準(zhǔn)確率。在預(yù)訓(xùn)練階段應(yīng)用知識(shí)蒸餾,以獲得BERT模型的提煉版本,該版本的參數(shù)減少了40%(6600萬(wàn)個(gè)參數(shù)對(duì)比1.1億個(gè)參數(shù)),推理速度提高了60%(在GLUE情感分析任務(wù)中,推理時(shí)間從668秒縮短到410秒),同時(shí)保持了相當(dāng)于原始BERT模型準(zhǔn)確率97%的模型性能。在DistilBERT中,學(xué)生模型具有與BERT相同的架構(gòu),并且是使用一種新的三元組損失獲得的,該損失結(jié)合了與語(yǔ)言建模、蒸餾和余弦距離損失相關(guān)的損失。

語(yǔ)音

最先進(jìn)的語(yǔ)音識(shí)別模型也基于深度神經(jīng)網(wǎng)絡(luò)?,F(xiàn)代自動(dòng)語(yǔ)音識(shí)別(ASR)模型經(jīng)過(guò)端到端訓(xùn)練,基于包括卷積層、具有注意力機(jī)制的序列到序列模型,以及最近的Transformer架構(gòu)。對(duì)于實(shí)時(shí)的設(shè)備端語(yǔ)音識(shí)別,獲得更小、更快的模型以實(shí)現(xiàn)有效性能至關(guān)重要。

語(yǔ)音領(lǐng)域中知識(shí)蒸餾的用例包括:

  • 語(yǔ)音識(shí)別
  • 口語(yǔ)識(shí)別
  • 音頻分類(lèi)
  • 說(shuō)話(huà)人識(shí)別
  • 聲學(xué)事件檢測(cè)
  • 語(yǔ)音合成
  • 語(yǔ)音增強(qiáng)
  • 抗噪ASR
  • 多語(yǔ)言ASR
  • 口音檢測(cè)

案例研究:Amazon Alexa的聲學(xué)建模

Parthasarathi和Strom(2019)利用師生訓(xùn)練為100萬(wàn)小時(shí)的未標(biāo)記語(yǔ)音數(shù)據(jù)生成軟目標(biāo),而訓(xùn)練數(shù)據(jù)集僅包含7000小時(shí)的標(biāo)記語(yǔ)音。教師模型在所有輸出類(lèi)上生成概率分布。學(xué)生模型在給定相同特征向量的情況下,也在輸出類(lèi)上生成概率分布,目標(biāo)函數(shù)優(yōu)化這兩個(gè)分布之間的交叉熵?fù)p失。在這里,知識(shí)蒸餾有助于簡(jiǎn)化在大量語(yǔ)音數(shù)據(jù)語(yǔ)料庫(kù)上生成目標(biāo)標(biāo)簽的過(guò)程。

結(jié)論

現(xiàn)代深度學(xué)習(xí)應(yīng)用基于龐大的神經(jīng)網(wǎng)絡(luò),這些網(wǎng)絡(luò)容量大、內(nèi)存占用高且推理延遲慢。將此類(lèi)模型部署到生產(chǎn)環(huán)境是一項(xiàng)巨大的挑戰(zhàn)。知識(shí)蒸餾是一種巧妙的機(jī)制,用于訓(xùn)練從大型復(fù)雜教師模型派生的更小、更輕、更快、更經(jīng)濟(jì)的學(xué)生模型。在Hinton及其同事(2015年)提出知識(shí)蒸餾的概念之后,為生產(chǎn)用例獲取高效輕量級(jí)模型而采用的知識(shí)蒸餾方案大幅增加。知識(shí)蒸餾是一種基于不同類(lèi)型的知識(shí)、訓(xùn)練方案、架構(gòu)和算法的復(fù)雜技術(shù)。知識(shí)蒸餾已經(jīng)在計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理、語(yǔ)音等多個(gè)領(lǐng)域取得了巨大成功。

引用

[1] Distilling the Knowledge in a Neural Network. Hinton G, Vinyals O, Dean J (2015) NIPS Deep Learning and Representation Learning Workshop. https://arxiv.org/abs/1503.02531

[2] Model Compression. Bucilua C, Caruana R, Niculescu-Mizil A (2006) https://dl.acm.org/doi/10.1145/1150402.1150464

[3] Knowledge distillation: a survey. You J, Yu B, Maybank SJ, Tao D (2021) https://arxiv.org/abs/2006.05525

[4] DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter (2019) Sanh V, Debut L, Chammond J, Wolf T. https://arxiv.org/abs/1910.01108v4

[5] Lessons from building acoustic models with a million hours of speech (2019) Parthasarathi SHK, Strom N. https://arxiv.org/abs/1904.01624

本文轉(zhuǎn)載自 ??柏企閱文??,作者: 柏企

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦