自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<bdo id="u1tg5"></bdo>

<sub id="u1tg5"></sub>

<thead id="u1tg5"><rt id="u1tg5"></rt></thead>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

被DeepSeek帶火的知識(shí)蒸餾，開山之作曾被NeurIPS拒收，Hinton坐鎮(zhèn)都沒用

作者：量子位 2025-02-07 15:10:00

人工智能新聞

稱得上是“蒸餾圣經(jīng)”、由Hinton、Oriol Vinyals、Jeff Dean三位大佬合寫的《Distilling the Knowledge in a Neural Network》，當(dāng)年被NeurIPS 2014拒收。

DeepSeek帶火知識(shí)蒸餾，原作者現(xiàn)身爆料：原來一開始就不受待見。

稱得上是“蒸餾圣經(jīng)”、由Hinton、Oriol Vinyals、Jeff Dean三位大佬合寫的《Distilling the Knowledge in a Neural Network》，當(dāng)年被NeurIPS 2014拒收。

如何評價(jià)這篇論文的含金量？

它提出了知識(shí)蒸餾這一概念，能在保證準(zhǔn)確率接近的情況下，大幅壓縮模型參數(shù)量，讓模型能夠部署在各種資源受限的環(huán)境。

比如Siri能夠出現(xiàn)在手機(jī)上，就是用知識(shí)蒸餾壓縮語音模型。

自它之后，大模型用各種方法提高性能上限，再蒸餾到小模型上已經(jīng)成為一種行業(yè)標(biāo)配。

再來看它的主創(chuàng)陣容。

Hinton，深度學(xué)習(xí)之父，如今已是諾獎(jiǎng)得主。

Oriol Vinyals，Google DeepMind研究科學(xué)家，參與開發(fā)的明星項(xiàng)目包括TensorFlow、AlphaFold、Seq2Seq、AlphaStar等。

Jeff Dean，Google DeepMind首席科學(xué)家、從2018年開始全面領(lǐng)導(dǎo)谷歌AI。大模型浪潮里，推動(dòng)了PaLM、Gemini的發(fā)展。

不過，那又怎樣？

主創(chuàng)之一Oriol Vinyals表示，因?yàn)槿狈?chuàng)新和影響力，這篇論文被拒啦。謝謝審稿人（字面意思），謝謝arxiv！

方法簡單、適用于各種模型

簡單粗暴總結(jié)，《Distilling the Knowledge in a Neural Network》是一篇更偏工程性改進(jìn)的文章，但是帶來的效果提升非常顯著。

Caruana等人在2006年提出了將集成知識(shí)壓縮到單模型的可能性，論文中也明確提到了這一點(diǎn)。

Hinton等人的工作是提出了一種簡單有效的知識(shí)遷移框架，相較于Caruana團(tuán)隊(duì)的方法更加通用。

方法看上去非常簡單：

用軟目標(biāo)代替硬目標(biāo)
在softmax層加入溫度參數(shù)T。當(dāng)T=1時(shí)，就是普通的softmax輸出。T越大，輸出的概率分布越平滑（soft）。

他們認(rèn)為此前人們習(xí)慣性地將模型中的知識(shí)與模型的具體參數(shù)綁定在一起，因此很難想到該如何在改變模型結(jié)構(gòu)的同時(shí)仍舊保留這些知識(shí)。

如果把知識(shí)看作是輸入向量到輸出向量的一個(gè)抽象映射，而不是某種固定的參數(shù)實(shí)現(xiàn)，就能更容易理解如何將知識(shí)從一個(gè)模型轉(zhuǎn)移到另一個(gè)模型。

知識(shí)蒸餾的關(guān)鍵就是讓小模型模仿大模型的“理解方式”，如果大模型是多個(gè)模型的集成，表現(xiàn)出很強(qiáng)的泛化能力，那就通過蒸餾訓(xùn)練小模型去學(xué)習(xí)這種泛化方式，這種方法能讓小模型集成大模型的知識(shí)精髓，同時(shí)更適合實(shí)際應(yīng)用部署。

怎么將泛化能力轉(zhuǎn)移？

讓大模型生成類別概率作為軟目標(biāo)，以此訓(xùn)練小模型。

在這個(gè)轉(zhuǎn)移階段，使用與原始訓(xùn)練相同的數(shù)據(jù)集，或者單獨(dú)準(zhǔn)備一個(gè)“遷移”數(shù)據(jù)集。

如果大模型是由多個(gè)模型集成，那就取它們的預(yù)測平均值。

軟目標(biāo)的特點(diǎn)是，它具有高熵時(shí)（即預(yù)測的概率分布更平滑），每個(gè)訓(xùn)練樣本中包含的信息量比硬目標(biāo)要多得多，訓(xùn)練樣本之間的梯度變化也更小。

因此，用軟目標(biāo)訓(xùn)練小模型時(shí)，往往可以使用比原始模型更少的數(shù)據(jù)，并且可以采用更高的學(xué)習(xí)率。

小模型可以用無標(biāo)簽數(shù)據(jù)或原始訓(xùn)練。如果用原始訓(xùn)練數(shù)據(jù)，可以讓小模型同時(shí)學(xué)習(xí)來自大模型的軟目標(biāo)和真實(shí)標(biāo)簽，這樣效果會(huì)更加好。

具體方法是使用軟目標(biāo)的交叉熵?fù)p失、真實(shí)標(biāo)簽的交叉熵?fù)p失兩個(gè)目標(biāo)函數(shù)加權(quán)平均。如果真實(shí)標(biāo)簽的交叉熵?fù)p失權(quán)重較小時(shí)，往往能獲得最佳效果。

此外，他們還發(fā)現(xiàn)軟目標(biāo)的梯度大小隨著T2縮放，同時(shí)使用真實(shí)標(biāo)簽和軟目標(biāo)時(shí)，比如將軟目標(biāo)的梯度乘以T2，這樣可以確保在調(diào)整蒸餾溫度這一超參數(shù)時(shí)，硬目標(biāo)和軟目標(biāo)的相對貢獻(xiàn)保持大致不變。

實(shí)驗(yàn)結(jié)果顯示，在MINIST數(shù)字時(shí)延中，教師模型（1200層）的錯(cuò)誤案例為67個(gè)，學(xué)生模型（800層）使用蒸餾后的錯(cuò)誤案例為74個(gè)。

在JFT數(shù)據(jù)集上，基準(zhǔn)模型的錯(cuò)誤率為27.4%，集成模型的錯(cuò)誤率為25%。蒸餾模型錯(cuò)誤率為25.6%，效果接近集成模型但計(jì)算量大幅減少。

語音識(shí)別實(shí)驗(yàn)上，蒸餾模型也達(dá)到了與集成模型相同的性能，但是僅使用了3%的訓(xùn)練數(shù)據(jù)。

或許還有很多滄海遺珠

值得一提的是，Vinyals還表示，提出了LSTM的Jürgen Schmidhuber在1991年發(fā)表的一篇文章，這可能與現(xiàn)在火熱的長上下文息息相關(guān)。

他提到的應(yīng)該是《Learning complex, extended sequences using the principle of history compression》這篇論文。其核心內(nèi)容是利用歷史壓縮的原則，即通過模型結(jié)構(gòu)和算法將序列的歷史信息有效地編碼和存儲(chǔ)，從而減少處理長序列時(shí)的計(jì)算開銷，同時(shí)保留關(guān)鍵的信息。

有人就說，不妨設(shè)置一個(gè)時(shí)間檢驗(yàn)獎(jiǎng)?lì)C給那些未被接收的論文吧。

同時(shí)也有人在這個(gè)話題下想到了DeepSeek。

曾在蘋果、谷歌工作過的Matt Henderson表示，DeepSeek做的蒸餾只是基于教師模型輸出的微調(diào)，并沒有用到軟目標(biāo)（因?yàn)槟Ｐ偷姆衷~方式不同）。

Vinyals回應(yīng)說，那看來我們?nèi)≌麴s這個(gè)名字真的不錯(cuò)~

責(zé)任編輯：張燕妮來源：量子位

模型 AI 語音

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<style id="gg3hm"></style>

<style id="gg3hm"></style><sub id="gg3hm"></sub>

<cite id="gg3hm"></cite>