自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質的IT技術網站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

蘋果也在蒸餾大模型，給出了蒸餾Scaling Laws

輕薄滴假象

發(fā)布于 2025-2-14 12:34

瀏覽

0收藏

眾所周知，知識蒸餾技術當前正被大模型領域廣泛使用，它可以在大幅壓縮模型體量的同時保持一定的性能、降低模型時延、提升模型精度，與此同時還能對知識域進行集成和遷移。

近日，蘋果研究人員提出了一種蒸餾擴展定律（Distillation Scaling Laws），基于計算預算及其在學生和教師之間的分配，我們現(xiàn)在開始可以估算蒸餾模型的性能了。

蘋果也在蒸餾大模型，給出了蒸餾Scaling Laws-AI.x社區(qū)

圖 1. 蒸餾擴展定律的外推。蒸餾擴展定律適用于一系列損失為 LT 的教師的弱學生模型（L_S > 2.3）。實線表示給定學生配置（插值）下未見過的教師的預測模型行為，虛線表示見過的教師之外和強學生區(qū)域（L_S ≤ 2.3）的預測模型行為。如圖所示，學生的表現(xiàn)可以勝過老師（詳情見圖 2、3 和 41）。

蘋果研究者認為，該發(fā)現(xiàn)降低了大規(guī)模使用蒸餾的風險，現(xiàn)在我們可以基于此優(yōu)化教師和學生模型的計算分配，以最大化學生模型的性能。該工作提供的計算最優(yōu)的蒸餾方案適用于兩種情況：1）已有教師模型，或 2）需要訓練教師模型。

如果要蒸餾多個學生模型，或者已有教師模型，蒸餾在計算水平上優(yōu)于監(jiān)督預訓練，直到計算水平隨著學生模型規(guī)模的增加而可預測地增長。如果要蒸餾一個學生模型且還需要訓練教師模型，則應采用監(jiān)督學習。此外，作者在大規(guī)模蒸餾研究中提供了深入的見解，這些見解增加了我們對蒸餾的理解，并為實驗設計提供了信息。

蘋果也在蒸餾大模型，給出了蒸餾Scaling Laws-AI.x社區(qū)

論文標題：Distillation Scaling Laws
論文鏈接：https://arxiv.org/pdf/2502.08606

大模型的擴展定律（Scaling Laws）表明，如果先前訓練的語言模型（LM）遵循計算最優(yōu)訓練范式，就可以隨著計算力提升而提升。由于推理成本的持續(xù)增長，目前這種定律難以持續(xù)，人們嘗試使用過度訓練（其中訓練數(shù)據(jù)量遠大于計算最優(yōu)情況）來實現(xiàn)小型、功能強大的模型。這些模型的構建既昂貴又耗時。

我們正在尋求與訓練算力投入相匹配，但訓練成本更低的模型，蒸餾是一種流行的方法。但長期以來，學界對蒸餾缺乏共識，并不了解如何分配計算資源，以產生最強大的模型。為了彌補這一知識差距，研究人員對蒸餾進行了廣泛研究，學生和老師的參數(shù)范圍從 1.43 億到 126 億，使用訓練數(shù)據(jù)最多達 5120 億 token。

研究發(fā)現(xiàn)：

蘋果也在蒸餾大模型，給出了蒸餾Scaling Laws-AI.x社區(qū)

一個大小為 N_S 的學生模型，通過從大小為 N_T 的教師模型中蒸餾 D_S 個 token 所得到的交叉熵，可以通過蒸餾擴展定律（公式 8）進行預測。
老師大小 N_T 和老師訓練 token 數(shù)量 D_T 僅通過確定老師的交叉熵 L_T = L_T (N_T , D_T) 來確定學生交叉熵；
老師交叉熵對學生損失的影響遵循冪律，該冪律根據(jù)學生和老師的相對學習能力在兩種行為之間轉換，反映了蒸餾中稱為能力差距的現(xiàn)象，即較強的老師會產生較差的學生。該工作的參數(shù)化解決了有關能力差距懸而未決的問題，表明這是老師和學生之間學習能力（假設空間和優(yōu)化能力）的差距，而不僅僅是他們的相對大小，后者其實是一種特殊情況。

該結果表明，當兩個學習過程都有足夠的數(shù)據(jù)或計算時，蒸餾不能產生比監(jiān)督學習更低的模型交叉熵。但是，如果以下兩個條件都成立，則蒸餾比監(jiān)督學習更有效：

1. 用于學生的總計算或 token 不大于新擴展定律給出的學生大小相關閾值；

2. 老師已經存在，或者要訓練的老師有超出單次蒸餾的用途。

新的定律和分析有望指導 AI 社區(qū)構建更強大的模型，實現(xiàn)更低的推理成本和總計算成本。

蒸餾擴展率

文章概述了他們如何得出蒸餾擴展率所采取的步驟。

首先是實驗設置。本文的目標是理解教師模型在蒸餾過程中的作用，因此，該研究在純蒸餾情況下（λ = 1，公式 7）進行蒸餾，以避免數(shù)據(jù)帶來的混淆。本文驗證了 λ = 1 的選擇能夠產生與最優(yōu) λ? 統(tǒng)計相似的結果。同樣，所有實驗均使用蒸餾溫度（τ = 1），因為該研究發(fā)現(xiàn)這能產生性能最佳的學生模型。

蘋果也在蒸餾大模型，給出了蒸餾Scaling Laws-AI.x社區(qū)

蘋果也在蒸餾大模型，給出了蒸餾Scaling Laws-AI.x社區(qū)

表 1 是文中出現(xiàn)的符號代表內容：

蘋果也在蒸餾大模型，給出了蒸餾Scaling Laws-AI.x社區(qū)

蘋果也在蒸餾大模型，給出了蒸餾Scaling Laws-AI.x社區(qū)

對應中文版本

此外，對于實驗數(shù)據(jù)的選擇，本文結合了三種方案：

固定 M 的教師 / 學生 IsoFLOP 實驗：

本文預測在固定教師模型的情況下，學生模型的參數(shù)（N_S）和訓練 token 數(shù)量（D_S）之間會呈現(xiàn)出冪律行為。

為了在給定的計算預算內生成盡可能多樣的教師模型，本文訓練了六個 Chinchilla 最優(yōu)教師模型，其參數(shù)范圍從 1.98 億到 77.5 億。對于每一個教師模型，本文按照標準訓練成本，將其蒸餾到具有四種 IsoFLOP 配置的學生模型中。最終得到的學生模型交叉熵如圖 2 所示。作者還注意到，在某些情況下，學生模型能夠超越教師模型的表現(xiàn)，即展現(xiàn)出弱到強的泛化能力。

蘋果也在蒸餾大模型，給出了蒸餾Scaling Laws-AI.x社區(qū)

注：為實現(xiàn)擴展系數(shù)的可靠識別，此前有研究使用了兩種策略：

（固定模型，變化數(shù)據(jù)）對于一個固定的模型族，變化訓練 token 的數(shù)量。
（IsoFLOP 配置）在總計算約束下，同時變化模型大小和訓練 token 的數(shù)量。

為了確保實驗能夠檢測到這種影響，本文設定學生（N_S，D_S）是固定的，而 N_T 和 D_T 在計算約束下變化。本文進行了蒸餾實驗，將四個 Chinchilla 最優(yōu)（M_S = D_S/N_S ≈ 20）的學生（其參數(shù)范圍從 1.98 億到 18.2 億），從根據(jù)四種 IsoFLOP 配置訓練的教師中蒸餾出來。最終得到的學生交叉熵如圖 3 所示。

蘋果也在蒸餾大模型，給出了蒸餾Scaling Laws-AI.x社區(qū)

最后，本文訓練了固定 M 的教師模型與固定 M 的學生模型的組合，其中包含十個教師模型（M_T ≈ 20）和五種規(guī)模的學生模型，每個學生模型至少對應四種 M_S 選擇。其中兩個學生模型的交叉熵結果如圖 4 所示。

蘋果也在蒸餾大模型，給出了蒸餾Scaling Laws-AI.x社區(qū)

此外，本文還需要確定蒸餾擴展定律的函數(shù)形式。首先，本文觀察到教師模型的大小 N_T 和預訓練 token 數(shù)量 D_T 的貢獻可以通過教師模型的交叉熵 L_T 來總結。這可以從圖 1 和圖 3b 中看出：

蘋果也在蒸餾大模型，給出了蒸餾Scaling Laws-AI.x社區(qū)

總之，本文提出，學生交叉熵在 L_T 中遵循 broken 冪律，在 N_S 和 D_S 中遵循冪律：

蘋果也在蒸餾大模型，給出了蒸餾Scaling Laws-AI.x社區(qū)

在此之后，論文分析了在不同計算預算下如何最優(yōu)地分配教師和學生模型的資源，包括教師模型的訓練成本和學生模型的蒸餾成本，并比較了蒸餾和監(jiān)督學習在不同計算預算下的性能，發(fā)現(xiàn)當教師模型的訓練成本被考慮時，監(jiān)督學習通常更有效。

這項工作代表了已知最大規(guī)模的蒸餾受控實證研究，系統(tǒng)消融了常見的蒸餾技術。正如監(jiān)督擴展減輕了監(jiān)督預訓練中的風險一樣，新工作為生產更小、更強大的模型提供了路線圖，并增強了測試時擴展的可行性。

本文轉自機器之心，作者：機器之心

原文鏈接:??https://mp.weixin.qq.com/s/ahHtRBok0jVzyYUKRihvVg??

標簽

已于2025-2-14 14:02:39修改

贊

收藏

回復

舉報

回復

相關推薦

LLM | 利用分布匹配蒸餾技術快速合成圖像

sbf_2000 ? 2796瀏覽 ? 0回復
AI慢思考蒸餾進快思考，Llama2躍升至GPT-4水平，不寫過程也能做對題

Crystalcxt ? 1973瀏覽 ? 0回復
Meta發(fā)表的將系統(tǒng)2模型蒸餾至系統(tǒng)1模型

sbf_2000 ? 2117瀏覽 ? 0回復
理性看待、正確理解AI中的 Scaling “laws”

Baihai_IDP ? 2172瀏覽 ? 0回復
LLM蒸餾到GNN，性能提升6.2%！Emory提出大模型蒸餾到文本圖｜CIKM 2024

duhorse ? 1939瀏覽 ? 0回復
LLM 剪枝+蒸餾：NVIDIA 的最佳實踐

amei2000go ? 3717瀏覽 ? 0回復
《解讀論文：Scaling Laws For Diffusion Transformers》

智能交互引擎 ? 2062瀏覽 ? 0回復
Scaling laws在視覺自回歸模型上失效了？谷歌聯(lián)合MIT發(fā)布Fluid：文生圖質量刷新紀錄！

angel ? 2816瀏覽 ? 0回復
ACL2024 |解釋引導的大語言模型主動蒸餾：一種優(yōu)化知識轉移的創(chuàng)新框架 "ELAD"

arnoldzhw ? 2531瀏覽 ? 0回復
一文說清楚"知識蒸餾"（讓“小模型”也能擁有“大智慧”）

AI取經路 ? 1.5w瀏覽 ? 0回復
被 DeepSeek 帶火的蒸餾到底是啥

芝士AI吃魚 ? 4920瀏覽 ? 0回復
李飛飛+50美元+蒸餾 S1=? DeepSeekR1

CourseAI ? 1944瀏覽 ? 0回復
一文搞懂 DeepSeek - 強化學習和蒸餾

玄姐聊AGI ? 2768瀏覽 ? 0回復
LLMs的知識蒸餾：技術和應用

柏企閱文 ? 2379瀏覽 ? 0回復
一文搞懂 DeepSeek 的蒸餾技術和案例實踐

玄姐聊AGI ? 5732瀏覽 ? 0回復
輕量化AI的崛起：蒸餾模型如何在資源有限中大放異彩

Halo咯咯 ? 1950瀏覽 ? 0回復
基于代理知識蒸餾技術克服文檔提取和RAG策略失敗問題?

51CTO內容精選 ? 1015瀏覽 ? 0回復
TinyR1-32B-Preview: 通過全新分支合并蒸餾技術讓大模型瘦身不掉智商

sbf_2000 ? 1119瀏覽 ? 0回復
大模型展示的推理過程可信嗎？Anthropic這項研究給出了一些答案

Syrupup ? 960瀏覽 ? 0回復

輕薄滴假象

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

DeepSeek一口氣開源3個項目，還有梁文鋒親自參與，昨晚API大降價 2025-02-27 12:40:06發(fā)布
全球首個AI CUDA工程師來了！將PyTorch原生實現(xiàn)提速10-100倍 2025-02-21 13:20:31發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復

王炸！MCP 架構設計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

只需5分鐘，教你用Python搭建MCP Server 0回復

上一篇： ??！DeepSeek-R1、o3-mini能解奧數(shù)題卻算不了多位數(shù)乘法？

下一篇：全球首個AI CUDA工程師來了！將PyTorch原生實現(xiàn)提速10-100倍

社區(qū)精華內容

目錄

<abbr id="jpgap"></abbr>

<blockquote id="jpgap"></blockquote>