自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Scaling Law不是唯一視角!清華劉知遠(yuǎn)團(tuán)隊(duì)提出大模型“密度定律”:模型能力密度100天翻番

人工智能
清華NLP實(shí)驗(yàn)室劉知遠(yuǎn)教授團(tuán)隊(duì),最新提出大模型的密度定律(densing law),表達(dá)形式讓人想到芯片領(lǐng)域的摩爾定律:模型能力密度隨時(shí)間呈指數(shù)級增長,2023年以來能力密度約每3.3個(gè)月(約100天)翻一倍。

Scaling Law并非描述大模型能力的唯一視角!

清華NLP實(shí)驗(yàn)室劉知遠(yuǎn)教授團(tuán)隊(duì),最新提出大模型的密度定律(densing law),表達(dá)形式讓人想到芯片領(lǐng)域的摩爾定律:

模型能力密度隨時(shí)間呈指數(shù)級增長,2023年以來能力密度約每3.3個(gè)月(約100天)翻一倍。

圖片

根據(jù)密度定律,研究團(tuán)隊(duì)還得出以下重要推論——AI時(shí)代的三大核心引擎——電力、算力與智力,都同樣遵循密度快速增長趨勢。

圖片圖片

為了發(fā)現(xiàn)這一結(jié)論,研究團(tuán)隊(duì)引入了一項(xiàng)衡量大模型性價(jià)比的新指標(biāo)——能力密度(capability density)。

團(tuán)隊(duì)通過設(shè)置參考模型的方式,將“能力密度”定義為了“有效參數(shù)量”與實(shí)際參數(shù)量的比值。

給定目標(biāo)模型后,其“有效參數(shù)量”被定義為實(shí)現(xiàn)與目標(biāo)模型一樣的效果,參考模型需要的最少參數(shù)量。

論文第一作者肖朝軍表示,根據(jù)擬合曲線,到了明年年底,只要8B參數(shù)就能實(shí)現(xiàn)和GPT-4一樣的效果。

圖片

論文地址:https://arxiv.org/abs/2412.04315

大模型“能力密度”三個(gè)月翻一番

大模型尺度定律(Scaling Law)和密度定律(Densing Law),都是大模型指導(dǎo)性的規(guī)律發(fā)現(xiàn)。

它們分別在不同的維度,對大模型進(jìn)行科學(xué)化的推演。

大模型尺度定律是一種描述大模型隨著規(guī)模的變化而發(fā)生的規(guī)律性變化的數(shù)學(xué)表達(dá),表現(xiàn)為大模型的Loss與模型參數(shù)規(guī)模、訓(xùn)練數(shù)據(jù)規(guī)模之間的冪律關(guān)系。

尺度定律之外,清華研究團(tuán)隊(duì)發(fā)現(xiàn),大模型還有另一種度量與優(yōu)化的空間,能力密度(Capability Density),它為評估不同規(guī)模 LLM 的訓(xùn)練質(zhì)量提供了新的統(tǒng)一度量框架。

清華研究團(tuán)隊(duì)提出的“能力密度”(Capability Density),定義為給定LLM的有效參數(shù)大小與實(shí)際參數(shù)大小的比率。

有效參數(shù)大小指的是達(dá)到與目標(biāo)模型同等性能所需的參考模型的參數(shù)數(shù)量。

清華研究團(tuán)隊(duì)特別引入了參考模型(Reference Model)的概念,通過擬合參考模型在不同參數(shù)規(guī)模下的性能表現(xiàn),建立起參數(shù)量與性能之間的映射關(guān)系。

具體來說,若一個(gè)目標(biāo)模型M的參數(shù)量為NM ,其在下游任務(wù)上的性能分?jǐn)?shù)為SM,研究人員會計(jì)算出參考模型要達(dá)到相同性能所需的參數(shù)量 N(SM),即“有效參數(shù)量”。

目標(biāo)模型M的密度就定義為這個(gè)“有效參數(shù)量”與其實(shí)際參數(shù)量的比值:

ρ(M) = N(SM)/NM。

比如一個(gè)3B的模型能達(dá)到6B參考模型的性能,那么這個(gè)3B模型的能力密度就是2(6B/3B)。

為了準(zhǔn)確估計(jì)模型性能,研究團(tuán)隊(duì)采用了兩步估計(jì)法。

第一步是損失(Loss)估計(jì),通過一系列不同規(guī)模的參考模型來擬合參數(shù)量與語言模型Loss之間的關(guān)系;

第二步是性能估計(jì),考慮到涌現(xiàn)能力的存在,研究人員結(jié)合開源模型來計(jì)算它們的損失和性能,最終建立起完整的映射關(guān)系。

通過研究分析近年來29個(gè)被廣泛使用的開源大模型,清華研究團(tuán)隊(duì)發(fā)現(xiàn),LLMs的最大能力密度隨時(shí)間呈指數(shù)增長趨勢,可以用公式ln(ρmax) = At + B來描述.

其中ρmax是時(shí)間t時(shí)LLMs的最大能力密度。

密度定律表明,大約每過3.3個(gè)月(100天),就能用參數(shù)量減半的模型達(dá)到當(dāng)前最先進(jìn)模型的性能水平。

圖片

ChatGPT發(fā)布后,能力密度增長更快了

基于密度法則,清華研究團(tuán)隊(duì)提出了多個(gè)重要推論。

首先,模型推理開銷隨時(shí)間指數(shù)級下降。

2022年12月的GPT-3.5模型每百萬Token的推理成本為20美元,而2024年8月的Gemini-1.5-Flash模型僅為0.075美元,成本降低了266倍,約2.5個(gè)月下降一倍。

與此同時(shí),大模型推理算法不斷取得新的技術(shù)突破——模型量化、投機(jī)采樣、顯存優(yōu)化。

圖片

其次,研究還發(fā)現(xiàn),自ChatGPT發(fā)布以來,大模型能力密度正在加速增強(qiáng)。

以MMLU為評測基準(zhǔn)測量的能力密度變化情況,ChatGPT發(fā)布前按照每4.8倍增,發(fā)布后按照每3.2月倍增,密度增強(qiáng)速度增加50%。

這一現(xiàn)象背后,更高效模型引起了學(xué)術(shù)界和產(chǎn)業(yè)的廣泛關(guān)注,誕生了更多高質(zhì)量開源模型。

圖片

再次,芯片電路密度(摩爾定律)和模型能力密度(密度定律)持續(xù)增強(qiáng),兩條曲線交匯揭示端側(cè)智能巨大潛力。

研究顯示,在摩爾定律的作用下,相同價(jià)格芯片的計(jì)算能力每2.1年翻倍,而密度法則表明模型的有效參數(shù)規(guī)模每3.3個(gè)月翻倍。

兩條曲線的交匯,意味著主流終端如PC、手機(jī)將能運(yùn)行更高能力密度的模型,推動端側(cè)智能在消費(fèi)市場普及。

圖片

此外,團(tuán)隊(duì)指出,無法僅依靠模型壓縮算法增強(qiáng)模型能力密度。

也就是說,現(xiàn)有的模型壓縮技術(shù)(如剪枝和蒸餾)未必能提高模型密度。

實(shí)驗(yàn)表明,大多數(shù)壓縮模型的密度低于原始模型,模型壓縮算法雖可以節(jié)省小參數(shù)模型構(gòu)建開銷。

但是如果后訓(xùn)練不充分,小參數(shù)模型能力密度非但不會增長,反而會有顯著下降。

圖片

最后,研究團(tuán)隊(duì)指出,模型高性價(jià)比有效期不斷縮短。

根據(jù)尺度定律,更多數(shù)據(jù)+更多參數(shù)實(shí)現(xiàn)能力增強(qiáng),訓(xùn)練成本會急劇上升;

而能力密度定律,隨著能力密度加速增強(qiáng),每隔數(shù)月會出現(xiàn)更加高效的模型。

這意味著模型高性價(jià)比的有效使用期縮短,盈利窗口短暫。

例如,2024年6月發(fā)布的Google Gemma-2-9B模型,其訓(xùn)練成本約185 萬人民幣;

但僅兩個(gè)月后,它的性能就被參數(shù)量減半的MiniCPM-3-4B超越。

以API盈利方式估算,2個(gè)月內(nèi)需要17億次用戶訪問,才能夠收回訓(xùn)練成本!

圖片

尺度定律下,LLM規(guī)模至上。而在密度定律下,LLM正進(jìn)入一個(gè)全新的發(fā)展階段。

在清華劉知遠(yuǎn)老師最新報(bào)告中,AI時(shí)代的三大核心引擎——電力、算力與智力,密度都在快速增長:

  • 電池能量密度在過去20年中增長了4倍,其倍增周期約為10年;
  • 摩爾定律則揭示,芯片的晶體管密度每18個(gè)月翻倍;
  • 而AI模型能力密度每100天翻倍的速度更是驚人。

圖片

尤其是模型能力密度的提升也意味著用更少的資源實(shí)現(xiàn)更強(qiáng)的能力,這不僅降低了AI發(fā)展對能源和算力的需求,也為AI技術(shù)的可持續(xù)發(fā)展提供了無限可能。同時(shí)也揭示了端側(cè)智能的巨大潛力。

在這一趨勢下,AI計(jì)算從中心端到邊緣端的分布式特性協(xié)同高效發(fā)展,將實(shí)現(xiàn)“AI無處不在”的愿景。

作者預(yù)計(jì),隨著全球AI計(jì)算云端數(shù)據(jù)中心、邊緣計(jì)算節(jié)點(diǎn)的擴(kuò)張,加上模型能力密度增長帶來的效率提升,我們將看到更多本地化的AI模型涌現(xiàn),云端和邊緣端各司其職,可運(yùn)行LLM的終端數(shù)量和種類大幅增長,“AI 無處不在”的未來正在到來。

論文地址:https://arxiv.org/abs/2412.04315

責(zé)任編輯:姜華 來源: 量子位
相關(guān)推薦

2024-12-09 17:20:29

2024-12-10 09:00:00

AI邊緣計(jì)算

2022-04-06 15:00:03

模型人工智能研究

2024-08-29 14:05:00

數(shù)據(jù)模型

2024-09-02 14:30:00

數(shù)據(jù)訓(xùn)練

2025-04-11 09:15:00

語言模型AI數(shù)據(jù)

2024-10-11 14:00:00

模型數(shù)據(jù)

2024-11-11 17:35:11

2023-06-20 13:44:49

清華推理

2024-02-23 11:27:00

數(shù)據(jù)技術(shù)

2025-02-21 13:20:00

2024-09-11 12:31:59

2025-03-17 12:55:18

2023-10-31 17:28:00

數(shù)據(jù)訓(xùn)練

2024-12-24 10:30:00

2024-11-11 14:00:00

AI模型

2023-09-10 10:51:22

算法結(jié)構(gòu)

2025-04-23 12:09:25

RL大模型進(jìn)化

2023-11-23 07:41:54

因果推斷大模型

2024-09-20 16:20:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號