自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

LLM最大能力密度100天翻一倍!清華劉知遠(yuǎn)團(tuán)隊(duì)提出Densing Law

人工智能 新聞
根據(jù)密度定律,研究團(tuán)隊(duì)還得出以下重要推論,并且發(fā)現(xiàn) AI 時(shí)代的三大核心引擎——電力、算力與智力,都同樣遵循密度快速增長趨勢。

支持大模型一路狂飆的 Scaling Law 到頭了?

近期,AI 圈針對(duì) Scaling Law 是否到頭產(chǎn)生了分歧。一派觀點(diǎn)認(rèn)為 Scaling Law 已經(jīng)「撞墻」了,另一派觀點(diǎn)(如 OpenAI CEO Sam Altman)仍然堅(jiān)定 Scaling Law 的潛力尚未窮盡。

其實(shí)以上爭論的核心點(diǎn)在于,大模型的性能提升是否還能繼續(xù)靠無限堆疊數(shù)據(jù)和參數(shù)規(guī)模從而大力出奇跡。

然而 Scaling Law 并非唯一的視角,近期,來自清華大學(xué)劉知遠(yuǎn)教授團(tuán)隊(duì)發(fā)現(xiàn)并提出大模型的密度定律(Densing Law)—— 模型能力密度隨時(shí)間呈指數(shù)級(jí)增長,2023 年以來能力密度約每 3.3 個(gè)月(約 100 天) 翻一倍。這意味著每 100 天,我們可以用一半?yún)?shù)量實(shí)現(xiàn)當(dāng)前最優(yōu)模型相當(dāng)?shù)男阅堋?/span>

根據(jù)密度定律,研究團(tuán)隊(duì)還得出以下重要推論,并且發(fā)現(xiàn) AI 時(shí)代的三大核心引擎——電力、算力與智力,都同樣遵循密度快速增長趨勢。

  • 推論 1 :模型推理開銷隨時(shí)間指數(shù)級(jí)下降。
  • 推論 2 :大模型能力密度正在加速增強(qiáng) 。
  • 推論 3:模型小型化揭示端側(cè)智能巨大潛力 。
  • 推論 4:無法依靠模型壓縮算法增強(qiáng)模型能力密度 。
  • 推論 5:模型高性價(jià)比有效期不斷縮短。

圖片

該定律還揭示了端側(cè)智能的巨大潛力,并指出未來應(yīng)持續(xù)探索大模型科學(xué)化建設(shè)路徑,不斷改進(jìn)模型制造工藝,實(shí)現(xiàn)大模型的高質(zhì)量、可持續(xù)發(fā)展。

相關(guān)研究成果可參考論文《Densing Law of LLMs》。

圖片

  • 論文標(biāo)題:Densing Law of LLMs
  • 論文鏈接:https://arxiv.org/pdf/2412.04315v2

Scaling Law 和 Densing Law

大模型尺度定律(Scaling Law)和密度定律(Densing Law),都是大模型指導(dǎo)性的規(guī)律發(fā)現(xiàn)。它們分別在不同的維度,對(duì)大模型進(jìn)行科學(xué)化的推演。

大模型尺度定律是一種描述大模型隨著規(guī)模的變化而發(fā)生的規(guī)律性變化的數(shù)學(xué)表達(dá),表現(xiàn)為大模型的 Loss 與模型參數(shù)規(guī)模、訓(xùn)練數(shù)據(jù)規(guī)模之間的冪律關(guān)系。

尺度定律之外,清華研究團(tuán)隊(duì)發(fā)現(xiàn),大模型還有另一種度量與優(yōu)化的空間,能力密度(Capability Density),它為評(píng)估不同規(guī)模 LLM 的訓(xùn)練質(zhì)量提供了新的統(tǒng)一度量框架。

清華研究團(tuán)隊(duì)提出的「能力密度」(Capability Density),定義為給定 LLM 的有效參數(shù)大小與實(shí)際參數(shù)大小的比率。有效參數(shù)大小指的是達(dá)到與目標(biāo)模型同等性能所需的參考模型的參數(shù)數(shù)量。清華研究團(tuán)隊(duì)特別引入了參考模型(Reference Model)的概念,通過擬合參考模型在不同參數(shù)規(guī)模下的性能表現(xiàn),建立起參數(shù)量與性能之間的映射關(guān)系。

具體來說,若一個(gè)目標(biāo)模型 M 的參數(shù)量為 N_M ,其在下游任務(wù)上的性能分?jǐn)?shù)為 S_M,研究人員會(huì)計(jì)算出參考模型要達(dá)到相同性能所需的參數(shù)量 N (S_M),即「有效參數(shù)量」。目標(biāo)模型 M 的密度就定義為這個(gè)「有效參數(shù)量」與其實(shí)際參數(shù)量的比值:圖片比如一個(gè) 3B 的模型能達(dá)到 6B 參考模型的性能,那么這個(gè) 3B 模型的能力密度就是 2(6B/3B)。

為了準(zhǔn)確估計(jì)模型性能,研究團(tuán)隊(duì)采用了兩步估計(jì)法。第一步是損失(Loss)估計(jì),通過一系列不同規(guī)模的參考模型來擬合參數(shù)量與語言模型 Loss 之間的關(guān)系;第二步是性能估計(jì),考慮到涌現(xiàn)能力的存在,研究人員結(jié)合開源模型來計(jì)算它們的損失和性能,最終建立起完整的映射關(guān)系。

通過研究分析近年來 29 個(gè)被廣泛使用的開源大模型,清華研究團(tuán)隊(duì)發(fā)現(xiàn),LLM 的最大能力密度隨時(shí)間呈指數(shù)增長趨勢,可以以下公式來描述,其中 ρ_max 是時(shí)間 t 時(shí) LLM 的最大能力密度。

圖片

密度定律表明,大約每過 3.3 個(gè)月 (100 天),我們就能用參數(shù)量減半的模型達(dá)到當(dāng)前最先進(jìn)模型的性能水平。

基于密度定律,清華研究團(tuán)隊(duì)提出了多個(gè)重要推論。

首先,模型推理開銷隨時(shí)間指數(shù)級(jí)下降。2022 年 12 月的 GPT-3.5 模型每百萬 Token 的推理成本為 20 美元,而 2024 年 8 月的 Gemini-1.5-Flash 模型僅為 0.075 美元,成本降低了 266 倍,約 2.5 個(gè)月下降一倍。與此同時(shí),大模型推理算法不斷取得新的技術(shù)突破:模型量化、投機(jī)采樣、顯存優(yōu)化 。

圖片

其次,研究還發(fā)現(xiàn),自 ChatGPT 發(fā)布以來,大模型能力密度正在加速增強(qiáng) 。

以 MMLU 為評(píng)測基準(zhǔn)測量的能力密度變化情況,ChatGPT 發(fā)布前按照每 4.8 月倍增,發(fā)布后按照每 3.2 月倍增,密度增強(qiáng)速度增加 50% 。這一現(xiàn)象背后,更高效模型引起了學(xué)術(shù)界和產(chǎn)業(yè)的廣泛關(guān)注,誕生了更多高質(zhì)量開源模型。

圖片

再次,芯片電路密度 (摩爾定律) 和模型能力密度 (密度定律) 持續(xù)增強(qiáng),兩條曲線交匯揭示端側(cè)智能巨大潛力。研究顯示,在摩爾定律的作用下,相同價(jià)格芯片的計(jì)算能力每 2.1 年翻倍,而密度法則表明模型的有效參數(shù)規(guī)模每 3.3 個(gè)月翻倍。兩條曲線的交匯,意味著主流終端如 PC、手機(jī)將能運(yùn)行更高能力密度的模型,推動(dòng)端側(cè)智能在消費(fèi)市場普及。

圖片

此外,團(tuán)隊(duì)指出,無法僅依靠模型壓縮算法增強(qiáng)模型能力密度 ?,F(xiàn)有的模型壓縮技術(shù)(如剪枝和蒸餾)未必能提高模型密度。實(shí)驗(yàn)表明,大多數(shù)壓縮模型的密度低于原始模型,模型壓縮算法雖可以節(jié)省小參數(shù)模型構(gòu)建開銷,但是如果后訓(xùn)練不充分,小參數(shù)模型能力密度將會(huì)有顯著下降。

圖片

最后,研究團(tuán)隊(duì)指出,模型高性價(jià)比有效期不斷縮短。根據(jù)尺度定律,更多數(shù)據(jù) + 更多參數(shù)實(shí)現(xiàn)能力增強(qiáng),訓(xùn)練成本會(huì)急劇上升;而能力密度定律,隨著能力密度加速增強(qiáng),每隔數(shù)月會(huì)出現(xiàn)更加高效的模型。這意味著模型高性價(jià)比的有效使用期縮短,盈利窗口短暫。例如,2024 年 6 月發(fā)布的 Google Gemma-2-9B 模型,其訓(xùn)練成本約 185 萬人民幣,但僅兩個(gè)月后,它的性能就被參數(shù)量減半的 MiniCPM-3-4B 超越。以 API 盈利方式估算,2 個(gè)月內(nèi)需要 17 億次用戶訪問,才能夠收回訓(xùn)練成本!

圖片


Densing Law(密度定律)揭示 LLM 進(jìn)入「密度至上」新發(fā)展階段

尺度定律下,LLM 規(guī)模至上。而在密度定律下,LLM 正進(jìn)入一個(gè)全新的發(fā)展階段。在清華劉知遠(yuǎn)老師最新報(bào)告中,AI 時(shí)代的三大核心引擎 —— 電力、算力與智力,密度都在快速增長:電池能量密度在過去 20 年中增長了 4 倍,其倍增周期約為 10 年;摩爾定律則揭示,芯片的晶體管密度每 18 個(gè)月翻倍;而 AI 模型能力密度每 100 天翻倍的速度更是驚人。

圖片

尤其是模型能力密度的提升也意味著用更少的資源實(shí)現(xiàn)更強(qiáng)的能力,這不僅降低了 AI 發(fā)展對(duì)能源和算力的需求,也為 AI 技術(shù)的可持續(xù)發(fā)展提供了無限可能。同時(shí)也揭示了端側(cè)智能的巨大潛力 。

在這一趨勢下,AI 計(jì)算從中心端到邊緣端的分布式特性協(xié)同高效發(fā)展,將實(shí)現(xiàn)「AI 無處不在」的愿景。隨著全球 AI 計(jì)算云端數(shù)據(jù)中心、邊緣計(jì)算節(jié)點(diǎn)的擴(kuò)張,加上模型能力密度增長帶來的效率提升,我們將看到更多本地化的 AI 模型涌現(xiàn),云端和邊緣端各司其職,可運(yùn)行 LLM 的終端數(shù)量和種類大幅增長,「AI 無處不在」的未來正在到來。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-12-10 07:00:00

大模型密度定律人工智能

2024-12-09 17:20:29

2024-04-02 10:13:25

在線小工具開發(fā)

2022-04-06 15:00:03

模型人工智能研究

2012-09-10 09:34:07

網(wǎng)絡(luò)容量

2024-03-13 15:23:47

物聯(lián)網(wǎng)蜂窩物聯(lián)網(wǎng)

2023-02-09 07:19:37

PHP編程語言Python

2020-07-22 19:36:15

區(qū)塊鏈區(qū)塊鏈技術(shù)

2023-01-31 15:10:30

AI模型

2024-03-18 09:22:43

AI模型

2021-09-28 14:14:13

人工智能機(jī)器學(xué)習(xí)技術(shù)

2020-05-12 10:43:30

谷歌算法人工智能

2016-03-15 10:57:42

數(shù)據(jù)中心

2021-11-26 10:18:37

AI 數(shù)據(jù)機(jī)器學(xué)習(xí)

2025-04-11 09:15:00

語言模型AI數(shù)據(jù)

2024-10-31 13:39:47

2015-11-09 17:53:35

程序員高薪職業(yè)

2023-05-30 14:17:00

模型推理

2025-04-23 09:06:00

AI模型LLM

2010-01-13 15:49:51

思科交換機(jī)提速
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)