自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

低精度只適用于未充分訓(xùn)練的LLM?騰訊提出LLM量化的scaling laws

人工智能 新聞
本文來自騰訊 AI Lab,介紹了一套針對于低比特量化的 scaling laws。


  • 論文標(biāo)題:Low-Bit Quantization Favors Undertrained LLMs: Scaling Laws for Quantized LLMs with 100T Training Tokens
  • 論文鏈接:https://arxiv.org/abs/2411.17691

低比特量化(low-bit quantization)和低比特大語言模型(low-bit LLM)近期受到了廣泛的關(guān)注,因?yàn)橛幸恍┭芯堪l(fā)現(xiàn),它們能夠以更小的模型規(guī)模、更低的內(nèi)存占用和更少的計(jì)算資源,取得與 fp16 或 bf16 精度相當(dāng)?shù)男阅鼙憩F(xiàn)。這一發(fā)現(xiàn)讓低比特語言模型一度被認(rèn)為是實(shí)現(xiàn)模型高效化的一個(gè)非常有前景的方向。

然而,這一觀點(diǎn)受到了騰訊 AI Lab 的挑戰(zhàn)。他們的研究發(fā)現(xiàn),低比特量化只有在未充分訓(xùn)練的 LLM(訓(xùn)練量通常在 1000 億 tokens 以內(nèi),基本不會超過 5000 億 tokens:這種 setting 在當(dāng)前的學(xué)術(shù)界研究論文中非常常見)上才能取得與 fp16/bf16 相當(dāng)?shù)男阅鼙憩F(xiàn)。隨著訓(xùn)練的深入和模型逐漸被充分訓(xùn)練,低比特量化與 fp16/bf16 之間的性能差距會顯著擴(kuò)大。

為了更系統(tǒng)地研究這一現(xiàn)象,研究人員量化了超過 1500 個(gè)不同大小以及不同訓(xùn)練程度的開源 LLM 檢查點(diǎn)。試圖觀察并建模量化所導(dǎo)致的性能退化(QiD,quantization-induced degradation,即量化后模型與原始 fp16/bf16 模型的性能差距,記作?qLoss)

圖片

最終推演出了一套針對于低比特量化的 scaling laws。通過這套 scaling laws,可以預(yù)測出當(dāng) 7B, 70B 以及 405B 的模型在訓(xùn)練規(guī)模達(dá)到 100 萬億 tokens 時(shí)低比特量化時(shí)損失(如下圖)。

圖片

根據(jù)研究人員的描述,這個(gè)工作最初是源于 2 個(gè)觀察(如下圖):a) model size 固定的情況下,training tokens 越多,QiD 就會變得越大;b) training token 數(shù)固定的情況下,model size 越小,QiD 就會變得越大??紤]到不管是減小 model size 還是增加 training tokens 都會有利于模型更充分的訓(xùn)練,因此研究人員推測在充分訓(xùn)練的模型上進(jìn)行低比特量化會造成較為嚴(yán)重的 degradation,反之在未充分訓(xùn)練的模型上則不會有太多 degradation.

圖片

為了更好地驗(yàn)證這一推測,研究人員選擇了 Pythia 系列開源語言模型進(jìn)行實(shí)驗(yàn),因?yàn)?Pythia 系列模型不僅公開了不同尺寸的 LLM,而且還開源了其中間訓(xùn)練過程的檢查點(diǎn)。研究人員選取了 160M, 410M, 1B, 2.8B, 6.9B 以及 12B 這 6 種不同尺寸的 LLM。對于每種尺寸的 LLM,又選取了其訓(xùn)練過程中間 20 個(gè)檢查點(diǎn)。對這 120 個(gè)檢查點(diǎn),研究人員用 GPTQ 對它們分別進(jìn)行了 2-bit, 3-bit, 4-bit 量化,來觀察在不同檢查點(diǎn)上量化所導(dǎo)致的性能退化(即 QiD)。

通過分別對于 training tokens, model size 以及量化比特?cái)?shù)分別的建模分析(分別建模的結(jié)果這里就不詳述了,感興趣的可以閱讀論文),最終得到一個(gè)統(tǒng)一的 scaling laws:

圖片

這里 N, D, P 分別表示模型參數(shù)量(除掉 embedding 部分),training tokens 數(shù)以及精度(比特?cái)?shù))。α, β 和 γ 分別表示它們對應(yīng)的指數(shù)(α, β, γ 均為正數(shù)),k 為聯(lián)合系數(shù)。根據(jù)這個(gè) scaling law 的公式,我們不難得到當(dāng)其它變量固定時(shí):

  • N 越大(模型越大),QiD 越小,說明越大的模型,量化掉點(diǎn)越??;
  • D 越大(訓(xùn)練數(shù)據(jù)量越大),QiD 越大,說明訓(xùn)練越多的模型,量化掉點(diǎn)越多;
  • P 越大(精度越高),QiD 越小,說明量化的精度(比特?cái)?shù))越高,量化掉點(diǎn)越小。

研究人員根據(jù)上述函數(shù)形式擬合觀測到的數(shù)據(jù)點(diǎn),得到在 Pythia 系列 LLM 的低比特量化的 scaling law 公式:

圖片

研究人員根據(jù)這個(gè)公式繪制出曲線,發(fā)現(xiàn)能夠很好地?cái)M合觀測到的數(shù)據(jù)點(diǎn):

圖片

另外,研究人員對不同測試數(shù)據(jù),不同量化方法以及不同的基礎(chǔ)模型都進(jìn)行了評測,發(fā)現(xiàn)所得到的 scaling laws 的函數(shù)形式大概率是普適成立的:

圖片

圖片

圖片

如下圖所示,我們現(xiàn)在知道了充分訓(xùn)練的 LLMs 會遭受更大的 QiD,而訓(xùn)練不足的 LLMs 則更容易實(shí)現(xiàn)近乎無損的低比特量化。那這個(gè)現(xiàn)象是怎么造成的呢?

圖片

研究人員從訓(xùn)練時(shí)權(quán)重變化幅度這一角度給出了一些見解:未經(jīng)充分訓(xùn)練的 LLMs 往往會經(jīng)歷較大幅度的權(quán)重變化,在訓(xùn)練過程中的這種大起大落式的變化會讓模型對 weight variation 變得更為魯棒 —— 即便進(jìn)行了低比特量化,量化所造成的偏離往往也要小于它在訓(xùn)練過程中經(jīng)歷的偏移;而充分訓(xùn)練的 LLM 在訓(xùn)練過程中的權(quán)重變化就會非常小了,往往在小數(shù)點(diǎn)后幾位變化,這個(gè)時(shí)候模型如果遭度更大幅度的權(quán)重變化 (如低比特量化帶來的權(quán)重變化),就非常容易造成嚴(yán)重的 degradation.

圖片

除此之外,研究人員還開創(chuàng)性地將 QiD 視為一個(gè)衡量 LLM 是否充分訓(xùn)練的指標(biāo)。如果低比特量化的 QiD≈0,那說明這個(gè) LLM 還遠(yuǎn)遠(yuǎn)沒有充分訓(xùn)練,還沒有將參數(shù)高精度的潛力發(fā)揮出來。那么根據(jù)前文所得到的 scaling laws,就可以推算出不同尺寸的 LLM 達(dá)到指定 QiD 所需要的 training tokens 數(shù),如下表:

圖片

我們以 4-bit 量化造成 QiD=0.2 為例,7B 模型達(dá)到這個(gè)程度需要近 17.3 萬億 tokens,而 405b 模型則需要將近 50 萬億 tokens. 考慮到近 4 年模型的訓(xùn)練數(shù)據(jù)量增長了近 50 倍,可以預(yù)見未來模型的訓(xùn)練量會更大(例如,未來幾年可能會達(dá)到 100 萬億 token)。隨著模型訓(xùn)練變得更加充分,低比特量化在未來的應(yīng)用前景則會變得并不明朗。

除此之外,研究人員也對于原生的(native)低比特 LLM(例如BitNet-b1.58)進(jìn)行了評測,發(fā)現(xiàn)其規(guī)律與低比特量化近乎一致,但相比于量化,原生的低比特LLM可能會在更后期才會明顯暴露這個(gè)問題——因?yàn)樵牡途扔?xùn)練能夠讓模型一直保持在低精度權(quán)重下工作的能力。盡管有一些研究聲稱原生的低比特LLM可以媲美fp16/bf16精度下的表現(xiàn),但這些研究普遍都是在未充分語言模型上得到的結(jié)果從而推出的結(jié)論,研究人員認(rèn)為在充分訓(xùn)練的情況下進(jìn)行比較的話,低比特LLM也將很難匹敵其在fp16/bf16精度下對應(yīng)的模型。 

圖片

考慮到學(xué)術(shù)界算力的限制,在未充分訓(xùn)練的 LLM 上進(jìn)行實(shí)驗(yàn)、評測,從而得到一些結(jié)論,并試圖將這些結(jié)論推廣為普遍適用,這一現(xiàn)象已經(jīng)越來越普遍,這也引發(fā)了研究人員的擔(dān)擾,因?yàn)樵谖闯浞钟?xùn)練的 LLM 上得到的結(jié)論并不一定能夠普遍適用。研究人員也希望社區(qū)能重新審視那些在未充分訓(xùn)練的 LLM 上得到的結(jié)論,從而引出更深入的思考與討論。

最后的最后,研究人員用了一組插畫來形象地概括了一下他們的發(fā)現(xiàn):

1. 如果把模型類比成水瓶,那水瓶里的裝水量就可以反映模型的訓(xùn)練充分程度。小模型更容易被裝滿,大模型則需要更多的水才能裝滿。

圖片

2. 量化就相當(dāng)于用手去擠壓瓶身。對于裝滿水的瓶子,水會溢出(performance degradation);而沒裝滿水的瓶子則不會有水溢出。

圖片

3.量化的精度可以類比成擠壓瓶身的力量大小。越低比特的量化擠壓得越狠,越容易造成大量的水被擠出(significant degradation)。

圖片

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-01-17 09:20:00

2024-10-11 14:00:00

模型數(shù)據(jù)

2011-02-25 09:08:22

LinuxSuSE Linux

2023-09-03 12:52:17

2024-11-13 13:50:00

AI模型

2022-09-02 17:47:46

Linux筆記應(yīng)用

2023-12-13 13:36:40

模型算力

2024-04-07 14:28:48

邊緣計(jì)算LLM人工智能

2023-11-27 09:00:00

GPTQ大型語言模型

2023-11-30 08:55:15

LinuxLibreOffic

2011-12-08 09:43:56

虛擬化vmwareVMware Fusi

2022-12-08 13:00:10

AI性別偏見

2023-06-30 09:00:00

Falcon LLM開源

2021-11-03 10:14:31

PowerEdge

2021-03-18 10:46:00

Linux監(jiān)控工具命令

2011-05-13 09:56:23

Ubuntu 11.0

2018-10-24 10:43:13

2013-02-21 10:13:25

2021-12-13 12:56:26

Linux瀏覽器

2018-06-13 09:00:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號