自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大模型量化訓(xùn)練極限在哪?騰訊混元提出低比特浮點(diǎn)數(shù)訓(xùn)練Scaling Laws

人工智能 新聞
這項(xiàng)研究為大模型訓(xùn)練中的浮點(diǎn)數(shù)量化提供了重要的理論指導(dǎo)。其價(jià)值不僅在于明確了在給定資源和精度下的最優(yōu)參數(shù)配置策略,幫助提高訓(xùn)練效率和降低成本,而且對于推動大模型在實(shí)際應(yīng)用中的更廣泛部署具有關(guān)鍵意義。

大模型低精度訓(xùn)練和推理是大模型領(lǐng)域中的重要研究方向,旨在通過降低模型精度來減少計(jì)算和存儲成本,同時(shí)保持模型的性能。因?yàn)樵诖竽P脱邪l(fā)成本降低上的巨大價(jià)值而受到行業(yè)廣泛關(guān)注 。近期,業(yè)界對低精度訓(xùn)練和推理的廣泛關(guān)注與討論。在實(shí)際的研發(fā)過程中,特別是模型訓(xùn)練方面,經(jīng)驗(yàn)表明浮點(diǎn)數(shù)量化方案相比整數(shù)量化方案對模型效果造成的損失更小,所以浮點(diǎn)數(shù)常常被用作量化訓(xùn)練的類型。這就引出了一些問題:整數(shù)類型量化訓(xùn)練的經(jīng)驗(yàn)?zāi)芊裰苯討?yīng)用到浮點(diǎn)數(shù)類型的量化訓(xùn)練任務(wù)中?如果不能,浮點(diǎn)數(shù)類型又會有怎樣的結(jié)論?量化訓(xùn)練到底有沒有極限?

大模型社區(qū)亟需一個(gè)更加適合實(shí)際浮點(diǎn)數(shù)量化訓(xùn)練的 Scaling Laws,指導(dǎo)大模型量化的實(shí)際選擇和未來探索方向。為了回答這些問題,騰訊混元團(tuán)隊(duì)進(jìn)行了 366 組不同參數(shù)規(guī)模和精度的浮點(diǎn)數(shù)量化訓(xùn)練,對浮點(diǎn)數(shù)量化訓(xùn)練進(jìn)行詳細(xì)分析后提出了浮點(diǎn)數(shù)量化的 Scaling Laws。

  • 論文標(biāo)題:《Scaling Laws for Floating–Point Quantization Training》
  • 論文鏈接:https://huggingface.co/papers/2501.02423

引言

大模型(Large Language Model, LLM)如今已經(jīng)融入到我們生產(chǎn)生活的各個(gè)層面。大模型的參數(shù)規(guī)模不斷增大,調(diào)用量也持續(xù)升高,這使得大模型的訓(xùn)練和推理成本成為 LLM 社區(qū)極為關(guān)注的重要問題。低比特量化技術(shù)能夠在一定程度上降低大模型訓(xùn)練和推理的成本。鑒于此,這一技術(shù)在主流大模型的訓(xùn)練和推理過程中得到了廣泛應(yīng)用。前沿研究工作對 8 比特、4 比特甚至更低比特的量化策略進(jìn)行了嘗試,并對這些策略予以驗(yàn)證。

近期,論文《Scaling Laws for Precision》深入探討了整數(shù)類型量化策略下的精度對模型 loss 的影響,不過僅在附錄中簡略提及了浮點(diǎn)數(shù)類型量化策略的表現(xiàn),并未深入探究。然而,在實(shí)際的生產(chǎn)過程中,特別是模型訓(xùn)練方面,經(jīng)驗(yàn)表明浮點(diǎn)數(shù)量化(floating–point quantization)方案相比整數(shù)量化方案對模型效果造成的損失更小,所以浮點(diǎn)數(shù)更常被用于超低精度量化訓(xùn)練。

騰訊混元團(tuán)隊(duì)的新工作《Scaling Laws for Floating–Point Quantization Training》系統(tǒng)全面地研究了浮點(diǎn)數(shù)量化訓(xùn)練的 Scaling Laws,填補(bǔ)了這一領(lǐng)域的空白。具體地,他們在大模型 Scaling Law 的經(jīng)典要素:模型大小(簡稱 N)和訓(xùn)練數(shù)據(jù)量(簡稱 D)之外,聯(lián)合考慮浮點(diǎn)數(shù)量化訓(xùn)練中重要的量化目標(biāo),指數(shù)位(Exponent,簡稱 E),尾數(shù)位(Mantissa,簡稱 M),以及量化時(shí)放縮因子共享粒度(Block-size,簡稱 B)對于大模型訓(xùn)練損失的影響。他們進(jìn)行了 366 組不同參數(shù)規(guī)模和精度設(shè)置的浮點(diǎn)數(shù)量化訓(xùn)練,得出最終的浮點(diǎn)數(shù)量化的統(tǒng)一 Scaling Law 形式如下:

圖片

并且依據(jù)這一 Scaling Law 深入分析與推導(dǎo)之后,能夠得出如下一些重要結(jié)論:

  • 在任意低精度大模型浮點(diǎn)數(shù)量化訓(xùn)練中,都存在一個(gè)模型極限效果及對應(yīng)的最佳數(shù)據(jù)量。超過此最佳數(shù)據(jù)量時(shí)繼續(xù)增加數(shù)據(jù),反而會對模型效果產(chǎn)生負(fù)面影響;
  • 限定計(jì)算資源下,在一個(gè)非常大的算力范圍內(nèi),理論預(yù)測的最佳性價(jià)比的浮點(diǎn)數(shù)量化訓(xùn)練精度落在 4-8 比特之間;
  • 在實(shí)際工作中,借助我們的 Scaling Laws 及其推論,同時(shí)結(jié)合計(jì)算資源圖片,可以明確得出不同計(jì)算資源下具有最佳性價(jià)比的浮點(diǎn)數(shù)量化訓(xùn)練精度設(shè)置、模型參數(shù)量以及訓(xùn)練數(shù)據(jù)量的配置策略。

最佳的浮點(diǎn)數(shù)

與整數(shù)類型只有符號位(Signal,簡稱 S)和整數(shù)位相比,參考 IEEE 754 標(biāo)準(zhǔn),浮點(diǎn)數(shù)顯得復(fù)雜許多。它由符號位、指數(shù)位(Exponent,簡稱 E)和尾數(shù)位(Mantissa,簡稱 M)共同作用決定最終取值。

圖片

通過大量實(shí)驗(yàn)與理論分析,騰訊混元團(tuán)隊(duì)推導(dǎo)出了指數(shù)位和尾數(shù)位對最終模型效果之間的定量關(guān)系:

圖片

同時(shí)還得出給定精度(Precision,簡稱 P)P=1+E+M 情況下,指數(shù)位與尾數(shù)位的最佳配比規(guī)律需滿足:

圖片

未來硬件制造商也可以參考此結(jié)論,提供在不同精度下的浮點(diǎn)運(yùn)算能力支持:

圖片

精細(xì)量化

量化過程中,為了減少精度損失會對需量化 Tensor 進(jìn)行放縮(Scaling)。同時(shí),為節(jié)省放縮因子(Scaling Factor)的存儲空間,通常會讓 Tensor 中的若干元素共享一個(gè)放縮因子。顯然,放縮因子共享粒度越大,其存儲空間越小,但由此帶來的量化損失也會越大。混元團(tuán)隊(duì)定量地研究了放縮因子共享粒度(Block-size,簡稱 B)對模型效果的影響,發(fā)現(xiàn)訓(xùn)練時(shí)的驗(yàn)證損失(Validate Loss)與 B 的對數(shù)成正比例關(guān)系:圖片。

Scaling Law

在綜合了所有浮點(diǎn)數(shù)量化訓(xùn)練中影響模型效果的因素(如參數(shù)量 N,數(shù)據(jù)量 D,指數(shù)位 E,尾數(shù)位 M 和量化粒度 B)后,混元團(tuán)隊(duì)最終得出了浮點(diǎn)數(shù)量化訓(xùn)練的 Scaling Law:

圖片

前三項(xiàng)基于經(jīng)典的 Chinchilla Scaling Law 的形式,第四項(xiàng)可以看做浮點(diǎn)數(shù)量化對于模型的額外損失。有意思的是,圖片可以被看作某種形式的 “知識密度”,而 E, M 和 B 的聯(lián)合項(xiàng)可以被看作某種形式的精度表示。直觀地分析,大模型過低精度下無法承載過高的知識密度,導(dǎo)致了額外損失。另外值得注意的是,我們 Scaling Law 中 N 和 D 的指數(shù)參數(shù) α 和 β,在第一項(xiàng) / 第二項(xiàng) / 第四項(xiàng)都是完全相同的,形式更加統(tǒng)一。

為了判斷最終統(tǒng)一形式的泛化能力,騰訊混元團(tuán)隊(duì)在小模型(41M - 679M)上擬合估算出 n, d, α, β, γ, δ, ν 以及 ? 等參數(shù)的取值后:

圖片

在更大的模型(1.2B)上也驗(yàn)證了不同量化配置下的預(yù)測效果。

無法跨越的效果屏障

在上面 Scaling Law 公式里,第二項(xiàng)和第四項(xiàng)關(guān)于數(shù)據(jù)量(D)的部分構(gòu)成一個(gè)有最值的函數(shù),即存在一個(gè)關(guān)于 D 的 loss 最低點(diǎn),這個(gè)最值點(diǎn)在:

圖片

注意此時(shí)這里并沒有給 Scaling Law 添加任何限制條件,這意味著當(dāng)訓(xùn)練某個(gè)模型時(shí),每個(gè)精度都存在一個(gè)對應(yīng)的極限效果,無論使用多少數(shù)據(jù)都無法超越。并且當(dāng)使用的數(shù)據(jù)量超過 Dcrit 時(shí),繼續(xù)增加數(shù)據(jù)反而對模型效果是有害的。

從公式中,我們發(fā)現(xiàn),模型越小,精度越低,那么這個(gè)極限數(shù)據(jù)量就會越早到來,增加數(shù)據(jù)導(dǎo)致模型效果變差越明顯。因此,越小的模型越需要越大的精度才能保證給定數(shù)據(jù)的有效訓(xùn)練。

圖片

這一隨著訓(xùn)練進(jìn)行損失不降反升的現(xiàn)象,也得到了混元團(tuán)隊(duì)的真實(shí)訓(xùn)練結(jié)果支持。但是,經(jīng)過計(jì)算當(dāng)采用 BF16 訓(xùn)練 1B 參數(shù)量模型時(shí),會發(fā)現(xiàn)這一極限數(shù)據(jù)量高達(dá) 1730T,這可能也是之前沒有人發(fā)現(xiàn)這一現(xiàn)象的原因。然而,隨著精度降低,比如采用 FP8-E4M3 時(shí)這一數(shù)值降低至 27T,而使用 FP4-E2M1 時(shí)則只有 0.4T。

限定資源下的最優(yōu)解

于是可以得知,即使在無限資源下,由于效果屏障存在的原因,訓(xùn)練模型時(shí)使用的數(shù)據(jù)量也不應(yīng)該超過 Dcrit。那么在限定資源下,通過求解方程組:

圖片

可以得出一個(gè)符合經(jīng)典冪律關(guān)系(Power-law)的最佳性價(jià)比精度配方:

圖片

根據(jù)實(shí)驗(yàn)結(jié)果推算,在一個(gè)非常大的算力范圍內(nèi),理論預(yù)測的最佳性價(jià)比落在 4-8 比特之間。

圖片

精度與參數(shù)量的匯率

在資源受限的情況下,盡管我們已知在最佳性價(jià)比時(shí)精度應(yīng)如何選取,然而參數(shù)量 N 與數(shù)據(jù)量 D 究竟該如何搭配這一問題依舊尚未得到解決。通過對方程組:

圖片

進(jìn)行求解能夠發(fā)現(xiàn),在限定資源的情況下,若要保持性價(jià)比,精度 P 和參數(shù)量 N 之間存在著一個(gè)類似于 “匯率” 的關(guān)系:

圖片

所以,在實(shí)際工作當(dāng)中,可以借助 “精度 —— 參數(shù)量的匯率”,并且結(jié)合,進(jìn)一步明確在最佳性價(jià)比下的精度 P、參數(shù)量 N 以及數(shù)據(jù)量 D 的配置策略。

這項(xiàng)研究為大模型訓(xùn)練中的浮點(diǎn)數(shù)量化提供了重要的理論指導(dǎo)。其價(jià)值不僅在于明確了在給定資源和精度下的最優(yōu)參數(shù)配置策略,幫助提高訓(xùn)練效率和降低成本,而且對于推動大模型在實(shí)際應(yīng)用中的更廣泛部署具有關(guān)鍵意義。通過揭示浮點(diǎn)數(shù)量化訓(xùn)練的極限和規(guī)律,為硬件制造商優(yōu)化浮點(diǎn)運(yùn)算能力提供了依據(jù),也為研究人員在大模型的優(yōu)化和創(chuàng)新方面開辟了新的思路和方向。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-12-30 10:35:00

訓(xùn)練數(shù)據(jù)模型

2024-06-21 11:44:17

2024-05-22 18:10:38

2020-09-15 12:57:46

C 語言浮點(diǎn)數(shù)內(nèi)存

2025-04-16 02:30:00

2025-03-03 04:20:00

2025-03-12 12:10:13

2024-11-13 13:50:00

AI模型

2023-07-05 08:00:58

Redis數(shù)據(jù)庫

2024-11-06 09:47:00

2023-09-07 11:48:36

騰訊混元大模型

2024-07-29 09:10:00

模型數(shù)據(jù)

2023-10-26 15:38:03

混元大模型騰訊

2017-10-16 10:42:27

前端JavaScript浮點(diǎn)數(shù)

2023-09-12 07:02:19

騰訊混元大模型

2024-09-05 16:37:37

2022-04-29 16:47:57

AI騰訊

2024-12-11 08:28:15

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號