中科大聯(lián)合華為諾亞提出Entropy Law,揭秘大模型性能、數(shù)據(jù)壓縮率以及訓(xùn)練損失關(guān)系
本工作由中科大認(rèn)知智能全國(guó)重點(diǎn)實(shí)驗(yàn)室 IEEE Fellow 陳恩紅團(tuán)隊(duì)與華為諾亞方舟實(shí)驗(yàn)室完成。陳恩紅教授團(tuán)隊(duì)深耕數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)領(lǐng)域,在頂級(jí)期刊與會(huì)議上發(fā)表多篇論文,谷歌學(xué)術(shù)論文引用超兩萬(wàn)次。諾亞方舟實(shí)驗(yàn)室是華為公司從事人工智能基礎(chǔ)研究的實(shí)驗(yàn)室,秉持理論研究與應(yīng)用創(chuàng)新并重的理念,致力于推動(dòng)人工智能領(lǐng)域的技術(shù)創(chuàng)新和發(fā)展。
數(shù)據(jù)是大語(yǔ)言模型(LLMs)成功的基石,但并非所有數(shù)據(jù)都有益于模型學(xué)習(xí)。直覺(jué)上,高質(zhì)量的樣本在教授 LLM 上預(yù)期會(huì)有更好的效率。因此,現(xiàn)有方法通常專注于基于質(zhì)量的數(shù)據(jù)選擇。然而,這些方法中的大多數(shù)獨(dú)立地評(píng)估不同的數(shù)據(jù)樣本,忽略了樣本之間復(fù)雜的組合效應(yīng)。如圖 1 所示,即使每個(gè)樣本質(zhì)量完美,由于它們的互信息冗余或不一致性,它們的組合可能仍然次優(yōu)。盡管基于質(zhì)量的子集由所有三個(gè)優(yōu)質(zhì)樣本組成,但它們編碼的知識(shí)實(shí)際上是冗余和沖突的。相比之下,另一個(gè)由幾個(gè)相對(duì)較低質(zhì)量但多樣化的樣本組成的數(shù)據(jù)子集在教授 LLM 方面可能傳達(dá)更多信息。因此,基于質(zhì)量的數(shù)據(jù)選擇并未完全符合最大化 LLM 知識(shí)掌握的目標(biāo)。
而本文旨在揭示 LLM 性能與數(shù)據(jù)選擇之間的內(nèi)在關(guān)系。受 LLM 信息壓縮本質(zhì)的啟發(fā),我們發(fā)現(xiàn)了一條 entropy law,它將 LLM 性能與數(shù)據(jù)壓縮率和前幾步模型訓(xùn)練的損失加以聯(lián)系,分別反映了數(shù)據(jù)集的信息冗余程度和 LLM 對(duì)數(shù)據(jù)集中固有知識(shí)的掌握程度。通過(guò)理論推導(dǎo)和實(shí)證評(píng)估,我們發(fā)現(xiàn)模型性能與訓(xùn)練數(shù)據(jù)的壓縮率呈負(fù)相關(guān),而這通常會(huì)產(chǎn)生較低的訓(xùn)練損失。基于 entropy law 的發(fā)現(xiàn),我們提出了一種非常高效且通用的數(shù)據(jù)選擇方法用于訓(xùn)練 LLM,名為 ZIP,其旨在優(yōu)先選擇低壓縮率的數(shù)據(jù)子集。ZIP 分多階段、貪心地選擇多樣化的數(shù)據(jù),最終獲得一個(gè)具有良好多樣性的數(shù)據(jù)子集。
- 團(tuán)隊(duì):中科大認(rèn)知智能全國(guó)重點(diǎn)實(shí)驗(yàn)室陳恩紅團(tuán)隊(duì),華為諾亞方舟實(shí)驗(yàn)室
- 論文鏈接: https://arxiv.org/pdf/2407.06645
- 代碼鏈接: https://github.com/USTC-StarTeam/ZIP
圖 1
Entropy law
我們對(duì)數(shù)據(jù)壓縮與 LLM 性能之間的關(guān)系進(jìn)行理論分析。直覺(jué)上,訓(xùn)練數(shù)據(jù)的正確性和多樣性會(huì)影響最終模型的性能。同時(shí),如果數(shù)據(jù)存在嚴(yán)重的內(nèi)在沖突或模型對(duì)數(shù)據(jù)編碼的信息掌握不佳,LLM 的性能可能會(huì)次優(yōu)?;谶@些假設(shè),我們將 LLM 的性能表示為 Z ,其預(yù)期會(huì)受到以下因素的影響:
- 數(shù)據(jù)壓縮率 R:直覺(jué)上,壓縮率越低的數(shù)據(jù)集表明信息密度越高。
- 訓(xùn)練損失 L:表示數(shù)據(jù)對(duì)模型來(lái)說(shuō)是否難以記憶。在相同的基礎(chǔ)模型下,高訓(xùn)練損失通常是由于數(shù)據(jù)集中存在噪聲或不一致的信息。
- 數(shù)據(jù)一致性 C:數(shù)據(jù)的一致性通過(guò)給定前文情況下下一個(gè) token 的概率的熵來(lái)反映。更高的數(shù)據(jù)一致性通常會(huì)帶來(lái)更低的訓(xùn)練損失。
- 平均數(shù)據(jù)質(zhì)量 Q:反映了數(shù)據(jù)的平均樣本級(jí)質(zhì)量,可以通過(guò)各種客觀和主觀方面來(lái)衡量。
給定一定量的訓(xùn)練數(shù)據(jù),模型性能可以通過(guò)上述因素來(lái)估計(jì):
其中 f 是一個(gè)隱函數(shù)。給定一個(gè)特定的基礎(chǔ)模型,L 的規(guī)模通常取決于 R 和 C,可以表示為:
由于具有更高同質(zhì)性或更好數(shù)據(jù)一致性的數(shù)據(jù)集更容易被模型學(xué)習(xí),L 預(yù)計(jì)在 R 和 C 上是單調(diào)的。因此,我們可以將上述公式重寫為:
其中 g' 是一個(gè)反函數(shù)。通過(guò)結(jié)合上述三個(gè)方程,我們得到:
其中 h 是另一個(gè)隱函數(shù)。如果數(shù)據(jù)選擇方法不會(huì)顯著改變平均數(shù)據(jù)質(zhì)量 Q,我們可以近似地將變量 Q 視為常數(shù)。因此,最終性能可以粗略地表示為:
這意味著模型性能與數(shù)據(jù)壓縮率和訓(xùn)練損失相關(guān)。我們將這種關(guān)系稱為 Entropy law。
基于 Entropy law,我們提出兩個(gè)推論:
- 如果將 C 視為常數(shù),訓(xùn)練損失直接受壓縮率影響。因此,模型性能由壓縮率控制:如果數(shù)據(jù)壓縮率 R 較高,那么 Z 通常較差,這將在我們的實(shí)驗(yàn)中得到驗(yàn)證。
- 在相同的壓縮率下,較高訓(xùn)練損失意味著較低的數(shù)據(jù)一致性。因此,模型學(xué)到的有效知識(shí)可能更有限。這可以用來(lái)預(yù)測(cè) LLM 在具有相似壓縮率和樣本質(zhì)量的不同數(shù)據(jù)上的性能。我們將在后續(xù)展示這一推論在實(shí)踐中的應(yīng)用。
ZIP:高度輕量化的數(shù)據(jù)選擇算法
在 entropy law 的指導(dǎo)下,我們提出了 ZIP 這一數(shù)據(jù)選擇方法,通過(guò)數(shù)據(jù)壓縮率來(lái)選擇數(shù)據(jù)樣本,旨在在有限的訓(xùn)練數(shù)據(jù)預(yù)算下最大化有效信息量。出于效率考量,我們采用了一種迭代多階段貪心范式,以高效地獲得具有相對(duì)低壓縮率的近似解。在每輪迭代中,我們首先使用全局選擇階段來(lái)選擇一組具有低壓縮率的候選樣本池,找到信息密度高的樣本。然后,我們采用粗粒度的局部選擇階段,選擇一組與已選樣本冗余度最低的較小樣本集。最后,我們使用細(xì)粒度的局部選擇階段,最小化要添加樣本之間的相似性。上述過(guò)程持續(xù)進(jìn)行直到獲得足夠的數(shù)據(jù),具體算法如下:
實(shí)驗(yàn)結(jié)果
1.ZIP 選擇算法對(duì)于不同 LLM、在不同 LLM 對(duì)齊階段的有效性
對(duì)比不同的 SFT 數(shù)據(jù)選擇算法,基于 ZIP 選擇數(shù)據(jù)所訓(xùn)練得到的模型性能上展現(xiàn)出優(yōu)勢(shì),并且在效率上也占優(yōu)。具體結(jié)果見(jiàn)下表:
2.Entropy law 的實(shí)驗(yàn)驗(yàn)證
基于 SFT 數(shù)據(jù)選擇實(shí)驗(yàn),我們基于模型效果、數(shù)據(jù)壓縮率以及模型在前幾步訓(xùn)練的損失,分別擬合了多條關(guān)系曲線。結(jié)果見(jiàn)圖 2 以及圖 3,我們從圖中可以觀察到三個(gè)因素之間的緊密關(guān)聯(lián)。首先,低壓縮率數(shù)據(jù)通常會(huì)帶來(lái)更好的模型效果,這是因?yàn)?LLMs 的學(xué)習(xí)過(guò)程與信息壓縮高度相關(guān),我們可以將 LLM 視為數(shù)據(jù)壓縮器,那么壓縮率較低的數(shù)據(jù)意味著更多的知識(shí)量,從而對(duì)壓縮器更有價(jià)值。同時(shí),可以觀察到較低的壓縮率通常伴隨著更高的訓(xùn)練損失,這是因?yàn)殡y以壓縮的數(shù)據(jù)攜帶了更多的知識(shí),對(duì) LLM 吸收其中蘊(yùn)含的知識(shí)提出了更大的挑戰(zhàn)。
圖 3 Llama-3-8B
3.Entropy law 的實(shí)際應(yīng)用
我們提供了一個(gè) entropy law 在真實(shí)場(chǎng)景中指導(dǎo) LLM 訓(xùn)練數(shù)據(jù)增量更新的應(yīng)用。在該任務(wù)場(chǎng)景中,訓(xùn)練數(shù)據(jù)量保持相對(duì)穩(wěn)定,只有一小部分?jǐn)?shù)據(jù)會(huì)被修改。結(jié)果見(jiàn)圖 4,其中
到
是逐漸增量更新的 5 個(gè)數(shù)據(jù)版本,出于保密要求,僅提供不同壓縮率下模型效果的相對(duì)關(guān)系。根據(jù) entropy law 預(yù)測(cè),假設(shè)每次增量更新后數(shù)據(jù)質(zhì)量沒(méi)有顯著下降,可以預(yù)期隨著數(shù)據(jù)壓縮率的降低,模型性能會(huì)有所提升。這一預(yù)測(cè)與圖中數(shù)據(jù)版本
到
的結(jié)果一致。然而,數(shù)據(jù)版本
顯示出損失和數(shù)據(jù)壓縮率的異常增加,這預(yù)示了由于訓(xùn)練數(shù)據(jù)一致性下降導(dǎo)致的模型性能下降的潛在可能。這一預(yù)測(cè)通過(guò)隨后的模型性能評(píng)估進(jìn)一步得到證實(shí)。因此,entropy law 可以作為 LLM 訓(xùn)練的指導(dǎo)原則,無(wú)需在完整數(shù)據(jù)集上訓(xùn)練模型直到收斂,便可預(yù)測(cè) LLM 訓(xùn)練失敗的潛在風(fēng)險(xiǎn)。鑒于訓(xùn)練 LLM 的高昂成本,這一點(diǎn)尤其重要。
圖 4
本文轉(zhuǎn)自 機(jī)器之心 ,作者:機(jī)器之心
