大模型合成數(shù)據(jù)機(jī)理分析,人大劉勇團(tuán)隊(duì):信息增益影響泛化能力
在大語言模型(LLMs)后訓(xùn)練任務(wù)中,由于高質(zhì)量的特定領(lǐng)域數(shù)據(jù)十分稀缺,合成數(shù)據(jù)已成為重要資源。雖然已有多種方法被用于生成合成數(shù)據(jù),但合成數(shù)據(jù)的理論理解仍存在缺口。為了解決這一問題,本文首先對(duì)當(dāng)前流行的合成數(shù)據(jù)生成過程進(jìn)行了數(shù)學(xué)建模。在此基礎(chǔ)上,本文證明了后訓(xùn)練模型的泛化能力關(guān)鍵取決于生成模型帶來的信息增益,并從一個(gè)新的反向瓶頸視角進(jìn)行了分析。此外,本文引入了互信息泛化增益(GGMI)的概念,闡明了泛化增益與信息增益之間的關(guān)系。我們希望為合成數(shù)據(jù)的應(yīng)用提供理論基礎(chǔ),進(jìn)而為合成數(shù)據(jù)生成技術(shù)的設(shè)計(jì)與后訓(xùn)練過程的優(yōu)化提供新的理解。
It's not the form of data, but the information it brings that truly matters.
圖表 1: 合成數(shù)據(jù)一般生成范式
正如著名的 Scaling laws 所說的那樣,大語言模型(LLMs)的效能在很大程度上依賴于訓(xùn)練數(shù)據(jù)的規(guī)模和質(zhì)量 [1]。然而,在 LLM 的后訓(xùn)練階段,尤其是在微調(diào)和模型對(duì)齊的過程中,可用的高質(zhì)量數(shù)據(jù)十分稀缺。
為解決這一問題,在真實(shí)數(shù)據(jù)匱乏的情況下合成數(shù)據(jù)在最近的研究中里逐漸成為增強(qiáng)模型訓(xùn)練的關(guān)鍵手段。截至 2024 年 9 月,在 Hugging Face 平臺(tái)上標(biāo)注為 “合成” 的數(shù)據(jù)集已超過 1000 個(gè)。許多前沿的大語言模型,如 LLaMA [2]、Falcon [3]、Qwen [4] 和 GPT-4 [5] 都在其技術(shù)報(bào)告中表面在后訓(xùn)練階段廣泛使用了合成數(shù)據(jù)。
近年來,研究人員提出了多種合成數(shù)據(jù)生成方法 [6-8],其中最為有效且常見的是通過一個(gè)在相關(guān)內(nèi)容上進(jìn)行過預(yù)訓(xùn)練的大語言模型生成合成數(shù)據(jù)。具體來說,生成過程通常是基于少量的真實(shí)數(shù)據(jù),編寫一組特定的 prompt,再經(jīng)由生成模型生成具有針對(duì)性和高質(zhì)量的合成數(shù)據(jù),如圖 1 所示。這種方法不僅能夠緩解后訓(xùn)練過程中數(shù)據(jù)不足的問題,還能夠?yàn)槟P吞峁└S富的任務(wù)相關(guān)信息,進(jìn)而提升模型的泛化能力和對(duì)齊精度。這一范式已經(jīng)在多個(gè)前沿的大語言模型中得到了廣泛應(yīng)用,顯示出其在后訓(xùn)練任務(wù)中的巨大潛力。
然而,當(dāng)前對(duì)合成數(shù)據(jù)的建模和理論分析仍然存在顯著的不足,這在一定程度上限制了我們對(duì)其內(nèi)在機(jī)制的深入理解 [9]。缺乏系統(tǒng)的理論框架使得我們難以準(zhǔn)確預(yù)測(cè)合成數(shù)據(jù)在不同 LLM 應(yīng)用中的有效性,也限制了生成模型在更具針對(duì)性的合成數(shù)據(jù)生成方面的優(yōu)化 [10]。
因此,深入研究合成數(shù)據(jù)在模型訓(xùn)練過程中的作用成為提升模型性能和可靠性的重要方向。通過加強(qiáng)對(duì)合成數(shù)據(jù)與大語言模型在訓(xùn)練階段如何相互作用的理解,我們有望開發(fā)出更加精準(zhǔn)的合成數(shù)據(jù)集,有效填補(bǔ)訓(xùn)練數(shù)據(jù)中的特定空白,進(jìn)而全面提升模型的表現(xiàn)和泛化能力。這不僅能為大語言模型在各類任務(wù)中的應(yīng)用提供強(qiáng)有力的支持,還為未來的模型優(yōu)化提供了理論依據(jù)。
合成數(shù)據(jù)為何能有效提升模型能力?這種提升又是基于什么關(guān)鍵因素?針對(duì)這些核心問題,我們將從對(duì)合成數(shù)據(jù)生成過程的建模開始,將其與模型的泛化能力建立聯(lián)系,并試圖探究這一框架下影響模型泛化能力的關(guān)鍵因素。
- 論文標(biāo)題:Towards a Theoretical Understanding of Synthetic Data in LLM Post-Training: A Reverse-Bottleneck Perspective
- 論文鏈接:https://arxiv.org/abs/2410.01720
在此工作中,我們主要作出了如下貢獻(xiàn):
- 我們對(duì)合成數(shù)據(jù)生成過程的進(jìn)行了更加詳盡的數(shù)學(xué)建模,并從期望的角度揭示了這一過程的本質(zhì),即對(duì)生成模型輸出的分布的壓縮;
- 我們將合成數(shù)據(jù)的生成過程與后訓(xùn)練模型的泛化能力進(jìn)行了連接,并提出了 “反信息瓶頸” 視角,解釋了合成數(shù)據(jù)在訓(xùn)練過程中的作用機(jī)理;
- 我們基于上述分析,從信息論的角度為合成數(shù)據(jù)訓(xùn)練的模型提出了泛化誤差上界,并揭示了用于合成數(shù)據(jù)生成的生成模型所帶來的信息增益的重要地位。
模擬實(shí)驗(yàn)設(shè)置
如圖 2 所示,在本研究中,我們使用混合高斯模型(GMM)來對(duì)合成數(shù)據(jù)的生成過程進(jìn)行模擬。
簡單來說,我們?cè)O(shè)置了一個(gè)包含 K+J 個(gè)子高斯分布的 GMM 作為 ground-truth(gt-GMM),并在此基礎(chǔ)上引入 L 個(gè)額外的隨機(jī)子高斯分布構(gòu)成用于模擬生成模型的 M。我們從 gt-GMM 的前 K 個(gè)子高斯進(jìn)行采樣作為真實(shí)數(shù)據(jù),從 M 中進(jìn)行采樣作為最終的合成數(shù)據(jù),并將其用于后續(xù)的驗(yàn)證。
圖表 2: 模擬實(shí)驗(yàn)設(shè)置
1 合成數(shù)據(jù)的生成過程是對(duì)生成模型輸出分布的壓縮
合成數(shù)據(jù)的生成可以形象化的表達(dá)為如下的過程 [11]。記用于產(chǎn)生 prompt 的少量真實(shí)數(shù)據(jù)為錨點(diǎn)
,合成數(shù)據(jù)為
,后訓(xùn)練的目標(biāo)任務(wù)為
。對(duì)于這一過程,一種抽象化的數(shù)學(xué)表達(dá)如下所示:
這一公式表示合成數(shù)據(jù)是在
上限定的表達(dá),并且主要與目標(biāo)任務(wù)和錨點(diǎn)數(shù)據(jù)有關(guān)。
其中,則主要與三種分別代表 “任務(wù)”
、“條件”
和 “錨點(diǎn)數(shù)據(jù)”
的元素相關(guān):
基于此觀點(diǎn),并結(jié)合實(shí)際應(yīng)用中的生成步驟,我們進(jìn)一步用等式的形式表達(dá)了合成數(shù)據(jù)的實(shí)際生成過程。
首先,合成數(shù)據(jù)可以看作是在
上的直接輸出與其他的調(diào)整兩部分組成。
其中,表示為了讓得到的合成數(shù)據(jù)具有可用性的格式與內(nèi)容調(diào)整,例如數(shù)據(jù)策展等。
而更進(jìn)一步,prompt 則可以表達(dá)為根據(jù)任務(wù)
對(duì)錨點(diǎn)數(shù)據(jù)的轉(zhuǎn)換:
將這一過程中涉及到的變量視為隨機(jī)變量,并寫出它們對(duì)應(yīng)的分布,我們可以得到數(shù)據(jù)生成過程和對(duì)應(yīng)的分布變化過程,如圖 3 所示。
圖表 3: 合成數(shù)據(jù)生成與分布變化過程
假設(shè)采樣自后訓(xùn)練的目標(biāo)任務(wù)分布
,生成模型
的輸出服從分布
,其在
上受限的輸出服從分布
,而最終的合成數(shù)據(jù)服從分布
。
從數(shù)據(jù)合成過程來看,合成數(shù)據(jù)是在
上的調(diào)整輸出。
若將其視為 “Prompting” 和 “Data Curation” 兩個(gè)步驟,數(shù)據(jù)合成的過程實(shí)質(zhì)上是在對(duì)向
進(jìn)行壓縮。如圖 4 所示。其中,所有藍(lán)色的部分表示
,而深藍(lán)色的部分表示
。
圖表 4: 分布的壓縮過程示意圖
值得注意的是,由于壓縮的不完全性, 最終不一定會(huì)完全覆蓋
,也有可能會(huì)產(chǎn)出不屬于
的輸出,這一現(xiàn)象也為后續(xù)體現(xiàn)的信息增益提供了較為直觀的解釋。
圖表 5: GMM 模擬實(shí)驗(yàn)分布結(jié)果
我們使用一組混合高斯模型(GMM)對(duì)合成數(shù)據(jù)的生成進(jìn)行了模擬,結(jié)果如圖 5 所示。其中,藍(lán)色的點(diǎn)為錨點(diǎn)數(shù)據(jù),采樣自用藍(lán)色橢圓表示中心的分布中。黃色的點(diǎn)為合成數(shù)據(jù),采樣自黃色橢圓表示中心的分布中。
在實(shí)驗(yàn)的設(shè)置中,合成數(shù)據(jù)(黃色)的分布是對(duì)錨點(diǎn)數(shù)據(jù)(藍(lán)色)觀測(cè)的擬合和模擬,但由于 GMM 具體設(shè)置的差異,黃色橢圓最終無法完全覆蓋藍(lán)色橢圓,并且還覆蓋了藍(lán)色橢圓未覆蓋的位置,這與之前的分析相符。
2 連接數(shù)據(jù)合成過程與模型的泛化能力
對(duì)合成數(shù)據(jù)的生成過程的建模從分布的角度刻畫了其本質(zhì)特征。
為了將這一特征與后訓(xùn)練模型的能力相結(jié)合,我們從模型的泛化能力切入并進(jìn)行相應(yīng)的分析。首先,我們將大模型在合成數(shù)據(jù)
上進(jìn)行訓(xùn)練后得到的后訓(xùn)練模型
的泛化誤差表示為:
其中和
分別表示模型在分布
上的真實(shí)誤差和在數(shù)據(jù)
上的經(jīng)驗(yàn)誤差。
經(jīng)過進(jìn)一步的分析與推導(dǎo)(詳見正文及附錄),最終,模型的泛化誤差具有如下引理中的上界:
此引理將的泛化誤差上界分為了兩個(gè)部分,分別是 “分布間的散度” 和 “與合成數(shù)據(jù)有關(guān)的泛化誤差” 。
對(duì)于前一部分,主要與數(shù)據(jù)合成中采用的生成模型和任務(wù)本身的性質(zhì)有關(guān),而后一部分將成為我們分析的重點(diǎn)。
3 “逆信息瓶頸” 視角下的泛化誤差上界
3.1 “逆信息瓶頸”
注意到,合成數(shù)據(jù)的生成過程其實(shí)和一個(gè)典型的機(jī)器學(xué)習(xí)過程在形式上非常類似,經(jīng)由
得到 prompt
,再經(jīng)由
得到
,十分類似于一個(gè)經(jīng)典的 enc-dec 結(jié)構(gòu)的機(jī)器學(xué)習(xí)過程,如圖 6 左側(cè)所示。
圖表 6: 逆信息瓶頸示意圖
然而,正因?yàn)榇竽P椭泻铣蓴?shù)據(jù)與傳統(tǒng)機(jī)器學(xué)習(xí)的關(guān)鍵不同之處:生成模型是事先預(yù)訓(xùn)練的,導(dǎo)致從信息流的視角下二者具有相反的性質(zhì)。如圖 6 右側(cè)所示,在合成數(shù)據(jù)的生成過程中,信息量是一個(gè)被擴(kuò)充的過程。
傳統(tǒng)機(jī)器學(xué)習(xí)過程中信息是逐步被壓縮的,因此存在信息瓶頸;而在生成的過程中,由于
的存在,實(shí)質(zhì)為這一過程擴(kuò)充了額外的信息,從而形成了一種 “逆信息瓶頸”。
3.2 “逆信息瓶頸” 視角下的泛化誤差分析
刻畫這一 “逆信息瓶頸” 的關(guān)鍵就是刻畫引入的信息增益。我們首先定義了合成因子
和
,其中
是和 prompt 有關(guān)的因子,
是和生成模型有關(guān)的因子。
我們將信息增益記為,并從信息論的角度出發(fā),定義如下:
可以看出,衡量了在數(shù)據(jù)生成的過程中,除開 prompt 的影響后,由生成模型
所引入的信息量。
接著,我們考慮合成數(shù)據(jù)和后訓(xùn)練模型的參數(shù)
之間的互信息,并發(fā)現(xiàn)其存在可以由
所約束的上界:
根據(jù)信息瓶頸理論已有的研究結(jié)果,經(jīng)過一定的推導(dǎo),并與之前的結(jié)論相結(jié)合,我們?yōu)?img src="https://s3.51cto.com/oss/202410/15/1448aff694e3c57ac8e670d8dec8b7abf6ad1f.webp" alt="圖片" title="圖片" style="visibility: visible; width: 81px;" data-type="inline">的期望泛化誤差尋找到了一個(gè)最終的上界:
這一上界的關(guān)鍵部分由所控制。直觀上可見,當(dāng)更多的信息增益被引入時(shí), 將具有更加緊湊的期望泛化誤差上界,從而獲得更好的泛化性能。
4 合成數(shù)據(jù)的泛化增益
之前的分析將后訓(xùn)練大模型的泛化能力與合成數(shù)據(jù)的生成過程聯(lián)系在了一起,并引入了信息增益的概念,從而解釋了合成數(shù)據(jù)能夠提升模型性能的原因。基于此更進(jìn)一步,我們將探究第二個(gè)問題,即合成數(shù)據(jù)的應(yīng)用是從哪些方面帶來泛化能力提升的。
首先,我們考慮僅在錨點(diǎn)數(shù)據(jù)上進(jìn)行訓(xùn)練的模型的期望泛化誤差上界:
顯然,合成數(shù)據(jù)帶來的泛化能力的提升主要體現(xiàn)在數(shù)據(jù)的規(guī)模上,即。
除了數(shù)據(jù)規(guī)模帶來的提升外,合成數(shù)據(jù)中所引入的新信息是否也能帶來泛化能力的提升呢?為此,我們從互信息項(xiàng)作為切入,定義了如下的衡量標(biāo)準(zhǔn):GGMI。
直觀上,更大的 GGMI 表示合成數(shù)據(jù)帶來了更加緊湊的互信息項(xiàng),從而降低了模型整體的泛化誤差上界。
經(jīng)過一定的推導(dǎo)從而消除不統(tǒng)一的參數(shù)項(xiàng),GGMI 存在如下的上界:
可以看出, 對(duì)于 GGMI 的增長也具有重要的作用。此外,降低熵等目標(biāo)也有助于合成數(shù)據(jù)提供更好的泛化增益。
我們繼續(xù)在 GMM 的設(shè)定上對(duì)這一結(jié)果進(jìn)行模擬。按照上述合成數(shù)據(jù)的生成過程,我們分別得到了和
,并用其分別訓(xùn)練得到了 GMM
和
,并設(shè)計(jì)了一個(gè) ground-truth GMM
來表示真正的目標(biāo)分布。為了衡量
和
的輸出與
之間的差距的相對(duì)大小,我們基于 KL 散度定義了 KL Gap:
. 模擬實(shí)驗(yàn)的結(jié)果如下:(增大
有助于增大
,而增大
會(huì)分別影響 GGMI 上界中其他信息熵項(xiàng)
。
圖表 7: GMM 泛化增益模擬實(shí)驗(yàn)結(jié)果
從圖 7 中可以看出,更大的信息增益能有效提升 KL Gap,即提升了使用合成數(shù)據(jù)訓(xùn)練的模型相比于未使用合成數(shù)據(jù)的模型對(duì) ground-truth 的擬合結(jié)果。此外,對(duì)其他變量的改變也相應(yīng)的影響了 KL Gap 的結(jié)果,進(jìn)一步驗(yàn)證了這一結(jié)論。
5 小結(jié)
我們從大模型中合成數(shù)據(jù)的生成過程出發(fā),為常見的數(shù)據(jù)合成提供了數(shù)學(xué)上的建模,并將其與模型的泛化能力相結(jié)合,從而為合成數(shù)據(jù)的應(yīng)用提供了理論基礎(chǔ)。基于此,我們從獨(dú)特的 “逆信息瓶頸” 視角切入,將模型的泛化能力歸約在了生成模型所引入的信息增益上,并通過模擬實(shí)驗(yàn)的形式進(jìn)行了驗(yàn)證。
在未來的工作中,一方面我們希望能為大模型合成數(shù)據(jù)的作用機(jī)理提供更加深入的解析,從而為數(shù)據(jù)合成的方法研究提供理論依據(jù);另一方面,我們希望能解決生成模型與后訓(xùn)練任務(wù)間匹配的關(guān)系,通過動(dòng)態(tài)的方式自適應(yīng)的提升合成數(shù)據(jù)的質(zhì)量。
作者介紹
劉勇,中國人民大學(xué),長聘副教授,博士生導(dǎo)師,國家級(jí)高層次青年人才。長期從事機(jī)器學(xué)習(xí)基礎(chǔ)理論研究,共發(fā)表論文 100 余篇,其中以第一作者 / 通訊作者發(fā)表頂級(jí)期刊和會(huì)議論文近 50 篇,涵蓋機(jī)器學(xué)習(xí)領(lǐng)域頂級(jí)期刊 JMLR、IEEE TPAMI、Artificial Intelligence 和頂級(jí)會(huì)議 ICML、NeurIPS 等。獲中國人民大學(xué) “杰出學(xué)者”、中國科學(xué)院 “青年創(chuàng)新促進(jìn)會(huì)” 成員、中國科學(xué)院信息工程研究所 “引進(jìn)優(yōu)青” 等稱號(hào)。主持國家自然科學(xué)面上 / 基金青年、北京市面上項(xiàng)目、中科院基礎(chǔ)前沿科學(xué)研究計(jì)劃、騰訊犀牛鳥基金、CCF - 華為胡楊林基金等項(xiàng)目。
甘澤宇,中國人民大學(xué)高瓴人工智能學(xué)院博士研究生,本科及碩士研究生畢業(yè)于中國人民大學(xué)信息學(xué)院。當(dāng)前主要研究方向包括大模型對(duì)齊與機(jī)器學(xué)習(xí)理論。