Transformer架構(gòu)的情境學(xué)習(xí)泛化能力
背景
大型語言模型(LLMs)如GPT-4和LLaMA-3憑借Transformer架構(gòu)的強大情境學(xué)習(xí)(In-Context Learning, ICL)能力,能夠從有限的示例中快速學(xué)習(xí)并適應(yīng)新任務(wù)。然而,ICL的泛化邊界和脆弱性一直缺乏系統(tǒng)性的理解,這限制了其在實際應(yīng)用中的潛力發(fā)揮。清華大學(xué)的研究團隊通過定義一個以任務(wù)為中心的框架,從三個維度系統(tǒng)地研究了Transformer架構(gòu)在ICL下的泛化能力,并提出了優(yōu)化訓(xùn)練數(shù)據(jù)設(shè)計的重要指導(dǎo)原則。
研究框架:三維泛化能力分析
研究團隊提出了一個任務(wù)中心框架,將ICL的泛化能力分為三個維度:
- 跨問題泛化(Inter-problem Generalization)模型能否將在一類問題上學(xué)到的知識遷移到全新的問題類型上。
- 問題內(nèi)泛化(Intra-problem Generalization)模型在接觸了問題類型的部分實例后,能否泛化到同類問題的其他實例。
- 任務(wù)內(nèi)泛化(Intra-task Generalization)模型在特定任務(wù)上學(xué)習(xí)后,能否在相似測試樣本上表現(xiàn)良好。
這一框架使研究者能夠系統(tǒng)地評估Transformer模型在不同泛化場景下的表現(xiàn),從而揭示ICL能力的本質(zhì)和局限。
函數(shù)擬合實驗:泛化能力的基礎(chǔ)驗證
研究首先通過函數(shù)擬合任務(wù)建立了一個可控的實驗環(huán)境。研究者將基礎(chǔ)函數(shù)(如正弦、余弦函數(shù))定義為基本問題,將這些函數(shù)的組合(加法、乘法、復(fù)合)定義為復(fù)合問題,通過比較不同訓(xùn)練策略下模型的表現(xiàn)來評估其泛化能力。
實驗設(shè)計
研究采用了兩種主要模型配置:
- Baseline模型僅在基礎(chǔ)函數(shù)上訓(xùn)練
- ComFuncLearner模型在基礎(chǔ)函數(shù)和部分組合函數(shù)上訓(xùn)練
通過比較這兩種模型在未見過的函數(shù)組合上的表現(xiàn),研究者能夠評估模型的跨問題和問題內(nèi)泛化能力。
關(guān)鍵發(fā)現(xiàn)
- 凸組合泛化:當(dāng)測試模型對基礎(chǔ)函數(shù)的凸組合進行擬合時,ComFuncLearner模型表現(xiàn)顯著優(yōu)于Baseline模型,即使ComFuncLearner只在訓(xùn)練中接觸過一種特定的凸組合。這表明Transformer模型具有強大的問題內(nèi)泛化能力。
- 乘積組合泛化:在函數(shù)乘積組合的測試中,隨著ComFuncLearner在訓(xùn)練中接觸的組合模式數(shù)量增加,其在未見過的乘積組合上的表現(xiàn)持續(xù)提升,進一步證實了問題內(nèi)泛化能力的存在。
- 復(fù)合函數(shù)泛化:在更復(fù)雜的函數(shù)復(fù)合測試中,模型表現(xiàn)出類似的泛化模式,但由于復(fù)合操作的復(fù)雜性,泛化難度明顯增加。
- 預(yù)訓(xùn)練模型的影響:研究還發(fā)現(xiàn),即使是經(jīng)過大規(guī)模預(yù)訓(xùn)練的LLaMA-3模型,在沒有接觸過特定組合形式的情況下,也難以實現(xiàn)跨問題泛化,但在問題內(nèi)和任務(wù)內(nèi)泛化方面表現(xiàn)出色。
這些實驗結(jié)果一致表明,Transformer模型在ICL范式下缺乏跨問題泛化能力,但具有出色的問題內(nèi)和任務(wù)內(nèi)泛化能力。
實際應(yīng)用場景驗證
為了驗證函數(shù)擬合實驗的發(fā)現(xiàn)在實際應(yīng)用中的有效性,研究團隊進一步在工具調(diào)用和翻譯任務(wù)上進行了實驗。
工具調(diào)用實驗
研究者將單API調(diào)用定義為基本問題,多API調(diào)用定義為復(fù)合問題,在LLaMA-2模型上進行了實驗。結(jié)果顯示:
- 在ComFuncLearner模型(訓(xùn)練包含多API調(diào)用示例)上應(yīng)用ICL,顯著提升了模型在多API任務(wù)上的表現(xiàn)。
- 有趣的是,ComFuncLearner模型在簡單的單API任務(wù)上的表現(xiàn)也優(yōu)于Baseline模型,表明訓(xùn)練數(shù)據(jù)的多樣性不僅提升了復(fù)雜任務(wù)的表現(xiàn),還能提高簡單任務(wù)的上限。
翻譯任務(wù)實驗
研究者使用Qwen2-1.5B架構(gòu)的模型,在英語和德語翻譯任務(wù)上進行了實驗,將單語言到單語言翻譯定義為基本問題,混合語言輸入的翻譯定義為復(fù)合問題。結(jié)果表明:
- 在復(fù)雜的混合語言輸入任務(wù)上,ComFuncLearner模型明顯優(yōu)于Baseline模型,且ICL帶來的提升更為顯著。
- 在簡單的單語言翻譯任務(wù)上,針對特定任務(wù)微調(diào)的Baseline模型表現(xiàn)最佳,表明ICL的問題內(nèi)和跨問題泛化能力仍低于任務(wù)內(nèi)泛化能力。
- 當(dāng)將測試集分為簡單和困難樣本時,發(fā)現(xiàn)在復(fù)雜樣本上,ComFuncLearner模型通過ICL獲得的提升更為顯著,而Baseline模型的提升有限。
這些實際應(yīng)用實驗進一步證實,當(dāng)模型在訓(xùn)練階段接觸更廣泛的問題類型時,能顯著提高其通過ICL實現(xiàn)的泛化能力上限,尤其是在復(fù)雜任務(wù)上。
分布偏移下的泛化能力
研究還探討了當(dāng)ICL示例與測試樣本之間存在分布偏移時,模型的泛化能力如何受影響。實驗考察了三種關(guān)鍵場景:
- 標簽噪聲:在ICL示例中引入標簽噪聲,發(fā)現(xiàn)即使只有少量噪聲樣本(如39個示例中的10個),也會顯著影響模型的泛化能力。
- 輸入偏差:當(dāng)ICL示例包含測試范圍之外的輸入時,模型在測試樣本上的表現(xiàn)顯著下降,即使這些額外樣本的輸出仍遵循真實函數(shù)。
- 輸入和輸出偏差:當(dāng)ICL示例同時包含范圍外的輸入和偏移的輸出時,模型的泛化能力進一步惡化。
這些發(fā)現(xiàn)表明,ICL對示例分布的偏移非常敏感,這在實際應(yīng)用中需要特別注意。
研究結(jié)論與指導(dǎo)原則
通過這一系列實驗,研究團隊得出了幾個關(guān)鍵結(jié)論:
- Transformer模型在ICL中缺乏跨問題泛化能力,但在問題內(nèi)和任務(wù)內(nèi)泛化方面表現(xiàn)出色。
- 即使經(jīng)過大規(guī)模預(yù)訓(xùn)練的模型,如果沒有在微調(diào)階段接觸特定的問題組合形式,也難以通過ICL實現(xiàn)跨問題泛化。
- 在訓(xùn)練數(shù)據(jù)中包含更多樣化的任務(wù)類型,不僅能提高模型在未見任務(wù)上的ICL泛化能力,還能提升其在已知簡單任務(wù)上的表現(xiàn)。
- 訓(xùn)練數(shù)據(jù)中任務(wù)多樣性的增加,能顯著放大ICL在復(fù)雜任務(wù)上帶來的改進效果。
這些發(fā)現(xiàn)為大型語言模型的訓(xùn)練數(shù)據(jù)設(shè)計提供了重要指導(dǎo):應(yīng)當(dāng)最大化覆蓋任務(wù)的多樣性,并在可能的情況下結(jié)合不同任務(wù),而不是僅關(guān)注特定的目標任務(wù)。這種策略不僅能提高模型的跨問題泛化能力,還能增強其在原本簡單任務(wù)上的表現(xiàn)。
研究意義與未來方向
這項研究系統(tǒng)地揭示了Transformer架構(gòu)在ICL下的泛化邊界,為理解大型語言模型的能力與局限提供了重要見解。研究結(jié)果表明,雖然當(dāng)前模型在跨問題泛化方面存在局限,但通過優(yōu)化訓(xùn)練數(shù)據(jù)的多樣性,可以顯著提升其泛化能力。
未來研究可以進一步探索:
- 如何設(shè)計更有效的訓(xùn)練數(shù)據(jù)組合,最大化模型的泛化能力
- 改進模型架構(gòu),增強其跨問題泛化能力
- 開發(fā)更魯棒的ICL方法,減少對示例分布偏移的敏感性
這項研究不僅深化了我們對Transformer架構(gòu)和ICL機制的理解,也為大型語言模型的實際應(yīng)用提供了寶貴的指導(dǎo)原則,有助于釋放這些模型的全部潛力。
論文:???https://arxiv.org/abs/2503.15579???
代碼:????https://github.com/UbeCc/Generalization-of-Transformers???
本文轉(zhuǎn)載自??頓數(shù)AI??,作者:蔥蔥
