討論下一個token預(yù)測時,我們可能正在走進(jìn)陷阱
自香農(nóng)在《通信的數(shù)學(xué)原理》一書中提出「下一個 token 預(yù)測任務(wù)」之后,這一概念逐漸成為現(xiàn)代語言模型的核心部分。最近,圍繞下一個 token 預(yù)測的討論日趨激烈。
然而,越來越多的人認(rèn)為,以下一個 token 的預(yù)測為目標(biāo)只能得到一個優(yōu)秀的「即興表演藝術(shù)家」,并不能真正模擬人類思維。人類會在執(zhí)行計劃之前在頭腦中進(jìn)行細(xì)致的想象、策劃和回溯。遺憾的是,這種策略并沒有明確地構(gòu)建在當(dāng)今語言模型的框架中。對此,部分學(xué)者如 LeCun,在其論文中已有所評判。
在一篇論文中,來自蘇黎世聯(lián)邦理工學(xué)院的 Gregor Bachmann 和谷歌研究院的 Vaishnavh Nagarajan 對這個話題進(jìn)行了深入分析,指出了當(dāng)前爭論沒有關(guān)注到的本質(zhì)問題:即沒有將訓(xùn)練階段的 teacher forcing 模式和推理階段的自回歸模式加以區(qū)分。
- 論文標(biāo)題:THE PITFALLS OF NEXT-TOKEN PREDICTION
- 論文地址:https://arxiv.org/pdf/2403.06963.pdf
- 項目地址:https://github.com/gregorbachmann/Next-Token-Failures
讀完此文,也許會讓你對下一個 token 預(yù)測的內(nèi)涵有不一樣的理解。
研究背景
首先,讓我們對 「人們在進(jìn)行語言表達(dá)或者完成某項任務(wù)時,并不是在做下一個 token 的預(yù)測」這個表述的含義進(jìn)行分析。對于這種反對意見,可能馬上就會有 token 預(yù)測理論的支持者反駁到:不是每一個序列生成任務(wù)都可能是自回歸的嗎?咋一看確實(shí)如此,每一個 token 序列的分布都可以是一種鏈?zhǔn)揭?guī)則,通過復(fù)雜的 token 預(yù)測模型進(jìn)行模擬之后,這種規(guī)則就可以被捕捉到,即 。看上去似乎自回歸學(xué)習(xí)方式與讓模型學(xué)習(xí)人類語言的目的是統(tǒng)一的。
然而,這種簡單粗暴的想法并不妨礙我們認(rèn)為 token 預(yù)測模型的規(guī)劃能力可能是很糟糕的。很重要的一點(diǎn)是,在這場爭論中人們并沒有仔細(xì)區(qū)分以下兩種類型的 token 預(yù)測方式:推理階段的自回歸(模型將自己之前的輸出作為輸入)和訓(xùn)練階段的 teacher-forcing(模型逐個對 token 進(jìn)行預(yù)測,將所有之前的真值 token 作為輸入)。如果不能對這兩種情況做出區(qū)分,那當(dāng)模型預(yù)測錯誤時,對復(fù)合誤差的分析往往只會將問題導(dǎo)向至推理過程,讓人們覺得這是模型執(zhí)行方面的問題。但這是一種膚淺的認(rèn)知,人們會覺得已經(jīng)得到了一個近乎完美的 token 預(yù)測模型;也許,通過一個適當(dāng)?shù)暮筇幚砟P瓦M(jìn)行驗(yàn)證和回溯后,可以在不產(chǎn)生復(fù)合錯誤的情況下就能得出正確的計劃。
在明確問題之后,緊接著我們就需要想清楚一件事:我們能放心地認(rèn)為基于 token 預(yù)測的學(xué)習(xí)方式(teacher-forcing)總是能學(xué)習(xí)到準(zhǔn)確的 token 預(yù)測模型嗎?本文作者認(rèn)為情況并非總是如此。
以如下這個任務(wù)為例:如果希望模型在看到問題陳述 p = (p_1, p_2 ... ,) 后產(chǎn)生基本真實(shí)的響應(yīng) token (r_1, r_2, ...) 。teacher-forcing 在訓(xùn)練模型生成 token r_i 時,不僅要提供問題陳述 p,還要部分基本事實(shí) toekn r_1、...r_(i-1)。根據(jù)任務(wù)的不同,本文作者認(rèn)為這可能會產(chǎn)生「捷徑」,即利用產(chǎn)生的基本事實(shí)答案來虛假地擬合未來的答案 token。這種作弊方式可以稱之為 「聰明的漢斯 」。接下來,當(dāng)后面的 token 在這種作弊方法的作用下變得容易擬合時,相反,前面的答案 token(如 r_0、r_1 等)卻變得更難學(xué)習(xí)。這是因?yàn)樗鼈儾辉俑綆魏侮P(guān)于完整答案的監(jiān)督信息,因?yàn)椴糠直O(jiān)督信息被「聰明的漢斯 」所剝奪。
作者認(rèn)為,這兩個缺陷會同時出現(xiàn)在 「前瞻性任務(wù) 」中:即需要在前一個 token 之前隱含地規(guī)劃后一個 token 的任務(wù)。在這類任務(wù)中,teacher-forcing 會導(dǎo)致 token 預(yù)測器的結(jié)果非常不準(zhǔn)確,無法推廣到未知問題 p,甚至是獨(dú)立同分布下的采樣問題。
根據(jù)經(jīng)驗(yàn),本文作者證明了上述機(jī)制會導(dǎo)致在圖的路徑搜索任務(wù)中會產(chǎn)生分布上的問題。他們設(shè)計了一種能觀察到模型的任何錯誤,并都可以通過直接求解來解決的方式。
作者觀察到 Transformer 和 Mamba 架構(gòu)(一種結(jié)構(gòu)化狀態(tài)空間模型)都失敗了。他們還發(fā)現(xiàn),一種預(yù)測未來多個 token 的無教師訓(xùn)練形式(在某些情況下)能夠規(guī)避這種失敗。因此,本文精心設(shè)計了一種易于學(xué)習(xí)的場景。在這種場景下會發(fā)現(xiàn)不是現(xiàn)有文獻(xiàn)中所批評的環(huán)節(jié),如卷積、遞歸或自回歸推理,而是訓(xùn)練過程中的 token 預(yù)測環(huán)節(jié)出了問題。
本文作者希望這些研究結(jié)果能夠啟發(fā)未來圍繞下一個 token 預(yù)測的討論,并為其奠定堅實(shí)的基礎(chǔ)。具體來說,作者認(rèn)為,下一個 token 預(yù)測目標(biāo)在上述這個簡單任務(wù)上的失敗,為其在更復(fù)雜任務(wù)(比如學(xué)習(xí)寫故事)上的應(yīng)用前景蒙上了陰影。作者還希望,這個失敗的例子和無教師訓(xùn)練方法所產(chǎn)生的正面結(jié)果,能夠激勵人們采用其他的訓(xùn)練范式。
貢獻(xiàn)總結(jié)如下:
1. 本文整合了針對下一個 token 預(yù)測的現(xiàn)有批評意見,并將新的核心爭議點(diǎn)具體化;
2. 本文指出,對下一個 token 預(yù)測的爭論不能混淆自回歸推斷與 teacher-forcing,兩者導(dǎo)致的失敗的原因大相徑庭;
3. 本文從概念上論證了在前瞻任務(wù)中,訓(xùn)練過程中的下一個 token 預(yù)測(即 teacher-forcing)可能會產(chǎn)生有問題的學(xué)習(xí)機(jī)制,甚至產(chǎn)生分布上的問題;
4. 本文設(shè)計了一個最小前瞻任務(wù)。通過實(shí)證證明,盡管該任務(wù)很容易學(xué)習(xí),但對于 Transformer 和 Mamba 架構(gòu)來說,teacher-forcing 是失敗的;
5. 本文發(fā)現(xiàn),Monea et al. 為實(shí)現(xiàn)正交推理時間效率目標(biāo)而提出的同時預(yù)測多個未來 token 的無教師訓(xùn)練形式,有望在某些情況下規(guī)避這些訓(xùn)練階段上的失敗。這進(jìn)一步證明了下一個 token 預(yù)測的局限性。
方法介紹
自回歸推理導(dǎo)致的問題
本文的目標(biāo)是更系統(tǒng)地分析并細(xì)致區(qū)分下一個 token 預(yù)測的兩個階段:teacher forcing 和自回歸。本文作者認(rèn)為,現(xiàn)有的論證沒有完全分析出 token 預(yù)測模型無法規(guī)劃任務(wù)的全部原因。
- 正方:概率鏈規(guī)則永遠(yuǎn)滴神
支持者對下一個 token 預(yù)測最熱的呼聲是:概率鏈規(guī)則總能推出一個能夠符合概率分布的 token 預(yù)測。
- 反方:誤差會像雪球一樣越滾越大
反對者認(rèn)為,在自回歸的每一步中都有可能出現(xiàn)微小的錯誤,而且一旦出錯就沒有明確的回溯機(jī)制來挽救模型。這樣一來,每個 token 中的錯誤概率,無論多么微小,都會以指數(shù)級的速度越滾越大。
反方抓住的是自回歸在結(jié)構(gòu)上的缺點(diǎn)。而正方對概率鏈規(guī)則的強(qiáng)調(diào)也只是抓住了自回歸架構(gòu)的表現(xiàn)力。這兩個論點(diǎn)都沒有解決一個問題,即利用下一個 token 預(yù)測進(jìn)行的學(xué)習(xí)本身可能在學(xué)習(xí)如何規(guī)劃方面存在缺陷。從這個意義上說,本文作者認(rèn)為現(xiàn)有的論證只捕捉到了問題的表象,即下一個 token 預(yù)測在規(guī)劃方面表現(xiàn)不佳。
teacher forcing 導(dǎo)致的問題
token 預(yù)測模型是否會在測試期間無法高精度地預(yù)測下一個 token?從數(shù)學(xué)上講,這意味著用 teacher forcing 目標(biāo)訓(xùn)練的模型在其訓(xùn)練的分布上誤差較大(從而打破了滾雪球模式的假設(shè))。因此,任何后處理模型都無法找到一個能用的計劃。從概念上來說,這種失敗可能發(fā)生在「前瞻性任務(wù)」中,因?yàn)檫@些任務(wù)隱含地要求在更早的 token 之前提前計算未來的 token。
為了更好地表述本文的論點(diǎn)所在,作者設(shè)計了一個圖的簡單尋路問題,深刻地抓住了解決前瞻性問題的核心本質(zhì)。這項任務(wù)本身很容易解決,所以任何失誤都會非常直觀地體現(xiàn)出來。作者將這個例子視為其論點(diǎn)的模板,該論點(diǎn)覆蓋了 teacher forcing 下的前瞻性問題中的更一般、更困難的問題。
這個論點(diǎn)就是,本文作者認(rèn)為 teacher-forcing 可能會導(dǎo)致以下問題,尤其是在前瞻性問題中。
- 問題 1:由于 teacher forcing 產(chǎn)生的「聰明的漢斯」作弊行為
盡管存在著一種機(jī)制可以從原始前綴 p 中恢復(fù)每個 token r_i,但也可以有多種其他機(jī)制可以從 teacher forcing 的前綴(p,r<i)中恢復(fù) token r_i。這些機(jī)制可以更容易地被學(xué)習(xí)到,相應(yīng)地就會抑制模型學(xué)習(xí)真正的機(jī)制。
- 問題 2:由于失去監(jiān)督而無法加密的 token
在訓(xùn)練中解決了「聰明的漢斯」作弊行為后,模型被剝奪了一部分監(jiān)督(尤其是對于較大的 i,r_i),這使得模型更難,甚至可能難以單獨(dú)從剩余的 token 中學(xué)習(xí)真正的機(jī)制。
實(shí)驗(yàn)
本文通過圖路徑搜索任務(wù)的實(shí)踐,演示了一種假設(shè)的故障模式。本文在 Transformer 和 Mamba 中進(jìn)行了實(shí)驗(yàn),以證明這些問題對于 teacher-forced 模型來說是普遍的。具體來說,先確定 teacher-forced 模型能符合訓(xùn)練數(shù)據(jù),但在滿足數(shù)據(jù)分布這個問題上存在不足。接下來,設(shè)計指標(biāo)來量化上述兩種假設(shè)機(jī)制發(fā)生的程度。最后,設(shè)計了替代目標(biāo)來干預(yù)和消除兩種故障模式中的每一種,以測試性能是否有所改善。
模型配置
本文對兩種模型家族進(jìn)行了評估,以強(qiáng)調(diào)問題的出現(xiàn)與某種特定體系結(jié)構(gòu)無關(guān),而是源于下一個 token 預(yù)測這個設(shè)計目標(biāo)。對于 Transformer,使用從頭開始的 GPT-Mini 和預(yù)訓(xùn)練的 GPT-2 大模型。對于遞歸模型,使用從頭開始的 Mamba 模型。本文使用 AdamW 進(jìn)行優(yōu)化,直到達(dá)到完美的訓(xùn)練精度。為了排除頓悟現(xiàn)象(grokking),本文對成本相對較低的模型進(jìn)行了長達(dá) 500 個 epoch 的訓(xùn)練。
本文在圖 3 和表 2 中描述了不同拓?fù)渎窂降男切螆D的??梢杂^察到,所有模型(即使經(jīng)過預(yù)訓(xùn)練)都很難準(zhǔn)確地學(xué)習(xí)任務(wù)。如果模型一致地猜測認(rèn)為 v_start≈1 /d,并由此在分布上產(chǎn)生問題,則精度值能被嚴(yán)格限制。即使在訓(xùn)練以擬合高達(dá) 200k 的量級到 100% 準(zhǔn)確度的樣本量時也是如此,盡管訓(xùn)練用的圖結(jié)構(gòu)和測試用的圖結(jié)構(gòu)具有相同的拓?fù)浣Y(jié)構(gòu)。接下來,本文定量地證明了這種明顯的問題是如何由上述兩個假設(shè)機(jī)制產(chǎn)生的。
通過表 1 可以發(fā)現(xiàn),為了擬合訓(xùn)練數(shù)據(jù),teacher-forced 模型利用了「聰明的漢斯」作弊方法。
圖 3 和表 3 顯示了無教師模型的準(zhǔn)確率。不幸的是,在大多數(shù)情況下,無教師的訓(xùn)練目標(biāo)對模型來說太難了,甚至無法擬合訓(xùn)練數(shù)據(jù),這可能是因?yàn)槿狈唵斡行У钠垓_手段。然而,令人驚訝的是,在一些更容易的圖結(jié)構(gòu)上,模型不僅適合于訓(xùn)練數(shù)據(jù),而且可以很好地泛化到測試數(shù)據(jù)。這個優(yōu)秀的結(jié)果(即使在有限的環(huán)境中)驗(yàn)證了兩個假設(shè)。首先,「聰明的漢斯」作弊方法確實(shí)是造成原有 teacher-forcing 模式失敗的原因之一。其次,值得注意的是,隨著作弊行為的消失,這些模型能夠擬合第一個節(jié)點(diǎn),而這個節(jié)點(diǎn)曾經(jīng)在 teacher-forcing 模式下是不可破譯的。綜上所述,本文所提出的假設(shè)可以說是得到了驗(yàn)證了,即「聰明的漢斯」作弊方法抹去了對學(xué)習(xí)第一個 token 的至關(guān)重要的監(jiān)督。
更多研究細(xì)節(jié),可參考原論文。