28年AGI撞上數(shù)據(jù)墻,以后全靠測(cè)試時(shí)計(jì)算?CMU詳解優(yōu)化原理
2025年主導(dǎo)AI的將是第3代scaling law:測(cè)試時(shí)計(jì)算。
正如Michael Dell轉(zhuǎn)述所言:
第一代scaling:預(yù)訓(xùn)練像讀大學(xué)
第二代scaling:微調(diào)像讀博士
第三代scaling:測(cè)試時(shí)計(jì)算就像深度思考和推理
近日,計(jì)算機(jī)強(qiáng)校CMU機(jī)器學(xué)習(xí)系,發(fā)表博客文章解釋LLM測(cè)試時(shí)計(jì)算優(yōu)化問(wèn)題,特別是涉及到的元強(qiáng)化學(xué)習(xí)(meta-RL)問(wèn)題。
文章亮點(diǎn)如下:
- 監(jiān)督學(xué)習(xí)只是在訓(xùn)練模型「答案是什么」,只要學(xué)習(xí)「如何解答」,模型泛化性會(huì)更好。
- 學(xué)習(xí)「如何解答」類似于強(qiáng)化學(xué)習(xí)中的自適應(yīng)策略,相當(dāng)于找到一個(gè)策略,使其能夠在計(jì)算預(yù)算C內(nèi)適應(yīng)測(cè)試問(wèn)題。
- 測(cè)試時(shí)訓(xùn)練等價(jià)于原強(qiáng)化學(xué)習(xí),這個(gè)視角提供了多方面的有價(jià)值見解:(1)優(yōu)化測(cè)試時(shí)計(jì)算資源時(shí),與信息增益相關(guān)的中間過(guò)程獎(jiǎng)勵(lì)的作用;(2)模型崩潰和預(yù)訓(xùn)練初始化在學(xué)習(xí)meta策略中的作用;以及(3)缺乏外部反饋的情況下,不對(duì)稱性如何成為測(cè)試時(shí)改進(jìn)的驅(qū)動(dòng)力。
數(shù)據(jù)Scaling,窮途末路
目前為止,改進(jìn)大語(yǔ)言模型(LLM)的主要策略,是使用越來(lái)越多的高質(zhì)量數(shù)據(jù)進(jìn)行監(jiān)督微調(diào)(SFT)或強(qiáng)化學(xué)習(xí)(RL)。
不幸的是,這種擴(kuò)展方式似乎很快會(huì)遇到瓶頸,預(yù)訓(xùn)練的擴(kuò)展法則趨于平穩(wěn)。
并且有報(bào)告稱,到2028年,用于訓(xùn)練的高質(zhì)量文本數(shù)據(jù)可能會(huì)耗盡。
因此,迫切需要數(shù)據(jù)高效的方法來(lái)訓(xùn)練LLM,這些方法超越了數(shù)據(jù)擴(kuò)展(data scaling),并且能解決更加復(fù)雜的問(wèn)題。
當(dāng)前的LLM是訓(xùn)練「答案是什么」
目前訓(xùn)練模型的主導(dǎo)原則是監(jiān)督它們?yōu)檩斎肷商囟ǖ妮敵觥?/p>
例如,給個(gè)輸入,監(jiān)督微調(diào)試圖匹配直接輸出的token,類似于模仿學(xué)習(xí);而RL微調(diào)則訓(xùn)練響應(yīng)以優(yōu)化獎(jiǎng)勵(lì)函數(shù),該函數(shù)通常假設(shè)在oracle響應(yīng)上取最大值。
在這兩種情況下,都是在訓(xùn)練模型生成它可以表示的最佳近似值y*。
抽象地說(shuō),這種范式訓(xùn)練模型以生成單一的輸入輸出映射。
當(dāng)目標(biāo)是直接解決一組來(lái)自給定分布的相似查詢時(shí),這種方法效果很好,但無(wú)法發(fā)現(xiàn)超出分布的查詢的解決方案。
固定的、一刀切的方法無(wú)法有效適應(yīng)任務(wù)的異質(zhì)性。
相反,需要的是一種穩(wěn)健的模型,它能夠嘗試不種方法,在不同程度上尋求信息,或在完全無(wú)法完全解決問(wèn)題時(shí)表達(dá)不確定性,從而概括出新的、未見過(guò)的問(wèn)題。
該如何訓(xùn)練模型來(lái)滿足這些要求呢?
學(xué)習(xí)「如何解答」,泛化性會(huì)更好
為了解決上述問(wèn)題,需要新的理念:在測(cè)試時(shí),允許模型通過(guò)計(jì)算來(lái)尋找「元」(meta)策略或算法,幫助其理解如何得出更好的答案。
實(shí)施這些元策略,模型可以系統(tǒng)化地推理,在面對(duì)不同復(fù)雜度的輸入時(shí),也可以做到外推和泛化(extrapolation and generalization)。
請(qǐng)參見下圖2,了解兩種不同的策略如何解決特定問(wèn)題。
圖2:兩種算法的示例及每種算法生成的token流。包括從模型權(quán)重中,獲取相關(guān)信息、規(guī)劃證明大綱、驗(yàn)證中間結(jié)果以及必要時(shí)修正的token。
第一種算法(左)生成初始答案并驗(yàn)證其正確性,如有必要,修正錯(cuò)誤步驟。
第二種算法(右)一次性生成多個(gè)解決策略,并按線性順序逐個(gè)執(zhí)行這些策略,最后選擇最有效的策略。
如何訓(xùn)練模型達(dá)到這一目標(biāo)呢?
這一目標(biāo)可以形式化為一個(gè)學(xué)習(xí)問(wèn)題,并通過(guò)元強(qiáng)化學(xué)習(xí)(meta RL)中的概念來(lái)解決。
將「如何學(xué)習(xí)」作為目標(biāo)
對(duì)于問(wèn)題,強(qiáng)化學(xué)習(xí)需要一個(gè)獎(jiǎng)勵(lì)函數(shù)
,而且獎(jiǎng)勵(lì)函數(shù)可以查詢?nèi)魏屋敵鰐oken流y。
比如,在一個(gè)數(shù)學(xué)推理問(wèn)題中,帶有標(biāo)記輸出流y,獎(jiǎng)勵(lì)可以用于檢查某些子序列的標(biāo)記是否包含正確答案。
只要有訓(xùn)練問(wèn)題的數(shù)據(jù)集和相應(yīng)的獎(jiǎng)勵(lì)函數(shù)集
,就能利用更多的token,學(xué)習(xí)通用但具有泛化能力的過(guò)程,而不僅僅猜測(cè)問(wèn)題的答案。
學(xué)習(xí)的目標(biāo)是實(shí)現(xiàn)測(cè)試問(wèn)題分布上的高額獎(jiǎng)勵(lì),而且這些測(cè)試問(wèn)題服從一個(gè)未知的先驗(yàn)分布(apriori)。
最終目的是對(duì)于未知的測(cè)試問(wèn)題分布,在有限的測(cè)試時(shí)計(jì)算預(yù)算C條件下,從推理計(jì)算受限的算法類中,利用訓(xùn)練問(wèn)題數(shù)據(jù)集學(xué)習(xí)一個(gè)算法
。
算法類包含了所有可能的
所引起的下一個(gè)token分布。
學(xué)習(xí)目標(biāo)是學(xué)習(xí),也就是說(shuō)一個(gè)自回歸LLM(參見圖1中的示例)。
將整個(gè)流包括最終答案(圖1中的綠色和藍(lán)灰色部分)稱為響應(yīng)y,完全由學(xué)習(xí)到的LLM模型生成。
通過(guò)獎(jiǎng)勵(lì)的平均正確性,來(lái)衡量算法
的效果。
因此,學(xué)習(xí)算法可被視為求解以下優(yōu)化問(wèn)題:
將優(yōu)化問(wèn)題解釋為元強(qiáng)化學(xué)習(xí)
接下來(lái)的問(wèn)題是:如何在計(jì)算受限的算法類中,利用語(yǔ)言模型來(lái)求解優(yōu)化問(wèn)題?
顯然,對(duì)于測(cè)試問(wèn)題,既不知道結(jié)果,也沒(méi)有任何監(jiān)督信號(hào)。
因此,沒(méi)辦法計(jì)算(Op-How)問(wèn)題中的外層的期望。
標(biāo)準(zhǔn)的LLM策略,隨便猜測(cè)一下可能最好的答案,也不是最佳策略,因?yàn)槿绻艹浞掷糜?jì)算預(yù)算C,可能會(huì)表現(xiàn)得更好。
主要思路是,優(yōu)化(Op-How)的算法類似于強(qiáng)化學(xué)習(xí)中的自適應(yīng)策略。
它使用額外的token預(yù)算來(lái)執(zhí)行某種算法策略,從而解決輸入問(wèn)題$$x$$(類似「上下文搜索」或「上下文探索」)。
通過(guò)這種聯(lián)系,可以借鑒解決類似問(wèn)題的方法,也就是將(Op-How)視為元學(xué)習(xí),尤其是元強(qiáng)化學(xué)習(xí)(meta RL)來(lái)處理:「元」(meta)表示目的是學(xué)習(xí)算法而非直接給出問(wèn)題的答案;「強(qiáng)化學(xué)習(xí)」(RL)則表明(Op-How)是一個(gè)獎(jiǎng)勵(lì)最大化問(wèn)題。
元強(qiáng)化學(xué)習(xí)
通常,強(qiáng)化學(xué)習(xí)訓(xùn)練一個(gè)策略,以最大化馬爾可夫決策過(guò)程(MDP)中的給定獎(jiǎng)勵(lì)函數(shù)。
與此不同,元強(qiáng)化學(xué)習(xí)問(wèn)題則假設(shè)能夠利用任務(wù)分布(這些任務(wù)擁有不同的獎(jiǎng)勵(lì)函數(shù)和動(dòng)態(tài))。
在這種設(shè)定下,目標(biāo)是通過(guò)訓(xùn)練任務(wù)分布中的任務(wù)來(lái)學(xué)習(xí)策略,從而使得策略能夠在測(cè)試任務(wù)上表現(xiàn)良好,無(wú)論該測(cè)試任務(wù)是否來(lái)自原來(lái)的測(cè)試任務(wù)分布。
此外,這種設(shè)定不以策略在測(cè)試任務(wù)上的零樣本表現(xiàn)作為評(píng)估標(biāo)準(zhǔn),而是允許策略在測(cè)試時(shí)通過(guò)執(zhí)行幾個(gè)「訓(xùn)練」回合來(lái)適應(yīng)測(cè)試任務(wù),并在這些回合結(jié)束后對(duì)其進(jìn)行評(píng)估。
大多數(shù)元強(qiáng)化學(xué)習(xí)方法的差異在于適應(yīng)過(guò)程的設(shè)計(jì)。例如,RL2通過(guò)上下文強(qiáng)化學(xué)習(xí)對(duì)適應(yīng)過(guò)程進(jìn)行參數(shù)化;MAML在測(cè)試時(shí)執(zhí)行顯式的梯度更新;PEARL通過(guò)適應(yīng)潛在變量來(lái)識(shí)別任務(wù)。
元強(qiáng)化學(xué)習(xí)的作用
你可能會(huì)想,馬爾可夫決策過(guò)程(MDP)和元強(qiáng)化學(xué)習(xí)需要的多個(gè)任務(wù),從何而來(lái)?
每個(gè)問(wèn)題x都會(huì)引發(fā)一個(gè)新的強(qiáng)化學(xué)習(xí)任務(wù),形式化為一個(gè)馬爾可夫決策過(guò)程(MDP):初始狀態(tài)是問(wèn)題x中的token集合,LLM生成的token表示
的動(dòng)作,并且將新token與當(dāng)前token序列串聯(lián)(concatenating)來(lái)定義平凡的確定性動(dòng)態(tài)(trivial deterministic dynamics)。
需要注意的是,所有的MDP共享相同的動(dòng)作集A,同時(shí)也共享狀態(tài)集S,這代表了詞匯表中可能的變長(zhǎng)token序列。而且,每個(gè)馬爾可夫決策過(guò)程都有由比較器給出的不同的未知獎(jiǎng)勵(lì)函數(shù)。
然后,求解(Op-How)就等同于找到一個(gè)策略,使其能夠在計(jì)算預(yù)算C內(nèi)迅速適應(yīng)測(cè)試問(wèn)題(或測(cè)試狀態(tài))的分布。
另一種看待測(cè)試時(shí)泛化的方式,是所謂的認(rèn)識(shí)性POMDP(Epistemic POMDP)。它將從馬爾可夫決策過(guò)程Mx算法族中學(xué)習(xí)策略,被認(rèn)為是部分可觀測(cè)強(qiáng)化學(xué)習(xí)問(wèn)題。
從這個(gè)角度來(lái)看,可以進(jìn)一步理解為何需要自適應(yīng)策略和元強(qiáng)化學(xué)習(xí):對(duì)于那些來(lái)自強(qiáng)化學(xué)習(xí)背景的人來(lái)說(shuō),解決POMDP等同于進(jìn)行元強(qiáng)化學(xué)習(xí)。
因此,解決元強(qiáng)化學(xué)習(xí),就是在尋找認(rèn)識(shí)性POMDP的最優(yōu)策略,從而實(shí)現(xiàn)泛化能力。
真的有用嗎?
既然元強(qiáng)化學(xué)習(xí)本身就非常困難,這種元強(qiáng)化學(xué)習(xí)視角有什么用?
作者認(rèn)為,盡管元強(qiáng)化學(xué)習(xí)完全從頭學(xué)習(xí)策略很難,但對(duì)那些已經(jīng)通過(guò)預(yù)訓(xùn)練獲得豐富先驗(yàn)知識(shí)的模型,用元強(qiáng)化學(xué)習(xí)對(duì)它們微調(diào)時(shí),非常有效。
此外,上述的元強(qiáng)化學(xué)習(xí)問(wèn)題可能呈現(xiàn)出特殊的結(jié)構(gòu)(比如,已知且確定的動(dòng)態(tài),不同的初始狀態(tài)),從而可以開發(fā)出非通用但有用的元強(qiáng)化學(xué)習(xí)算法。
如何使自適應(yīng)策略適應(yīng)測(cè)試問(wèn)題?
在元強(qiáng)化學(xué)習(xí)中,對(duì)于每個(gè)測(cè)試MDP Mx,策略通過(guò)在測(cè)試時(shí)利用計(jì)算資源來(lái)獲取信息,然后根據(jù)
生成的最終響應(yīng)進(jìn)行評(píng)估。
因此,為了解決(Op-How)問(wèn)題,可以將策略的整個(gè)token流視為拆分成多個(gè)訓(xùn)練階段。
為了優(yōu)化測(cè)試時(shí)的計(jì)算資源,需要確保每個(gè)訓(xùn)練階段提供某些信息增益,以便在測(cè)試MDP的后續(xù)階段表現(xiàn)得更好。
如果沒(méi)有信息增益,那么就會(huì)退化為一個(gè)標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)問(wèn)題——只不過(guò)計(jì)算預(yù)算更高——并且也搞不清楚「如何學(xué)習(xí)」是否有用。
可以獲得什么信息?
當(dāng)然,如果在token流中涉及外部接口,可能會(huì)獲得更多的信息。
然而,如果沒(méi)有涉及外部工具,是否可以享受「免費(fèi)午餐」?
作者指出,不需要外部工具參與,信息仍然可以隨著token流的進(jìn)展而獲得。
在流中的每個(gè)階段,都可能通過(guò)提升模型對(duì)真實(shí)獎(jiǎng)勵(lì)函數(shù)r(x,?)的后驗(yàn)信念,從而獲得更多有意義的信息(例如,通過(guò)單獨(dú)訓(xùn)練的驗(yàn)證器或策略本身進(jìn)行自我驗(yàn)證),并且因此獲得最優(yōu)響應(yīng)y?。
換句話說(shuō),更多的測(cè)試時(shí)計(jì)算,可以視為從模型逼近的后驗(yàn)分布P(?∣x,θ)中采樣的方式,其中每個(gè)階段(或輸出流中的token)都在改進(jìn)對(duì)后驗(yàn)分布的逼近。
因此,明確地對(duì)先生成的token條件化,是用固定大小的LLM表示后驗(yàn)的可計(jì)算方法。
這也意味著,即使沒(méi)有外部輸入,隨著生成更多的tokens,也期望下列互信息會(huì)增加:
在這種情況下,由于所有的監(jiān)督來(lái)自本身,需要在生成和驗(yàn)證之間存在不對(duì)稱性,才能讓驗(yàn)證引發(fā)信息增益。
另一個(gè)想法是,當(dāng)模型在訓(xùn)練數(shù)據(jù)上欠擬合時(shí),僅僅增加生成token的長(zhǎng)度,也可能提供顯著的信息增益,因?yàn)橛?jì)算資源的增加會(huì)提升模型的容量(參見下列文章的第2節(jié))。
顯然還需要更多的工作來(lái)形式化這些論點(diǎn),但已經(jīng)有一些文章,表明自我改進(jìn)可以隱式或顯式地利用這種不對(duì)稱性。
總結(jié)起來(lái),當(dāng)將優(yōu)化問(wèn)題(Op-how)視為一個(gè)元強(qiáng)化學(xué)習(xí)問(wèn)題時(shí),A(?|?)變成了一個(gè)歷史條件化的(「自適應(yīng)的」)策略,通過(guò)在給定的測(cè)試問(wèn)題上花費(fèi)最多的計(jì)算量來(lái)優(yōu)化獎(jiǎng)勵(lì)r。
學(xué)習(xí)一個(gè)基于過(guò)去階段條件化的自適應(yīng)策略,正是黑箱元強(qiáng)化學(xué)習(xí)方法的目標(biāo)。
元強(qiáng)化學(xué)習(xí)也與學(xué)習(xí)如何探索緊密相關(guān),事實(shí)上,可以將這些額外的token視為在探索特定問(wèn)題的策略。
圖3:RL2中智能體與環(huán)境交互的過(guò)程
通過(guò)元強(qiáng)化學(xué)習(xí)學(xué)習(xí)自適應(yīng)策略
解決元強(qiáng)化學(xué)習(xí)問(wèn)題的最明顯的方法,可能是使用黑箱元強(qiáng)化學(xué)習(xí)方法,例如RL2。
這就需要最大化輸出軌跡(trace)中想象的「情節(jié)」的獎(jiǎng)勵(lì)總和。
例如,如果對(duì)應(yīng)于使用自我糾正策略,則每個(gè)階段的獎(jiǎng)勵(lì)將根據(jù)軌跡中出現(xiàn)的個(gè)體響應(yīng)進(jìn)行評(píng)分。
如果指定一種交替生成和生成性驗(yàn)證的策略,則獎(jiǎng)勵(lì)將對(duì)應(yīng)于生成和驗(yàn)證成功的程度??梢赃M(jìn)行下列優(yōu)化:
其中,對(duì)應(yīng)于響應(yīng)的索引,這些響應(yīng)標(biāo)記了階段的結(jié)束,獎(jiǎng)勵(lì)
則表示該階段的標(biāo)量獎(jiǎng)勵(lì)信號(hào)(例如,驗(yàn)證段的驗(yàn)證正確性,生成段的生成正確性,等等)。
此外,作者還優(yōu)化了答案的最終正確性獎(jiǎng)勵(lì)。請(qǐng)注意,這一公式規(guī)定了一個(gè)密集的、基于過(guò)程的獎(jiǎng)勵(lì)(這不同于使用逐步過(guò)程獎(jiǎng)勵(lì)模型(PRM),而是采用密集的額外獎(jiǎng)勵(lì)(reward bonus);這種密集的額外獎(jiǎng)勵(lì)與探索之間的關(guān)系可以在下列論文中找到)。
還可以通過(guò)顯式地添加損失項(xiàng)或者隱式地(例如,剪裁掉違反計(jì)算預(yù)算的模型生成的結(jié)果),選擇限制使用的計(jì)算上限C。
上述方法只針對(duì)生成和驗(yàn)證。
然而,輸出的token流,通常無(wú)法清晰地劃分為生成和驗(yàn)證。
在這種情況下,可以考慮一種更抽象的meta RL形式,使用某種信息增益的估計(jì)作為獎(jiǎng)勵(lì)。
來(lái)自QuietSTaR論文中的度量標(biāo)準(zhǔn)可能就是這樣一個(gè)估計(jì),盡管目前尚不清楚如何準(zhǔn)確地定義該度量標(biāo)準(zhǔn)。
可以通過(guò)多輪RL方法解決(Obj-1)和(Obj-2),例如基于策略梯度的中間密集獎(jiǎng)勵(lì)方法,或者基于演員-評(píng)論家(actor-critic)架構(gòu)的方法(例如,先前的ArCHer工作)。
也許,只要能使用某種周期性的on-policy rollouts RL算法來(lái)解決優(yōu)化問(wèn)題,那RL方法(基于值還是基于策略)的選擇甚至都可能無(wú)關(guān)緊要。
還可以考慮另一種設(shè)計(jì)meta RL訓(xùn)練目標(biāo)的不同方法:只優(yōu)化測(cè)試回合中獲得的獎(jiǎng)勵(lì)(例如,最后一次嘗試的最終答案正確性),而不優(yōu)化訓(xùn)練回合,從而避免量化信息增益的需求。
作者認(rèn)為,這將面臨優(yōu)化非常稀疏監(jiān)督信號(hào)的難題,尤其是在長(zhǎng)軌跡的末端(在meta RL術(shù)語(yǔ)中,軌跡由多個(gè)推理段或多個(gè)「回合」組成);而密集獎(jiǎng)勵(lì)應(yīng)該能夠更好地解決這一問(wèn)題。
文中也討論了面臨的其他問(wèn)題。
作者介紹
值得一提的是,博文6位作者中有3位華人。
Yuxiao Qu,卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)科學(xué)學(xué)院機(jī)器學(xué)習(xí)系的一年級(jí)博士。在CMU之前,他在威斯康星大學(xué)麥迪遜分校計(jì)算機(jī)科學(xué)系獲得了學(xué)士學(xué)位。更早之前,他還在香港中文大學(xué)工作過(guò)一段時(shí)間。
Matthew Yang,是CMU機(jī)器學(xué)習(xí)系的碩士生。此前,他在滑鐵盧大學(xué)學(xué)習(xí)計(jì)算機(jī)科學(xué)和統(tǒng)計(jì)學(xué)。
Lunjun Zhang,是多倫多大學(xué)機(jī)器學(xué)習(xí)小組的一名計(jì)算機(jī)科學(xué)博士生。2024年,他在谷歌DeepMind實(shí)習(xí),研究LLM。2021年至2024年,他在自動(dòng)駕駛初創(chuàng)公司擔(dān)任研究員。更早之前,他在多倫多大學(xué)攻讀工程科學(xué)專業(yè)。