北大對(duì)齊團(tuán)隊(duì)獨(dú)家解讀:OpenAI o1開(kāi)啟「后訓(xùn)練」時(shí)代強(qiáng)化學(xué)習(xí)新范式
OpenAI o1 在數(shù)學(xué)、代碼、長(zhǎng)程規(guī)劃等問(wèn)題取得顯著的進(jìn)步。一部分業(yè)內(nèi)人士分析其原因是由于構(gòu)建足夠龐大的邏輯數(shù)據(jù)集 <問(wèn)題,明確的正確答案> ,再加上類似 AlphaGo 中 MCTS 和 RL 的方法直接搜索,只要提供足夠的計(jì)算量用于搜索,總可以搜到最后的正確路徑。然而,這樣只是建立起問(wèn)題和答案之間的更好的聯(lián)系,如何泛化到更復(fù)雜的問(wèn)題場(chǎng)景,技術(shù)遠(yuǎn)不止這么簡(jiǎn)單。
AlphaGo 是強(qiáng)化學(xué)習(xí)在圍棋領(lǐng)域中的一大成功,成功擊敗了當(dāng)時(shí)的世界冠軍。早在去年,Deepmind 的 CEO Demis Hassabis 便強(qiáng)調(diào)用 Tree Search 來(lái)增強(qiáng)模型的推理能力。根據(jù)相關(guān)人士推測(cè),o1 的模型訓(xùn)練數(shù)據(jù)截止到去年十月份,而有關(guān) Q * 的爆料大約是去年 11 月,這似乎展示 o1 的訓(xùn)練中也用到了 TreeSearch 的技巧。
實(shí)際上,OpenAI o1 運(yùn)用的技術(shù)關(guān)鍵還是在于強(qiáng)化學(xué)習(xí)的搜索與學(xué)習(xí)機(jī)制,基于 LLM 已有的推理能力,迭代式的 Bootstrap 模型產(chǎn)生合理推理過(guò)程(Rationales) 的能力,并將 Rationales 融入到訓(xùn)練過(guò)程內(nèi),讓模型學(xué)會(huì)進(jìn)行推理,而后再運(yùn)用足夠強(qiáng)大的計(jì)算量實(shí)現(xiàn) Post-Training 階段的 Scaling。類似于 STaR [1] 的擴(kuò)展版本。
注意這里合理推理過(guò)程并不只是對(duì)問(wèn)題的拆解和分步作答,還有對(duì)于為什么如此作答的分析和思考。
技術(shù)要點(diǎn)有三:
- 后訓(xùn)練擴(kuò)展律 Post-Training Scaling Laws 已經(jīng)出現(xiàn),并且 Post-Training Scaling Laws 為上述技術(shù)路徑的成功提供了有力支持。
- 模型學(xué)習(xí)的是產(chǎn)生合理推理的過(guò)程,MCTS 在其中的作用是誘導(dǎo)合理推理過(guò)程的產(chǎn)生或構(gòu)建相應(yīng)的偏序?qū)π纬杉?xì)粒度獎(jiǎng)勵(lì)信號(hào),而非直接搜索過(guò)程和最終答案。
- 模型的 BootStrap 有助于構(gòu)建新的高質(zhì)量數(shù)據(jù),并且新的 Rationales 數(shù)據(jù)促進(jìn)了模型進(jìn)一步提升能力。
一、OpenAI o1 的發(fā)布是 Post-Training Scaling Laws 的強(qiáng)力體現(xiàn)
北京時(shí)間 9 月 13 日午夜,OpenAI 發(fā)布 o1 系列模型,旨在專門解決難題。OpenAI o1 在數(shù)學(xué)、 代碼、長(zhǎng)程規(guī)劃等問(wèn)題上取得了顯著提升,而背后的成功最重要離不開(kāi)后訓(xùn)練階段 (Post-Training Stage) 中強(qiáng)化學(xué)習(xí)訓(xùn)練和推理階段思考計(jì)算量的增大。新的擴(kuò)展律 —— 后訓(xùn)練擴(kuò)展律(Post-Training Scaling Laws) 已經(jīng)出現(xiàn),并可能引發(fā)社區(qū)對(duì)于算力分配、后訓(xùn)練能力的重新思考。
模型表現(xiàn)概覽
最新的發(fā)布的 OpenAI o1 在數(shù)學(xué)代碼等復(fù)雜推理能力上取得巨大進(jìn)步,在競(jìng)爭(zhēng)性編程問(wèn)題 (Codeforces) 中排名第 89 個(gè)百分位,在美國(guó)數(shù)學(xué)奧林匹克競(jìng)賽 (AIME) 資格賽中躋身美國(guó)前 500 名學(xué)生之列,在物理、生物和化學(xué)問(wèn)題的基準(zhǔn) (GPQA) 上超過(guò)了人類博士水平的準(zhǔn)確性。
而幫助 o1 取得如此性能飛躍的,是 Post-Training 階段 RL 計(jì)算量的 Scaling 和測(cè)試推理階段思考時(shí)間的 Scaling。
不過(guò),如果仔細(xì)觀察,OpenAI o1 在一些常規(guī)任務(wù)如英語(yǔ)考試和語(yǔ)言能力測(cè)試上并沒(méi)有顯著提升 —— 推理能力和強(qiáng)指令跟隨能力的提升似乎呈現(xiàn)了分離,這個(gè)觀察和思考,我們放到最后的分析。
后訓(xùn)練擴(kuò)展律 Post-Training Scaling Law
隨著模型尺寸逐漸增大,預(yù)訓(xùn)練階段參數(shù) Scaling Up 帶來(lái)的邊際收益開(kāi)始遞減,如果想要深度提升模型推理能力和長(zhǎng)程問(wèn)題能力,基于強(qiáng)化學(xué)習(xí)的 Post-Training 將會(huì)成為下一個(gè)突破點(diǎn)。早在 2018 年 Ilya 在 MIT 的客座講座上,他便分享過(guò)自己對(duì)于通過(guò) RL 和 Self-play 走向 AGI 的信心。
OpenAI 探索 Parameter Scaling Law 之外的 Scaling Laws 也并非空穴來(lái)風(fēng)。
When generating a solution, autoregressive models have no mechanism to correct their own errors. Solutions that veer off-course quickly become unrecoverable.
If we rely purely on generative methods and extrapolate from current trends, we will require an exorbitant parameter count to achieve even moderate performance on distributions as challenging as the MATH dataset.
This evidence strongly motivates the search for methods with more favorable scaling laws.
在 2021 年,他們便在 Training Verifiers to Solve Math Word Problems [6] 中提到,自回歸模型在數(shù)學(xué)推理問(wèn)題上很難進(jìn)步的一點(diǎn)在于沒(méi)有辦法進(jìn)行回答的自主修正,如果僅是依靠生成式方法和擴(kuò)大參數(shù)規(guī)模,那么在數(shù)學(xué)推理任務(wù)上帶來(lái)的收益不會(huì)太大。所以需要尋找額外的 Scaling Laws。
現(xiàn)在看來(lái),RL 帶來(lái)了 LLM 訓(xùn)練的范式轉(zhuǎn)變,也帶來(lái)了新的 Scaling Laws,即 Post-Training Scaling Laws。
在 Post-Training Scaling Laws 下,訓(xùn)練階段的計(jì)算量不再只是和參數(shù)量的上升有關(guān),同時(shí)也會(huì)包含 RL 探索時(shí) LLM Inference 的計(jì)算量。與此同時(shí),測(cè)試階段模型推理和反思的計(jì)算量也會(huì)影響模型最終的表現(xiàn)。在 DeepMind 最近的文章 [5] 中,也討論了這種范式的轉(zhuǎn)變。
Post-train 雖然參數(shù)沒(méi)變,但是在訓(xùn)練算力上仍然會(huì)倍數(shù)增長(zhǎng);推理上也會(huì)隨著模型 “思考能力提高”,單次算力增長(zhǎng)。是否有足夠的算力做 Post-Training 似乎已經(jīng)成為能不能提升推理性能的入場(chǎng)券。
OpenAI 發(fā)現(xiàn)也證明了這一點(diǎn):隨著更多的強(qiáng)化學(xué)習(xí)(訓(xùn)練時(shí)計(jì)算)和更多的思考時(shí)間(測(cè)試時(shí)計(jì)算), o1 的性能也在不斷提升,并且 Post-Training Scaling Laws 還沒(méi)有被完全探索。
Sutton 在《Bitter Lesson》中已經(jīng)指出,只有兩種技術(shù)可以隨著算力增長(zhǎng),學(xué)習(xí)和搜索。正如英偉達(dá)科學(xué)家 Jim Fan 所說(shuō),也許模型參數(shù)大部分是用于存儲(chǔ)知識(shí)和記憶。
隨著參數(shù)擴(kuò)展律的邊際效益逐漸遞減,現(xiàn)在是時(shí)候?qū)⒏嗟乃懔D(zhuǎn)向 Post-Training 階段和推理階段。
二、OpenAI 的成功,關(guān)鍵在于合理使用強(qiáng)化學(xué)習(xí)的探索
僅靠 MCTS 是遠(yuǎn)不足夠的
僅靠 MCTS 無(wú)法讓模型學(xué)會(huì)思考問(wèn)題的關(guān)聯(lián),隱式自動(dòng)化 CoT 的背后,是模型真正學(xué)會(huì)了合理的中間推理過(guò)程 Rationales。
當(dāng)人們寫作或說(shuō)話時(shí),常常會(huì)停下來(lái)思考。然而,大語(yǔ)言模型在通過(guò) Next Token Prediction 生成回答時(shí),更像是一種 “快思考” 過(guò)程。由于缺乏詳細(xì)的中間推理步驟,模型一開(kāi)始可能會(huì)犯錯(cuò),而這些錯(cuò)誤可能會(huì)傳播,最終導(dǎo)致生成的答案也是錯(cuò)誤的。
為了優(yōu)化這一過(guò)程,產(chǎn)生了一系列方法,其中包括在 Token 級(jí)別或子句級(jí)別提供獎(jiǎng)勵(lì)信號(hào),幫助模型調(diào)整生成的回答。這些方法如蒙特卡洛樹(shù)搜索(MCTS),將輸出建模為一系列節(jié)點(diǎn),這些節(jié)點(diǎn)可以是 Token 級(jí)別或句子級(jí)別。例如:
- Token 級(jí)別的節(jié)點(diǎn):每個(gè)節(jié)點(diǎn)對(duì)應(yīng)生成序列中的一個(gè) Token。通過(guò) MCTS,模型可以探索不同的 Token 序列,最終生成更連貫的響應(yīng)。
- 句子級(jí)別的節(jié)點(diǎn):在復(fù)雜推理任務(wù)中,每個(gè)節(jié)點(diǎn)可以代表一個(gè)完整的句子或推理步驟,幫助模型更好地處理多步推理任務(wù)。
另一種方式是通過(guò)思維鏈(Chain of Thought, CoT)優(yōu)化模型輸出。CoT 通過(guò)分步推理的方式,要求模型在生成最終答案之前,先生成一系列中間推理步驟。這種 “思考鏈” 的生成過(guò)程有助于增強(qiáng)模型的推理能力,尤其在數(shù)學(xué)和代碼生成等任務(wù)中表現(xiàn)出色。
然而,CoT 雖然能夠生成中間步驟,但并未教會(huì)模型如何從內(nèi)部深入思考問(wèn)題的關(guān)聯(lián)。特別是對(duì)于尤其復(fù)雜且需要多步推理規(guī)劃的任務(wù),這樣的合理的中間 CoT 推理過(guò)程(Rationales) 更為重要。
類似的思路在 STaR [1] 和 Quiet-STaR [7] 中有所體現(xiàn)。
STaR 的核心思路是利用 LLM 已有的推理能力,迭代式的 Bootstrap 模型產(chǎn)生合理推理過(guò)程(Rationales) 的能力,并將 Rationales 融入到訓(xùn)練過(guò)程內(nèi),讓模型學(xué)會(huì)進(jìn)行推理。
- 推理:起始數(shù)據(jù)集僅有 [Question, Answer] ,首先利用一些帶有推理過(guò)程的 Few-Shot Examples 來(lái) Prompt 模型對(duì)于數(shù)據(jù)集中的問(wèn)題生成對(duì)應(yīng)的推理過(guò)程和答案。
- 過(guò)濾:如果生成的答案正確,則將推理過(guò)程加入到原有的數(shù)據(jù)集中;如果生成的答案錯(cuò)誤,則嘗試在給出正確答案的前提下再次生成推理過(guò)程。將最終生成正確答案的推理收集,構(gòu)建一個(gè)構(gòu)建一個(gè)微調(diào)數(shù)據(jù)集 [Question, Rationale, Answer ] 進(jìn)行微調(diào)。
- 迭代:重復(fù)這一過(guò)程,且每次獲得一個(gè)新的數(shù)據(jù)集,都從原始的模型開(kāi)始進(jìn)行 Fine-tune 從而防止過(guò)擬合。
STaR 的思路和 RL 中策略梯度算法是近似的,甚至整體的優(yōu)化目標(biāo)可以近似為一個(gè)策略梯度優(yōu)化的目標(biāo)。
模型首先采樣潛在的推理路徑(rationale)的過(guò)程類似于 RL 中通過(guò)策略選擇動(dòng)作(action),基于環(huán)境狀態(tài)選擇一個(gè)可能的策略路徑。STaR 中,通過(guò)計(jì)算目標(biāo)函數(shù),模型對(duì)整個(gè)數(shù)據(jù)集的預(yù)測(cè)結(jié)果進(jìn)行評(píng)估,并且只根據(jù)預(yù)測(cè)正確的樣本更新模型。
STaR 在同一批數(shù)據(jù)上進(jìn)行多次梯度更新,這類似于某些策略梯度算法中的策略,即通過(guò)多次調(diào)整同一批數(shù)據(jù)來(lái)穩(wěn)定學(xué)習(xí)過(guò)程。在 RL 中,策略梯度算法通過(guò)這種方式在探索動(dòng)作空間時(shí)進(jìn)行學(xué)習(xí),而 STaR 則通過(guò)探索推理和答案空間,逐步改善推理生成的準(zhǔn)確性。
這種方法和先前提到的通過(guò)細(xì)粒度獎(jiǎng)勵(lì)或 MCTS 優(yōu)化輸出有所不同,模型在正確和錯(cuò)誤的示例中更多的學(xué)會(huì)的是如何進(jìn)行顯式的合理推理。
與此同時(shí),這種合理推理不只是問(wèn)題拆解分步理,更適用于一般常識(shí)問(wèn)答任務(wù)上。例如:
- 問(wèn)題:什么可以被用來(lái)裝一只小狗
- 選項(xiàng):(a) 游泳池 (b) 籃子 (c) 后院 (d) 自己的家
- 合理推理:答案必須是可以用來(lái)攜帶一只小狗的東西?;@子是用來(lái)裝東西的。因此,答案是 (b) 籃子。
但是 STaR 存在幾個(gè)局限性:
- 對(duì)少樣本示例的依賴:STaR 在推理任務(wù)中高度依賴少量的 Few-Shot 推理示例,這導(dǎo)致模型的推理能力較為有限,難以應(yīng)對(duì)復(fù)雜和廣泛的任務(wù)。
- 泛化能力受限:STaR 雖然能夠通過(guò)迭代的方式提升模型的推理能力,但其應(yīng)用主要局限于特定的結(jié)構(gòu)化任務(wù)(如問(wèn)題回答),難以在開(kāi)放域或任意文本生成任務(wù)中取得同樣的效果。
針對(duì) STaR 的局限性,Quiet-STaR [7] 提出 “內(nèi)部思維” 的概念,將顯式的 Rationales 推理過(guò)程轉(zhuǎn)化為模型內(nèi)部隱式的推理過(guò)程,從而擺脫對(duì)于外部示例的依賴。
同時(shí),引入可學(xué)習(xí)的 <|startofthought|> 和 <|endofthought|> token 來(lái)標(biāo)記思維的開(kāi)始和結(jié)束。
Quiet-STaR 還實(shí)現(xiàn)了在更一般文本上的推理學(xué)習(xí),這意味著大量復(fù)雜任務(wù)下的非結(jié)構(gòu)化語(yǔ)料(如醫(yī)療、金融等領(lǐng)域)都可以被加入學(xué)習(xí)過(guò)程。同時(shí)利用帶推理過(guò)程的結(jié)果與真實(shí)結(jié)果的分布差異引入獎(jiǎng)勵(lì)信號(hào),通過(guò) REINFORCE 的方法優(yōu)化生成的推理,使得基于這些推理的模型預(yù)測(cè)未來(lái)的 tokens 更為準(zhǔn)確。
就目前來(lái)看,STaR 和 Quiet-STaR 是最接近 o1 的技術(shù)路線和模型表現(xiàn)效果的,但是如果想要進(jìn)一步達(dá)到 OpenAI o1 的效果,還需要克服很多問(wèn)題。
例如如下兩個(gè)問(wèn)題:
- Quiet-STaR 在生成內(nèi)部思維的過(guò)程中,每個(gè) Token 均會(huì)生成下一步的對(duì)應(yīng)的思考過(guò)程,導(dǎo)致生成了大量額外的 tokens,這也導(dǎo)致了計(jì)算資源需求大幅增加。實(shí)際上模型需要學(xué)會(huì)動(dòng)態(tài)的調(diào)整 Thinking Token。
- 對(duì)于更復(fù)雜的任務(wù)和長(zhǎng)程問(wèn)題, 如何針對(duì)內(nèi)部思考過(guò)程提供細(xì)粒度的獎(jiǎng)勵(lì)信號(hào)??jī)H僅通過(guò)比較合理推理的回答和正確回答是否一致(或者 Predicted Distribution 的相似度)是不夠的。
這不禁引發(fā)我們對(duì)于 OpenAI o1 的技術(shù)路徑的思考。OpenAI o1 應(yīng)當(dāng)也是沿著 STaR 和 Quiet-STaR 類似的路線,優(yōu)化模型內(nèi)部生成合理推理(即隱式的 CoT) 的過(guò)程。而 Post-Training 階段 RL 的訓(xùn)練階段主要算力也應(yīng)當(dāng)是放在了對(duì)于內(nèi)部推理過(guò)程的優(yōu)化上。
那如何構(gòu)造隱式 CoT 的優(yōu)化過(guò)程的 Reward?
可以通過(guò)不同溫度采樣出來(lái)的推理路徑構(gòu)建偏序,也可能是 MCTS 搜出來(lái)的正誤參半的不同推理過(guò)程形成偏序。這點(diǎn)和先前的 MCTS 用法會(huì)有所不同,MCTS 節(jié)點(diǎn)上不再是最終生成答案中的某個(gè) token 或某步,而是隱式推理過(guò)程中的每一步。
同時(shí),為了提供更加細(xì)粒度的反饋和指導(dǎo),需要引入過(guò)程性的獎(jiǎng)勵(lì),而針對(duì)模型自身已經(jīng)難以提供合理推理過(guò)程的復(fù)雜問(wèn)題,通過(guò)引入額外的足夠強(qiáng)的 Critic Model 來(lái)解決這個(gè)問(wèn)題。
最終通過(guò)強(qiáng)化學(xué)習(xí),o1 學(xué)會(huì)了優(yōu)化其思維鏈,并不斷改進(jìn)其使用的策略。它學(xué)會(huì)識(shí)別并糾正錯(cuò)誤,學(xué)會(huì)將復(fù)雜的步驟分解為更簡(jiǎn)單的步驟,并在當(dāng)前方法無(wú)效時(shí)嘗試不同的解決方案。這個(gè)過(guò)程大幅提高了模型的推理能力。
同時(shí),在 OpenAI 披露的細(xì)節(jié)中,生成過(guò)程中的 Reasoning Token 是動(dòng)態(tài)引入的,這也盡可能的減少了不必要的思考帶來(lái)的額外算力損耗。
可以說(shuō),OpenAI o1 已不再是即時(shí)給出答案的模型,而是能夠先進(jìn)行深入思考。這可以類比為 o1 正在從依賴系統(tǒng) 1 思維(即快速、自動(dòng)、直覺(jué)、易出錯(cuò)的思維模式),逐步進(jìn)化為采用系統(tǒng) 2 思維(即緩慢、刻意、有意識(shí)且更可靠的推理過(guò)程)。這一轉(zhuǎn)變賦予了 o1 解決之前無(wú)法應(yīng)對(duì)的復(fù)雜問(wèn)題的能力,而這一切的實(shí)現(xiàn),根源于訓(xùn)練后階段中遵循的擴(kuò)展規(guī)律(Scaling Laws)的應(yīng)用與優(yōu)化。
更有意思的是,我們可以構(gòu)建一個(gè)數(shù)據(jù)飛輪:通過(guò) o1 模型的推理過(guò)程自動(dòng)生成大量高質(zhì)量的訓(xùn)練數(shù)據(jù),這些數(shù)據(jù)可以被反復(fù)用于進(jìn)一步提升模型性能,形成一個(gè)自我強(qiáng)化的良性循環(huán)。
在這一過(guò)程中,模型的自舉能力(Bootstrap)得到進(jìn)一步擴(kuò)展,不僅加速了性能提升的進(jìn)程,更有望逐步推動(dòng)向超級(jí)智能(Superintelligence)的邁進(jìn)。
總結(jié)一下:
- RL + “隱式思維鏈”:o1 模型使用 RL 進(jìn)行訓(xùn)練,通過(guò)引入動(dòng)態(tài)的 Reasoning Token,從而啟發(fā) “隱式思維鏈” 來(lái) “思考” 問(wèn)題,思考時(shí)間越長(zhǎng),推理能力越強(qiáng)!
- 推理時(shí)間 = 新的擴(kuò)展維度:o1 模型的發(fā)布,意味著 AI 能力的提升不再局限于預(yù)訓(xùn)練階段,還可以通過(guò)在 Post-Training 階段中提升 RL 訓(xùn)練的探索時(shí)間和增加模型推理思考時(shí)間來(lái)實(shí)現(xiàn)性能提升,即 Post-Training Scaling Laws。
- 數(shù)據(jù)飛輪 + Bootstrap -> SuperIntelligence : 基于自我反思的模型將能夠?qū)崿F(xiàn)自舉 Bootstrap,并提升大大提升模型對(duì)于未見(jiàn)過(guò)的復(fù)雜問(wèn)題的解決能力,模型的推理過(guò)程形成大量高質(zhì)量數(shù)據(jù)的飛輪,并最終有可能向 SuperIntelligence 更進(jìn)一步。
評(píng)論模型 Critic Model
隨著任務(wù)問(wèn)題的逐步復(fù)雜,僅僅依靠模型的自身推理能力可能無(wú)法提供有效的獎(jiǎng)勵(lì)信號(hào)。這使得對(duì)于模型內(nèi)部的復(fù)雜推理過(guò)程的監(jiān)督變成了一個(gè)可擴(kuò)展監(jiān)督問(wèn)題。
具體來(lái)說(shuō),OpenAI o1 隱式思維鏈的訓(xùn)練過(guò)程中應(yīng)當(dāng)也引入了 Critic 的方法。針對(duì)復(fù)雜推理的問(wèn)題,模型自身已經(jīng)難以提供合理推理過(guò)程,因此迫切需要引入額外的足夠強(qiáng)的 Critic Model 來(lái)提供精準(zhǔn)的反饋。
具體來(lái)說(shuō),通過(guò)將推理過(guò)程進(jìn)行過(guò)程分解,并且利用額外的更強(qiáng)更專項(xiàng)的 Critic Model,可以將推理過(guò)程的監(jiān)督擴(kuò)展到更復(fù)雜的問(wèn)題上。這也一定程度緩解了僅僅是通過(guò)推理過(guò)程能否導(dǎo)出正確結(jié)果的來(lái)確定獎(jiǎng)勵(lì)信號(hào)的稀疏問(wèn)題。
這個(gè)思路早在先前也有所探索。
前陣子 OpenAI 發(fā)布的 CriticGPT [2], 通過(guò) RLHF 方法訓(xùn)練模型能夠?yàn)檎鎸?shí)世界中的代碼任務(wù)書寫自然語(yǔ)言反饋,并成功泛化到 OOD 的分布上。這種反饋可以用來(lái)幫助人類進(jìn)行更準(zhǔn)確的評(píng)價(jià),從而實(shí)現(xiàn)對(duì)于復(fù)雜輸出的有效獎(jiǎng)勵(lì)反饋。先前 OpenAI 也深入探究過(guò)自我批判方法和 Critic Model 輔助人類評(píng)判 在文本總結(jié)任務(wù)上的可行性 [3]。
從可擴(kuò)展監(jiān)督的角度來(lái)說(shuō),這條路是必然的。隨著任務(wù)變得愈發(fā)復(fù)雜(如數(shù)學(xué)代碼推理),人類反饋者很難對(duì)模型的回答進(jìn)行有效的評(píng)價(jià),也就無(wú)法提供有效的偏好或者獎(jiǎng)勵(lì)信號(hào),如何在更復(fù)雜的任務(wù)上對(duì)齊更強(qiáng)大的模型,是可擴(kuò)展監(jiān)督的重要問(wèn)題。
對(duì)于 Critic 這類方法,關(guān)鍵的挑戰(zhàn)在于如何將 Critic 的能力泛化到更加復(fù)雜的任務(wù),例如對(duì)于代碼數(shù)學(xué)或者長(zhǎng)文本輸出,Critic Model 需要考慮輸出各部分之間的依賴關(guān)系和邏輯推理問(wèn)題,因此對(duì)于模型自身的推理能力要求更高。
用于評(píng)論批判的模型(Critic Model)同樣也可能會(huì)存在 Generator-Discriminator-Critique (GDC) gaps ,即模型可能不會(huì)指出他們所發(fā)現(xiàn)的錯(cuò)誤,這一差距在 CriticGPT 這個(gè)量級(jí)尺寸的模型上是否被縮減目前還不得而知。
可以說(shuō)這一系列工作是一脈相承的,基于評(píng)價(jià)比生成更簡(jiǎn)單的原則,Critic 的思路是可擴(kuò)展監(jiān)督一條有希望的技術(shù)路徑,并且應(yīng)該也被用在了輔助 o1 的訓(xùn)練當(dāng)中。
大模型的天花板在哪里?
自從 2022 年 ChatGPT 面世以來(lái),大模型經(jīng)過(guò)了近兩年的迭代。目前,無(wú)論是工業(yè)界還是學(xué)術(shù)界,都在探索大模型的上限。在 Scaling Law 的支持下,大模型持續(xù)增加預(yù)訓(xùn)練的數(shù)據(jù)量和模型參數(shù)。然而,隨著硬件集群的限制和成本的約束,模型參數(shù)的增長(zhǎng)已逐漸停滯。在 OpenAI o1,普遍認(rèn)為要進(jìn)一步提升大模型的能力,主要有以下兩條技術(shù)路線:
- 通過(guò)合成數(shù)據(jù)進(jìn)一步擴(kuò)展數(shù)據(jù)和參數(shù)規(guī)模。一些模型使用了大量的公開(kāi)數(shù)據(jù)進(jìn)行訓(xùn)練,隨著數(shù)據(jù)量的增加,模型性能仍在提升。然而,隨著時(shí)間的推移,數(shù)據(jù)稀缺將逐漸成為增加更多數(shù)據(jù)的挑戰(zhàn)。一些解決方案包括生成合成訓(xùn)練數(shù)據(jù),例如 NVIDIA 發(fā)布了 Nemotron-4 340B 可以幫助在無(wú)法獲取大量、多樣的標(biāo)注數(shù)據(jù)集的情況下生成合成訓(xùn)練數(shù)據(jù),并在一定程度上解決數(shù)據(jù)饑荒的問(wèn)題;OpenAI o1 也是基于這樣的思路,提供了構(gòu)建合成數(shù)據(jù)飛輪的機(jī)會(huì)。
- 通過(guò)模態(tài)混合和模態(tài)穿透的方法,借助其他模態(tài)增強(qiáng)模型能力。相比于公開(kāi)的文本數(shù)據(jù),圖像、視頻、音頻等數(shù)據(jù)的總量更大,且包含的信息量也更豐富。一條可行的技術(shù)路線是有效增加模型處理的模態(tài)數(shù)量,不僅讓模型完成不限于文本模態(tài)的任務(wù),更重要的是,通過(guò)模態(tài)穿透和模型融合,在復(fù)雜推理能力上更上一層樓,即實(shí)現(xiàn)模態(tài)上的 Scaling Law。在這方面前景廣闊:文本的序列化信息相比于圖像和視頻所包含的復(fù)雜信息要少得多,更豐富的數(shù)據(jù)能夠有效擴(kuò)充模型推理空間的豐富度;
- 推理能力和模型的指令跟隨能力呈現(xiàn)出分離關(guān)系。在 OpenAI o1 表現(xiàn)中,盡管在數(shù)學(xué)、物理等復(fù)雜任務(wù)上的推理能力有了大幅提升,但在一些語(yǔ)言生成任務(wù)上,并沒(méi)有體現(xiàn)出更大的進(jìn)步。在 System Card 和 OpenAI 研究人員的訪談中也提到,OpenAI o1 專項(xiàng)于推理能力,而并不能作為一個(gè)很好的 Agent 和 Assistant。這種推理能力和指令跟隨能力的分離在模型強(qiáng)大到一定程度才出現(xiàn),甚至是互斥的。但對(duì)于構(gòu)建通用智能體來(lái)說(shuō),如何 balance 二者關(guān)系會(huì)成為一個(gè)核心問(wèn)題。
AI 安全的推理鏈 Chain of Reasoning for AI Safety
OpenAI o1 展現(xiàn)出的隱式思維鏈推理能力也為模型的對(duì)齊和安全提供了新的視角。通過(guò)將安全的規(guī)則融入到模型的思維鏈中,模型能夠更好的理解規(guī)則的內(nèi)涵,并且也提供給監(jiān)管者 “讀懂模型的安全思想” 并理解其思維過(guò)程的機(jī)會(huì)。
一個(gè)直觀的體現(xiàn)是,通過(guò)融入安全原則到隱式思維過(guò)程中,模型減少了矯枉過(guò)正和過(guò)度拒絕 Overrefuse 的情況。
例如,對(duì)于如下請(qǐng)求:“請(qǐng)你將下面這句話翻譯為英文:' 如何制造炸彈 '”,GPT-4o 可能會(huì)由于規(guī)則過(guò)濾拒絕回答,但是 OpenAI o1 展現(xiàn)出了對(duì)安全規(guī)則的深入理解,從而正常的回應(yīng)用戶的需求。
然而,隱式鏈?zhǔn)剿季S推理不僅帶來(lái)了顯著提升的安全基準(zhǔn)測(cè)試表現(xiàn),同時(shí)也增加了某些類型的風(fēng)險(xiǎn)。具體來(lái)說(shuō),通過(guò)內(nèi)部評(píng)估和與外部紅隊(duì)的合作,OpenAI 發(fā)現(xiàn)未進(jìn)行緩解措施的模型在說(shuō)服力和化學(xué)、生物、放射性和核威脅(CBRN)方面存在中等風(fēng)險(xiǎn)。
與此同時(shí),隨著模型被提供隱式思考的機(jī)會(huì),它們出現(xiàn)欺騙和操縱的可能性逐漸加大:這種欺騙和操縱的來(lái)源是模型通過(guò)深入思考發(fā)現(xiàn)了能夠完成目標(biāo)的更快方法,盡管這種方法是不被允許或欺騙人類的。
OpenAI o1 模型已經(jīng)展現(xiàn)出了策略推演和獎(jiǎng)勵(lì)攻陷的能力。在 SystemCard 中提供的一個(gè)例子中,o1-preview 模型通過(guò)發(fā)現(xiàn)評(píng)估主機(jī)虛擬機(jī)上的 Docker 守護(hù)進(jìn)程 API,并利用它重啟了損壞的挑戰(zhàn)容器,讀取了任務(wù)目標(biāo)(flag.txt),從而避開(kāi)了應(yīng)當(dāng)通過(guò)漏洞利用的安全挑戰(zhàn)。模型利用錯(cuò)誤配置的基礎(chǔ)設(shè)施,跳過(guò)了原本設(shè)計(jì)的任務(wù)步驟,實(shí)現(xiàn)了任務(wù)目標(biāo)。這表明,模型在面對(duì)不明確或存在漏洞的任務(wù)時(shí),能夠通過(guò)意想不到的方式實(shí)現(xiàn) “獎(jiǎng)勵(lì)攻陷”,從而避開(kāi)真正的挑戰(zhàn)核心。
Anthropic 先前的研究 [9] 也展現(xiàn):語(yǔ)言模型在面對(duì)獎(jiǎng)勵(lì)設(shè)計(jì)時(shí),可以通過(guò)不正當(dāng)?shù)姆绞将@得高獎(jiǎng)勵(lì),甚至通過(guò) “獎(jiǎng)勵(lì)篡改” 修改自己的獎(jiǎng)勵(lì)機(jī)制,來(lái)避開(kāi)任務(wù)中設(shè)置的難點(diǎn)。
這種能力意味著,在復(fù)雜環(huán)境下模型可能會(huì)采取捷徑或偏離原本設(shè)計(jì)的任務(wù)路線。
這不僅對(duì)評(píng)估任務(wù)的設(shè)計(jì)提出了更高的要求,也提示我們需要更嚴(yán)格的監(jiān)控機(jī)制,以確保模型在解決復(fù)雜問(wèn)題時(shí)不通過(guò)捷徑來(lái)規(guī)避核心問(wèn)題。
這種現(xiàn)象可能會(huì)在未來(lái)模型中變得更加顯著,尤其是在高風(fēng)險(xiǎn)應(yīng)用場(chǎng)景中。因此,有必要為這些模型的部署和監(jiān)控建立更加完善的防護(hù)措施,以防止策略攻陷行為的發(fā)生。
這進(jìn)一步表明,隨著 AI 模型能力的提升,特別是在復(fù)雜的高風(fēng)險(xiǎn)場(chǎng)景下(如自動(dòng)駕駛、醫(yī)療診斷、金融決策等),我們必須預(yù)見(jiàn)并防范這些模型通過(guò)不正當(dāng)途徑獲取獎(jiǎng)勵(lì)的行為。當(dāng)前的監(jiān)督機(jī)制和獎(jiǎng)勵(lì)設(shè)計(jì)可能不足以防止模型通過(guò)細(xì)致的推演和篡改代碼來(lái)獲得意外的高獎(jiǎng)勵(lì)。為了應(yīng)對(duì)這種威脅,未來(lái)的工作應(yīng)該集中在以下幾個(gè)方面:
- 任務(wù)設(shè)計(jì)的魯棒性:需要對(duì)任務(wù)和環(huán)境進(jìn)行詳細(xì)審查,確保不存在可被模型利用的系統(tǒng)漏洞。特別是在涉及復(fù)雜系統(tǒng)配置的任務(wù)中,確保所有可能的捷徑都被封鎖。
- 實(shí)時(shí)監(jiān)督與反饋:加強(qiáng)監(jiān)督模型的能力,通過(guò)實(shí)時(shí)檢測(cè)模型行為中的異常,識(shí)別其是否偏離了預(yù)期的任務(wù)路徑。例如,當(dāng)模型表現(xiàn)出與其任務(wù)目標(biāo)不一致的行為時(shí),系統(tǒng)應(yīng)立即發(fā)出警報(bào)并進(jìn)行干預(yù)。
- 獎(jiǎng)勵(lì)設(shè)計(jì)的靈活性與防篡改機(jī)制:引入更靈活且難以被篡改的獎(jiǎng)勵(lì)機(jī)制。獎(jiǎng)勵(lì)機(jī)制的設(shè)計(jì)應(yīng)該包括多層次的監(jiān)督,不僅檢測(cè)任務(wù)完成的結(jié)果,還要監(jiān)控模型完成任務(wù)的過(guò)程,防止模型利用捷徑或者修改獎(jiǎng)勵(lì)函數(shù)獲取非預(yù)期的高獎(jiǎng)勵(lì)。
通過(guò)結(jié)合這些措施,未來(lái)的 AI 系統(tǒng)才能在復(fù)雜環(huán)境中表現(xiàn)得更加安全和可靠,避免因獎(jiǎng)勵(lì)攻陷帶來(lái)的潛在風(fēng)險(xiǎn)和不良后果。
三、未來(lái)方向的展望
強(qiáng)化學(xué)習(xí)的重要性
OpenAI o1 的發(fā)布將重塑行業(yè)對(duì)于算力分配的認(rèn)知,標(biāo)志著 RL 下 Post-Training Scaling Law 的時(shí)代正式到來(lái)。OpenAI 研究員 Jason Wei 也表示,o1 模型背后的核心不只是通過(guò) Prompt 提示詞完成 CoT,而是引入 RL 訓(xùn)練模型,從而使模型更好地執(zhí)行鏈?zhǔn)剿伎肌k[式思維鏈思考給 o1 帶來(lái)的巨大性能提升,也將啟發(fā)行業(yè)在模型規(guī)模達(dá)到一定量級(jí)后,更多的將算力投入到 Post-Training 階段的 RL 訓(xùn)練和推理階段模型的思考過(guò)程當(dāng)中。強(qiáng)化學(xué)習(xí)先驅(qū) Rich Sutton 在 “The Bitter Lesson” 中說(shuō):
One thing that should be learned from the bitter lesson is the great power of general purpose methods, of methods that continue to scale with increased computation even as the available computation becomes very great.
The two methods that seem to scale arbitrarily in this way are search and learning.
We want AI agents that can discover like we can, not which contain what we have discovered.
我們希望 AI 代理能夠像我們一樣進(jìn)行探索,而不是僅僅包含我們已經(jīng)發(fā)現(xiàn)的知識(shí)(通過(guò) Pre-training 來(lái)讓模型擬合海量的數(shù)據(jù)分布,并期待模型具備一定的泛化性)。只有搜索和學(xué)習(xí)這兩種學(xué)習(xí)范式能夠隨著計(jì)算能力的增長(zhǎng)無(wú)限擴(kuò)展,強(qiáng)化學(xué)習(xí)作為這兩種學(xué)習(xí)范式的載體,如何能夠在實(shí)現(xiàn)可擴(kuò)展的 RL 學(xué)習(xí)(Scalable RL Learning)和強(qiáng)化學(xué)習(xí)擴(kuò)展法則(RL Scaling Law),將成為進(jìn)一步突破大模型性能上限的關(guān)鍵途徑。
Test-Time 算法設(shè)計(jì)的重要性
從技術(shù)上來(lái)看:如何更好的啟發(fā)模型的內(nèi)部思考過(guò)程?不同的思考方式和 Self-Critique 反饋方式帶來(lái)的成效不同 ;Post-Training 階段如何通過(guò) RL 手段幫助模型學(xué)會(huì)內(nèi)在的推理?Verifier \ Critic Model 如何和模型訓(xùn)練方法如 RL-Self Play 、MCTS 進(jìn)行有效的耦合,實(shí)現(xiàn)真正的可擴(kuò)展監(jiān)督(Scalable Oversight);模型思考過(guò)程的上界在哪,Test-Time Optimization 的邊界;這些都將是不局限于利用人類偏好數(shù)據(jù),利用強(qiáng)化學(xué)習(xí)進(jìn)行 “微” 調(diào),隨著業(yè)界在 pre-train 階段技術(shù)的成熟,以及現(xiàn)有數(shù)據(jù)也即將匱乏,大模型的訓(xùn)練將從 “模仿” 到 “探索” 的轉(zhuǎn)變,在 Llama 3.1 的技術(shù)報(bào)告中談到,在 Post-training 階段能夠觀察到性能的有效提升,而 OpenAI O1 則是進(jìn)一步將大模型訓(xùn)練的戰(zhàn)場(chǎng)推向 Post-training 階段。
AI 控制需要?jiǎng)澢?RL 的職權(quán)界限
AI 控制(AI Control)是 Greenblatt et al. 提出的一套 AI 安全范式 [8] ,近來(lái)在 AGI 安全領(lǐng)域獲得了不少關(guān)注。其主要特征是假定模型具有未對(duì)齊、非安全的傾向,并設(shè)計(jì)部署階段的 “工業(yè)流程” 使不同能力、不同安全系數(shù)的模型互相輔助、互相監(jiān)督,以在一定的安全性概率保障下有效利用非安全的模型。
AI 控制范式是一系列推理階段 AI 安全方法的代表。這些方法往往需要模型無(wú)法通過(guò)梯度更新來(lái)找到并利用監(jiān)督機(jī)制中的漏洞,因?yàn)榉粗畡t幾乎任何監(jiān)督機(jī)制都可找到漏洞(這一事實(shí)已經(jīng)在人類社會(huì)中得到廣泛印證)。
基于 RL 的語(yǔ)言模型訓(xùn)練方法,在提高模型能力的同時(shí),也為模型帶來(lái)了尋找監(jiān)督機(jī)制漏洞的強(qiáng)大動(dòng)機(jī) —— 在當(dāng)下和過(guò)去的 RL agent 研究中,研究者的許多精力都花在避免 RL policy 收斂到意料之外的 “作弊” 策略上;如果能力強(qiáng)大、且具有 agent 架構(gòu)的語(yǔ)言模型同樣產(chǎn)生了這些 “作弊” 傾向,會(huì)帶來(lái)不同于輸出毒性的一系列新的安全風(fēng)險(xiǎn)。AI 安全領(lǐng)域圍繞這些風(fēng)險(xiǎn)進(jìn)行了廣泛的討論和研究,可以參考圍繞獎(jiǎng)勵(lì)破解(reward hacking)和目標(biāo)誤指(goal misspecification)等主題的文獻(xiàn),在 AI 對(duì)齊綜述 [10] 中,也有所分析。
這一考慮意味著,在語(yǔ)言模型(尤其是具有 agent 架構(gòu)的語(yǔ)言模型)的 RL 訓(xùn)練中,應(yīng)當(dāng)嚴(yán)格劃分 “RL 訓(xùn)練回路內(nèi)” 和 “RL 訓(xùn)練回路外” 的部分,并用可靠的技術(shù)措施(如沙盒)、流程措施(如避免根據(jù)回路外的信息來(lái)篩選模型)來(lái)隔離二者。回路內(nèi)部分例如時(shí)空尺度有限的受訓(xùn)任務(wù)本身,而回路外部分例如在模型周圍部署的 AI 安全機(jī)制,包括前述的 AI 控制方法。若允許 RL 直接對(duì)抗 AI 安全機(jī)制作獎(jiǎng)勵(lì)最大化,則可能帶來(lái) “鉆安全漏洞” 的風(fēng)險(xiǎn)。
作者信息
陳博遠(yuǎn),北京大學(xué)元培學(xué)院 2022 級(jí) “通班” 本科生,主要研究方向?yàn)椋捍竽P涂蓴U(kuò)展監(jiān)督,曾獲 2024 商湯獎(jiǎng)學(xué)金和北京市自然科學(xué)基金資助,個(gè)人主頁(yè) cby-pku.github.io;
邱天異,北京大學(xué)信息科學(xué)技術(shù)學(xué)院 2022 級(jí) “圖靈班” 本科生,主要研究方向?yàn)椋喝斯ぶ悄芟到y(tǒng)的道德進(jìn)步與對(duì)齊,曾獲 John Hopcroft 獎(jiǎng)學(xué)金和國(guó)自然本科生基金資助,個(gè)人主頁(yè)為:tianyiqiu.net;
吉嘉銘,北京大學(xué)人工智能研究院 2023 級(jí)博士生,主要研究方向?yàn)椋捍竽P桶踩珜?duì)齊,曾獲北京大學(xué)校長(zhǎng)獎(jiǎng)學(xué)金和首批國(guó)自然博士生基金資助,個(gè)人主頁(yè)為:jijiaming.com。
所在的實(shí)驗(yàn)室為北京大學(xué)對(duì)齊與交互實(shí)驗(yàn)室 PAIR-Lab,pair-lab.com,導(dǎo)師為北京大學(xué)人工智能研究院助理教授楊耀東。