o1開啟LLM新范式,Ai2科學(xué)家解析背后秘籍:推理和強(qiáng)化學(xué)習(xí)是關(guān)鍵
關(guān)注NLP領(lǐng)域的人們,一定好奇「語言模型能做什么?」「什么是o1?」「為什么思維鏈有效?」
圖片
在NeurIPS的Latent Space非官方Industry Track上,Ai2研究科學(xué)家Nathan Lambert發(fā)表相關(guān)演講,直接回答語言模型能否推理,以及o1和強(qiáng)化微調(diào) (RFT) API給大家的啟發(fā)。
演講內(nèi)容亮點(diǎn)摘要:
- 2025年,推理語言模型(Reasoning Language Models,RLMs)將取代后訓(xùn)練;強(qiáng)化學(xué)習(xí)訓(xùn)練不是后訓(xùn)練。
- 我們正在看到一些新的語言模型推理形式,它們看起來不像人類的推理方式。
- 當(dāng)o1推理時(shí),本質(zhì)上就是不斷地輸出token,而token流則相當(dāng)于某種中間狀態(tài)。
- o1本質(zhì)上是大規(guī)模的預(yù)訓(xùn)練強(qiáng)化學(xué)習(xí),而且規(guī)模極大。
- 我們正在探索模型中應(yīng)用思維鏈的邊界。
- 強(qiáng)化學(xué)習(xí)微調(diào)會多次處理數(shù)據(jù), 這就是只需要幾十個(gè)token樣本就能實(shí)現(xiàn)有效學(xué)習(xí)的秘訣。
- 評估器模型起源于模型評估領(lǐng)域,并將成為開放強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施的一部分。
Nathan Lambert在Interconnects上發(fā)文表示:在2025年,后訓(xùn)練(post-training)、推理(reasoning)和推理時(shí)計(jì)算(inference-time compute)三大主題仍然會相互交織,但OpenAI的o1系列模型的強(qiáng)化學(xué)習(xí)訓(xùn)練不是后訓(xùn)練。
圖片
視頻和原文地址:https://www.interconnects.ai/p/the-state-of-reasoning
什么是推理(reasoning)?
「現(xiàn)在,推理被顛覆為一種方法,而不是一個(gè)領(lǐng)域?!?/p>
這被稱為「推理的現(xiàn)狀」。
這次演講絕不是全面的調(diào)查,因?yàn)橥评碛性S多爭論,而我們需要重新審視一下非常基礎(chǔ)的定義。
推理:以一種邏輯和理智的方式思考某件事情的行為。
而這是字典上的定義,即以合乎邏輯、合乎情理的方式思考某件事情的行為。目前,我們可以勉強(qiáng)同意這個(gè)足夠模糊的定義。
正如這次討論中將會看到的,對于「語言模型是否進(jìn)行推理」這個(gè)問題,人們正逐漸失去理性。
我們以前在通用人工智能(AGI)中見過這種情況。
現(xiàn)在,推理看起來好像和AGI是同一回事,這相當(dāng)荒謬,因?yàn)橥评硎欠浅Mㄓ玫募寄?,而且之后會有更多的理由或證據(jù)來證明,向語言模型提問時(shí),它們的確在進(jìn)行某種形式的推理。
語言模型能否推理?
關(guān)于語言模型沒有做推理的論點(diǎn)太多了,但這些論點(diǎn)本身并不成立。
圖片
然而,這個(gè)問題確實(shí)很棘手。確實(shí)有一些非常有說服力的論點(diǎn)認(rèn)為推理并不是語言模型應(yīng)追求的方向,因?yàn)檎Z言模型在這方面不可能像人類一樣出色。
但要說它們不能進(jìn)行推理,也沒有什么證據(jù)。問題是,為什么語言模型的推理能力必須看起來像人類的推理方式呢?
圖片
語言模型和人腦非常不同,并且它們有隨機(jī)性。這種隨機(jī)性存在的原因有很多,我們應(yīng)該接受這一點(diǎn),并繼續(xù)推動研究。今年一個(gè)重要的趨勢是,我們正在看到新的語言模型推理形式,它們看起來不像人類的推理方式。
圖片
Lambert回憶,他與時(shí)任Meta推理負(fù)責(zé)人的Ross Taylor進(jìn)行過一次談話,這是一次非常寶貴的學(xué)習(xí)經(jīng)歷。這段話(見上圖)直接摘自訪談記錄。
這些內(nèi)容的本質(zhì)可以概括為一句話:如果在語言模型上使用思維鏈,實(shí)際上它不過是在輸出中間步驟。
如果現(xiàn)在向大家提出一個(gè)數(shù)學(xué)問題,大家可以在腦海中完成大部分計(jì)算,同時(shí)存儲一些中間變量。但語言模型并沒有這種能力。它們更像是逐個(gè)計(jì)算token的設(shè)備,也就是說每個(gè)token輸出前必須向前傳遞。
在這個(gè)過程中,并沒有專門的結(jié)構(gòu)來存儲這些中間狀態(tài)。所以,語言模型接受思維鏈及中間值非常合理,這表明它們在做真正產(chǎn)生價(jià)值的工作。
Ross Taylor
這就像是引導(dǎo)o1的許多方式之一,即語言模型天生有隨機(jī)性。
在語言模型的推理中,很多人看到的失敗,實(shí)際上只是模型按照死板的鏈條推理而犯了非常具體的錯(cuò)誤。但模型沒有能力在之后改正這些錯(cuò)誤。
而人類并不是這樣推理的。如果是人類,通常會在下一步意識到并糾正錯(cuò)誤。但我們需要用不同的方式來處理語言模型。
o1和它的「親戚」
o1之所以令人興奮,是因?yàn)樗且环N新類型的語言模型,它充分利用「推理」這一觀念。也就是說,思維鏈和前向token流可以大大提高結(jié)果的質(zhì)量。
當(dāng)在需要某種推理能力或動作時(shí),本質(zhì)上就是不斷地輸出token,以推動某個(gè)智能任務(wù)的進(jìn)展。所以,它通過增加計(jì)算消耗來向前傳遞,而token流則相當(dāng)于某種中間狀態(tài)。
o1自發(fā)布以來一直廣受爭議,但促使Lambert思考更久的是:我們應(yīng)該根據(jù)模型的實(shí)際表現(xiàn)來評判它們,特別是在大規(guī)模強(qiáng)化學(xué)習(xí)(RL)和驗(yàn)證結(jié)果這兩方面,尤其是在發(fā)布了強(qiáng)化學(xué)習(xí)API背景下。
然而,許多人支持更復(fù)雜的方法,如過程獎勵(lì)、模型、自我博弈、蒙特卡羅樹搜索,但主要理由是基于以前的文獻(xiàn)和對高級推理在語言模型中的期待,而非基于他們提供的證據(jù)或行為,不管是通過評估結(jié)果,還是通過模型實(shí)際推理時(shí)的表現(xiàn)。
圖片
這就引出了模型的復(fù)制品,可以說它們是o1的「親戚」模型。這些模型來自社區(qū),而且昭示了一個(gè)令人振奮的事實(shí):我們正在探索模型中應(yīng)用思維鏈的邊界。
Lambert要強(qiáng)調(diào)的一下來自Deep Seek和QwQ的模型。我認(rèn)為這些模型相比于完整的OpenAI o1模型,其應(yīng)用范圍的局限性要大得多。使用o1模型可以處理更多任務(wù)。
DeepSeek是為數(shù)學(xué)或代碼任務(wù)而設(shè)計(jì)的,但這類模型應(yīng)用范圍限制得太死,以至于即便在范圍內(nèi),如果你問它一個(gè)代碼問題,它有時(shí)甚至?xí)卮穑骸肝抑粦?yīng)該處理數(shù)學(xué)或代碼問題?!?o1以及未來類似模型的成功,關(guān)鍵在于能否處理更多領(lǐng)域或類型的任務(wù)。
什么是o1模型?
圖片
SemiAnalysis曾發(fā)表一篇文章,即便只看標(biāo)題,也能對o1的定義或特性做一些推測。
目錄中的兩個(gè)要點(diǎn)已經(jīng)提供了一些信息:訓(xùn)練過程中大量的前向計(jì)算,以及超越預(yù)訓(xùn)練的后訓(xùn)練計(jì)算量。
訓(xùn)練過程中大量的前向計(jì)算
當(dāng)在進(jìn)行RL時(shí),有兩種方式可以多次查看數(shù)據(jù),從而導(dǎo)致多次前向計(jì)算。
第一種方式是,當(dāng)針對提示進(jìn)行RL時(shí),可以采樣多個(gè)補(bǔ)全(completion)版本,然后對它們進(jìn)行評分,或者用不同的方式利用它們來更新策略。所以,如果問一個(gè)數(shù)學(xué)問題,可以查看八個(gè)補(bǔ)全(completion)版本,選擇最好的,或者對比最差和最好的,這種分級方式有助于強(qiáng)化學(xué)習(xí)策略的學(xué)習(xí)。
第二種方式是,因?yàn)閾p失函數(shù)比指令微調(diào)之類的方式更靈活,可以在相同的提示上進(jìn)行更多的訓(xùn)練,而不像指令微調(diào)或預(yù)訓(xùn)練那樣只訓(xùn)練少量樣本。這意味著他們從模型中進(jìn)行了大量采樣,這與過去在預(yù)訓(xùn)練和后訓(xùn)練完全不同。
后訓(xùn)練比預(yù)訓(xùn)練計(jì)算量大
接下來,有個(gè)亮點(diǎn):后訓(xùn)練的浮點(diǎn)運(yùn)算量(flops)超過了預(yù)訓(xùn)練。Lambert認(rèn)為這基本上明確表明OpenAI正在使用強(qiáng)化學(xué)習(xí),并且為這種大規(guī)模強(qiáng)化學(xué)習(xí)投入了大量計(jì)算資源。
而在這一階段,這可能意味著某種不同的方式,比如預(yù)訓(xùn)練強(qiáng)化學(xué)習(xí)。但o1的「親戚」模型目前還做不到,因?yàn)闆]有哪個(gè)團(tuán)隊(duì)像OpenAI一樣擁有如此多的基礎(chǔ)設(shè)施。這需要時(shí)間,但人們終會實(shí)現(xiàn)它。
強(qiáng)化學(xué)習(xí)微調(diào)
現(xiàn)在我們進(jìn)入了強(qiáng)化學(xué)習(xí)(RL)微調(diào)的討論。
圖片
圖片來源:https://openai.com/form/rft-research-program/
這是討論中的重要轉(zhuǎn)折點(diǎn),因?yàn)閛1本質(zhì)上是大規(guī)模的預(yù)訓(xùn)練RL,屬于極大規(guī)模的RL。
不過,我們目前并不清楚OpenAI的這個(gè)新Beta API項(xiàng)目的數(shù)據(jù)的所有細(xì)節(jié),它只是整體基礎(chǔ)設(shè)施的一小部分。
那么,利用少量的基礎(chǔ)設(shè)施能實(shí)現(xiàn)什么呢?
微調(diào)負(fù)責(zé)人曾回復(fù)過Swyx的推文。這條推文雖然簡短,但透露出很多有價(jià)值的信息。例如,這個(gè)API使用的基礎(chǔ)設(shè)施和訓(xùn)練o1的一模一樣。僅這一點(diǎn)就能說明很多問題了。
Lambert表示,他對特定方面的應(yīng)用持樂觀態(tài)度,特別是在答案質(zhì)量比文本風(fēng)格更重要的情況下。
就像之前提到的o1,這種強(qiáng)化學(xué)習(xí)微調(diào)會多次處理數(shù)據(jù)。這也是為什么他們聲稱只需要幾十個(gè)token樣本就能實(shí)現(xiàn)有效學(xué)習(xí)的原因。
這種方式與以往的訓(xùn)練方法完全不同。
具體來說,模型在答案正確時(shí)會獲得獎勵(lì),模型學(xué)會強(qiáng)化那些能給出正確答案的行為。
進(jìn)行強(qiáng)化學(xué)習(xí),并在答案正確時(shí)給予獎勵(lì),這就是全部過程。
其關(guān)鍵創(chuàng)新和簡潔之處在于,現(xiàn)代語言模型已經(jīng)具備了足夠強(qiáng)大的基礎(chǔ),因此僅通過輕微的強(qiáng)化學(xué)習(xí)微調(diào),就能增強(qiáng)這些特定能力,而不削弱模型的其他功能。
很多人擔(dān)心將強(qiáng)化學(xué)習(xí)引入訓(xùn)練過程中。
但對于像ChatGPT這樣的通用指令模型,最大的難題是這種方法會破壞模型在其他任務(wù)上的表現(xiàn),尤其是聊天能力。
但從目前來看,這種方法似乎是可以開箱即用的。
即便OpenAI允許開放API,也不會允許讓用戶訓(xùn)練出在其他任務(wù)上表現(xiàn)變差的模型。
數(shù)據(jù)格式
強(qiáng)化學(xué)習(xí)微調(diào)的數(shù)據(jù)格式如下圖所示,本質(zhì)上由兩部分組成:提示和答案。
圖片
這與訓(xùn)練時(shí)常見的提示和補(bǔ)全(completion)方式不同。如果做偏好微調(diào),要用到一個(gè)提示,一個(gè)選定的補(bǔ)全(completion)和一個(gè)被拒絕的補(bǔ)全。所以這可能是一種新的數(shù)據(jù)格式。很快,會看到像HuggingFace這樣的平臺出現(xiàn)更多類似的內(nèi)容。
圖片
舉一個(gè)項(xiàng)目中的實(shí)際例子。屏幕上的數(shù)學(xué)題就是一個(gè)精確指令跟隨的例子,意思是,如果有個(gè)提示,比如說要求每個(gè)句子都以字母A開頭。用Python可以很輕松地驗(yàn)證這一點(diǎn)。這正是Ai2在項(xiàng)目中做的事情。模型在這個(gè)任務(wù)上表現(xiàn)得越來越好。給定了約束數(shù)據(jù),強(qiáng)化學(xué)習(xí)算法學(xué)會微調(diào)模型,并最終能夠達(dá)到這些正確答案。
評分器模型
對許多人來說,這些評分器模型有點(diǎn)讓人迷惑。
圖片
Lambert認(rèn)為,這些模型起源于評估。
評估領(lǐng)域做了大量工作,特別是為了保證答案提取的穩(wěn)定性,尤其是數(shù)學(xué)題。
舉個(gè)例子,Lama 3.1詳細(xì)描述了他們的評估方法。在數(shù)學(xué)題中,他們同時(shí)使用了SymPy,這是一個(gè)用于提取答案的Python包,以及LLM,它作為判斷工具來提取數(shù)學(xué)答案。
評分器的作用本質(zhì)上是將這一過程擴(kuò)展到全新的層次,建立了嵌套的配置結(jié)構(gòu),用于對這些可驗(yàn)證的輸出進(jìn)行獎勵(lì)塑造。
對于數(shù)學(xué)問題,這其實(shí)相對容易,你只需要處理五種格式,用來表示不同的數(shù)字和符號。
但OpenAI似乎暗示,當(dāng)問題變得更加復(fù)雜時(shí),要處理這些領(lǐng)域的問題,不僅僅需要簡單的「是/否」損失函數(shù)。
實(shí)際上,已經(jīng)有很多開源模型,它們在做類似的工作,比如模型評判(judgement)和Prometheus等工具,這些工具就是用LLM作為評判工具。Lambert認(rèn)為這一趨勢將繼續(xù)成為這種開放強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施的一部分。
OpenAI的實(shí)踐
OpenAI有一堆截圖,雖然只是他們用來做展示的內(nèi)容而已,但看起來還是比較標(biāo)準(zhǔn)的。這些截圖跟蹤了性能隨時(shí)間的變化。能夠查看所有的輸出結(jié)果。
圖片
接下來,他們有一個(gè)非常通用的強(qiáng)化學(xué)習(xí)(RL)圖表。最標(biāo)準(zhǔn)的RL圖表通常是X軸表示時(shí)間或試驗(yàn)次數(shù),Y軸表示獎勵(lì)。在這個(gè)圖表中,獎勵(lì)通常指的是在某個(gè)驗(yàn)證集上的準(zhǔn)確度或成功率。X軸實(shí)際上表示的是訓(xùn)練的進(jìn)度。
這個(gè)圖表與Ai2在項(xiàng)目中所做的非常相似,這也是表達(dá)RL反饋圖的另一種方式。
圖片
開源工具
如果見過RL相關(guān)的圖示,你會看到一個(gè)智能體與環(huán)境交互的模型。如果你沒接觸過這類圖示,隨著RL越來越流行,接觸到類似內(nèi)容的可能性也越來越大,因?yàn)镽L本質(zhì)上是基于試錯(cuò)學(xué)習(xí)的。
Lambert表示,歡迎大家使用Ai2發(fā)布的代碼。它已經(jīng)能夠處理數(shù)學(xué)和部分指令微調(diào)任務(wù)。而且它們打算嘗試設(shè)計(jì)更復(fù)雜的評分器,以便處理代碼這樣的任務(wù), 因?yàn)槭褂枚Y(jié)果來評判代碼質(zhì)量并不合適。
這也是很好的思路,能幫你理解為什么在評定不同模型輸出時(shí),可能需要進(jìn)行一些獎勵(lì)塑造(reward shaping)。此外,這也可以與OpenAI展示的圖表做對比,后者展示了性能隨時(shí)間的提升。
項(xiàng)目地址:https://github.com/allenai/open-instruct
上圖是在不同評估上進(jìn)行的實(shí)驗(yàn)。左側(cè)列展示的是在學(xué)術(shù)論文中會使用的語言模型評估方式,而右側(cè)則展示了各種內(nèi)部的強(qiáng)化學(xué)習(xí)(RL)統(tǒng)計(jì)數(shù)據(jù),其中如GSMAK數(shù)學(xué)和IFVL都在訓(xùn)練集上進(jìn)行訓(xùn)練。
根據(jù)Lambert的描述,這個(gè)項(xiàng)目的契機(jī)也很有趣:幾個(gè)月前,它們從某工業(yè)實(shí)驗(yàn)室成員那里獲得了建議,提前做了這項(xiàng)實(shí)驗(yàn),因此搶占了先機(jī)。相信現(xiàn)在很多人會嘗試復(fù)制這個(gè)實(shí)驗(yàn)。
Nathan Lambert簡介
2022年,他于在加州大學(xué)伯克利分校取得電氣工程與計(jì)算機(jī)科學(xué)博士學(xué)位。
2024年,他曾獲得ACL最佳主題論文獎以及ACL最佳資源論文獎。
目前, 他的谷歌總引用數(shù)為3459,但增長速度驚人:2024年比2023年翻了一番。