自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

為什么Qwen能自我改進(jìn)推理,Llama卻不行?斯坦福找到了原理

人工智能 新聞
雖然 Qwen「天生」就會檢查自己的答案并修正錯(cuò)誤。但找到原理之后,我們也能讓 Llama 學(xué)會自我改進(jìn)。

給到額外的計(jì)算資源和「思考」時(shí)間,為什么有的模型能好好利用,把性能提升一大截,而有的模型就不行?

當(dāng)遇到困難問題時(shí),人類會花時(shí)間深入思考以找到解決方案。在 AI 領(lǐng)域,最近的一些大語言模型在通過強(qiáng)化學(xué)習(xí)進(jìn)行自我改進(jìn)訓(xùn)練時(shí),也已經(jīng)開始表現(xiàn)出類似的推理行為。

但是,在同樣的強(qiáng)化學(xué)習(xí)訓(xùn)練下,不同模型自我改進(jìn)的能力卻存在很大差異。比如在一個(gè)游戲中,Qwen-2.5-3B 的自我改進(jìn)能力遠(yuǎn)遠(yuǎn)超過 Llama-3.2-3B(兩個(gè)模型初始都很差,但強(qiáng)化學(xué)習(xí)訓(xùn)練結(jié)束后,Qwen 達(dá)到約 60% 的準(zhǔn)確率,Llama 只有 30%)。這是什么原因?  

在最近斯坦福大學(xué)提交的一項(xiàng)工作中,大模型自我改進(jìn)能力背后的機(jī)制被挖掘了出來。該研究重點(diǎn)關(guān)注的是基礎(chǔ)語言模型中關(guān)鍵的認(rèn)知行為的存在。

圖片

  • 論文標(biāo)題:Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs
  • 論文鏈接:https://arxiv.org/abs/2503.01307

這項(xiàng)研究一發(fā)布就引來眾多討論,比如 Synth Labs CEO 認(rèn)為這個(gè)發(fā)現(xiàn)非常激動人心,因?yàn)槠淇杀徽线M(jìn)任何模型中!

圖片

作者將研究重點(diǎn)放在兩個(gè)基礎(chǔ)模型 ——Qwen-2.5-3B 和 Llama-3.2-3B 上,當(dāng)使用強(qiáng)化學(xué)習(xí)對 Countdown 游戲進(jìn)行訓(xùn)練時(shí),它們之間顯示出明顯的差異 ——Qwen 解決問題的能力大幅提高,Llama2 在相同的訓(xùn)練過程中卻提升有限。語言模型的哪些屬性帶來了這種不同?

為了系統(tǒng)地研究這個(gè)問題,作者開發(fā)了一個(gè)框架來分析對解決問題有用的認(rèn)知行為,其中描述了四種關(guān)鍵的認(rèn)知行為:驗(yàn)證(系統(tǒng)錯(cuò)誤檢查)、回溯(放棄失敗的方法)、子目標(biāo)設(shè)定(將問題分解為可管理的步驟)和逆向思考(從期望結(jié)果推理到初始輸入)。這些行為反映了專家級問題解決者處理困難任務(wù)的方式 —— 數(shù)學(xué)家會驗(yàn)證證明的每個(gè)步驟、遇到矛盾時(shí)回溯以及將復(fù)雜定理分解為更簡單的引理。

圖片

初步分析表明,Qwen 自然地表現(xiàn)出了這些推理行為,特別是驗(yàn)證和回溯,而 Llama 則缺乏這些行為。從這些觀察中作者得出了核心假設(shè):初始策略中的某些推理行為對于通過擴(kuò)展推理序列有效利用增加的測試時(shí)間計(jì)算(test-time compute)是必不可少的。也就是說,AI 模型要想在有更多時(shí)間思考時(shí)真正變得更聰明,必須先具備一些基本的思考能力(比如檢查錯(cuò)誤、驗(yàn)證結(jié)果的習(xí)慣)。如果模型一開始就不會這些基本思考方法,即使給它再多的思考時(shí)間和計(jì)算資源,它也無法有效利用這些資源來提高自己的表現(xiàn)。這就像人類學(xué)習(xí)一樣 —— 如果一個(gè)學(xué)生不具備基本的自我檢查和糾錯(cuò)能力,單純給他更多的考試時(shí)間也不會讓他的成績有顯著提高。

研究人員又通過對初始模型進(jìn)行干預(yù)來檢驗(yàn)這一假設(shè)。

首先,他們發(fā)現(xiàn),通過用包含這些行為(尤其是回溯)的人工合成推理軌跡對 Llama 進(jìn)行引導(dǎo),可以使其在強(qiáng)化學(xué)習(xí)過程中表現(xiàn)大幅改善,甚至能達(dá)到與 Qwen 相當(dāng)?shù)男阅芴嵘?。其次,即使這些引導(dǎo)用的推理軌跡包含錯(cuò)誤答案,只要它們展現(xiàn)出正確的推理模式,Llama 依然能取得進(jìn)步。這表明,推理行為的存在,而不是正確答案本身,才是實(shí)現(xiàn)成功自我改進(jìn)的關(guān)鍵因素。最后,他們從 OpenWebMath 數(shù)據(jù)集中篩選出強(qiáng)調(diào)這些推理行為的內(nèi)容,用于對 Llama 進(jìn)行預(yù)訓(xùn)練。結(jié)果表明,這種有針對性的預(yù)訓(xùn)練數(shù)據(jù)調(diào)整能夠成功誘導(dǎo)出高效利用計(jì)算資源所需的推理行為模式 ——Llama 的性能提升軌跡與 Qwen 一致。

這項(xiàng)研究揭示了模型的初始推理行為與其自我改進(jìn)能力之間存在緊密聯(lián)系。這種聯(lián)系有助于解釋為什么有些語言模型能夠找到有效利用額外計(jì)算資源的方法,而另一些模型則停滯不前。理解這些動態(tài)變化可能是開發(fā)能夠顯著提升問題解決能力的 AI 系統(tǒng)的關(guān)鍵。

如何讓 AI 學(xué)會自我改進(jìn)?

參與對比的模型:Qwen-2.5-3B 和 Llama-3.2-3B

研究開始于一個(gè)令人驚訝的觀察結(jié)果:規(guī)模相當(dāng)?shù)珌碜圆煌易宓恼Z言模型通過強(qiáng)化學(xué)習(xí)表現(xiàn)出差異巨大的提升能力。

Countdown 游戲作為主要測試平臺 —— 這是一個(gè)數(shù)學(xué)難題,玩家必須使用四種基本算術(shù)運(yùn)算(+、?、×、÷)組合一組輸入數(shù)字以達(dá)到目標(biāo)數(shù)字。例如,給定數(shù)字 25、30、3、4 和目標(biāo) 32,玩家需要通過一系列操作將這些數(shù)字組合起來,得到精確的 32:(30 ? 25 + 3) × 4。 

選擇 Countdown 進(jìn)行分析是因?yàn)樗枰獢?shù)學(xué)推理、規(guī)劃和搜索策略。與更復(fù)雜的領(lǐng)域不同,Countdown 提供了一個(gè)受限的搜索空間,使得可行的分析成為可能,同時(shí)仍然需要復(fù)雜的推理。此外,與其他數(shù)學(xué)任務(wù)相比,Countdown 游戲中的成功更依賴于問題解決能力而非數(shù)學(xué)知識。 

研究者使用兩個(gè)基礎(chǔ)模型來對比不同模型家族之間的學(xué)習(xí)差異:Qwen-2.5-3B 和 Llama-3.2-3B。強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)基于 VERL 庫,利用 TinyZero 實(shí)現(xiàn)。他們使用 PPO 方法訓(xùn)練模型 250 步,每個(gè)提示采樣 4 個(gè)軌跡。選擇 PPO 而非 GRPO 和 REINFORCE 等替代方案,是因?yàn)樗诟鞣N超參數(shù)設(shè)置下表現(xiàn)出更優(yōu)的穩(wěn)定性,盡管各算法的性能非常相似。 

結(jié)果揭示了截然不同的學(xué)習(xí)軌跡。盡管這兩種模型在任務(wù)開始時(shí)表現(xiàn)相似,得分都很低,但 Qwen 在第 30 步左右表現(xiàn)出質(zhì)的飛躍,特點(diǎn)是響應(yīng)明顯變長且準(zhǔn)確性提高,如下圖所示。到訓(xùn)練結(jié)束時(shí),Qwen 達(dá)到了約 60% 的準(zhǔn)確率,大大超過 Llama 的 30%。

圖片

在訓(xùn)練后期,可以觀察到 Qwen 行為的一個(gè)有趣變化:模型從語言中的顯式驗(yàn)證語句「8*35 是 280,太高了」過渡到隱式解決方案檢查,模型依次嘗試不同的解,直到找到正確的答案,而不使用文字來評估自己的工作。

這種對比引出了一個(gè)基本問題:哪些潛在的能力能夠成功地實(shí)現(xiàn)基于推理的改進(jìn)?要回答這個(gè)問題,需要一個(gè)系統(tǒng)的框架來分析認(rèn)知行為。 

分析認(rèn)知行為的框架 

為了理解這些不同的學(xué)習(xí)軌跡,研究者開發(fā)了一個(gè)框架來識別和分析模型輸出中的關(guān)鍵行為。他們重點(diǎn)關(guān)注四種基本行為: 

1、回溯或在檢測到錯(cuò)誤時(shí)顯式修改方法(例如,「這種方法行不通,因?yàn)?..」);

2、驗(yàn)證或系統(tǒng)地檢查中間結(jié)果(例如,「讓我們通過... 來驗(yàn)證這個(gè)結(jié)果」);

3、子目標(biāo)設(shè)定,即將復(fù)雜問題分解為可管理的步驟(例如,「要解決這個(gè)問題,我們首先需要...」);

4、逆向思考,即在目標(biāo)導(dǎo)向的推理問題中,從期望的結(jié)果出發(fā),逐步向后推導(dǎo),找到解決問題的路徑。(例如,「要達(dá)到 75 的目標(biāo),我們需要一個(gè)能被... 整除的數(shù)字」)。 

選擇這些行為是因?yàn)樗鼈兇砹伺c語言模型中常見的線性、單調(diào)推理模式不同的問題解決策略。這些行為使更加動態(tài)、類似搜索的推理軌跡成為可能,解決方案可以非線性地演變。雖然這組行為并非詳盡無遺,但選擇這些行為是因?yàn)樗鼈內(nèi)菀鬃R別,并且自然地與 Countdown 游戲和更廣泛的數(shù)學(xué)推理任務(wù)(如證明構(gòu)建)中的人類問題解決策略相一致。

每種行為都可以通過其在推理 token 中的模式來識別?;厮荼灰暈轱@式否定并替換先前步驟的 token 序列,驗(yàn)證產(chǎn)生將結(jié)果與解決方案標(biāo)準(zhǔn)進(jìn)行比較的 token,逆向思考從目標(biāo)出發(fā),逐步構(gòu)建通往初始狀態(tài)的解決方案路徑的 token,而子目標(biāo)設(shè)定則顯式提出在通往最終目標(biāo)的路徑上要瞄準(zhǔn)的中間步驟。研究者開發(fā)了一個(gè)使用 GPT-4o-mini 的分類 pipeline,可靠地識別模型輸出中的這些模式。

初始行為在自我提升中的作用

將這個(gè)框架應(yīng)用于初始實(shí)驗(yàn)揭示了一個(gè)關(guān)鍵洞察:Qwen 的顯著性能改進(jìn)與認(rèn)知行為的出現(xiàn)相吻合,特別是驗(yàn)證和回溯(圖 1(中))。相比之下,Llama 在整個(gè)訓(xùn)練過程中幾乎沒有表現(xiàn)出這些行為的證據(jù)。

圖片

為了更好地理解這種差異,研究者分析了三個(gè)模型的基線推理模式:Qwen-2.5-3B、Llama-3.2-3B 和 Llama-3.1-70B。分析揭示,與兩種 Llama 變體相比,Qwen-2.5-3B 產(chǎn)生各種行為的比例都要更高(圖 4)。盡管較大的 Llama-3.1-70B 在這些行為的激活頻率上普遍高于 Llama-3.2-3B,但這種提升并不均衡 —— 特別是回溯行為,即便在更大的模型中,其表現(xiàn)仍然有限。

圖片

這些觀察結(jié)果表明兩個(gè)洞察:

1、初始策略中的某些認(rèn)知行為可能是模型通過擴(kuò)展推理序列有效利用增加的測試時(shí)間計(jì)算所必需的;

2、增加模型規(guī)??梢愿纳七@些行為的上下文激活。這種模式尤為重要,因?yàn)閺?qiáng)化學(xué)習(xí)只能放大成功軌跡中出現(xiàn)的行為 —— 使這些初始行為能力成為有效學(xué)習(xí)的先決條件。 

干預(yù)初始行為 

在確立了基礎(chǔ)模型中認(rèn)知行為的重要性之后,接下來研究是否可以通過有針對性的干預(yù)人為誘導(dǎo)這些行為。

研究者提出的假設(shè)是,通過在 RL 訓(xùn)練前創(chuàng)建選擇性表現(xiàn)特定認(rèn)知行為的基礎(chǔ)模型變體,可以更好地理解哪些行為模式對于實(shí)現(xiàn)有效學(xué)習(xí)至關(guān)重要。

他們首先使用 Countdown 問題策劃了七個(gè)不同的啟動數(shù)據(jù)集。其中五個(gè)數(shù)據(jù)集強(qiáng)調(diào)不同的行為組合:所有策略組合、僅回溯、回溯與驗(yàn)證、回溯與子目標(biāo)設(shè)定以及回溯與逆向思考。他們使用 Claude-3.5-Sonnet 生成這些數(shù)據(jù)集,利用其能夠產(chǎn)生具有精確指定行為特征的推理軌跡的能力。

為了驗(yàn)證改進(jìn)源于特定的認(rèn)知行為而非簡單的計(jì)算時(shí)間增加,研究引入了兩個(gè)控制條件:一個(gè)空的思維鏈和一個(gè)與所有策略數(shù)據(jù)集的數(shù)據(jù)點(diǎn)長度匹配的填充占位符 token 的鏈。這些控制數(shù)據(jù)集幫助作者驗(yàn)證觀察到的任何改進(jìn)是否源于特定的認(rèn)知行為,而非簡單的計(jì)算時(shí)間增加。作者還創(chuàng)建了全策略數(shù)據(jù)集的變體,其中僅包含不正確的解決方案,同時(shí)保持所需的推理模式。此變體使作者能夠?qū)⒄J(rèn)知行為的重要性與解決方案的準(zhǔn)確性區(qū)分開來。

當(dāng)使用包含回溯行為的數(shù)據(jù)集進(jìn)行初始化時(shí),Llama 和 Qwen 都通過 RL 訓(xùn)練表現(xiàn)出明顯的改進(jìn)(圖 2)。

圖片

行為分析表明,RL 會選擇性地放大經(jīng)驗(yàn)上有用的行為,同時(shí)抑制其他行為(圖 3)。

圖片

例如,在全策略條件下(圖 1(左下)),模型保留并加強(qiáng)回溯和驗(yàn)證,同時(shí)減少逆向思考和子目標(biāo)設(shè)定。然而,當(dāng)僅與回溯配對時(shí),被抑制的行為(逆向思考和子目標(biāo)設(shè)定)會在整個(gè)訓(xùn)練過程中持續(xù)存在。

圖片

當(dāng)用空的思維鏈控制進(jìn)行啟動時(shí),在兩種情況下,模型的性能都與基本 Llama 模型相當(dāng)(≈30-35%;見圖 5),這表明僅僅分配額外的 token 而不包含認(rèn)知行為無法有效利用測試時(shí)間計(jì)算。此外,使用空的思維鏈進(jìn)行訓(xùn)練會產(chǎn)生不利影響,Qwen 模型會停止探索行為。這表明這些認(rèn)知行為對于模型通過更長的推理序列有效利用擴(kuò)展計(jì)算是特別必要的。

圖片

令人驚訝的是,用不正確的解決方案啟動但具有正確行為的模型,與在具有正確解決方案的數(shù)據(jù)集上訓(xùn)練的模型具有相同的性能(圖 6)。這表明認(rèn)知行為存在(而不是獲得正確的解決方案)是通過強(qiáng)化學(xué)習(xí)成功實(shí)現(xiàn)自我改進(jìn)的關(guān)鍵因素。因此,來自較弱模型的推理模式可以有效地引導(dǎo)學(xué)習(xí)過程以構(gòu)建更強(qiáng)大的模型,這表明認(rèn)知行為的存在比結(jié)果的正確性更重要。

圖片

在預(yù)訓(xùn)練數(shù)據(jù)中選擇性地放大行為

上述結(jié)果表明,某些認(rèn)知行為對于自我完善是必要的。然而,作者在初始模型中誘導(dǎo)行為的啟動方法是領(lǐng)域特定的,依賴于 Countdown 游戲。這可能會對最終推理的泛化產(chǎn)生不利影響。我們能否通過修改模型的預(yù)訓(xùn)練分布來增加有益推理行為的頻率,從而實(shí)現(xiàn)自我完善?

為了探究預(yù)訓(xùn)練數(shù)據(jù)中的行為頻率,作者首先分析了預(yù)訓(xùn)練數(shù)據(jù)中認(rèn)知行為的自然頻率,重點(diǎn)關(guān)注 OpenWebMath 和 FineMath,它們是專門為數(shù)學(xué)推理而構(gòu)建的。使用 Qwen-2.5-32B 作為分類器,研究分析了 20 萬份隨機(jī)抽樣的文檔,以查找目標(biāo)行為的存在。即使在這個(gè)以數(shù)學(xué)為重點(diǎn)的語料庫中,回溯和驗(yàn)證等認(rèn)知行為也很少出現(xiàn),這表明標(biāo)準(zhǔn)預(yù)訓(xùn)練對這些關(guān)鍵模式的接觸有限(見圖 7)。

圖片

為了測試人為增加認(rèn)知行為的接觸是否會增強(qiáng)自我提升的潛力,作者從 OpenWebMath 開發(fā)了一個(gè)有針對性的持續(xù)預(yù)訓(xùn)練數(shù)據(jù)集。首先使用 Qwen-2.5-32B 作為分類器,分析來自預(yù)訓(xùn)練語料庫的數(shù)學(xué)文檔,以了解目標(biāo)推理行為的存在。以此為基礎(chǔ)人們創(chuàng)建了兩個(gè)對比集:一個(gè)具有認(rèn)知行為,另一個(gè)極少認(rèn)知內(nèi)容的控制集。

然后,他們使用 Qwen-2.5-32B 將集合中的每個(gè)文檔重寫為結(jié)構(gòu)化的問答格式,保留源文檔中認(rèn)知行為的自然存在或缺失。最終的預(yù)訓(xùn)練數(shù)據(jù)集每個(gè)都包含總共 830 萬 token。這種方法使作者能夠隔離推理行為的影響,同時(shí)控制預(yù)訓(xùn)練期間數(shù)學(xué)內(nèi)容的格式和數(shù)量。

在這些數(shù)據(jù)集上對 Llama-3.2-3B 進(jìn)行預(yù)訓(xùn)練并應(yīng)用強(qiáng)化學(xué)習(xí)后,作者能觀察到:1)行為豐富模型實(shí)現(xiàn)了與 Qwen 相當(dāng)?shù)男阅埽刂颇P偷母倪M(jìn)有限(圖 8a);2)對訓(xùn)練模型的行為分析表明,行為豐富變體在整個(gè)訓(xùn)練過程中保持推理行為的高激活度,而控制模型表現(xiàn)出與基本 Llama 模型類似的行為(圖 8c)。

圖片

這些結(jié)果表明,有針對性地修改預(yù)訓(xùn)練數(shù)據(jù),可以通過強(qiáng)化學(xué)習(xí)成功生成有效自我改進(jìn)所必需的認(rèn)知行為。

更多信息請參見原論文。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2022-07-04 09:12:09

AI技術(shù)論文

2022-07-14 15:08:23

AI模型

2024-06-03 14:19:00

AI訓(xùn)練

2025-02-28 09:52:00

2009-05-19 09:06:41

Apple斯坦福iPhone

2013-01-31 09:45:14

斯坦福超級電腦百萬內(nèi)核

2012-03-21 21:38:27

蘋果

2019-12-16 14:33:01

AI人工智能斯坦福

2024-10-21 12:40:00

視頻生成模型

2025-01-20 13:08:25

2023-10-18 09:25:08

模型推理

2024-06-11 08:25:00

2021-03-10 14:48:27

人工智能

2021-03-05 10:57:33

AI 數(shù)據(jù)人工智能

2024-09-26 10:23:46

2025-01-17 10:26:19

模型開發(fā)ChatGPT

2023-10-17 13:33:00

AI數(shù)據(jù)

2023-06-21 13:37:41

模型研究

2025-03-12 10:38:05

2023-03-15 10:35:16

GPTAI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號