自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<thead id="5r6hm"></thead>

<cite id="5r6hm"></cite>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

LLM「啊哈時刻」竟會自我糾正，單體數(shù)學(xué)性能暴漲！UIUC華人一作

作者：新智元 2025-03-03 09:00:00

人工智能新聞

LLM在推理任務(wù)中表現(xiàn)驚艷，卻在自我糾正上的短板卻一直令人頭疼。UIUC聯(lián)手馬里蘭大學(xué)全華人團(tuán)隊提出一種革命性的自我獎勵推理框架，將生成、評估和糾正能力集成于單一LLM，讓模型像人類一樣「邊想邊改」，無需外部幫助即可提升準(zhǔn)確性。

AI不僅能解答復(fù)雜的數(shù)學(xué)題，還能像老師一樣檢查自己的答案。

不僅如此，發(fā)現(xiàn)錯誤后自己立刻改正——這一切都不需要任何人幫忙！

近日，UIUC聯(lián)手馬里蘭大學(xué)全華人研究團(tuán)隊最新研究Self-rewarding correction for mathematical reasoning，實現(xiàn)了上述目標(biāo)。

該研究團(tuán)隊打造了一款「自我獎勵推理模型」，讓大模型 (LLM) 從生成推理路徑到自我評估，再到糾正錯誤，全部一氣呵成。

不僅性能碾壓傳統(tǒng)方法，連計算成本都大幅降低！

論文地址：https://arxiv.org/abs/2502.19613

LLM在數(shù)學(xué)和編程等推理任務(wù)中展現(xiàn)了驚人的能力，特別是在OpenAI o1發(fā)布后，具備強大推理能力的LLM以及提升推理的方法引起了更多關(guān)注。

這類模型的一個理想特性是能夠檢測自己生成回答中的不一致和錯誤，并通過反饋糾正這些錯誤，生成更好的回答，這種過程常被稱為自我糾正。

研究表明，LLM可以根據(jù)外部真實獎勵反饋改進(jìn)初始回答，并決定何時停止自我糾正循環(huán)，這種方法在數(shù)學(xué)推理和一般任務(wù)中都證明是有效的。

然而，這些獎勵模型通常本身也是LLM，在推理時需要運行多個模型，增加了計算成本和部署復(fù)雜性。

相比之下，若沒有外部獎勵反饋，當(dāng)前LLM很難僅憑自身能力改進(jìn)初始回答，這一局限被稱為內(nèi)在自我糾正的不足。

近期研究表明，LLM本身可以通過生成方式產(chǎn)生獎勵信號。

例如，「LLM作為評判者」方法提示LLM評估文本輸出，實際上替代了人類反饋。

另一個新興方向是生成式獎勵模型，將評估任務(wù)轉(zhuǎn)化為遵循指令的問題，利用生成特定標(biāo)記的概率作為獎勵值，這些方法利用了LLM的下一標(biāo)記預(yù)測能力，將生成和評估整合到一個統(tǒng)一框架中。

在這些見解的基礎(chǔ)上，研究人員探討了自我獎勵推理模型，從而將三種能力集成到單一的LLM中。

地址：https://github.com/RLHFlow/Self-rewarding-reasoning-LLM

自我獎勵推理語言模型

研究人員將自我獎勵推理過程形式化為一個多輪馬爾可夫決策過程（MDP）。

在觀察到初始提示后，LLM將生成一個初始推理嘗試。然后，LLM通過生成一個評估來自我獎勵其響應(yīng)。

如果模型評估其答案為正確，生成過程即停止。否則，LLM進(jìn)入下一步，生成一個改進(jìn)的響應(yīng)和評估，其中生成過程基于更新后的狀態(tài)。

自我改進(jìn)過程持續(xù)進(jìn)行，直到模型產(chǎn)生一個自我評估，判斷答案為正確。

在本研究中，團(tuán)隊使用了ToRA驗證腳本，該腳本基于Python符號數(shù)學(xué)庫SymPy。下表1是自我獎勵推理路徑示例。

遵循LLMs的標(biāo)準(zhǔn)后訓(xùn)練實踐，研究團(tuán)隊采用了兩階段方法：

1 自我獎勵指令跟隨微調(diào)（IFT）。從初始LLM（例如，一個通用聊天機器人）開始，他們通過順序拒絕采樣過程收集演示數(shù)據(jù)，并進(jìn)行微調(diào)，得到改進(jìn)模型，該模型集成了自我獎勵推理能力。

2 強化學(xué)習(xí)（RL）優(yōu)化。進(jìn)一步使用強化學(xué)習(xí)優(yōu)化上一步的改進(jìn)模型，以其作為參考模型。這一階段可以進(jìn)一步提升模型評估正確性和改進(jìn)先前響應(yīng)的能力。

自我獎勵指令跟隨微調(diào)

通過標(biāo)記預(yù)測進(jìn)行自我獎勵。為了訓(xùn)練LLMs評估推理步驟，研究團(tuán)隊將此任務(wù)形式化為一個指令跟隨任務(wù)。

具體來說，他們允許模型在評估中包含推理，同時要求它們輸出特定標(biāo)記以指示評估結(jié)果。

他們嘗試了不同的標(biāo)記選擇，例如：

(i) 提示「最近的最終答案是否正確（是或否）？」并以「Yes」和「No」作為響應(yīng)標(biāo)記；

(ii) 明確的標(biāo)記，如「『VERIFY』correct」和「『VERIFY』wrong」。

他們的實驗顯示這些選擇之間存在顯著的性能差異。

在推理過程中，他們從分布中采樣評估標(biāo)記。這能夠使用標(biāo)準(zhǔn)的推理流程，而無需任何特定調(diào)整。（參見表1的示例）

通過順序拒絕采樣的數(shù)據(jù)收集：研究人員采用了一種拒絕采樣方法，生成大量自我糾正軌跡，并僅保留所需的軌跡。

他們按順序提示基礎(chǔ)模型并分別生成不同的步驟。然后，將它們組合成包含自我獎勵和自我糾正模式的較長CoT（思維鏈）軌跡。

數(shù)據(jù)收集過程包括以下步驟：

1 生成初始推理響應(yīng)：從MATH和GSM8K等數(shù)據(jù)集的訓(xùn)練提示中采樣，每條提示生成N_1=50個初始響應(yīng)作為基礎(chǔ)軌跡。

2 自我獎勵信號采樣：對于每個提示和初始響應(yīng)，進(jìn)一步采樣N_2=8個自我評估，并僅保留一個與真實結(jié)果 (ground truth) 相同的評估結(jié)果。然后，使用真實驗證器r? 將其分為Gcorrect和Gwrong。

3 糾正采樣：對于Gwrong中的每個提示和初始響應(yīng)，他們通過提供初始響應(yīng)錯誤的反饋，采樣M_1=8個完成結(jié)果，以收集成功修正錯誤響應(yīng)的軌跡。而對于Gcorrect中的每個提示和初始響應(yīng)，也告訴模型該響應(yīng)是錯誤的，并收集M_2=4個完成結(jié)果。

通過這樣做，他們還希望在錯誤判斷的情況下額外收集「正確到正確」的軌跡。

最終，他們收集了8×|Gwrong|+4×|Gcorrect|條完整軌跡。

下表2中提供了一個數(shù)據(jù)收集過程的示例。由于資源限制，他們將迭代次數(shù)限制為兩次，并對每個基礎(chǔ)樣本最多保留一條軌跡。

KL正則化的強化學(xué)習(xí)

在這一階段，研究團(tuán)隊使用強化學(xué)習(xí)進(jìn)一步增強自我獎勵的IFT模型。他們考慮了深度強化學(xué)習(xí)方法和直接對齊算法。

學(xué)習(xí)信號：為了便于強化學(xué)習(xí)階段，他們假設(shè)存在一個針對軌跡τ的軌跡級獎勵函數(shù)。然而，與RLHF中的BT模型或先前數(shù)學(xué)推理文獻(xiàn)中的結(jié)果監(jiān)督獎勵 (ORM)從數(shù)據(jù)中學(xué)習(xí)代理獎勵不同，他們主要使用Oracle獎勵：

驗證最終結(jié)果是否正確。其主要優(yōu)點是Oracle獎勵可以在很大程度上減輕獎勵操控的風(fēng)險。這在最近的文獻(xiàn)中也被稱為基于規(guī)則的強化學(xué)習(xí) 。

他們還將研究額外的規(guī)則設(shè)計，用于獎勵值分配 (PPO訓(xùn)練) 或數(shù)據(jù)排序 (DPO訓(xùn)練)，其中隱含的u^*由使用的規(guī)則集決定。

遵循標(biāo)準(zhǔn)的RLHF 方法，研究團(tuán)隊優(yōu)化以下KL正則化目標(biāo)：

最優(yōu)策略及其相關(guān)的優(yōu)化值滿足以下最優(yōu)性條件。

簡單來說，通過定義「最優(yōu)值」和「最優(yōu)策略」，讓LLM在有限步驟內(nèi)根據(jù)外部指令調(diào)整行為，同時用獎勵機制（比如判斷結(jié)果對錯）來提升表現(xiàn)。

為了避免計算太復(fù)雜，研究團(tuán)隊還用了一種叫「直接偏好優(yōu)化」(DPO) 的方法，通過比較不同選擇的好壞來訓(xùn)練，讓它更聰明地完成任務(wù)。

換句話說，這個模型就像教LLM玩一個游戲：先告訴它目標(biāo)是什么（比如答對題），然后通過反復(fù)嘗試和反饋（比如「這個錯了，換個方法」），讓LLM學(xué)會如何在幾步之內(nèi)找到正確答案，最后得出一個能衡量它表現(xiàn)的「損失函數(shù)」。

主要實驗

任務(wù)、數(shù)據(jù)集與數(shù)據(jù)格式

使用標(biāo)準(zhǔn)基準(zhǔn)評估模型的數(shù)學(xué)推理能力，包括MATH500、OlympiadBench和Minerva Math。

這些數(shù)據(jù)集規(guī)模適中，確保模型評估的可靠性和高效性，涵蓋代數(shù)、幾何、概率、數(shù)論和微積分等主題。

在訓(xùn)練階段，主要使用NumiaMath-CoT數(shù)據(jù)集中的提示。具體而言，使用50K子集進(jìn)行自我獎勵I(lǐng)FT階段，10K子集用于驗證和模型選擇，其余數(shù)據(jù)用于強化學(xué)習(xí)訓(xùn)練。

在推理過程中，模型最多生成4096個token，并使用VLLM 0.5.4加速推理過程。

評估指標(biāo)

采用兩類指標(biāo)來評估模型性能：（1）數(shù)學(xué)推理與自我修正能力；（2）獎勵模型的準(zhǔn)確性。

首先考慮以下指標(biāo)來評估模型的數(shù)學(xué)推理和自我修正能力。

第一次嘗試的準(zhǔn)確性（Turn 1）：第一次回答的準(zhǔn)確性；
最終準(zhǔn)確性（Final accuracy）：最終答案的準(zhǔn)確性；
：從首次嘗試到最終答案的準(zhǔn)確性提升；
：從錯誤（incorrect）到正確（correct）的問題占比；
：從正確到錯誤的問題占比。

由于自我獎勵推理框架的特性，引入了額外的衡量獎勵模型準(zhǔn)確性的指標(biāo)。

同時，將對提出的框架進(jìn)行更全面的分析，使用稍簡化的模板，并在計算在面對誤導(dǎo)性獎勵時，將正確答案修改為錯誤答案的比例。

獎勵模型準(zhǔn)確率（RM Accuracy (a, b)）：針對正確和錯誤軌跡的分類準(zhǔn)確率。其中，a表示真陽性率（正確軌跡的識別率），b表示真陰性率（錯誤軌跡的識別率）；
比例：在面對誤導(dǎo)性獎勵時，將正確答案修改為錯誤答案的概率。

在所有評估中，遵循慣例，使用零樣本思維鏈提示（zero-shot CoT prompting）和貪婪解碼（greedy decoding）方法，基于Qwen-2.5-Math模型進(jìn)行評估。

主要結(jié)果

表3中報告了主要結(jié)果。需要注意的是，由于四舍五入，可能存在0.1的誤差。

表3. Qwen2.5-Math-7B-base 實驗的主要結(jié)果

單輪基線模型用于訓(xùn)練常規(guī)的CoT推理模型。帶有?符號的基線模型在外部提示下執(zhí)行自我修正，其中訓(xùn)練可能用于增強這種能力。遵循近期開源數(shù)學(xué)推理項目的慣例，使用貪婪解碼方法進(jìn)行評估。

內(nèi)在自我修正與提示通常失敗

首先觀察到，在沒有明確獎勵信號的情況下，內(nèi)在的自我修正通常會降低最終測試的準(zhǔn)確性。

分析輸出結(jié)果，發(fā)現(xiàn)模型傾向于修改初始響應(yīng)，而不管其正確性如何，因為它們?nèi)狈C制來確定何時應(yīng)該優(yōu)化答案，何時應(yīng)該終止修正過程。

此外，即使提供了真實獎勵，在錯誤到正確轉(zhuǎn)換方面，僅通過提示的基礎(chǔ)模型也只能取得微小的改進(jìn)。

還注意到，STaR/RAFT方法（通過對修正的錯誤嘗試進(jìn)行微調(diào)）未能顯著提升性能。

此外，在修改初始嘗試時，STaR/RAFT+變體（包含正確到正確的軌跡）變得更加保守。雖然這減少了錯誤的修正（?c→i(t1, t2)），但也降低了，最終導(dǎo)致測試準(zhǔn)確性下降。

這些發(fā)現(xiàn)與之前的研究一致，凸顯了內(nèi)在自我修正的局限性，即使通過訓(xùn)練也難以克服。

新模型顯著優(yōu)于現(xiàn)有的自我修正基線方法

在所有任務(wù)中，自我獎勵推理模型通過更高的?(t1, t2)持續(xù)提升了最終準(zhǔn)確性，優(yōu)于基線方法。

注意到，在具有自我修正行為的合成軌跡上進(jìn)行微調(diào)，能夠顯著提高模型的，這表明模型更擅長修正自我生成響應(yīng)中的錯誤。

與STaR/RAFT不同，通過自我獎勵I(lǐng)FT訓(xùn)練的模型還表現(xiàn)出顯著更低的，表明由于額外的自我獎勵信號，它們更擅長識別何時停止修正。

由于STaR/RAFT(+)和自我獎勵I(lǐng)FT使用了相同的數(shù)據(jù)合成方法（拒絕采樣），但基于不同的自我修正框架，這些結(jié)果凸顯了自我獎勵推理框架的優(yōu)勢。

新模型相比單輪基線方法提升了最終準(zhǔn)確性

自我自我獎勵推理模型（經(jīng)過RL訓(xùn)練）還與單輪對應(yīng)的模型進(jìn)行了比較。

無論是PPO還是DPO，自我獎勵推理模型由于額外的修正步驟，均實現(xiàn)了更高的最終測試準(zhǔn)確性。

例如，自我獎勵I(lǐng)FT + PPO模型在OlympiadBench上的最終準(zhǔn)確性為43.4%，在Minerva Math上為38.4%，而其單輪對應(yīng)模型分別為39.5%和33.1%。

同樣，使用DPO的自我獎勵推理模型在MATH500上達(dá)到78.6%，在OlympiadBench上為40.1%，在Minerva Math上為34.6%，而單輪DPO模型分別為76.8%、39.0%和31.6%。

然而，由于額外的修正步驟，自我獎勵模型在推理過程中使用了更多的token。

深度強化學(xué)習(xí)算法優(yōu)于直接對齊算法

可以觀察到，PPO（近端策略優(yōu)化）在性能上大幅優(yōu)于迭代DPO（直接偏好優(yōu)化）。

例如，經(jīng)過PPO訓(xùn)練的模型在Olympiad Bench上的最終準(zhǔn)確性為43.4%，而DPO方法僅為40.1%。

這表明，當(dāng)絕對獎勵信號可用時，強制偏好結(jié)構(gòu)（如Bradley-Terry模型）可能是不必要的，甚至可能降低性能。

另一個可能的原因是DPO在數(shù)據(jù)利用上的局限性。

注意到，在實驗設(shè)置中，只能為40%到60%的提示收集到比較對。

對于剩余的提示，模型要么沒有生成任何正確軌跡，要么所有軌跡都是正確的。因此，DPO使用的訓(xùn)練數(shù)據(jù)少于PPO，這可能是其準(zhǔn)確性較低的原因之一。

獎勵模型（RM）準(zhǔn)確性

由于自我獎勵框架將生成器和獎勵模型統(tǒng)一起來，所以評估了模型作為獎勵模型的準(zhǔn)確性。

Qwen2.5-Math-7B-base有時可能無法嚴(yán)格遵循格式，可能是因為模型未經(jīng)過指令微調(diào)。

然而，這種情況發(fā)生的比例不到10%，因此重點關(guān)注包含評估步驟的樣本，并進(jìn)一步引入人工監(jiān)督以總結(jié)統(tǒng)計數(shù)據(jù)。

在表4中報告了結(jié)果。

表4. 獎勵模型準(zhǔn)確性結(jié)果（%）

在三個基準(zhǔn)測試中，自我獎勵信號在兩類情況下的準(zhǔn)確性。例如，MATH-500 C表示識別正確軌跡的準(zhǔn)確性，而MATH-500 W表示識別錯誤軌跡的準(zhǔn)確性。標(biāo)有(?)的模型被選為最終模型。

RL階段的學(xué)習(xí)動態(tài)

盡管RL訓(xùn)練提高了最終準(zhǔn)確性，但最終測試準(zhǔn)確性由第一輪準(zhǔn)確性（turn-1 accuracy）和?(t1, t2)共同決定。

研究團(tuán)隊特別注意到，最終準(zhǔn)確性的提升主要來自更高的第一輪準(zhǔn)確性，因為經(jīng)過RL訓(xùn)練的模型，通常具有更高的第一輪準(zhǔn)確性，但同時也表現(xiàn)出較低的。

為了理解RL訓(xùn)練的學(xué)習(xí)動態(tài)，在圖1中繪制了三個基準(zhǔn)測試的測試準(zhǔn)確性隨RL訓(xùn)練步驟的變化情況。

研究團(tuán)隊觀察到，在RL訓(xùn)練的早期階段，第一輪準(zhǔn)確性和最終準(zhǔn)確性均有所提升，且它們之間的差距?(t1, t2)也有所增加或保持穩(wěn)定水平。

然而，在訓(xùn)練步驟達(dá)到100左右時，最終準(zhǔn)確性的提升主要來自更高的第一輪準(zhǔn)確性，且兩者之間的差距縮小。

還在圖中繪制了平均生成長度的變化。

最初，長度有所減少，因為Qwen2.5-Math-7B-base模型傾向于生成大量Python代碼，導(dǎo)致響應(yīng)較長。

代碼通常占用大量token，可能導(dǎo)致推理路徑不完整，并且這種行為會被獎勵信號抑制。

隨后，生成長度在下一階段增加，表明RL訓(xùn)練也鼓勵了反思和自我修正能力。

最終，生成長度再次減少，同時伴隨著更高的第一輪準(zhǔn)確性和更小的?(t1, t2)。

基于兩輪對話框架的更多實驗結(jié)果

數(shù)據(jù)格式：簡化的兩輪對話框架

此前，將多個推理步驟合并為一個長的思維鏈（CoT）軌跡，這與常見的實踐一致。

然而，這種方法對新研究提出了重大挑戰(zhàn)，因為模型（尤其是Qwen2.5-Math-7B-base）往往無法嚴(yán)格遵循基于歷史評估或修正響應(yīng)的指令。

例如，即使自我評估結(jié)果為「[VERIFY] wrong」，模型有時仍會生成評估結(jié)果并選擇是否修正響應(yīng)。

此外，模型可能執(zhí)行多輪自我評估和修正，但這些步驟緊密耦合，無法輕松解耦為獨立的階段。

為了解決這些問題，研究團(tuán)隊采用了簡化的兩輪對話框架，其中用戶在不同步驟之間提供明確的指令。

具體而言，在接收到數(shù)學(xué)問題后，模型首先生成思維鏈推理a?和自我評估y。然后，用戶根據(jù)自我評估y提供一個確定性指令o：

由于你的初始響應(yīng)自我評估為錯誤，上述解決方案可能因?qū)栴}的理解不足而存在錯誤。請修正錯誤（如有）并重寫解決方案。將最終答案放在方框內(nèi)；
由于你的初始響應(yīng)自我評估為正確，請確認(rèn)其正確性并提供進(jìn)一步的修改。將最終答案放在方框內(nèi)。

同時，在收集數(shù)據(jù)時，根據(jù)設(shè)計的模板，自我獎勵信號直接由真實獎勵（ground-truth oracle reward）確定，無需額外的推理。

盡管這種簡化可能會降低獎勵模型的準(zhǔn)確性，但通過修改自我獎勵信號，有助于受控實驗。

參見表6中的示例。

Llama模型與Qwen模型實驗結(jié)果幾乎一致

Llama模型的實驗與Qwen模型的結(jié)果高度一致。

實驗表明，Llama模型表現(xiàn)出與Qwen模型相似的趨勢。

具體而言，內(nèi)在自我修正（無論是否結(jié)合類似STaR/RAFT的訓(xùn)練）無法可靠地修正自我生成響應(yīng)中的錯誤。

模型傾向于修改其初始響應(yīng)，而不管其正確性如何，這使得這些方法主要對較弱模型有益。

然而，對于在第一次嘗試中就能解決大多數(shù)問題的較強模型，內(nèi)在自我修正和STaR/RAFT方法顯著降低了第二輪準(zhǔn)確性。

相比之下，自我獎勵I(lǐng)FT模型通過有效修正錯誤并保留已經(jīng)正確的響應(yīng)，持續(xù)提升了第一輪準(zhǔn)確性。

這證明了所提出框架的通用性。

為了進(jìn)一步評估自我獎勵I(lǐng)FT模型，將自我獎勵信號與真實獎勵（oracle reward）保持一樣，以消除獎勵信號質(zhì)量的影響，并直接評估模型修正錯誤響應(yīng)的能力。

實驗表明其修正能力有所提升。

新框架提高了計算擴展的效率

自我修正需要生成多個LLM響應(yīng)，因此在相同的推理預(yù)算下比較模型性能至關(guān)重要。

在響應(yīng)數(shù)量受限的情況下，先前的自我修正方法，通常表現(xiàn)不如自一致性方法。

為了解決這一問題，在按比例分配的測試計算預(yù)算下，對自我獎勵修正進(jìn)行分析，采樣N條推理路徑，并使用多數(shù)投票確定最終輸出。

圖2報告了結(jié)果。

圖2. Llama-3-8B-it的獨立采樣與自我獎勵修正的多數(shù)投票結(jié)果

在實驗中，對于MATH任務(wù)，IFT模型平均每條軌跡收集1.61個樣本，M-DPO對齊模型平均每條軌跡收集1.65個樣本；對于GSM8K任務(wù)，IFT模型平均每條軌跡收集1.27個樣本，M-DPO對齊模型平均每條軌跡收集1.25個樣本。

對于MATH和GSM8K任務(wù)，在固定的推理預(yù)算下，自我獎勵修正模型始終優(yōu)于獨立采樣方法。

數(shù)據(jù)分布的消融研究

自我獎勵I(lǐng)FT模型優(yōu)于使用外部ORM的自我糾正。為了更好地理解自我獎勵信號的動態(tài)，研究團(tuán)隊將自我獎勵I(lǐng)FT模型與在相同數(shù)據(jù)集上訓(xùn)練的外部ORM（結(jié)果監(jiān)督獎勵模型）進(jìn)行了比較，結(jié)果見下表7。

他們觀察到，自我獎勵I(lǐng)FT模型在第二輪準(zhǔn)確性 (turn-2 accuracy)和?(t1, t2)上均優(yōu)于使用外部ORM的自我糾正方法。這凸顯了將生成器和獎勵模型統(tǒng)一于單一LLM的潛力。

然而，他們也注意到，外部ORM（用于評估Llama-3-SFT策略）和自我獎勵RM（用于評估自我獎勵I(lǐng)FT策略）在獎勵模型準(zhǔn)確性上存在顯著差距。

具體來說，自我獎勵I(lǐng)FT方法（自我獎勵I(lǐng)FT策略+自我獎勵RM）在識別正確軌跡時的準(zhǔn)確率為70.0%，略高于Llama-3-SFT策略+外部ORM的66.9%。

但對于錯誤答案的軌跡，自我獎勵I(lǐng)FT模型的準(zhǔn)確率為76.4%，遠(yuǎn)低于Llama-3-SFT策略+外部ORM的88.4%。

為了深入探究這一差異，他們使用自我獎勵RM來指導(dǎo)Llama-3-SFT策略的自我糾正。

有趣的是，在這種設(shè)置下，Llama-3-SFT 的獎勵模型準(zhǔn)確性與外部ORM更為接近，這表明可能存在分布外 (OOD) 問題。

具體而言，在自我獎勵I(lǐng)FT階段，策略從Llama-3-SFT轉(zhuǎn)變?yōu)樽晕要剟領(lǐng)FT策略，而獎勵模型是在原始Llama-3-SFT策略生成的數(shù)據(jù)上訓(xùn)練的。

此外，即使使用自我獎勵RM和外部ORM評估相同的Llama-3-SFT策略，也觀察到自我獎勵訓(xùn)練略微降低了獎勵模型的能力，這主要歸因于模型容量的限制。

RL訓(xùn)練中的額外規(guī)則設(shè)計

研究團(tuán)隊還對下列策略進(jìn)行了初步實驗，以分析它們對模型性能的影響。

PPO訓(xùn)練的獎勵分配策略
DPO訓(xùn)練的數(shù)據(jù)排序策略

多輪DPO訓(xùn)練中排序策略的影響

對于固定的(x, a?)，研究團(tuán)隊嘗試了以下排序策略：

為了簡化實驗，僅對模型進(jìn)行了一次迭代訓(xùn)練。結(jié)果如表9所示。

表9. 使用Llama-3-8B-it作為基礎(chǔ)模型，對M-DPO和蒸餾訓(xùn)練集影響的消融研究。

在不同的基礎(chǔ)模型和任務(wù)中，觀察到模型在將正確的初始答案錯誤分類為錯誤時更加保守。因此，經(jīng)過M-DPO微調(diào)的模型顯著降低了。

相應(yīng)地，M-DPO方法進(jìn)一步增強了自我獎勵推理語言模型，提高了第二輪準(zhǔn)確性和?(t1, t2)。有趣的是，盡管訓(xùn)練過程中并未明確涉及a?的生成，但第二輪中的修正能力自然遷移，從而提高了第一輪準(zhǔn)確性。

然而，當(dāng)超過某個閾值時，過低的可能使模型過于保守，最終降低修正率。

這一點在使用僅D_M-DPO2的實驗中得到了驗證，其中在MATH任務(wù)中從8.8%降至5.6%。相反，使用D_M-DPO1進(jìn)行訓(xùn)練會鼓勵模型修改其初始響應(yīng)，表現(xiàn)為更高的p_c→i(t1, t2)，并略微增強了修正能力。

在GSM8K任務(wù)中，使用D_M-DPO1訓(xùn)練的模型的有較低的，這主要是由于獎勵模型準(zhǔn)確性較低和第一輪準(zhǔn)確性較高所致。

如果考慮修正軌跡的比例，自我獎勵I(lǐng)FT實現(xiàn)了45.9%，而M-DPO對齊模型略優(yōu)于它，達(dá)到46.4%。

此外，結(jié)合D_M-DPO1和D_M-DPO2通常能產(chǎn)生接近最優(yōu)的結(jié)果，通過使模型更清楚何時修改其初始響應(yīng)來達(dá)到平衡。

DPO訓(xùn)練無法一致提升獎勵模型準(zhǔn)確性

在實驗過程中，研究人員觀察到M-DPO訓(xùn)練也會改變a?的生成分布，從而不可預(yù)測地影響?yīng)剟钅Ｐ偷臏?zhǔn)確性。

盡管在D_M-DPO3中包含了比較對，并盡力調(diào)整該數(shù)據(jù)集中的數(shù)據(jù)組合，但仍然面臨正確答案識別性能下降的問題。

此外，對于簡單的平衡D_M-DPO3（例如在GSM8K中），兩類獎勵模型的準(zhǔn)確性都變得更差。

無論是哪種情況，獎勵模型的準(zhǔn)確性并未得到一致提升。

懷疑這是由于DPO隱式獎勵（log π/π_ref）與采樣概率log π之間的不匹配所致。

同樣，對于PPO訓(xùn)練，可能也需要采用多輪設(shè)計，而新研究僅對部分響應(yīng)施加KL正則化，并允許模型更容易地調(diào)整自我獎勵階段。

PPO訓(xùn)練中的額外規(guī)則設(shè)計

還研究了PPO訓(xùn)練中不同的獎勵信號設(shè)計，旨在增強自我修正能力，特別是在訓(xùn)練的后期階段。

具體而言，嘗試了以下兩種方法：

如果第一次嘗試錯誤且最終答案正確，則分配1.5的獎勵；否則，最終答案正確分配1.0，錯誤分配0.0。
將學(xué)習(xí)分為兩個階段。在第一階段，我們僅使用基于正確性的獎勵進(jìn)行訓(xùn)練；然后從第一階段初始化模型，并應(yīng)用第一種方案中的修改獎勵分配。

研究人員觀察到，模型很容易利用第一種獎勵設(shè)計中的漏洞，即它們故意在第一次嘗試中預(yù)測錯誤答案，然后在第二輪中修正它。

盡管簡單的獎勵修改失敗了，但預(yù)計更復(fù)雜的多輪RL策略可以進(jìn)一步改進(jìn)RL訓(xùn)練。

主要作者

Wei Xiong

目前，Wei Xiong是伊利諾伊大學(xué)厄巴納-香檳分校（UIUC）計算機科學(xué)博士生。

2023年8月，他從香港科技大學(xué)獲數(shù)學(xué)碩士學(xué)位；2021年，從中國科學(xué)技術(shù)大學(xué)獲數(shù)學(xué)與電子工程雙學(xué)士學(xué)位，其中統(tǒng)計專業(yè)績點第一，電子工程排名第二。

他的研究興趣主要集中在基于人類反饋的強化學(xué)習(xí)（RLHF），用于對齊大型語言模型。

Chenlu Ye

她是伊利諾伊大學(xué)厄巴納-香檳分校（UIUC）計算機科學(xué)博士生。

2024年8月，她從香港科技大學(xué)獲人工智能與信息處理（IIP - AI）碩士（MPhil）學(xué)位。她從中國科學(xué)技術(shù)大學(xué)獲得統(tǒng)計學(xué)學(xué)士學(xué)位。

Hanning Zhang

伊利諾伊大學(xué)厄巴納-香檳分校（UIUC）計算機科學(xué)碩士一年級學(xué)生，導(dǎo)師是張彤教授。

2024年畢業(yè)于香港科技大學(xué)（HKUST），主修計算機科學(xué)。曾擔(dān)任張彤教授指導(dǎo)下的研究實習(xí)生，研究主題LLM幻覺和對齊。2023年夏季，在Blender Lab擔(dān)任研究實習(xí)生，導(dǎo)師是季恒教授。

研究興趣包括自然語言處理（NLP）和大模型（LLMs）。對LLM對齊有廣泛的興趣。正在研究數(shù)學(xué)推理的獎勵建模。過去還研究過LLM幻覺。

責(zé)任編輯：張燕妮來源：新智元

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營