自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="rlu6s"><s id="rlu6s"><li id="rlu6s"></li></s></sub>

<style id="rlu6s"></style>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

為什么明明很準，獎勵模型就是不work？新研究：準確度 is not all you need

作者：機器之心 2025-03-24 13:24:23

人工智能新聞

訓練狗時不僅要讓它知對錯，還要給予差異較大的、不同的獎勵誘導，設計 RLHF 的獎勵模型時也是一樣。

我們知道，一個 RLHF 算法是否成功的一大關鍵在于其獎勵模型（RM）的質量。但是，我們應該如何衡量 RM 的質量呢？近日，普林斯頓大學一個研究團隊發(fā)現(xiàn)，如果僅用準確度來衡量 RM 的質量，可能無法完全體現(xiàn)一個獎勵模型作為有效教師的特性。為此，他們選擇了從優(yōu)化角度來研究這個問題。

論文標題：What Makes a Reward Model a Good Teacher? An Optimization Perspective
論文鏈接：https://arxiv.org/pdf/2503.15477

在這篇論文中，他們證明：無論獎勵模型有多準確，如果它會導致獎勵方差較低，那么 RLHF 目標優(yōu)化起來就會比較緩慢。即使是完全準確的獎勵模型也會導致優(yōu)化速度極其緩慢，性能表現(xiàn)趕不上會導致獎勵方差較高但準確度較低的模型。

他們還表明，對一種語言模型有效的獎勵模型可能會讓另一種語言模型的獎勵方差較低，從而導致優(yōu)化過程變得緩慢。

這些結果說明：如果在設計獎勵模型時僅基于準確度或不考慮具體的語言模型，那么就會遭遇一些根本性的限制?？傮w而言，除了準確度之外，獎勵模型還需要誘導出足夠的方差才能實現(xiàn)有效優(yōu)化。

考慮到強化學習與生物大腦學習機制具有一定的共通性，于是我們求助了 Claude，讓它通過「人訓練狗」的類比給我們提供了更為直觀易懂的解釋：

看起來這個解釋還不錯？

這項工作吸引了不少研究者的注意。其中，來自斯坦福大學的 AI 研究者Rajan Vivek 不止肯定了該工作的價值，還給出了一些讓獎勵更加細粒度（誘導獎勵方差）的技巧，包括：

在最小對比對上進行訓練：可以人工合成這些對比對，要求獎勵模型能夠可靠地為其中一個輸出賦予略高的分數(shù)。
從生成式獎勵模型中計算連續(xù)獎勵：通過取 token 概率和分數(shù)的加權和來實現(xiàn)。
結合監(jiān)督微調(diào)（SFT）、均方誤差（MSE）和偏好損失：這些方法使模型能夠生成推理依據(jù)，優(yōu)化其連續(xù)獎勵，并有效地從最小對比對中學習！

下面繼續(xù)來看原論文給出的更為技術化的描述。

從優(yōu)化視角看如何設計優(yōu)良的獎勵模型

該團隊研究的是通過策略梯度最大化 RLHF 目標（如下 (1) 式）時預期的真實獎勵 r_G 增加到所需量所需的時間。這個時間越短越好。

他們證明，如果獎勵模型 r_RM 會為初始策略引入較低的獎勵方差，則由于目標圖景平坦，r_RM 和 r_G 都會以較慢的速度增加。因此，為了實現(xiàn)高效優(yōu)化，r_RM 需要確保獎勵方差不會太低。

之后，他們確立了獎勵方差和優(yōu)化率之間關系的兩個主要含義。

1、由于獎勵方差與準確度沒有綁定，因此更準確的獎勵模型不一定是更好的教師。

2、由于相同的獎勵模型可能會給一種策略引入較高的獎勵方差，但為另一種策略引入較低的獎勵方差，因此對于不同的初始策略，使用不同的獎勵模型會有更好的效果。

圖 1 展示了準確度與獎勵方差對 RLHF 目標圖景的影響。

具體來說，準確度和獎勵方差體現(xiàn)了獎勵模型的不同方面：前者控制著與 ground truth 獎勵的對齊，而后者決定了目標圖景的平坦度。

準確度越低，獎勵模型越容易受到獎勵 hacking 攻擊 —— 獎勵模型認為有益的方向可能并不會提升 ground truth 獎勵。另一方面，即使獎勵模型完全準確，低獎勵方差也意味著平坦的圖景有礙策略梯度方法的效率。

低獎勵方差意味著最大化獎勵的速度緩慢

這里將預期獎勵所需的時間下限設為一個加法常數(shù)。定理 1 表明，這個時間的增長與成反比，這是 r_RM 針對初始策略與訓練集 S 中的提示詞得到的平均獎勵方差。這樣一來，如果提示詞 x ∈ S 的較低（即當 r_RM 無法充分地分離在初始策略下可能的輸出時），則策略梯度就會出現(xiàn)優(yōu)化速度慢的問題。

定理 1 是原論文中定理 4 的精簡版，對其的證明請訪問原論文附錄部分。

眾所周知，低獎勵方差意味著通過 softmax 產(chǎn)生下一 token 分布的策略出現(xiàn)了梯度消失現(xiàn)象。

具體而言，對于任何提示詞 x 和策略 π_θ，都會隨著衰減。然而，僅憑這一點并不能得到令人滿意的獎勵最大化率下限，因為如果沒有進一步的知識，梯度范數(shù)可能會在訓練過程中迅速增加。

但研究表明情況并非如此：當獎勵方差較低時，RLHF 目標的高階導數(shù)會與梯度一起消失，從而阻止梯度范數(shù)的快速增加。這會限制策略參數(shù) θ(t) 的移動，從而導致獎勵增長率的下限。

更準確的獎勵模型不一定是更好的教師

上一小節(jié)表明：低獎勵方差會阻礙策略梯度的效率。值得注意的是，獎勵方差與通常用于評估獎勵模型的指標（準確度）無關。準確度僅取決于獎勵模型如何排序不同的輸出，而不考慮其獎勵之間的分離程度，而獎勵方差則由這種分離程度決定。定理 2 確定的一個關鍵含義是：準確的獎勵模型 r_RM 也可能有較低的獎勵方差。

需要明確一下，定理 2 考慮了兩點：(i) 存在 r_RM 完全準確而 r′_RM 幾乎完全不準確的極端情況；(ii) 對于提示詞 x 和獎勵模型 r_RM，關于無序輸出對的均勻分布的準確度用 accx (rRM) 表示。關于該定理的詳細版本（定理 5）的證明請訪問原論文附錄。

該團隊指出，定理 2 并不意味著高準確度的獎勵模型就一定是糟糕的教師。事實上，在幾乎任何準確度水平上，一些獎勵模型都會導致優(yōu)化低效，而其他獎勵模型則表現(xiàn)良好。定理 2 只是形式化了準確度本身不足以評估 RLHF 中的獎勵模型的原因。

盡管如此，準確度仍是一個需要努力追求的屬性，因為更準確的模型通常不太容易受到獎勵 hacking 攻擊。也就是說，當使用不完美的獎勵模型進行訓練時，由于兩個獎勵不匹配，最終 ground truth 獎勵可能會開始減少。因此，通常的做法是只運行幾個 epoch 的策略梯度。定理 2 體現(xiàn)到了這種情況，其中準確度較低的獎勵模型可以通過推動 ground truth 獎勵的更快增加而勝過更準確的獎勵模型。

準確度的作用取決于對齊方法。雖然準確度本身并不能保證 RLHF 的有效性，但其重要性因對齊方法而異。例如，在 Best-of-N 采樣中，很容易證明完全準確的獎勵模型始終是最佳的。

對于不同的初始策略，不同的獎勵模型更好

獎勵方差取決于獎勵模型和策略。特別是，對一個策略產(chǎn)生高獎勵方差的獎勵模型可能會對另一個策略產(chǎn)生低獎勵方差。因此，獎勵方差和優(yōu)化之間的聯(lián)系意味著對于不同的初始策略，使用不同的獎勵模型會更好，見定理 3。這表明，為了忠實地評估 RLHF 的獎勵模型，需要考慮正在對齊的策略。

實驗結果

在實驗部分，作者驗證了從理論分析中得出的結論在實踐中是成立的。

首先，他們表明，在策略梯度期間，獎勵方差與獎勵最大化率密切相關。具體來說，在固定訓練預算下，更準確的獎勵模型如果產(chǎn)生較低的獎勵方差，反而可能導致性能下降。更令人意外的是，這一現(xiàn)象甚至適用于真實（ground truth）獎勵本身：作者發(fā)現(xiàn)，即使能夠直接獲取真實獎勵，在某些情況下使用代理獎勵模型反而能取得更好的效果。

如下圖 2 所示，作者使用一些獎勵模型，通過策略梯度方法（RLOO）訓練了一個 Pythia-2.8B 語言模型。這些獎勵模型的特性如表 1 所示。作為對比，作者還直接使用真實獎勵進行了策略梯度訓練。圖 2 展示了代理獎勵（左圖，即用于訓練的獎勵）和真實獎勵（右圖）隨訓練輪數(shù)增加的變化情況。與定理 2 一致，一個完美、準確但導致低獎勵方差的獎勵模型（紅色標記）的表現(xiàn)不如一些準確度較低的模型。更有趣的是，在最初幾輪訓練中，使用代理獎勵模型的效果甚至優(yōu)于直接優(yōu)化真實獎勵。

圖 7 展示了一個這種差距更為明顯的實驗。

接下來，作者證明了對于不同的語言模型，不同的獎勵模型會帶來更高的真實獎勵。如下圖 3 所示，作者使用公開可用的獎勵模型，通過策略梯度方法（RLOO）在 UltraFeedback 的提示上訓練了不同的語言模型；獎勵模型的特性見表 9。圖中數(shù)據(jù)顯示，與定理 3 一致，能夠產(chǎn)生最高真實獎勵的獎勵模型會隨著初始策略的不同而變化。

有關這些實驗的更多詳情以及定理證明請參閱原論文。

責任編輯：張燕妮來源：機器之心

模型 AI 訓練

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營