Deepseek新論文!如何讓AI自己學(xué)會更公平地打分?
一、為啥要研究這個問題?
現(xiàn)在的AI大模型(比如ChatGPT)雖然很厲害,但它們在做一些需要“打分”的任務(wù)時(比如判斷哪個回答更好、更安全),還是得靠人類提前設(shè)定好規(guī)則。
比如,告訴AI“答案要準(zhǔn)確”、“不能有偏見”等等。但現(xiàn)實情況超級復(fù)雜,很多問題沒法靠幾條固定規(guī)則解決,比如怎么評價一篇作文的好壞,或者怎么判斷一段對話有沒有冒犯性。
這時候,AI就需要自己學(xué)會“打分”——這就是獎勵建模(Reward Modeling)。不過,現(xiàn)有的AI在遇到新問題時,要么生搬硬套舊規(guī)則,要么在復(fù)雜問題上表現(xiàn)不穩(wěn)定,甚至出現(xiàn)不公平的情況。
二、SPCT是個啥?
image.png|550
SPCT就像給AI裝了一個“自動評分委員會”,讓它自己制定規(guī)則、檢查答案,最后綜合大家的意見給出公平的分?jǐn)?shù)。
這樣一來,AI不僅能處理簡單問題,還能在復(fù)雜場景中越來越聰明,甚至幫人類發(fā)現(xiàn)以前沒想到的評分維度!
SPCT全稱是自原則批判調(diào)優(yōu),簡單說就是教AI自己制定評分標(biāo)準(zhǔn),然后根據(jù)這些標(biāo)準(zhǔn)給回答打分。它有兩個核心步驟:
自己定規(guī)矩(原則生成)
比如,當(dāng)用戶問“怎么減肥最有效?”時,AI不是直接給答案打分,而是先自己想幾個評判標(biāo)準(zhǔn):“這個方法科學(xué)嗎?”、“有沒有副作用?”、“適合普通人嗎?”。
這些標(biāo)準(zhǔn)不是人教的,而是AI根據(jù)問題自己生成的。 傳統(tǒng)方法中,獎勵原則(Principle)通常作為預(yù)定義規(guī)則輸入模型(如Constitutional AI)。
SPCT創(chuàng)新地將原則生成與獎勵生成解耦,允許模型基于輸入動態(tài)生成原則:
其中,pθ是由參數(shù)θ控制的原則生成函數(shù),它與獎勵生成函數(shù)rθ共享同一模型參數(shù)。
通過這種方式,GRM能夠根據(jù)不同查詢(Query)和響應(yīng)(Response)自動生成適應(yīng)性強(qiáng)的評判標(biāo)準(zhǔn)(Principle),再基于原則生成具體批判(Critique),最終提取數(shù)值獎勵(Reward)。
基于規(guī)則的強(qiáng)化學(xué)習(xí)
接著,AI會根據(jù)自己定的標(biāo)準(zhǔn),一條條檢查回答。比如發(fā)現(xiàn)某個回答說“每天吃黃瓜能瘦10斤”,AI就會批判:“這個方法不科學(xué),缺乏科學(xué)依據(jù),可能有健康風(fēng)險?!?SPCT采用兩階段訓(xùn)練策略:
- 拒絕微調(diào)(Rejective Fine-Tuning):通過過濾低質(zhì)量軌跡(如獎勵與真實值不一致的樣本),使模型適應(yīng)生成多樣化原則和批判。
- 規(guī)則化在線RL(Rule-Based Online RL):引入KL散度懲罰和二分類獎勵函數(shù),強(qiáng)制模型生成符合預(yù)設(shè)格式的獎勵信號,同時鼓勵區(qū)分最優(yōu)響應(yīng)。
公式化的獎勵機(jī)制為:
這一設(shè)計既保證了獎勵信號的可解釋性,又通過在線學(xué)習(xí)提升了模型的泛化能力。
最后,AI把這些批判總結(jié)成一個分?jǐn)?shù),告訴用戶哪個回答更好。
三、怎么教AI學(xué)會這招?
傳統(tǒng)方法是靠人類手動調(diào)整規(guī)則,但SPCT用了兩個聰明的辦法:
- 邊學(xué)邊改(在線強(qiáng)化學(xué)習(xí))讓AI不斷嘗試不同的評分方式,如果它給的分?jǐn)?shù)和人類認(rèn)可的結(jié)果一致,就獎勵它;如果錯了,就糾正它。比如,如果AI因為某個回答用了專業(yè)術(shù)語而給高分,但實際上用戶更想要簡單解釋,系統(tǒng)就會提醒它:“下次要考慮用戶的理解程度!”
- 集體投票(元獎勵模型)為了減少AI自己犯錯的可能,SPCT會讓AI生成多個不同的評分標(biāo)準(zhǔn),然后挑出最靠譜的那個。比如,對同一個回答,AI可能第一次說“很好”,第二次說“一般”,第三次說“有問題”——這時候系統(tǒng)會綜合多次結(jié)果,選出最合理的分?jǐn)?shù)。
四、實驗設(shè)計
數(shù)據(jù)與模型
- 基準(zhǔn)數(shù)據(jù)集:覆蓋Reward Bench(聊天、推理、安全)、PPE(可驗證任務(wù))、RMB(多響應(yīng)偏好)和ReaLMistake(單響應(yīng)錯誤檢測)。
- 模型架構(gòu):基于Gemma-2-27B、DeepSeek-V2.5-236B和DeepSeek-V3-671B等模型,通過并行采樣(Parallel Sampling)擴(kuò)展推理計算。
關(guān)鍵實驗設(shè)置
- 采樣策略:每次推理生成8-32組原則和批判,通過投票(Voting)聚合結(jié)果,減少噪聲。
- 元獎勵模型(Meta RM):額外訓(xùn)練一個標(biāo)量RM,用于過濾低質(zhì)量樣本,進(jìn)一步提升投票效果。
五、結(jié)果與分析
1. 性能對比
在多個基準(zhǔn)測試中,DeepSeek-GRM-27B顯著優(yōu)于現(xiàn)有模型:
- Reward Bench:準(zhǔn)確率86.0%,超越GPT-4o(86.7%)和Nemotron-4-340B(92.0%需更大參數(shù))。
- PPE Correctness:準(zhǔn)確率67.2%,在可驗證任務(wù)中接近標(biāo)量模型的上限(如Gemini-1.5-Pro的66.1%)。
- ReaLMistake:ROC-AUC達(dá)70.3%,優(yōu)于所有對比模型。
2. 推理擴(kuò)展性
通過并行采樣+元RM引導(dǎo)投票,DeepSeek-GRM-27B實現(xiàn)推理效率與性能的雙重提升:
- 8次采樣:準(zhǔn)確率70.6%(較貪心解碼提升2.7%)。
- 32次采樣+Meta RM:準(zhǔn)確率72.8%(超過671B參數(shù)模型的訓(xùn)練時間擴(kuò)展效果)。
3. 消融實驗
- 原則生成:移除原則生成模塊后,性能下降3.3%(72.8% → 69.5%)。
- 元RM引導(dǎo):關(guān)閉元RM后,投票效果降低1.6%(72.8% → 71.2%)。
- 輸入靈活性:支持單響應(yīng)、多響應(yīng)和帶參考答案的輸入,性能波動小于1%。
六、未來還能干啥?
雖然SPCT已經(jīng)很棒,但作者覺得還能更進(jìn)一步:
- 和人類協(xié)作:讓AI在打分時實時詢問人類的意見,不斷優(yōu)化自己的標(biāo)準(zhǔn)。
- 處理復(fù)雜任務(wù):比如同時評價一篇文章的內(nèi)容、邏輯和文筆,而不是只看單一指標(biāo)。
- 解決長文本問題:現(xiàn)在SPCT處理短回答沒問題,但面對小說或研究報告,可能還需要更長時間思考。
論文鏈接:https://arxiv.org/pdf/2504.02495
本文轉(zhuǎn)載自??沐白AI筆記??,作者:楊沐白
