自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

剛剛,DeepSeek公布推理時(shí)Scaling新論文,R2要來(lái)了?

人工智能 新聞
來(lái)自 DeepSeek、清華大學(xué)的研究人員探索了獎(jiǎng)勵(lì)模型(RM)的不同方法,發(fā)現(xiàn)逐點(diǎn)生成獎(jiǎng)勵(lì)模型(GRM)可以統(tǒng)一純語(yǔ)言表示中單個(gè)、成對(duì)和多個(gè)響應(yīng)的評(píng)分,從而克服了挑戰(zhàn)。

這會(huì)是 DeepSeek R2 的雛形嗎?本周五,DeepSeek 提交到 arXiv 上的最新論文正在 AI 社區(qū)逐漸升溫。

當(dāng)前,強(qiáng)化學(xué)習(xí)(RL)已廣泛應(yīng)用于大語(yǔ)言模型(LLM)的后期訓(xùn)練。最近 RL 對(duì) LLM 推理能力的激勵(lì)表明,適當(dāng)?shù)膶W(xué)習(xí)方法可以實(shí)現(xiàn)有效的推理時(shí)間可擴(kuò)展性。RL 的一個(gè)關(guān)鍵挑戰(zhàn)是在可驗(yàn)證問(wèn)題或人工規(guī)則之外的各個(gè)領(lǐng)域獲得 LLM 的準(zhǔn)確獎(jiǎng)勵(lì)信號(hào)。

本周五提交的一項(xiàng)工作中,來(lái)自 DeepSeek、清華大學(xué)的研究人員探索了獎(jiǎng)勵(lì)模型(RM)的不同方法,發(fā)現(xiàn)逐點(diǎn)生成獎(jiǎng)勵(lì)模型(GRM)可以統(tǒng)一純語(yǔ)言表示中單個(gè)、成對(duì)和多個(gè)響應(yīng)的評(píng)分,從而克服了挑戰(zhàn)。研究者探索了某些原則可以指導(dǎo) GRM 在適當(dāng)標(biāo)準(zhǔn)內(nèi)生成獎(jiǎng)勵(lì),從而提高獎(jiǎng)勵(lì)的質(zhì)量,這啟發(fā)我們,RM 的推理時(shí)間可擴(kuò)展性可以通過(guò)擴(kuò)展高質(zhì)量原則和準(zhǔn)確批評(píng)的生成來(lái)實(shí)現(xiàn)。

圖片

  • 論文標(biāo)題:Inference-Time Scaling for Generalist Reward Modeling 
  • 論文鏈接:https://arxiv.org/abs/2504.02495

基于這一初步成果,作者提出了一種新學(xué)習(xí)方法,即自我原則批評(píng)調(diào)整(SPCT),以促進(jìn) GRM 中有效的推理時(shí)間可擴(kuò)展行為。通過(guò)利用基于規(guī)則的在線(xiàn) RL,SPCT 使 GRM 能夠?qū)W習(xí)根據(jù)輸入查詢(xún)和響應(yīng)自適應(yīng)地提出原則和批評(píng),從而在一般領(lǐng)域獲得更好的結(jié)果獎(jiǎng)勵(lì)。

基于此技術(shù),DeepSeek 提出了 DeepSeek-GRM-27B,它基于 Gemma-2-27B 用 SPCT 進(jìn)行后訓(xùn)練。對(duì)于推理時(shí)間擴(kuò)展,它通過(guò)多次采樣來(lái)擴(kuò)展計(jì)算使用量。通過(guò)并行采樣,DeepSeek-GRM 可以生成不同的原則集和相應(yīng)的批評(píng),然后投票選出最終的獎(jiǎng)勵(lì)。通過(guò)更大規(guī)模的采樣,DeepSeek-GRM 可以更準(zhǔn)確地判斷具有更高多樣性的原則,并以更細(xì)的粒度輸出獎(jiǎng)勵(lì),從而解決挑戰(zhàn)。

除了投票以獲得更好的擴(kuò)展性能外,DeepSeek 還訓(xùn)練了一個(gè)元 RM。從實(shí)驗(yàn)結(jié)果上看,SPCT 顯著提高了 GRM 的質(zhì)量和可擴(kuò)展性,在多個(gè)綜合 RM 基準(zhǔn)測(cè)試中優(yōu)于現(xiàn)有方法和模型,且沒(méi)有嚴(yán)重的領(lǐng)域偏差。作者還將 DeepSeek-GRM-27B 的推理時(shí)間擴(kuò)展性能與多達(dá) 671B 個(gè)參數(shù)的較大模型進(jìn)行了比較,發(fā)現(xiàn)它在模型大小上可以獲得比訓(xùn)練時(shí)間擴(kuò)展更好的性能。雖然當(dāng)前方法在效率和特定任務(wù)方面面臨挑戰(zhàn),但憑借 SPCT 之外的努力,DeepSeek 相信,具有增強(qiáng)可擴(kuò)展性和效率的 GRM 可以作為通用獎(jiǎng)勵(lì)系統(tǒng)的多功能接口,推動(dòng) LLM 后訓(xùn)練和推理的前沿發(fā)展。

這項(xiàng)研究的主要貢獻(xiàn)有以下三點(diǎn):

  • 研究者們提出了一種新方法:Self-Principled Critique Tuning(SPCT),用于提升通用獎(jiǎng)勵(lì)模型在推理階段的可擴(kuò)展性,并由此訓(xùn)練出 DeepSeek-GRM 系列模型。同時(shí),他們進(jìn)一步引入了一種元獎(jiǎng)勵(lì)模型(meta RM),使 DeepSeek-GRM 的推理效果在超越傳統(tǒng)投票機(jī)制的基礎(chǔ)上得到進(jìn)一步提升。
  • 實(shí)驗(yàn)證明,SPCT 在生成質(zhì)量和推理階段的可擴(kuò)展性方面,明顯優(yōu)于現(xiàn)有方法,并超過(guò)了多個(gè)強(qiáng)大的開(kāi)源模型。
  • SPCT 的訓(xùn)練方案還被應(yīng)用到更大規(guī)模的語(yǔ)言模型上。研究者們發(fā)現(xiàn)推理階段的擴(kuò)展性收益甚至超過(guò)了通過(guò)增加模型規(guī)模所帶來(lái)的訓(xùn)練效果提升。

圖片

技術(shù)細(xì)節(jié)

我們一起來(lái)看看這篇論文所討論的技術(shù)細(xì)節(jié)。

Self-Principled Critique Tuning (SPCT)

受到初步實(shí)驗(yàn)結(jié)果的啟發(fā),研究者提出了一種用于逐點(diǎn)通用獎(jiǎng)勵(lì)模型的新方法,能夠?qū)W習(xí)生成具有適應(yīng)性和高質(zhì)量的原則,以有效引導(dǎo)批評(píng)內(nèi)容的生成,該方法被稱(chēng)為自我原則批評(píng)調(diào)整(SPCT)。 

如圖 3 所示,SPCT 包含兩個(gè)階段:

1. 拒絕式微調(diào)(rejective fine-tuning),作為冷啟動(dòng)階段;

2. 基于規(guī)則的在線(xiàn)強(qiáng)化學(xué)習(xí)(rule-based online RL),通過(guò)不斷優(yōu)化生成的準(zhǔn)則和評(píng)論,進(jìn)一步增強(qiáng)泛化型獎(jiǎng)勵(lì)生成能力。

此外,SPCT 還能促使獎(jiǎng)勵(lì)模型在推理階段展現(xiàn)出良好的擴(kuò)展能力。

圖片

研究者們觀(guān)察到,高質(zhì)量的準(zhǔn)則能夠在特定評(píng)判標(biāo)準(zhǔn)下有效引導(dǎo)獎(jiǎng)勵(lì)的生成,是提升獎(jiǎng)勵(lì)模型表現(xiàn)的關(guān)鍵因素。然而,對(duì)于通用型獎(jiǎng)勵(lì)模型而言,如何自動(dòng)生成適應(yīng)性強(qiáng)、指導(dǎo)性強(qiáng)的準(zhǔn)則仍是一個(gè)核心難題。

為此,他們提出將準(zhǔn)則的作用由傳統(tǒng)的理解階段的輔助性輸入,轉(zhuǎn)變?yōu)楠?jiǎng)勵(lì)生成過(guò)程中的核心組成部分。具體而言,這項(xiàng)研究不再將準(zhǔn)則僅作為模型生成前的提示信息,而是使模型能夠在生成過(guò)程中主動(dòng)生成并運(yùn)用準(zhǔn)則,從而實(shí)現(xiàn)更強(qiáng)的獎(jiǎng)勵(lì)泛化能力與推理階段的可擴(kuò)展性。

在該研究的設(shè)定中,GRM 可以自主生成準(zhǔn)則,并在此基礎(chǔ)上生成對(duì)應(yīng)的批評(píng)內(nèi)容,其過(guò)程可形式化表示為: 

圖片

其中,p_θ 表示由參數(shù) θ 所定義的準(zhǔn)則生成函數(shù),該函數(shù)與獎(jiǎng)勵(lì)生成函數(shù) r_θ 共享同一模型架構(gòu)。這樣的設(shè)計(jì)使得準(zhǔn)則可以根據(jù)輸入的 query 和響應(yīng)自適應(yīng)生成,從而動(dòng)態(tài)引導(dǎo)獎(jiǎng)勵(lì)的生成過(guò)程。此外,準(zhǔn)則及其對(duì)應(yīng)批評(píng)的質(zhì)量與細(xì)粒度可以通過(guò)對(duì) GRM 進(jìn)行后訓(xùn)練進(jìn)一步提升。

當(dāng)模型具備大規(guī)模生成準(zhǔn)則的能力后,GRM 便能夠在更合理的準(zhǔn)則框架下輸出更細(xì)致的獎(jiǎng)勵(lì)評(píng)價(jià),這對(duì)于推理階段的可擴(kuò)展性具有關(guān)鍵意義。

基于規(guī)則的強(qiáng)化學(xué)習(xí)

為同步優(yōu)化 GRM 中的原則生成與批判生成,DeepSeek 提出 SPCT 框架,整合了拒絕式微調(diào)與基于規(guī)則的強(qiáng)化學(xué)習(xí)。拒絕式微調(diào)作為冷啟動(dòng)階段。

拒絕式微調(diào)(冷啟動(dòng)階段) 的核心目標(biāo)是使 GRM 能夠生成格式正確且適配多種輸入類(lèi)型的原則與批判。

不同于 Vu 等人(2024)、Cao 等人(2024)和 Alexandru 等人(2025)將單響應(yīng)、配對(duì)響應(yīng)和多響應(yīng)格式的 RM 數(shù)據(jù)混合使用的方案,DeepSeek 采用第 2.1 節(jié)提出的逐點(diǎn) GRM,能以統(tǒng)一格式為任意數(shù)量響應(yīng)生成獎(jiǎng)勵(lì)。

數(shù)據(jù)構(gòu)建方面,除通用指令數(shù)據(jù)外,DeepSeek 還通過(guò)預(yù)訓(xùn)練 GRM 對(duì) RM 數(shù)據(jù)中不同響應(yīng)數(shù)量的查詢(xún) - 響應(yīng)對(duì)進(jìn)行軌跡采樣,每個(gè)查詢(xún) - 響應(yīng)對(duì)采樣圖片次。拒絕策略也采用統(tǒng)一標(biāo)準(zhǔn):拒絕預(yù)測(cè)獎(jiǎng)勵(lì)與真實(shí)值不符(錯(cuò)誤)的軌跡,以及所有圖片次軌跡均正確(過(guò)于簡(jiǎn)單)的查詢(xún) - 響應(yīng)對(duì)。形式化定義為:令圖片表示查詢(xún) x 第 i 個(gè)響應(yīng)圖片的真實(shí)獎(jiǎng)勵(lì),當(dāng)預(yù)測(cè)逐點(diǎn)獎(jiǎng)勵(lì)圖片滿(mǎn)足以下條件時(shí)視為正確:

圖片

這里需確保真實(shí)獎(jiǎng)勵(lì)僅包含一個(gè)最大值。然而,與 Zhang 等人(2025a)的研究類(lèi)似,DeepSeek 發(fā)現(xiàn)預(yù)訓(xùn)練 GRM 在有限采樣次數(shù)內(nèi)難以對(duì)部分查詢(xún)及其響應(yīng)生成正確獎(jiǎng)勵(lì)。

因此,他們選擇性地在 GRM 提示中追加image.png(稱(chēng)為暗示采樣),期望預(yù)測(cè)獎(jiǎng)勵(lì)能與真實(shí)值對(duì)齊,同時(shí)保留非暗示采樣方式。對(duì)于暗示采樣,每個(gè)查詢(xún)及其響應(yīng)僅采樣一次,僅當(dāng)預(yù)測(cè)錯(cuò)誤時(shí)才拒絕軌跡。相較于 Li 等人(2024a)和 Mahan 等人(2024)的研究,我們觀(guān)察到暗示采樣軌跡有時(shí)會(huì)簡(jiǎn)化生成的批判(尤其在推理任務(wù)中),這表明 GRM 在線(xiàn)強(qiáng)化學(xué)習(xí)的必要性和潛在優(yōu)勢(shì)。

通過(guò)基于規(guī)則的在線(xiàn) RL,研究者對(duì) GRM 進(jìn)行了進(jìn)一步的微調(diào)。與 DeepSeek R1 不同的是,沒(méi)有使用格式獎(jiǎng)勵(lì)。相反,為了確保格式和避免嚴(yán)重偏差,KL 懲罰采用了較大的系數(shù)。從形式上看,對(duì)給定查詢(xún) x 和響應(yīng)圖片的第 i 次輸出 o_i 的獎(jiǎng)勵(lì)為:

逐點(diǎn)獎(jiǎng)勵(lì)是圖片從 o_i 中提取的。

獎(jiǎng)勵(lì)函數(shù)鼓勵(lì) GRM 通過(guò)在線(xiàn)優(yōu)化原則和批判來(lái)區(qū)分最佳響應(yīng),從而實(shí)現(xiàn)有效的推理時(shí)間擴(kuò)展。獎(jiǎng)勵(lì)信號(hào)可以從任何偏好數(shù)據(jù)集和標(biāo)注的 LLM 響應(yīng)中無(wú)縫獲取。

SPCT 的推理時(shí)擴(kuò)展

為了進(jìn)一步提高 DeepSeek-GRM 在使用更多推理計(jì)算生成通用獎(jiǎng)勵(lì)方面的性能,研究者探索了基于采樣的策略,以實(shí)現(xiàn)有效的推理時(shí)可擴(kuò)展性。

利用生成獎(jiǎng)勵(lì)進(jìn)行投票?;仡櫟?2.1 節(jié)中的方法,逐點(diǎn) GRM 的投票過(guò)程定義為獎(jiǎng)勵(lì)總和:

圖片

其中,圖片是第 i 個(gè)響應(yīng)(i = 1, ..., n)的最終獎(jiǎng)勵(lì)。由于 S_i,j 通常設(shè)置在一個(gè)較小的離散范圍內(nèi),例如 {1,...,10},因此投票過(guò)程實(shí)際上將獎(jiǎng)勵(lì)空間擴(kuò)大了 k 倍,并使 GRM 能夠生成大量原則,從而有利于提高最終獎(jiǎng)勵(lì)的質(zhì)量和粒度。

一個(gè)直觀(guān)的解釋是,如果每個(gè)原則都可以被視為判斷視角的代表,那么更多的原則可能會(huì)更準(zhǔn)確地反映真實(shí)的分布情況,從而提高效率。值得注意的是,為了避免位置偏差和多樣性,在采樣之前會(huì)對(duì)回答進(jìn)行洗牌。

元獎(jiǎng)勵(lì)模型指導(dǎo)投票。DeepSeek-GRM 的投票過(guò)程需要多次采樣,由于隨機(jī)性或模型的局限性,少數(shù)生成的原則和評(píng)論可能存在偏差或質(zhì)量不高。因此,研究者訓(xùn)練了一個(gè)元 RM 來(lái)指導(dǎo)投票過(guò)程。

引導(dǎo)投票非常簡(jiǎn)單: 元 RM 對(duì) k 個(gè)采樣獎(jiǎng)勵(lì)輸出元獎(jiǎng)勵(lì),最終結(jié)果由 k_meta ≤ k 個(gè)元獎(jiǎng)勵(lì)的獎(jiǎng)勵(lì)投票決定,從而過(guò)濾掉低質(zhì)量樣本。

獎(jiǎng)勵(lì)模型 Benchmark 上的結(jié)果

不同方法和模型在獎(jiǎng)勵(lì)模型基準(zhǔn)測(cè)試上的整體結(jié)果如表 2 所示。

圖片

不同方法在推理階段的擴(kuò)展性能結(jié)果如表 3 所示,整體趨勢(shì)可見(jiàn)圖 1。 

圖片

表 4 展示了 SPCT 各個(gè)組成部分所做的消融實(shí)驗(yàn)結(jié)果。

研究者們還進(jìn)一步研究了 DeepSeek-GRM-27B 在推理階段和訓(xùn)練階段的擴(kuò)展性能,通過(guò)在不同規(guī)模的 LLM 上進(jìn)行后訓(xùn)練進(jìn)行評(píng)估。所有模型均在 Reward Bench 上進(jìn)行測(cè)試,結(jié)果如圖 4 所示。 

圖片

更多研究細(xì)節(jié),可參考原論文。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2025-04-07 08:42:00

2025-04-11 12:04:58

2025-02-13 09:20:00

2021-01-28 16:58:12

數(shù)字貨幣加密貨幣區(qū)塊鏈

2025-02-17 08:37:00

模型DeepSeekAI

2025-02-24 12:22:13

DeepSeek開(kāi)源模型

2025-02-25 09:13:16

2017-12-28 10:20:34

2018-05-03 21:21:24

蘋(píng)果iOS 11.4測(cè)試版

2025-02-25 12:08:26

2025-02-17 09:10:00

英偉達(dá)模型AI

2017-04-17 09:01:39

科技新聞早報(bào)

2023-05-29 08:38:56

popover控制懸浮層

2025-02-19 15:30:00

模型訓(xùn)練數(shù)據(jù)

2025-02-26 14:51:00

2025-02-21 15:18:20

2025-02-25 08:20:50

AI程序員DeepSeek

2025-02-03 12:07:52

2010-12-07 16:40:17

Windows Ser

2012-09-06 16:48:05

Windows Ser
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)