自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

DeepSeek前腳發(fā)新論文,奧特曼立馬跟上:GPT-5就在幾個(gè)月后啊

人工智能 新聞
這篇論文的名字叫做Inference-Time Scaling for Generalist Reward Modeling,由DeepSeek和清華大學(xué)共同提出。

有點(diǎn)意思。

這不DeepSeek前腳剛剛上新了一篇關(guān)于推理時(shí)Scaling Law的論文嘛,引得大家紛紛聯(lián)想是不是R2馬上要來(lái)了。

然鵝……奧特曼這邊卻發(fā)了一條“變卦”的消息:

計(jì)劃改變:我們可能在幾周之后先發(fā)布o(jì)3和o4-mini。

圖片

至于大家翹首以盼的GPT-5,奧特曼表示:

將在幾個(gè)月之后,而且效果會(huì)比我們最初設(shè)想的還要好。

至于原因,奧特曼也做出了解釋。

大概意思就是,順利整合所有內(nèi)容比他們想象的要困難得多,希望確保有足夠的能力來(lái)支持預(yù)期的需求。

圖片

咱就是說(shuō)啊,現(xiàn)在真的是DeepSeek這邊一有點(diǎn)聲響,OpenAI那邊就得有點(diǎn)動(dòng)作來(lái)緊跟一下了。

DeepSeek新論文

在這個(gè)小插曲之后呢,我們還是把目光聚焦在DeepSeek這篇新論文身上。

這篇論文的名字叫做Inference-Time Scaling for Generalist Reward Modeling,由DeepSeek和清華大學(xué)共同提出。

圖片

這篇研究核心的亮點(diǎn),就是提出了一個(gè)叫做SPCT方法(Self-Principled Critique Tuning)的方法——

首次提出通過(guò)在線強(qiáng)化學(xué)習(xí)(RL)優(yōu)化原則和批判生成,實(shí)現(xiàn)推理時(shí)擴(kuò)展。

之所以要做這么一項(xiàng)研究,是因?yàn)橹按蠹矣锚?jiǎng)勵(lì)模型(Reward Model, RM)在RL中為大語(yǔ)言模型生成獎(jiǎng)勵(lì)信號(hào)。

但現(xiàn)有的RM在通用領(lǐng)域卻表現(xiàn)出受限的情況,尤其是在面對(duì)復(fù)雜、多樣化任務(wù)的時(shí)候。

因此,就出現(xiàn)了兩個(gè)關(guān)鍵挑戰(zhàn)點(diǎn)。

一個(gè)是通用RM需要靈活性(支持單響應(yīng)、多響應(yīng)評(píng)分)和準(zhǔn)確性(跨領(lǐng)域高質(zhì)量獎(jiǎng)勵(lì))。

另一個(gè)則是現(xiàn)有RM(如標(biāo)量RM、半標(biāo)量RM)在推理時(shí)擴(kuò)展性差,無(wú)法通過(guò)增加計(jì)算資源顯著提升性能。

圖片

為了解決這個(gè)問(wèn)題,DeepSeek和清華大學(xué)團(tuán)隊(duì)便提出了SPCT。

圖片

整體來(lái)看,這項(xiàng)研究主要包含三大核心技術(shù)點(diǎn)。

首先就是生成式獎(jiǎng)勵(lì)模型(GRM)。

它采用點(diǎn)式生成獎(jiǎng)勵(lì)模型(Pointwise GRM),通過(guò)生成文本形式的獎(jiǎng)勵(lì)(如critiques)而非單一標(biāo)量值,支持靈活輸入(單響應(yīng)、多響應(yīng))和推理時(shí)擴(kuò)展。

圖片

其中,C是生成的critique,fextract從中提取分?jǐn)?shù)。

接下來(lái),是關(guān)鍵的SPCT了。

主要是通過(guò)在線強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練GRM,使其能動(dòng)態(tài)生成高質(zhì)量的原則(principles)和批判(critiques),從而提升獎(jiǎng)勵(lì)質(zhì)量。

整體來(lái)看,SPCT是一個(gè)兩階段的過(guò)程,它們分別是:

  • 拒絕式微調(diào)(Rejective Fine-Tuning):冷啟動(dòng)階段,通過(guò)采樣和拒絕策略生成初始數(shù)據(jù)。
  • 基于規(guī)則的在線RL:使用規(guī)則化獎(jiǎng)勵(lì)函數(shù)優(yōu)化原則和批判的生成,鼓勵(lì)模型區(qū)分最佳響應(yīng)。

在此基礎(chǔ)上,便是第三個(gè)技術(shù)點(diǎn),即推理時(shí)擴(kuò)展技術(shù)。

先是通過(guò)多次采樣生成多樣化的原則和批判,投票聚合最終獎(jiǎng)勵(lì),擴(kuò)展獎(jiǎng)勵(lì)空間。

再訓(xùn)練一個(gè)輔助模型過(guò)濾低質(zhì)量采樣,進(jìn)一步提升擴(kuò)展效果。

基于上述的方法,團(tuán)隊(duì)也對(duì)結(jié)果做了一波測(cè)試。

在Reward Bench、PPE、RMB等基準(zhǔn)上,DeepSeek-GRM-27B顯著優(yōu)于基線方法(如LLM-as-a-Judge、標(biāo)量RM),且通過(guò)推理時(shí)擴(kuò)展(32次采樣)性能進(jìn)一步提升(如Reward Bench準(zhǔn)確率從86.0%提升至90.4%)。

圖片

總而言之,這篇研究證明了推理時(shí)擴(kuò)展在通用RM中的有效性,性能超越訓(xùn)練時(shí)擴(kuò)展。

One More Thing

奧特曼發(fā)布“變卦”消息之外,還不忘給自己帶一波貨,稱(chēng)有兩本他親自參與的書(shū)即將發(fā)布:

  • 一本是Keach Hagey寫(xiě)的關(guān)于奧特曼本人的書(shū)
  • 一本是Ashlee Vance寫(xiě)的關(guān)于OpenAI的書(shū)

圖片

論文地址:
https://arxiv.org/abs/2504.02495

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2024-01-22 13:57:00

模型訓(xùn)練

2025-04-07 07:18:48

2024-03-21 06:56:03

2025-02-13 08:38:42

2025-02-13 08:56:12

2023-12-19 19:50:49

GPT-5OpenIA風(fēng)險(xiǎn)

2025-02-10 01:00:00

OpenAIGPT-5GPT-4.5

2024-08-08 14:00:00

2025-02-13 10:52:56

2023-11-14 13:44:23

OpenAIGPT-5

2024-04-28 00:00:00

GPT-5GPT-6GPT-4

2024-05-29 13:11:00

2010-08-09 16:19:59

CCNA思科認(rèn)證

2025-02-13 09:10:47

2023-09-07 13:33:00

開(kāi)發(fā)者大會(huì)

2024-04-26 00:00:00

OpenAIGPT-5超算

2024-03-19 08:18:46

GPT-5算力Altman

2024-01-18 12:30:03

2023-11-09 12:41:04

AI模型

2023-03-17 07:33:24

GPT-5GPT-4OpenAI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)