自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

GRPO教會(huì)DeepSeek R1高智商推理,但GRPO可能不完美且有偏見(jiàn) | Dr. GRPO簡(jiǎn)化之,消除偏見(jiàn)帶來(lái)改進(jìn)

發(fā)布于 2025-4-7 00:08
瀏覽
0收藏

DeepSeek R1在數(shù)學(xué)推理、問(wèn)題解決等復(fù)雜任務(wù)上的表現(xiàn)令全世界矚目。它在AIME 2024等高難度數(shù)學(xué)測(cè)試中取得了79.8分好成績(jī)(OpenAI o1-1217得分79.2)。而這一切的背后,有一個(gè)關(guān)鍵技術(shù)功不可沒(méi)——Group Relative Policy Optimization(GRPO),一種基于強(qiáng)化學(xué)習(xí)的優(yōu)化算法。

盡管GRPO教會(huì)R1高智商推理,但有研究人員發(fā)現(xiàn),它存在一些缺陷,比如它會(huì)導(dǎo)致模型生成冗長(zhǎng)的錯(cuò)誤回答,或者更傾向于解決簡(jiǎn)單問(wèn)題而忽略難題。大家在用DeepSeek R1的時(shí)候,估計(jì)也遇到過(guò)這樣的場(chǎng)景:當(dāng)它思考過(guò)程是錯(cuò)誤的時(shí)候,會(huì)在那兒叨叨沒(méi)完沒(méi)了,陷入一個(gè)怪圈中出不來(lái)。

為了解決這些問(wèn)題,來(lái)自新加坡的研究團(tuán)隊(duì)提出了一個(gè)改進(jìn)版本——Dr. GRPO(Group Relative Policy Optimization Done Right)。Dr. GRPO嘗試消除GRPO的偏見(jiàn),提升模型的推理準(zhǔn)確性和效率。

GRPO:R1高智商推理的“幕后老師”

在探討GRPO的缺陷或偏見(jiàn)之前,我們先來(lái)回憶一下它是什么,以及它如何幫助R1在數(shù)學(xué)推理任務(wù)中大放異彩。

GRPO的核心思想

GRPO是一種強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)算法,專(zhuān)門(mén)用于優(yōu)化大型語(yǔ)言模型的推理能力。在R1的訓(xùn)練中,GRPO會(huì)讓模型針對(duì)一個(gè)數(shù)學(xué)問(wèn)題生成多個(gè)回答(稱(chēng)為“響應(yīng)組”),比如10個(gè)不同的解答。然后,它會(huì)根據(jù)這些回答的正確性打分:正確答案得1分,錯(cuò)誤答案得0分。通過(guò)比較這些回答的得分,GRPO計(jì)算出每個(gè)回答的“優(yōu)勢(shì)”(advantage),也就是這個(gè)回答比其他回答好多少或差多少。最后,它用這個(gè)優(yōu)勢(shì)值調(diào)整模型的參數(shù),讓模型更傾向于生成正確的回答。

這種方法讓R1在數(shù)學(xué)推理任務(wù)上取得了顯著進(jìn)步。更重要的是,R1還展現(xiàn)了一些“類(lèi)人”的推理行為,比如自我反思(self-reflection)和“頓悟時(shí)刻”(Aha moment)。例如,它會(huì)在回答問(wèn)題時(shí)嘗試不同的解法,并在過(guò)程中檢查自己的思路,這種能力讓它在高難度測(cè)試中表現(xiàn)尤為出色。

GRPO的技術(shù)細(xì)節(jié)

為了更直觀地理解GRPO,我們來(lái)看看它的核心公式:

GRPO教會(huì)DeepSeek R1高智商推理,但GRPO可能不完美且有偏見(jiàn) | Dr. GRPO簡(jiǎn)化之,消除偏見(jiàn)帶來(lái)改進(jìn)-AI.x社區(qū)

其中優(yōu)勢(shì)函數(shù)計(jì)算方法如下

GRPO教會(huì)DeepSeek R1高智商推理,但GRPO可能不完美且有偏見(jiàn) | Dr. GRPO簡(jiǎn)化之,消除偏見(jiàn)帶來(lái)改進(jìn)-AI.x社區(qū)


GRPO教會(huì)DeepSeek R1高智商推理,但GRPO可能不完美且有偏見(jiàn) | Dr. GRPO簡(jiǎn)化之,消除偏見(jiàn)帶來(lái)改進(jìn)-AI.x社區(qū)

這個(gè)公式看起來(lái)復(fù)雜,但它的核心思想很簡(jiǎn)單:通過(guò)獎(jiǎng)勵(lì)對(duì)比,找到更好的回答策略,并調(diào)整模型讓它更傾向于生成高獎(jiǎng)勵(lì)的輸出。


GRPO的缺陷:為何它不完美?

盡管GRPO幫助R1取得了優(yōu)異成績(jī),但它并非沒(méi)有問(wèn)題。研究人員發(fā)現(xiàn),GRPO存在兩個(gè)主要缺陷:響應(yīng)長(zhǎng)度偏見(jiàn)問(wèn)題難度偏見(jiàn)。這些偏見(jiàn)讓模型在訓(xùn)練過(guò)程中出現(xiàn)了意想不到的行為,比如生成冗長(zhǎng)的錯(cuò)誤回答,或者更傾向于優(yōu)化簡(jiǎn)單問(wèn)題而忽視難題。

GRPO教會(huì)DeepSeek R1高智商推理,但GRPO可能不完美且有偏見(jiàn) | Dr. GRPO簡(jiǎn)化之,消除偏見(jiàn)帶來(lái)改進(jìn)-AI.x社區(qū)

缺陷1:響應(yīng)長(zhǎng)度偏見(jiàn)——“話癆”模型的誕生

問(wèn)題出在哪兒?

GRPO教會(huì)DeepSeek R1高智商推理,但GRPO可能不完美且有偏見(jiàn) | Dr. GRPO簡(jiǎn)化之,消除偏見(jiàn)帶來(lái)改進(jìn)-AI.x社區(qū)

形象理解:一場(chǎng)不公平的作文比賽

想象你是一個(gè)語(yǔ)文老師,正在組織一場(chǎng)作文比賽。你給學(xué)生的評(píng)分規(guī)則是:“如果作文寫(xiě)對(duì)了主題,得1分;如果跑題了,得0分?!钡氵€加了一條奇怪的規(guī)定:“得分會(huì)除以作文的字?jǐn)?shù)。也就是說(shuō),正確作文越短,分?jǐn)?shù)越高;錯(cuò)誤作文越長(zhǎng),扣分越少?!?/p>

這個(gè)規(guī)則會(huì)帶來(lái)什么后果呢?學(xué)生很快就會(huì)發(fā)現(xiàn):

  • 如果他們寫(xiě)了一篇短小精悍的正確作文,比如200字,得分是 (1 / 200 = 0.005) 分/字,獎(jiǎng)勵(lì)很高。
  • 如果他們寫(xiě)了一篇跑題的作文,但用了1000字,得分是 (0 / 1000 = 0) 分/字,幾乎沒(méi)懲罰。

結(jié)果呢?聰明的學(xué)生會(huì)開(kāi)始“鉆空子”:當(dāng)他們不確定主題時(shí),就故意寫(xiě)很長(zhǎng)的跑題作文,因?yàn)檫@樣懲罰少;而當(dāng)他們有把握時(shí),就盡量精簡(jiǎn)字?jǐn)?shù)。這種策略雖然符合規(guī)則,卻完全偏離了你的初衷——你本來(lái)是想讓學(xué)生寫(xiě)出高質(zhì)量的作文,而不是追求長(zhǎng)短。

GRPO的情況也是如此。該“偏見(jiàn)”讓模型變成了一個(gè)“話癆”:當(dāng)它不確定答案時(shí),就傾向于生成冗長(zhǎng)的錯(cuò)誤回答(比如1000個(gè)token),因?yàn)檫@樣每個(gè)token的懲罰被攤薄了;當(dāng)它確定答案時(shí),則盡量簡(jiǎn)潔。這種偏見(jiàn)在R1的訓(xùn)練中表現(xiàn)得很明顯:錯(cuò)誤回答的長(zhǎng)度逐漸增加,甚至超過(guò)1000個(gè)token,而正確回答則相對(duì)較短。

實(shí)際影響

在MATH數(shù)據(jù)集的測(cè)試中,研究人員發(fā)現(xiàn),經(jīng)過(guò)GRPO優(yōu)化的模型,錯(cuò)誤回答的平均長(zhǎng)度顯著高于正確回答。比如,錯(cuò)誤回答可能長(zhǎng)達(dá)800-1000個(gè)token,而正確回答只有400-600個(gè)token。這種“話癆”行為不僅浪費(fèi)計(jì)算資源,還降低了模型的token效率(即生成有效信息所需的token數(shù)量),讓人誤以為模型在“深度思考”,實(shí)際上已經(jīng)陷入錯(cuò)誤怪圈。

缺陷2:?jiǎn)栴}難度偏見(jiàn)——“挑軟柿子捏”的優(yōu)化策略

問(wèn)題出在哪兒?

GRPO的第二個(gè)缺陷來(lái)源于公式中的 std項(xiàng)(上面公式中第二個(gè)標(biāo)紅的地方),也就是獎(jiǎng)勵(lì)的標(biāo)準(zhǔn)差歸一化。這個(gè)項(xiàng)會(huì)根據(jù)一組回答的獎(jiǎng)勵(lì)波動(dòng)調(diào)整梯度更新:

  • 如果一個(gè)問(wèn)題的獎(jiǎng)勵(lì)標(biāo)準(zhǔn)差?。ū热缁卮鹫_率很穩(wěn)定),梯度更新會(huì)被放大。
  • 如果獎(jiǎng)勵(lì)標(biāo)準(zhǔn)差大(比如回答正確率波動(dòng)很大),梯度更新會(huì)被縮小。

這導(dǎo)致模型更傾向于優(yōu)化獎(jiǎng)勵(lì)穩(wěn)定的問(wèn)題(通常是簡(jiǎn)單問(wèn)題),而對(duì)獎(jiǎng)勵(lì)波動(dòng)大的問(wèn)題(通常是難題)優(yōu)化不足。

形象理解:一場(chǎng)不公平的運(yùn)動(dòng)會(huì)

假設(shè)你是一個(gè)體育老師,正在訓(xùn)練學(xué)生參加跑步比賽。你告訴學(xué)生:“我會(huì)在不同難度的跑道上測(cè)試你們,簡(jiǎn)單跑道平坦,復(fù)雜跑道有很多障礙。你們的得分會(huì)根據(jù)每條跑道的成績(jī)波動(dòng)調(diào)整:如果跑道上大家的成績(jī)差不多(標(biāo)準(zhǔn)差?。?,得分會(huì)更高;如果成績(jī)差距很大(標(biāo)準(zhǔn)差大),得分會(huì)更低?!?/p>

這個(gè)規(guī)則會(huì)怎樣影響學(xué)生呢?他們很快就會(huì)發(fā)現(xiàn):

  • 在平坦的簡(jiǎn)單跑道上,大家跑得差不多,標(biāo)準(zhǔn)差小,得分被放大,他們更愿意在這上面努力。
  • 在障礙重重的復(fù)雜跑道上,有人跑得快有人跑得慢,標(biāo)準(zhǔn)差大,得分被縮小,他們就不愿意花心思挑戰(zhàn)。

結(jié)果是,學(xué)生們開(kāi)始“挑軟柿子捏”,專(zhuān)注于簡(jiǎn)單跑道,而對(duì)復(fù)雜跑道敷衍了事。你的初衷是想全面提升他們的跑步能力,但這個(gè)規(guī)則卻讓他們只顧著容易的部分。

GRPO的 std項(xiàng)也是如此。它讓模型更傾向于優(yōu)化簡(jiǎn)單問(wèn)題(獎(jiǎng)勵(lì)標(biāo)準(zhǔn)差?。?,而對(duì)難題(獎(jiǎng)勵(lì)標(biāo)準(zhǔn)差大)不夠重視。這種偏見(jiàn)導(dǎo)致模型在簡(jiǎn)單任務(wù)上進(jìn)步很快,但在高難度任務(wù)上提升有限。

實(shí)際影響

在實(shí)際測(cè)試中,經(jīng)過(guò)GRPO優(yōu)化的模型在簡(jiǎn)單問(wèn)題(如GSM-8K數(shù)據(jù)集)上的準(zhǔn)確率提升明顯,但在高難度問(wèn)題(如AIME 2024)上的進(jìn)步較慢。這表明,GRPO的優(yōu)化策略不夠公平,無(wú)法均衡提升模型在不同難度任務(wù)上的表現(xiàn)。

Dr. GRPO:消除偏見(jiàn)的“增強(qiáng)版”優(yōu)化算法

為了解決GRPO的這兩個(gè)缺陷,研究團(tuán)隊(duì)提出了Dr. GRPO。Dr. GRPO的核心思想是移除偏見(jiàn)項(xiàng),讓優(yōu)化過(guò)程更加公平高效。具體改進(jìn)包括:

改進(jìn)1:移除響應(yīng)長(zhǎng)度偏見(jiàn)

Dr. GRPO去掉了GRPO公式中的 1/|oi| 項(xiàng)。新的目標(biāo)函數(shù)變?yōu)椋?/p>

GRPO教會(huì)DeepSeek R1高智商推理,但GRPO可能不完美且有偏見(jiàn) | Dr. GRPO簡(jiǎn)化之,消除偏見(jiàn)帶來(lái)改進(jìn)-AI.x社區(qū)

效果

移除 1/|oi| 后,回答長(zhǎng)度不再影響梯度更新:

  • 正確回答不會(huì)因?yàn)槎潭@得額外獎(jiǎng)勵(lì)。
  • 錯(cuò)誤回答不會(huì)因?yàn)殚L(zhǎng)而減少懲罰。

回到作文比賽的比喻,Dr. GRPO就像一個(gè)更公平的老師:他不再根據(jù)字?jǐn)?shù)調(diào)整分?jǐn)?shù),而是只看作文的質(zhì)量。這樣,學(xué)生就不會(huì)為了少扣分而寫(xiě)冗長(zhǎng)的跑題作文,而是專(zhuān)注于提高內(nèi)容本身。模型也是如此,它不再傾向于生成“話癆”式的錯(cuò)誤回答,而是更關(guān)注答案的正確性。

改進(jìn)2:移除問(wèn)題難度偏見(jiàn)

Dr. GRPO還去掉了 std 項(xiàng),新的優(yōu)勢(shì)函數(shù)變?yōu)椋?/p>

GRPO教會(huì)DeepSeek R1高智商推理,但GRPO可能不完美且有偏見(jiàn) | Dr. GRPO簡(jiǎn)化之,消除偏見(jiàn)帶來(lái)改進(jìn)-AI.x社區(qū)

效果

移除標(biāo)準(zhǔn)差歸一化后,梯度更新不再受問(wèn)題獎(jiǎng)勵(lì)波動(dòng)的影響。簡(jiǎn)單問(wèn)題和難題對(duì)模型優(yōu)化的貢獻(xiàn)變得平等,模型不會(huì)“挑軟柿子捏”。回到運(yùn)動(dòng)會(huì)的比喻,Dr. GRPO就像一個(gè)一視同仁的老師:無(wú)論跑道難度如何,他都用同樣的標(biāo)準(zhǔn)評(píng)分,學(xué)生們必須在所有跑道上努力,而不是只顧著簡(jiǎn)單的。

Dr. GRPO的整體優(yōu)勢(shì)

通過(guò)這兩項(xiàng)改進(jìn),Dr. GRPO讓優(yōu)化過(guò)程更加公平:

  • 不再“話癆”:錯(cuò)誤回答的長(zhǎng)度不會(huì)無(wú)限制增加,token效率顯著提升。
  • 公平優(yōu)化:模型對(duì)不同難度的問(wèn)題一視同仁,整體推理能力更均衡。

實(shí)驗(yàn)結(jié)果:Dr. GRPO的優(yōu)越性

為了驗(yàn)證Dr. GRPO的效果,研究團(tuán)隊(duì)在多個(gè)數(shù)學(xué)推理基準(zhǔn)測(cè)試中對(duì)比了GRPO和Dr. GRPO的表現(xiàn)。以下是詳細(xì)結(jié)果。

實(shí)驗(yàn)設(shè)置

研究團(tuán)隊(duì)使用Qwen2.5-Math-7B作為基礎(chǔ)模型,分別用GRPO和Dr. GRPO進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練。訓(xùn)練在8個(gè)A100 GPU上進(jìn)行,總耗時(shí)27小時(shí)。測(cè)試基準(zhǔn)包括:

  • AIME 2024:高難度數(shù)學(xué)邀請(qǐng)賽。
  • AMC:中等難度數(shù)學(xué)競(jìng)賽。
  • MATH500:高中數(shù)學(xué)競(jìng)賽題目。
  • Minerva Math:定量推理測(cè)試。
  • OlympiadBench:奧林匹克級(jí)難題。

結(jié)果1:推理準(zhǔn)確性提升

下表展示了不同模型在各基準(zhǔn)上的準(zhǔn)確率:

GRPO教會(huì)DeepSeek R1高智商推理,但GRPO可能不完美且有偏見(jiàn) | Dr. GRPO簡(jiǎn)化之,消除偏見(jiàn)帶來(lái)改進(jìn)-AI.x社區(qū)

  • 分析:使用Dr. GRPO訓(xùn)練的Oat-Zero-7B在所有測(cè)試中平均準(zhǔn)確率最高(51.4%),尤其在AIME 2024上達(dá)到43.3%,比SimpleRL-Zero-7B高16.6個(gè)百分點(diǎn),比PRIME-Zero-7B高26.6個(gè)百分點(diǎn)。這表明Dr. GRPO顯著提升了模型的推理能力。

結(jié)果2:token效率提升

Dr. GRPO還顯著縮短了錯(cuò)誤回答的長(zhǎng)度:

  • GRPO:錯(cuò)誤回答長(zhǎng)度隨訓(xùn)練增加,甚至超過(guò)1000個(gè)token。
  • Dr. GRPO:錯(cuò)誤回答長(zhǎng)度穩(wěn)定在400-600個(gè)token,接近正確回答長(zhǎng)度,減少約40%-50%。

在MATH500測(cè)試中,GRPO的錯(cuò)誤回答平均長(zhǎng)度為800-1000個(gè)token,而Dr. GRPO僅為400-600個(gè)token。這說(shuō)明Dr. GRPO消除了“話癆”傾向,讓模型更高效。

結(jié)果3:訓(xùn)練穩(wěn)定性

GRPO訓(xùn)練的模型在獎(jiǎng)勵(lì)提升趨緩后,回答長(zhǎng)度仍持續(xù)增加,這種“過(guò)度思考”現(xiàn)象被Dr. GRPO有效避免。Dr. GRPO的回答長(zhǎng)度與獎(jiǎng)勵(lì)信號(hào)更匹配,訓(xùn)練過(guò)程更穩(wěn)定。

為什么Dr. GRPO更強(qiáng)?

Dr. GRPO的優(yōu)越性來(lái)源于以下幾點(diǎn):

  1. 消除“話癆”傾向:移除 1/|oi| 項(xiàng),避免了模型生成冗長(zhǎng)錯(cuò)誤回答。
  2. 公平優(yōu)化:移除 std 項(xiàng),讓模型均衡提升簡(jiǎn)單和復(fù)雜問(wèn)題的能力。
  3. 高效訓(xùn)練:優(yōu)化目標(biāo)更直接,模型更快收斂到最優(yōu)策略。

這些改進(jìn)讓Dr. GRPO不僅提升了準(zhǔn)確率,還提高了token效率和訓(xùn)練穩(wěn)定性。

總結(jié):Dr. GRPO是GRPO的“增強(qiáng)版”

GRPO雖然為R1的高智商推理能力奠定了基礎(chǔ),但其響應(yīng)長(zhǎng)度偏見(jiàn)和問(wèn)題難度偏見(jiàn)導(dǎo)致了冗長(zhǎng)低效的回答和不公平的優(yōu)化。Dr. GRPO通過(guò)消除這些偏見(jiàn),讓模型更專(zhuān)注于提升推理質(zhì)量,而不是追求無(wú)關(guān)的長(zhǎng)度或簡(jiǎn)單性??梢哉f(shuō),Dr. GRPO是GRPO的“改進(jìn)版”,為強(qiáng)化學(xué)習(xí)優(yōu)化提供了更高效、更公平的方向。如果你對(duì)實(shí)現(xiàn)細(xì)節(jié)感興趣,可以訪問(wèn)研究團(tuán)隊(duì)的GitHub頁(yè)面(https://github.com/sail-sg/understand-r1-zero)。

?本文轉(zhuǎn)載自??后向傳播??,作者: 張發(fā)恩

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
社區(qū)精華內(nèi)容

目錄