自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<legend id="f8r1d"><track id="f8r1d"></track></legend>

<sub id="f8r1d"></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

通俗講解DeepSeek中的GRPO：強化學(xué)習(xí)里的神奇算法

作者：大模型之路 2025-03-11 01:00:00

GRPO 在強化學(xué)習(xí)領(lǐng)域是一個非常重要的算法，它用獨特的方式讓模型更好地學(xué)習(xí)和優(yōu)化。無論是在機器人的各種任務(wù)里，還是在大語言模型的訓(xùn)練中，GRPO 都發(fā)揮著重要的作用。?

在人工智能快速發(fā)展的時代，強化學(xué)習(xí)是其中的關(guān)鍵技術(shù)，它讓機器能夠像人一樣，在不斷嘗試中學(xué)習(xí)怎么做是最好的。今天要講的 GRPO（Group Relative Policy Optimization），也就是群體相對策略優(yōu)化算法，是強化學(xué)習(xí)里非常厲害的存在。接下來，就帶大家走進(jìn)deepseek（Paper Review: DeepSeek-R1——強化學(xué)習(xí)驅(qū)動的大語言模型推理能力提升） GRPO 的奇妙世界，看看它到底是怎么回事。

一、認(rèn)識強化學(xué)習(xí)的 “小宇宙”

在理解 GRPO 之前，我們先在強化學(xué)習(xí)這個 “小宇宙” 里逛一逛。想象一下，有個智能體，它就像一個生活在特定環(huán)境里的 “小探險家”。這個環(huán)境有各種各樣的情況，也就是 “狀態(tài)”。智能體要在這些狀態(tài)下做出選擇，這些選擇就是 “動作”。當(dāng)智能體做出一個動作后，環(huán)境會根據(jù)這個動作的效果，給智能體一個反饋，這個反饋就是 “獎勵”。如果動作效果好，獎勵就高；要是效果不好，獎勵就低，甚至可能是懲罰。強化學(xué)習(xí)的目標(biāo)，就是讓智能體學(xué)會一套最好的行為策略，讓它在長期和環(huán)境的互動中，得到的獎勵加起來最多。

比如說，讓一個機器人在迷宮里找出口。迷宮的每一個位置就是一個狀態(tài)，機器人可以選擇向前走、向左轉(zhuǎn)、向右轉(zhuǎn)等動作。如果機器人找到了出口，就會得到一個大大的獎勵；要是撞到了墻上，可能就會得到一個小小的懲罰。機器人通過不斷嘗試不同的走法，慢慢學(xué)會怎么最快走出迷宮，這就是強化學(xué)習(xí)的過程。

在強化學(xué)習(xí)（深度解析 DeepSeek R1：強化學(xué)習(xí)與知識蒸餾的協(xié)同力量）里，“策略” 就像是智能體的行動指南。策略分為兩種，一種是確定性策略，就好比一個固定的規(guī)則，只要遇到某種狀態(tài)，智能體就會固定選擇某個動作。比如，只要機器人在迷宮的某個特定路口，它就總是選擇向左轉(zhuǎn)。另一種是隨機策略，它給每個可能的動作都分配了一個概率，智能體根據(jù)這些概率來選擇動作。這就好像機器人在路口時，按照一定概率選擇向前、向左或者向右轉(zhuǎn)，這樣它就有機會去探索不同的路徑。

還有 “價值函數(shù)”，它是用來評估狀態(tài)或者動作好不好的。狀態(tài)價值函數(shù)評估的是處于某個狀態(tài)的好壞程度。比如說，在迷宮里，有些位置離出口比較近，那么處于這些位置的狀態(tài)價值就比較高；有些位置周圍都是墻，不好走出去，狀態(tài)價值就低。動作價值函數(shù)評估的是在某個狀態(tài)下做某個動作的好壞。比如在迷宮的某個位置，向前走可能更容易接近出口，那么這個動作的價值就高；要是向前走是死胡同，這個動作價值就低。價值函數(shù)和策略關(guān)系可大了，它能幫助智能體知道哪些狀態(tài)和動作能帶來更多獎勵，從而讓策略變得更好。

另外，Actor - Critic 模型也是強化學(xué)習(xí)里的重要角色。Actor 就像是一個行動者，它負(fù)責(zé)學(xué)習(xí)和更新策略，根據(jù)當(dāng)前的狀態(tài)選擇動作。Critic 則像是一個評論家，它評估狀態(tài)的價值，給 Actor 提供反饋，告訴 Actor 哪些動作選得好，哪些還需要改進(jìn)。它們倆相互配合，讓智能體更有效地學(xué)習(xí)到最優(yōu)策略。

二、GRPO 登場：像聰明的 “小教練”

現(xiàn)在，主角 GRPO 閃亮登場啦！GRPO（Deepseek成功啟示：從 TRPO 到 GRPO訓(xùn)練LLM）是一種強化學(xué)習(xí)算法，它的作用就是幫助模型更好地學(xué)習(xí)，就像一個聰明的 “小教練”。它的核心做法是比較不同的動作，然后根據(jù)一組觀察結(jié)果，對模型進(jìn)行小而可控的更新。

打個比方，假設(shè)有個機器人在玩一個 “尋寶” 游戲。在游戲里，機器人每次遇到路口，都要選擇一條路走。一開始，機器人完全不知道哪條路能找到寶藏，只能隨便選。這時候，GRPO 就開始發(fā)揮作用了。

GRPO 會讓機器人嘗試不同的路徑，這就好比讓機器人多去探索不同的可能性。機器人會從當(dāng)前的行動策略出發(fā)，去試試不同的路。然后，它會比較這些路徑的效果，看看哪條路走得更順，更有可能找到寶藏。最后，根據(jù)比較的結(jié)果，機器人會對自己的策略做一些小的調(diào)整，讓下次選擇更有可能找到寶藏的路。

比如說，機器人在某個路口遇到了三條路，分別是 A 路、B 路和 C 路。它先每條路都走幾次，記錄下每次的結(jié)果。走了幾次后發(fā)現(xiàn)，A 路走了 3 次，有 2 次找到了一些小寶藏；B 路走了 3 次，只找到 1 次小寶藏；C 路走了 3 次，每次都找到了寶藏。這時候，機器人就知道 C 路的效果最好。但是，它也不會一下子就只選 C 路，還是會偶爾走走 A 路和 B 路，因為說不定以后這兩條路會有新的發(fā)現(xiàn)呢。而且，機器人在調(diào)整策略的時候，不會一下子變得太極端，不會從原來隨便選路，變成以后只選 C 路，而是慢慢地增加選 C 路的可能性，比如從原來選 C 路的概率是 30%，提高到 50%。這樣，機器人既能利用已經(jīng)發(fā)現(xiàn)的好路徑，又能繼續(xù)探索其他路徑，不會錯過任何可能的機會。

三、GRPO 的神奇 “魔法” 步驟

群體采樣在 GRPO 里，當(dāng)機器人處于某個狀態(tài)，也就是在游戲里的某個位置時，它會根據(jù)當(dāng)前的策略，像撒網(wǎng)一樣，“撈出” 一組動作。比如說，在剛才的路口，它可能會根據(jù)策略，從所有可能的走法里選出幾個不同的走法，這就是群體采樣。這一步就像是給機器人提供了一些不同的嘗試方向，讓它有機會去探索多種可能性。
獎勵評分機器人嘗試了不同的路徑后，就要給這些路徑打分了。這時候，會有一個獎勵函數(shù)來幫忙。獎勵函數(shù)就像是一個裁判，根據(jù)機器人選擇的路徑得到的結(jié)果，給每個路徑一個分?jǐn)?shù)。如果機器人沿著某條路找到了很多寶藏，這個路徑的分?jǐn)?shù)就高；要是走了半天什么都沒找到，分?jǐn)?shù)就低。這個分?jǐn)?shù)就是對動作（也就是路徑選擇）的質(zhì)量評估。
優(yōu)勢計算算出每個路徑的分?jǐn)?shù)后，機器人還要看看每個路徑比平均水平是好還是壞，這就是優(yōu)勢計算。比如說，機器人嘗試的這幾條路徑，平均能找到的寶藏數(shù)量是 2 個，而 A 路徑找到了 3 個寶藏，那么 A 路徑的優(yōu)勢就是正的，說明它比平均水平好；要是 B 路徑只找到 1 個寶藏，那它的優(yōu)勢就是負(fù)的，比平均水平差。通過優(yōu)勢計算，機器人就能清楚地知道每個動作的相對好壞。
策略更新知道了每個動作的優(yōu)勢后，機器人就可以調(diào)整自己的策略了。對于優(yōu)勢是正的動作，機器人會在以后增加選擇它的可能性；對于優(yōu)勢是負(fù)的動作，就減少選擇它的可能性。但是，機器人不會一下子變得太夸張，不會因為某個動作優(yōu)勢是正的，就以后每次都選它，還是會保持一定的探索性，這就是策略更新。
穩(wěn)定保障：KL 散度約束為了讓機器人在調(diào)整策略的時候不會變得太離譜，GRPO 還設(shè)置了一個 “安全繩”，這就是 KL 散度約束。它的作用是保證新的策略和原來的策略不會差別太大。就像機器人在調(diào)整選路策略的時候，不會突然從原來的隨便選路，變成一個完全不一樣的、特別奇怪的選路方式，這樣就能保證機器人的學(xué)習(xí)過程是穩(wěn)定的，不會因為突然的大變化而導(dǎo)致學(xué)習(xí)效果變差。
終極目標(biāo)：提升獎勵GRPO 的最終目標(biāo)就是讓機器人在這個 “尋寶” 游戲里，得到的寶藏總數(shù)越來越多。它通過不斷地重復(fù)上面這些步驟，讓機器人的策略越來越好，選擇的路徑越來越有可能找到寶藏，同時保證策略的穩(wěn)定性，不會因為追求高獎勵而讓策略變得不穩(wěn)定。

四、GRPO 的厲害之處

減少波動，穩(wěn)定學(xué)習(xí)GRPO 通過比較一組動作，而不是只看單個動作的結(jié)果來更新策略，這樣就能大大減少策略更新時的波動。就像在 “尋寶” 游戲里，如果只看一次走某條路的結(jié)果來決定以后怎么走，可能這次運氣好找到了寶藏，就一直走這條路，但下次可能就找不到了。而 GRPO 看一組動作的結(jié)果，就像綜合了很多次嘗試的經(jīng)驗，這樣得到的結(jié)果更穩(wěn)定，學(xué)習(xí)過程也更平穩(wěn)。
控制變化，防止失控KL 散度約束這個 “安全繩”，讓策略的變化在一個合理的范圍內(nèi)。在學(xué)習(xí)過程中，如果策略變化太大，可能會導(dǎo)致機器人突然變得不會玩游戲了。有了這個約束，機器人每次調(diào)整策略都是小步前進(jìn)，不會出現(xiàn)大的失誤，保證了學(xué)習(xí)的穩(wěn)定性和可靠性。
提高效率，節(jié)省資源GRPO 不需要把所有可能的動作都試一遍才能知道哪個好，它通過群體采樣和比較，就能快速找到相對比較好的動作，然后更新策略。這就好比在 “尋寶” 游戲里，機器人不用把迷宮里所有的路都走一遍才能找到寶藏，只需要試一部分路，就能知道哪些路更值得走，這樣就能節(jié)省很多時間和精力，提高了學(xué)習(xí)的效率。

五、GRPO 在大語言模型中的奇妙應(yīng)用

現(xiàn)在，很多大語言模型，像大家熟悉的聊天機器人，也開始用 GRPO 來提升自己的能力。當(dāng)我們給聊天機器人一個問題，也就是 “提示” 時，它會像 GRPO 里的機器人選擇路徑一樣，生成好幾個不同的回答。這就是群體采樣的過程，聊天機器人通過不同的方式來嘗試回答問題。

然后，會有一個獎勵模型來評估這些回答的質(zhì)量。獎勵模型就像是一個嚴(yán)格的老師，從回答的準(zhǔn)確性、邏輯性、語言流暢性等多個方面給每個回答打分。如果回答得又準(zhǔn)確又有條理，語言還很通順，分?jǐn)?shù)就高；要是回答得驢唇不對馬嘴，分?jǐn)?shù)就低。

接著，計算每個回答的優(yōu)勢，看看哪些回答比平均水平好，哪些比平均水平差。根據(jù)這個結(jié)果，聊天機器人就會調(diào)整自己的 “回答策略”，以后更傾向于生成那些得分高的回答。同時，為了保證回答的穩(wěn)定性，不會讓回答突然變得很奇怪，也會用 KL 散度約束來控制策略的變化。

通過這樣不斷地重復(fù)這個過程，也就是迭代訓(xùn)練，聊天機器人就能越來越厲害，生成的回答也會越來越符合我們的期望，變得更準(zhǔn)確、更有用、更有趣。

六、GRPO算法的通俗類比

為了更好地理解GRPO算法的工作原理，我們可以將其類比為一個學(xué)生學(xué)習(xí)解題過程的場景。

假設(shè)你是一個學(xué)生，正在學(xué)習(xí)如何解決數(shù)學(xué)問題。你的老師（GRPO算法）不會直接告訴你每個答案是對還是錯，而是給你一組類似的題目，并讓你嘗試不同的解法。如果你某個解法比其他解法更好（即獲得了更高的獎勵），老師會鼓勵你多用這種解法；如果你某個解法比其他解法差（即獲得了較低的獎勵），老師會建議你少用這種解法。通過這種方式，你逐漸學(xué)會了如何更好地解決數(shù)學(xué)問題，而不需要老師每次都詳細(xì)解釋每個步驟的對錯。

同樣地，在GRPO算法中，模型（即智能體）通過嘗試不同的輸出（即解法）來學(xué)習(xí)如何更好地完成任務(wù)。算法根據(jù)每個輸出的獎勵（即解題質(zhì)量）來調(diào)整策略（即解題方法），使得表現(xiàn)更好的輸出更有可能被生成。這一過程通過組內(nèi)相對獎勵機制實現(xiàn)，既高效又穩(wěn)定。

GRPO 在強化學(xué)習(xí)領(lǐng)域是一個非常重要的算法，它用獨特的方式讓模型更好地學(xué)習(xí)和優(yōu)化。無論是在機器人的各種任務(wù)里，還是在大語言模型的訓(xùn)練中，GRPO 都發(fā)揮著重要的作用。

責(zé)任編輯：武曉燕來源：大模型之路

GRPO 算法模型

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<cite id="iobwq"></cite><cite id="iobwq"></cite>

<style id="iobwq"></style>