自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

通俗講解DeepSeek中的GRPO:強化學(xué)習(xí)里的神奇算法

人工智能
GRPO 在強化學(xué)習(xí)領(lǐng)域是一個非常重要的算法,它用獨特的方式讓模型更好地學(xué)習(xí)和優(yōu)化。無論是在機器人的各種任務(wù)里,還是在大語言模型的訓(xùn)練中,GRPO 都發(fā)揮著重要的作用。?

在人工智能快速發(fā)展的時代,強化學(xué)習(xí)是其中的關(guān)鍵技術(shù),它讓機器能夠像人一樣,在不斷嘗試中學(xué)習(xí)怎么做是最好的。今天要講的 GRPO(Group Relative Policy Optimization),也就是群體相對策略優(yōu)化算法,是強化學(xué)習(xí)里非常厲害的存在。接下來,就帶大家走進(jìn)deepseek(Paper Review: DeepSeek-R1——強化學(xué)習(xí)驅(qū)動的大語言模型推理能力提升)  GRPO 的奇妙世界,看看它到底是怎么回事。

一、認(rèn)識強化學(xué)習(xí)的 “小宇宙”

在理解 GRPO 之前,我們先在強化學(xué)習(xí)這個 “小宇宙” 里逛一逛。想象一下,有個智能體,它就像一個生活在特定環(huán)境里的 “小探險家”。這個環(huán)境有各種各樣的情況,也就是 “狀態(tài)”。智能體要在這些狀態(tài)下做出選擇,這些選擇就是 “動作”。當(dāng)智能體做出一個動作后,環(huán)境會根據(jù)這個動作的效果,給智能體一個反饋,這個反饋就是 “獎勵”。如果動作效果好,獎勵就高;要是效果不好,獎勵就低,甚至可能是懲罰。強化學(xué)習(xí)的目標(biāo),就是讓智能體學(xué)會一套最好的行為策略,讓它在長期和環(huán)境的互動中,得到的獎勵加起來最多。

比如說,讓一個機器人在迷宮里找出口。迷宮的每一個位置就是一個狀態(tài),機器人可以選擇向前走、向左轉(zhuǎn)、向右轉(zhuǎn)等動作。如果機器人找到了出口,就會得到一個大大的獎勵;要是撞到了墻上,可能就會得到一個小小的懲罰。機器人通過不斷嘗試不同的走法,慢慢學(xué)會怎么最快走出迷宮,這就是強化學(xué)習(xí)的過程。

在強化學(xué)習(xí)(深度解析 DeepSeek R1:強化學(xué)習(xí)與知識蒸餾的協(xié)同力量)里,“策略” 就像是智能體的行動指南。策略分為兩種,一種是確定性策略,就好比一個固定的規(guī)則,只要遇到某種狀態(tài),智能體就會固定選擇某個動作。比如,只要機器人在迷宮的某個特定路口,它就總是選擇向左轉(zhuǎn)。另一種是隨機策略,它給每個可能的動作都分配了一個概率,智能體根據(jù)這些概率來選擇動作。這就好像機器人在路口時,按照一定概率選擇向前、向左或者向右轉(zhuǎn),這樣它就有機會去探索不同的路徑。

還有 “價值函數(shù)”,它是用來評估狀態(tài)或者動作好不好的。狀態(tài)價值函數(shù)評估的是處于某個狀態(tài)的好壞程度。比如說,在迷宮里,有些位置離出口比較近,那么處于這些位置的狀態(tài)價值就比較高;有些位置周圍都是墻,不好走出去,狀態(tài)價值就低。動作價值函數(shù)評估的是在某個狀態(tài)下做某個動作的好壞。比如在迷宮的某個位置,向前走可能更容易接近出口,那么這個動作的價值就高;要是向前走是死胡同,這個動作價值就低。價值函數(shù)和策略關(guān)系可大了,它能幫助智能體知道哪些狀態(tài)和動作能帶來更多獎勵,從而讓策略變得更好。

另外,Actor - Critic 模型也是強化學(xué)習(xí)里的重要角色。Actor 就像是一個行動者,它負(fù)責(zé)學(xué)習(xí)和更新策略,根據(jù)當(dāng)前的狀態(tài)選擇動作。Critic 則像是一個評論家,它評估狀態(tài)的價值,給 Actor 提供反饋,告訴 Actor 哪些動作選得好,哪些還需要改進(jìn)。它們倆相互配合,讓智能體更有效地學(xué)習(xí)到最優(yōu)策略。

二、GRPO 登場:像聰明的 “小教練”

現(xiàn)在,主角 GRPO 閃亮登場啦!GRPO(Deepseek成功啟示:從 TRPO 到 GRPO訓(xùn)練LLM) 是一種強化學(xué)習(xí)算法,它的作用就是幫助模型更好地學(xué)習(xí),就像一個聰明的 “小教練”。它的核心做法是比較不同的動作,然后根據(jù)一組觀察結(jié)果,對模型進(jìn)行小而可控的更新。

打個比方,假設(shè)有個機器人在玩一個 “尋寶” 游戲。在游戲里,機器人每次遇到路口,都要選擇一條路走。一開始,機器人完全不知道哪條路能找到寶藏,只能隨便選。這時候,GRPO 就開始發(fā)揮作用了。

GRPO 會讓機器人嘗試不同的路徑,這就好比讓機器人多去探索不同的可能性。機器人會從當(dāng)前的行動策略出發(fā),去試試不同的路。然后,它會比較這些路徑的效果,看看哪條路走得更順,更有可能找到寶藏。最后,根據(jù)比較的結(jié)果,機器人會對自己的策略做一些小的調(diào)整,讓下次選擇更有可能找到寶藏的路。

比如說,機器人在某個路口遇到了三條路,分別是 A 路、B 路和 C 路。它先每條路都走幾次,記錄下每次的結(jié)果。走了幾次后發(fā)現(xiàn),A 路走了 3 次,有 2 次找到了一些小寶藏;B 路走了 3 次,只找到 1 次小寶藏;C 路走了 3 次,每次都找到了寶藏。這時候,機器人就知道 C 路的效果最好。但是,它也不會一下子就只選 C 路,還是會偶爾走走 A 路和 B 路,因為說不定以后這兩條路會有新的發(fā)現(xiàn)呢。而且,機器人在調(diào)整策略的時候,不會一下子變得太極端,不會從原來隨便選路,變成以后只選 C 路,而是慢慢地增加選 C 路的可能性,比如從原來選 C 路的概率是 30%,提高到 50%。這樣,機器人既能利用已經(jīng)發(fā)現(xiàn)的好路徑,又能繼續(xù)探索其他路徑,不會錯過任何可能的機會。

三、GRPO 的神奇 “魔法” 步驟

  1. 群體采樣在 GRPO 里,當(dāng)機器人處于某個狀態(tài),也就是在游戲里的某個位置時,它會根據(jù)當(dāng)前的策略,像撒網(wǎng)一樣,“撈出” 一組動作。比如說,在剛才的路口,它可能會根據(jù)策略,從所有可能的走法里選出幾個不同的走法,這就是群體采樣。這一步就像是給機器人提供了一些不同的嘗試方向,讓它有機會去探索多種可能性。
  2. 獎勵評分機器人嘗試了不同的路徑后,就要給這些路徑打分了。這時候,會有一個獎勵函數(shù)來幫忙。獎勵函數(shù)就像是一個裁判,根據(jù)機器人選擇的路徑得到的結(jié)果,給每個路徑一個分?jǐn)?shù)。如果機器人沿著某條路找到了很多寶藏,這個路徑的分?jǐn)?shù)就高;要是走了半天什么都沒找到,分?jǐn)?shù)就低。這個分?jǐn)?shù)就是對動作(也就是路徑選擇)的質(zhì)量評估。
  3. 優(yōu)勢計算算出每個路徑的分?jǐn)?shù)后,機器人還要看看每個路徑比平均水平是好還是壞,這就是優(yōu)勢計算。比如說,機器人嘗試的這幾條路徑,平均能找到的寶藏數(shù)量是 2 個,而 A 路徑找到了 3 個寶藏,那么 A 路徑的優(yōu)勢就是正的,說明它比平均水平好;要是 B 路徑只找到 1 個寶藏,那它的優(yōu)勢就是負(fù)的,比平均水平差。通過優(yōu)勢計算,機器人就能清楚地知道每個動作的相對好壞。
  4. 策略更新知道了每個動作的優(yōu)勢后,機器人就可以調(diào)整自己的策略了。對于優(yōu)勢是正的動作,機器人會在以后增加選擇它的可能性;對于優(yōu)勢是負(fù)的動作,就減少選擇它的可能性。但是,機器人不會一下子變得太夸張,不會因為某個動作優(yōu)勢是正的,就以后每次都選它,還是會保持一定的探索性,這就是策略更新。
  5. 穩(wěn)定保障:KL 散度約束為了讓機器人在調(diào)整策略的時候不會變得太離譜,GRPO 還設(shè)置了一個 “安全繩”,這就是 KL 散度約束。它的作用是保證新的策略和原來的策略不會差別太大。就像機器人在調(diào)整選路策略的時候,不會突然從原來的隨便選路,變成一個完全不一樣的、特別奇怪的選路方式,這樣就能保證機器人的學(xué)習(xí)過程是穩(wěn)定的,不會因為突然的大變化而導(dǎo)致學(xué)習(xí)效果變差。
  6. 終極目標(biāo):提升獎勵GRPO 的最終目標(biāo)就是讓機器人在這個 “尋寶” 游戲里,得到的寶藏總數(shù)越來越多。它通過不斷地重復(fù)上面這些步驟,讓機器人的策略越來越好,選擇的路徑越來越有可能找到寶藏,同時保證策略的穩(wěn)定性,不會因為追求高獎勵而讓策略變得不穩(wěn)定。

四、GRPO 的厲害之處

  1. 減少波動,穩(wěn)定學(xué)習(xí)GRPO 通過比較一組動作,而不是只看單個動作的結(jié)果來更新策略,這樣就能大大減少策略更新時的波動。就像在 “尋寶” 游戲里,如果只看一次走某條路的結(jié)果來決定以后怎么走,可能這次運氣好找到了寶藏,就一直走這條路,但下次可能就找不到了。而 GRPO 看一組動作的結(jié)果,就像綜合了很多次嘗試的經(jīng)驗,這樣得到的結(jié)果更穩(wěn)定,學(xué)習(xí)過程也更平穩(wěn)。
  2. 控制變化,防止失控KL 散度約束這個 “安全繩”,讓策略的變化在一個合理的范圍內(nèi)。在學(xué)習(xí)過程中,如果策略變化太大,可能會導(dǎo)致機器人突然變得不會玩游戲了。有了這個約束,機器人每次調(diào)整策略都是小步前進(jìn),不會出現(xiàn)大的失誤,保證了學(xué)習(xí)的穩(wěn)定性和可靠性。
  3. 提高效率,節(jié)省資源GRPO 不需要把所有可能的動作都試一遍才能知道哪個好,它通過群體采樣和比較,就能快速找到相對比較好的動作,然后更新策略。這就好比在 “尋寶” 游戲里,機器人不用把迷宮里所有的路都走一遍才能找到寶藏,只需要試一部分路,就能知道哪些路更值得走,這樣就能節(jié)省很多時間和精力,提高了學(xué)習(xí)的效率。

五、GRPO 在大語言模型中的奇妙應(yīng)用

現(xiàn)在,很多大語言模型,像大家熟悉的聊天機器人,也開始用 GRPO 來提升自己的能力。當(dāng)我們給聊天機器人一個問題,也就是 “提示” 時,它會像 GRPO 里的機器人選擇路徑一樣,生成好幾個不同的回答。這就是群體采樣的過程,聊天機器人通過不同的方式來嘗試回答問題。

然后,會有一個獎勵模型來評估這些回答的質(zhì)量。獎勵模型就像是一個嚴(yán)格的老師,從回答的準(zhǔn)確性、邏輯性、語言流暢性等多個方面給每個回答打分。如果回答得又準(zhǔn)確又有條理,語言還很通順,分?jǐn)?shù)就高;要是回答得驢唇不對馬嘴,分?jǐn)?shù)就低。

接著,計算每個回答的優(yōu)勢,看看哪些回答比平均水平好,哪些比平均水平差。根據(jù)這個結(jié)果,聊天機器人就會調(diào)整自己的 “回答策略”,以后更傾向于生成那些得分高的回答。同時,為了保證回答的穩(wěn)定性,不會讓回答突然變得很奇怪,也會用 KL 散度約束來控制策略的變化。

通過這樣不斷地重復(fù)這個過程,也就是迭代訓(xùn)練,聊天機器人就能越來越厲害,生成的回答也會越來越符合我們的期望,變得更準(zhǔn)確、更有用、更有趣。

六、GRPO算法的通俗類比

為了更好地理解GRPO算法的工作原理,我們可以將其類比為一個學(xué)生學(xué)習(xí)解題過程的場景。

假設(shè)你是一個學(xué)生,正在學(xué)習(xí)如何解決數(shù)學(xué)問題。你的老師(GRPO算法)不會直接告訴你每個答案是對還是錯,而是給你一組類似的題目,并讓你嘗試不同的解法。如果你某個解法比其他解法更好(即獲得了更高的獎勵),老師會鼓勵你多用這種解法;如果你某個解法比其他解法差(即獲得了較低的獎勵),老師會建議你少用這種解法。通過這種方式,你逐漸學(xué)會了如何更好地解決數(shù)學(xué)問題,而不需要老師每次都詳細(xì)解釋每個步驟的對錯。

同樣地,在GRPO算法中,模型(即智能體)通過嘗試不同的輸出(即解法)來學(xué)習(xí)如何更好地完成任務(wù)。算法根據(jù)每個輸出的獎勵(即解題質(zhì)量)來調(diào)整策略(即解題方法),使得表現(xiàn)更好的輸出更有可能被生成。這一過程通過組內(nèi)相對獎勵機制實現(xiàn),既高效又穩(wěn)定。

GRPO 在強化學(xué)習(xí)領(lǐng)域是一個非常重要的算法,它用獨特的方式讓模型更好地學(xué)習(xí)和優(yōu)化。無論是在機器人的各種任務(wù)里,還是在大語言模型的訓(xùn)練中,GRPO 都發(fā)揮著重要的作用。

責(zé)任編輯:武曉燕 來源: 大模型之路
相關(guān)推薦

2025-03-11 13:07:58

2025-02-17 10:40:20

2023-03-23 16:30:53

PyTorchDDPG算法

2022-11-02 14:02:02

強化學(xué)習(xí)訓(xùn)練

2025-03-03 01:00:00

DeepSeekGRPO算法

2025-02-20 17:19:08

2025-02-21 12:24:14

2022-05-31 10:45:01

深度學(xué)習(xí)防御

2024-01-26 08:31:49

2023-12-03 22:08:41

深度學(xué)習(xí)人工智能

2025-04-03 15:40:41

機器學(xué)習(xí)大模型DeepSeek

2025-03-13 11:07:30

2020-12-02 13:24:07

強化學(xué)習(xí)算法

2023-06-25 11:30:47

可視化

2025-03-19 09:15:00

AI算法模型

2023-01-24 17:03:13

強化學(xué)習(xí)算法機器人人工智能

2020-11-12 19:31:41

強化學(xué)習(xí)人工智能機器學(xué)習(xí)

2021-09-17 15:54:41

深度學(xué)習(xí)機器學(xué)習(xí)人工智能

2024-10-12 17:14:12

2020-06-05 08:09:01

Python強化學(xué)習(xí)框架
點贊
收藏

51CTO技術(shù)棧公眾號