自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

DeepSeek采用的GRPO算法數(shù)學(xué)原理及算法過程淺析

人工智能
PPO:通過獎(jiǎng)勵(lì)和一個(gè)“評判者”模型(critic 模型)評估每個(gè)行為的“好壞”(價(jià)值),然后小步調(diào)整策略,確保改進(jìn)穩(wěn)定。GRPO:通過讓模型自己生成一組結(jié)果(比如回答或行為),比較它們的相對質(zhì)量(優(yōu)勢),然后優(yōu)化策略。它的特點(diǎn)是不需要額外的“評判者”模型(critic 模型),直接用組內(nèi)比較來改進(jìn)。

先來簡單看下PPO和GRPO的區(qū)別:

source@xsource@x

  • PPO:通過獎(jiǎng)勵(lì)和一個(gè)“評判者”模型(critic 模型)評估每個(gè)行為的“好壞”(價(jià)值),然后小步調(diào)整策略,確保改進(jìn)穩(wěn)定。
  • GRPO:通過讓模型自己生成一組結(jié)果(比如回答或行為),比較它們的相對質(zhì)量(優(yōu)勢),然后優(yōu)化策略。它的特點(diǎn)是不需要額外的“評判者”模型(critic 模型),直接用組內(nèi)比較來改進(jìn)。

個(gè)人理解記錄,供參考。

1. GRPO目標(biāo)函數(shù)的數(shù)學(xué)原理

GRPO的目標(biāo)函數(shù)如下:

圖片

這個(gè)函數(shù)看起來復(fù)雜,但我們可以將其拆解為幾個(gè)關(guān)鍵部分,逐一分析其作用和意義。GRPO的目標(biāo)函數(shù)由兩大部分組成:策略梯度更新項(xiàng)和KL散度正則化項(xiàng)。我們分別分析它們的作用。

1.1 策略梯度更新項(xiàng)

策略梯度部分是目標(biāo)函數(shù)的主要成分,形式為:

圖片

1.2 KL散度正則化項(xiàng)

2. GRPO算法的整體工作流程

source@Xsource@X

GRPO是一種基于組獎(jiǎng)勵(lì)的策略優(yōu)化算法,其工作流程可以分為以下幾個(gè)步驟:

整個(gè)流程通過迭代優(yōu)化實(shí)現(xiàn):從輸入問題到生成響應(yīng),再到獎(jiǎng)勵(lì)分配和優(yōu)勢計(jì)算,最后更新策略,形成一個(gè)閉環(huán)。

3. 為什么GRPO算法有效?

  • GRPO通過消除傳統(tǒng)強(qiáng)化學(xué)習(xí)算法(如PPO)中需要的一個(gè)單獨(dú)價(jià)值函數(shù)模型,顯著提高了效率。這個(gè)模型通常需要額外的內(nèi)存和計(jì)算資源,而GRPO的做法降低了這些需求,使其更適合處理大型語言模型。 穩(wěn)健的優(yōu)勢估計(jì)
  • GRPO采用基于群體的優(yōu)勢估計(jì)方法。它為每個(gè)提示生成多個(gè)響應(yīng),并使用群體的平均獎(jiǎng)勵(lì)作為基準(zhǔn)。這種方法無需依賴另一個(gè)模型的預(yù)測,提供了一種更穩(wěn)健的政策評估方式,有助于減少方差并確保學(xué)習(xí)穩(wěn)定性。
  • GRPO直接將Kullback-Leibler(KL)散度納入損失函數(shù)中。這有助于控制策略更新,防止策略與參考策略偏離過多,從而保持訓(xùn)練的穩(wěn)定性。

4. 幾個(gè)GRPO復(fù)現(xiàn)deepseek-R1-zero的流程代碼repo

責(zé)任編輯:武曉燕 來源: 大模型自然語言處理
相關(guān)推薦

2025-01-03 11:46:31

2025-03-19 09:15:00

AI算法模型

2025-03-11 01:00:00

GRPO算法模型

2025-03-03 09:32:00

2023-03-03 08:06:37

2010-06-11 08:52:17

并行計(jì)算

2022-04-22 12:36:11

RNN神經(jīng)網(wǎng)絡(luò))機(jī)器學(xué)習(xí)

2019-04-10 09:23:10

梯度下降機(jī)器學(xué)習(xí)算法

2022-08-28 20:50:29

算法模型機(jī)器學(xué)習(xí)

2017-03-02 10:49:37

推薦算法原理實(shí)現(xiàn)

2025-01-16 07:10:00

2024-06-07 09:26:30

模型數(shù)學(xué)

2009-07-06 09:23:51

Servlet定義

2017-05-11 11:59:12

MySQL數(shù)據(jù)結(jié)構(gòu)算法原理

2018-07-27 08:39:44

負(fù)載均衡算法實(shí)現(xiàn)

2009-08-11 13:54:54

約瑟夫環(huán)算法C#算法

2025-03-13 11:07:30

2011-07-11 16:05:42

MySQL索引

2019-07-24 10:32:12

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2023-08-08 14:56:27

ParcelRustDemo
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號