自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="nakqc"><kbd id="nakqc"></kbd></style>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

從RLHF到DPO再到TDPO，大模型對齊算法已經是「token-level」

作者：機器之心 2024-06-24 08:25:00

人工智能新聞

來自中科院和倫敦大學學院的汪軍與張海峰團隊提出了一種從 token-level 角度建模的大模型對齊算法：TDPO。

在人工智能領域的發(fā)展過程中，對大語言模型（LLM）的控制與指導始終是核心挑戰(zhàn)之一，旨在確保這些模型既強大又安全地服務于人類社會。早期的努力集中于通過人類反饋的強化學習方法（RLHF）來管理這些模型，成效顯著，標志著向更加人性化 AI 邁出的關鍵一步。

盡管 RLHF 取得了巨大成功，但是在訓練過程中 RLHF 非常消耗資源。因此，近段時間學者們在 RLHF 奠定的堅實基礎上，繼續(xù)探索更為簡單且高效的策略優(yōu)化路徑，催生了直接偏好優(yōu)化（DPO）的誕生。DPO 通過數(shù)學推理得到獎勵函數(shù)與最優(yōu)策略之間的直接映射，消除了獎勵模型的訓練過程，直接在偏好數(shù)據(jù)上優(yōu)化策略模型，實現(xiàn)了從「反饋到策略」的直觀飛躍。這不僅減少了復雜度，還增強了算法的穩(wěn)健性，迅速成為業(yè)界的新寵。

然而，DPO 主要關注在逆 KL 散度約束下的策略優(yōu)化。由于逆 KL 散度的 mode-seeking 特性，DPO 在提升對齊性能方面表現(xiàn)出色，但是這一特性也傾向于在生成過程中減少多樣性，可能限制模型的能力。另一方面，盡管 DPO 從句子級的角度控制 KL 散度，模型的生成過程本質上是逐個 token 進行的。從句子級控制 KL 散度直觀上表明 DPO 在細粒度控制上存在限制，對 KL 散度的調節(jié)能力較弱，可能是 DPO 訓練過程中 LLM 的生成多樣性迅速下降的關鍵因素之一。

為此，來自中科院和倫敦大學學院的汪軍與張海峰團隊提出了一種從 token-level 角度建模的大模型對齊算法：TDPO。

論文標題：Token-level Direct Preference Optimization
論文地址：https://arxiv.org/abs/2404.11999
代碼地址：https://github.com/Vance0124/Token-level-Direct-Preference-Optimization

為了應對模型生成多樣性顯著下降的問題，TDPO 從 token-level 的角度重新定義了整個對齊流程的目標函數(shù)，并通過將 Bradley-Terry 模型轉換為優(yōu)勢函數(shù)的形式，使得整個對齊流程能最終從 Token-level 層面進行分析和優(yōu)化。相比于 DPO 而言，TDPO 的主要貢獻如下：

Token-level 的建模方式：TDPO 從 Token-level 的角度對問題進行了建模，對 RLHF 進行了更精細的分析；
細粒度 KL 散度約束：在每個 token 處從理論上引入了前向 KL 散度約束，使方法能夠更好地約束模型優(yōu)化；
性能優(yōu)勢明顯：相比于 DPO 而言，TDPO 能夠實現(xiàn)更好的對齊性能和生成多樣性的帕累托前沿。

DPO 與 TDPO 的主要區(qū)別如下圖所示：

圖 1：DPO 的對齊優(yōu)化方式。DPO 從 sentence-level 的角度進行建模

圖 2：TDPO 的對齊優(yōu)化方式。TDPO 從 token-level 的角度進行建模，并在每個 token 處引入了額外的前向 KL 散度約束，如圖中紅色部分所示，控制模型偏移程度的同時，充當了模型對齊的 baseline

下面介紹兩者方法的具體推導過程。

背景：直接偏好優(yōu)化（DPO）

DPO 通過數(shù)學推導，得到了獎勵函數(shù)與最優(yōu)策略之間的直接映射，消除了 RLHF 過程中的獎勵建模階段：

將公式 (1) 代入 Bradley-Terry (BT) 偏好模型中，得到直接策略優(yōu)化（DPO）損失函數(shù):

其中是由來自偏好數(shù)據(jù)集 D 的 prompt、獲勝響應和失敗響應構成的偏好對。

TDPO

符號標注

為了建模語言模型順序的、自回歸的生成過程，TDPO 將生成回復表示成 T 個 token 組成的形式，其中，表示字母表（詞匯表）。

當將文本生成建模為馬爾可夫決策過程時，狀態(tài) state 定義為 prompt 和到當前 step 為止已生成的 token 的組合，表示為，而動作 action 則對應于下一個生成的 token，表示為，token 級獎勵定義為。

基于以上提供的定義，TDPO 為策略建立了狀態(tài) - 動作函數(shù)、狀態(tài)值函數(shù)和優(yōu)勢函數(shù)：

其中，表示折扣因子。

Token-level 角度的人類反饋強化學習

TDPO 理論上修改了 RLHF 的獎勵建模階段和 RL 微調階段，將它們擴展為了從 token-level 角度考慮的優(yōu)化目標。

對于獎勵建模階段， TDPO 建立了 Bradley-Terry 模型和優(yōu)勢函數(shù)之間的相關性：

對于 RL 微調階段，TDPO 定義了以下目標函數(shù)：

推導

從目標 (4) 出發(fā)，TDPO 在每個 token 上推導了最優(yōu)策略和狀態(tài) - 動作函數(shù)之間的映射關系：

其中，表示配分函數(shù)。

將方程 (5) 代入方程 (3)，我們得到：

其中，表示策略模型和參考模型表示的隱式獎勵函數(shù)差異，表示為

而則表示和的序列級前向 KL 散度差異，按加權，表示為

基于方程 (8)，TDPO 最大似然損失函數(shù)可以建模為：

考慮到在實際中，損失傾向于增加，放大和之間的差異，TDPO 提出修改方程 (9) 為：

其中是一個超參數(shù)，而

這里，表示停止梯度傳播運算符。

我們將 TDPO 和 DPO 的損失函數(shù)總結如下：

由此可見，TDPO 在每個 token 處引入了這種前向 KL 散度控制，使得在優(yōu)化過程中能夠更好地控制 KL 的變化，而不影響對齊性能，從而實現(xiàn)了更優(yōu)的帕累托前沿。

實驗設置

TDPO 在 IMDb，Anthropic/hh-rlhf、MT-Bench 上個數(shù)據(jù)集上進行了實驗。

IMDb

在 IMDb 數(shù)據(jù)集上，該團隊采用了 GPT-2 作為基模型，然后用 siebert/sentiment-roberta-large-english 作為獎勵模型評估策略模型輸出，實驗結果如圖 3 所示。

從圖 3 (a) 中可以看出，TDPO (TDPO1,TDPO2) 能夠達到比 DPO 更好的 reward-KL 的帕累托前沿，而從圖 3 (b)-(d) 則可以看出，TDPO 在 KL 散度控制方面表現(xiàn)極為出色，遠遠優(yōu)于 DPO 算法的 KL 散度控制能力。

Anthropic HH

而在 Anthropic/hh-rlhf 數(shù)據(jù)集上，該團隊采用了 Pythia 2.8B 作為基模型，采用兩種方式評估模型生成的好壞：1）使用已有的指標；2）使用 GPT-4 評測。

對于第一種評估方式，該團隊評測了不同算法訓練的模型在對齊性能 (Accuracy) 和生成多樣性 (Entropy) 上的權衡，如表 1 所示。

可以看到 TDPO 算法不僅在對齊性能 (Accuracy) 上優(yōu)于 DPO 和 f-DPO，在生成多樣性 (Entropy) 上也占據(jù)優(yōu)勢，在這兩個大模型生成回復的關鍵指標上達到了更好的權衡。

而對于第二種評估方式，該團隊評測了不同算法訓練的模型和人類偏好的吻合度，與數(shù)據(jù)集中的獲勝響應作對比，如圖 4 所示。

DPO、TDPO1 和 TDPO2 算法在溫度系數(shù)為 0.75 的情況下均能夠達到對獲勝響應的勝率高于 50%，較好地符合人類偏好。

MT-Bench

在論文中的最后一個實驗上，該團隊采用了在 Anthropic HH 數(shù)據(jù)集上訓練好的 Pythia 2.8B 模型直接用于 MT-Bench 數(shù)據(jù)集評測，結果如圖 5 所示。

在 MT-Bench 上，TDPO 能夠達到比其他算法更高的獲勝概率，這充分說明了 TDPO 算法訓練的模型生成的響應的質量更高。

此外，有相關研究對 DPO、TDPO、SimPO 算法進行了對比，可參考鏈接：https://www.zhihu.com/question/651021172/answer/3513696851

基于 eurus 提供的 eval 腳本，評測了基模型 qwen-4b、mistral-0.1、deepseek-math-base 基于不同的對齊算法 DPO、TDPO、SimPO 微調訓練得到的性能，以下是實驗的實驗結果：

表格 2：DPO,TDPO,SimPO 算法性能對比

了解更多結果，請參考原論文。

責任編輯：張燕妮來源：機器之心

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<sub id="uvzqv"><p id="uvzqv"></p></sub>

<sub id="uvzqv"></sub>

<style id="uvzqv"></style>