自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<output id="gnvac"></output>

<big id="gnvac"><form id="gnvac"><ins id="gnvac"></ins></form></big>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

斯坦福提出對比偏好學(xué)習(xí)：無需強化學(xué)習(xí)即可從人類反饋中學(xué)習(xí)

作者：機器之心 2023-11-13 07:51:58

人工智能新聞

我們知道，ChatGPT 的成功離不開 RLHF 這個「秘密武器」。不過 RLHF 并不是完美無缺的，存在難以處理的優(yōu)化難題。本文中，斯坦福大學(xué)等研究機構(gòu)的團隊探索用「對比偏好學(xué)習(xí)」替換掉「強化學(xué)習(xí)」，在速度和性能上都有不俗的表現(xiàn)。

在模型與人類意圖對齊方面，根據(jù)人類反饋的強化學(xué)習(xí)（RLHF）已經(jīng)成為一大流行范式。通常來說，RLHF 算法的工作過程分為兩個階段：一、使用人類偏好學(xué)習(xí)一個獎勵函數(shù)；二、通過使用強化學(xué)習(xí)優(yōu)化所學(xué)習(xí)的獎勵來對齊模型。

RLHF 范式假定人類偏好的分布遵照獎勵，但近期有研究認(rèn)為情況并非如此，人類偏好其實遵循用戶最優(yōu)策略下的后悔值（regret）。因此，根據(jù)反饋學(xué)習(xí)獎勵函數(shù)不僅基于一個有漏洞的對于人類偏好的假設(shè)，而且還會導(dǎo)致出現(xiàn)難以處理的優(yōu)化難題 —— 這些難題來自強化學(xué)習(xí)階段的策略梯度或 bootstrapping。

由于存在這些優(yōu)化難題，當(dāng)今的 RLHF 方法都會將自身限定在基于上下文的 bandit 設(shè)置中（比如在大型語言模型中）或會限制自己的觀察維度（比如基于狀態(tài)的機器人技術(shù)）。

為了克服這些難題，斯坦福等多所大學(xué)的一個研究團隊提出了一系列新算法，可使用基于后悔的人類偏好模型來優(yōu)化采用人類反饋時的行為，而沒有采用社區(qū)廣泛接受的僅考慮獎勵總和的部分回報模型。不同于部分回報模型，基于后悔的模型可直接提供有關(guān)最優(yōu)策略的信息。

這樣一種機制帶來了一個幸運的結(jié)果：完全不需要強化學(xué)習(xí)了！

這樣一來，就能在具有高維狀態(tài)和動作空間的通用型 MDP 框架中來解決 RLHF 問題了。

研究者提出，他們這項研究成果的核心見解是：將基于后悔的偏好框架與最大熵（MaxEnt）原理結(jié)合起來，可得到優(yōu)勢函數(shù)與策略之間的雙射。通過將對優(yōu)勢的優(yōu)化換成對策略的優(yōu)化，可以推導(dǎo)出一個純監(jiān)督學(xué)習(xí)的目標(biāo)，其最優(yōu)值為專家獎勵下的最優(yōu)策略。該團隊將這種方法命名為對比偏好學(xué)習(xí)（Contrastive Preference Learning/CPL），因為其類似于人們廣為接受的對比學(xué)習(xí)目標(biāo)。

論文地址：https://arxiv.org/pdf/2310.13639.pdf
代碼地址：https://github.com/jhejna/cpl

相比于之前的方法，CPL 有三大關(guān)鍵優(yōu)勢。

一、CPL 能像監(jiān)督學(xué)習(xí)一樣擴展，因為它只使用監(jiān)督式目標(biāo)來匹配最優(yōu)優(yōu)勢，而無需使用任何策略梯度或動態(tài)規(guī)劃。

二、CPL 是完全離策略的方法，因此其可有效使用任何離線的次優(yōu)數(shù)據(jù)源。

三、CPL 可應(yīng)用于任意馬爾可夫決策過程（MDP），使其可以從序列數(shù)據(jù)上的偏好查詢中學(xué)習(xí)。

該團隊表示，之前的 RLHF 方法都無法同時滿足以上三點。為了表明 CPL 方法符合以上三點描述，研究者進行了實驗，結(jié)果表明該方法確實能有效應(yīng)對帶有次優(yōu)和高維離策略數(shù)據(jù)的序列決策問題。

值得注意的是，他們在實驗中發(fā)現(xiàn)：在 MetaWorld 基準(zhǔn)上，CPL 竟能有效地使用與對話模型一樣的 RLHF 微調(diào)流程來學(xué)習(xí)在時間上擴展的操作策略。

具體來說，他們使用監(jiān)督學(xué)習(xí)方法，在高維圖像觀察上對策略進行預(yù)訓(xùn)練，然后使用偏好來對其進行微調(diào)。無需動態(tài)規(guī)劃或策略梯度，CPL 就能達到與基于先驗式強化學(xué)習(xí)的方法一樣的性能表現(xiàn)。與此同時，CPL 方法要快 1.6 倍，參數(shù)效率也提高了四倍。當(dāng)使用更密集的偏好數(shù)據(jù)時，CPL 的性能表現(xiàn)在 6 項任務(wù)的 5 項上超越了強化學(xué)習(xí)。

對比偏好學(xué)習(xí)

這種方法的核心思想很簡單：研究者發(fā)現(xiàn)，當(dāng)使用最大熵強化學(xué)習(xí)框架時，后悔偏好模型中使用的優(yōu)勢函數(shù)可被輕松替換成策略的對數(shù)概率。但是，這種簡單的替換能帶來巨大的好處。如果使用策略的對數(shù)概率，就不需要學(xué)習(xí)優(yōu)勢函數(shù)或應(yīng)付與類強化學(xué)習(xí)算法相關(guān)的優(yōu)化難題了。

研究者表示，這不僅能造就對齊更緊密的后悔偏好模型，還能完全依靠監(jiān)督學(xué)習(xí)來學(xué)習(xí)人類反饋。

下面首先將推導(dǎo) CPL 目標(biāo)，并表明對于帶有無界數(shù)據(jù)的專家用戶獎勵函數(shù) r_E，該方法可以收斂到最優(yōu)策略。然后將說明 CPL 與其它監(jiān)督學(xué)習(xí)方法的聯(lián)系。最后，研究者將說明如何在實踐中使用 CPL。他們表示，這些算法屬于一個用于解決序列決策問題的新方法類別，這類方法非常高效，因為它能直接從基于后悔的偏好中學(xué)習(xí)出策略，而無需強化學(xué)習(xí)。

從最優(yōu)優(yōu)勢到最優(yōu)策略

在使用后悔偏好模型時，偏好數(shù)據(jù)集 D_pref 包含有關(guān)最優(yōu)優(yōu)勢函數(shù) A^? (s, a) 的信息。我們可以直觀地認(rèn)為，該函數(shù)度量的是一個給定動作 a 比最優(yōu)策略在狀態(tài) s 時生成的動作的糟糕程度。

因此根據(jù)定義，最大化最優(yōu)優(yōu)勢的動作就是最優(yōu)動作，并且從偏好學(xué)習(xí)最優(yōu)優(yōu)勢函數(shù)應(yīng)該讓人能直觀地提取出最優(yōu)策略。

具體而言，該團隊證明了以下定理：

直接學(xué)習(xí)策略的好處。以這種方式直接學(xué)習(xí) π 有諸多實踐和理論上的好處。其中最明顯的可能是：直接學(xué)習(xí)策略的話，就無需學(xué)習(xí)其它任何函數(shù)了，比如獎勵函數(shù)或價值函數(shù)。這使得 CPL 比之前的方法簡單很多。

與對比學(xué)習(xí)的聯(lián)系。CPL 方法直接使用一個對比目標(biāo)來進行策略學(xué)習(xí)。研究者表示，鑒于對比學(xué)習(xí)目標(biāo)已經(jīng)在大型數(shù)據(jù)集和神經(jīng)網(wǎng)絡(luò)方面取得了有目共睹的成功，因此他們預(yù)計 CPL 能比使用傳統(tǒng)強化學(xué)習(xí)算法的強化學(xué)習(xí)方法進行更好的擴展。

實踐方面需要考慮的問題

對比偏好學(xué)習(xí)框架提供了一個通用的損失函數(shù)，可用于從基于優(yōu)勢的偏好中學(xué)習(xí)策略，基于此可以派生出許多算法。下面將基于一個實踐效果很好的特定 CPL 框架實例介紹實踐方面需要考慮的問題。

使用有限離線數(shù)據(jù)的 CPL。盡管 CPL 可通過無界偏好數(shù)據(jù)收斂到最優(yōu)策略，但實際上我們通常關(guān)心的是學(xué)習(xí)有限離線數(shù)據(jù)集。在這種設(shè)置下，外推到數(shù)據(jù)集支持之外太遠的策略表現(xiàn)很差，因為它們采取的動作會導(dǎo)致出現(xiàn)分布之外的狀態(tài)。

正則化。在有限設(shè)置中，我們希望選擇能最小化 CPL 損失函數(shù)的策略，同時為該數(shù)據(jù)集中的動作賦予更高的可能性。為了做到這一點，研究者使用一個保守的正則化器得到了以下?lián)p失函數(shù)：當(dāng)策略在 D_pref 中的動作上有更高的可能性時，就分配更低的損失，從而保證其在分布內(nèi)。

預(yù)訓(xùn)練。該團隊發(fā)現(xiàn)，如果使用行為克?。˙C）方法對策略 π_θ 進行預(yù)訓(xùn)練，往往能得到更優(yōu)的結(jié)果。因此，在通過 CPL 損失使用偏好來進行微調(diào)之前，該團隊使用了標(biāo)準(zhǔn)的最大似然行為克隆目標(biāo)來訓(xùn)練策略，即：

實驗及結(jié)果

這一節(jié)將解答以下有關(guān) CPL 的問題：一、CPL 能否有效地根據(jù)基于后悔的偏好來微調(diào)策略？二、CPL 能否擴展用于高維控制問題和更大的網(wǎng)絡(luò)？三、CPL 的哪些組件對于獲得高性能很重要？

偏好數(shù)據(jù)。使用次優(yōu)的離策略 rollout 數(shù)據(jù)和偏好，研究者評估了 CPL 為一般性 MDP 學(xué)習(xí)策略的能力。

基準(zhǔn)方法。實驗中考慮了三種基準(zhǔn)方法：監(jiān)督式微調(diào)（SFT）、偏好隱式 Q 學(xué)習(xí)（P-IQL）、% BC（通過對 rollout 的 top X% 進行行為克隆來訓(xùn)練策略）。

CPL 表現(xiàn)如何？

使用基于狀態(tài)的觀察數(shù)據(jù)時，CPL 表現(xiàn)如何？對于基于狀態(tài)的實驗結(jié)果，主要可見表 1 的第 1 和 3 行。

當(dāng)使用更稀疏的比較數(shù)據(jù)時（第 3 行），CPL 在 6 個環(huán)境中的 5 個上都優(yōu)于之前的方法，并且相比于 P-IQL 的優(yōu)勢大都很明顯，尤其是 Button Press、Bin Picking 和 Sweep Into 環(huán)境。當(dāng)應(yīng)用于具有更密集比較的數(shù)據(jù)集時，CPL 比 P-IQL 的優(yōu)勢還要更大（第 1 行），并且在所有環(huán)境上都很顯著。

CPL 如何擴展用于高維觀察數(shù)據(jù)？為了測試 CPL 的監(jiān)督目標(biāo)能否擴展用于高維連續(xù)控制問題，該團隊將 MetaWorld 數(shù)據(jù)集渲染成了 64 × 64 的圖像。

表 1 的第 2 和 4 行給出了基于圖像的實驗結(jié)果。他們得到了有趣的發(fā)現(xiàn)：對 SFT 來說，性能表現(xiàn)略有提升，但 P-IQL 的提升卻很明顯。當(dāng)學(xué)習(xí)更密集的偏好數(shù)據(jù)時（第 2 行），CPL 仍舊在 6 個環(huán)境中的 4 個上優(yōu)于 P-IQL，在 Sweep Into 上兩者相當(dāng)。當(dāng)學(xué)習(xí)更稀疏的比較數(shù)據(jù)時（第 4 行），CPL 和 P-IQL 在大多數(shù)任務(wù)上都表現(xiàn)相當(dāng)。

考慮到 CPL 有明顯更低的復(fù)雜性，這樣的結(jié)果就更驚人了！P-IQL 必須學(xué)習(xí)一個獎勵函數(shù)、一個 Q 函數(shù)、一個價值函數(shù)和一個策略。CPL 則都不需要，它只需學(xué)習(xí)一個策略，這能極大減少訓(xùn)練時間和參數(shù)數(shù)量。

正如下表 2 所示，在圖像任務(wù)上，CPL 的運行速度比 P-IQL 快 1.62 倍，并且參數(shù)數(shù)量還不到 P-IQL 的四分之一。隨著網(wǎng)絡(luò)越來越大，使用 CPL 所帶來的性能增益只會有增無減。

哪些組件有助于 CPL 的性能表現(xiàn)？

從實驗結(jié)果可以看到，當(dāng)使用有更密集比較的數(shù)據(jù)集時，CPL 和基準(zhǔn)方法之間的差距會更大。這與之前在對比學(xué)習(xí)方面的研究成果一致。

為了研究這種效果，研究者基于一個包含 5000 個片段的固定大小的數(shù)據(jù)集，通過增加每個片段采樣的比較數(shù)量，對 CPL 的性能進行了評估。下圖 2 給出了在基于狀態(tài)的觀察數(shù)據(jù)的開抽屜（Drawer Open）任務(wù)上的結(jié)果。

整體上看，當(dāng)每片段采樣的比較數(shù)量增加時，CPL 都能從中受益，僅有 Plate Slide 任務(wù)例外。

最后，該團隊也對 CPL 的超參數(shù)（溫度值 α 和偏差正則化器 λ）進行了消融研究；該研究也基于開抽屜任務(wù)，結(jié)果見圖 2 右側(cè)。盡管 CPL 使用這些值的表現(xiàn)已經(jīng)很好了，但實驗發(fā)現(xiàn)通過適當(dāng)調(diào)整超參數(shù)（尤其是 λ），其表現(xiàn)還能更好。

責(zé)任編輯：張燕妮來源：機器之心

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<ruby id="ga4rz"><video id="ga4rz"></video></ruby>

<abbr id="ga4rz"></abbr>