斯坦福提出對比偏好學(xué)習(xí):無需強化學(xué)習(xí)即可從人類反饋中學(xué)習(xí)
在模型與人類意圖對齊方面,根據(jù)人類反饋的強化學(xué)習(xí)(RLHF)已經(jīng)成為一大流行范式。通常來說,RLHF 算法的工作過程分為兩個階段:一、使用人類偏好學(xué)習(xí)一個獎勵函數(shù);二、通過使用強化學(xué)習(xí)優(yōu)化所學(xué)習(xí)的獎勵來對齊模型。
RLHF 范式假定人類偏好的分布遵照獎勵,但近期有研究認(rèn)為情況并非如此,人類偏好其實遵循用戶最優(yōu)策略下的后悔值(regret)。因此,根據(jù)反饋學(xué)習(xí)獎勵函數(shù)不僅基于一個有漏洞的對于人類偏好的假設(shè),而且還會導(dǎo)致出現(xiàn)難以處理的優(yōu)化難題 —— 這些難題來自強化學(xué)習(xí)階段的策略梯度或 bootstrapping。
由于存在這些優(yōu)化難題,當(dāng)今的 RLHF 方法都會將自身限定在基于上下文的 bandit 設(shè)置中(比如在大型語言模型中)或會限制自己的觀察維度(比如基于狀態(tài)的機器人技術(shù))。
為了克服這些難題,斯坦福等多所大學(xué)的一個研究團隊提出了一系列新算法,可使用基于后悔的人類偏好模型來優(yōu)化采用人類反饋時的行為,而沒有采用社區(qū)廣泛接受的僅考慮獎勵總和的部分回報模型。不同于部分回報模型,基于后悔的模型可直接提供有關(guān)最優(yōu)策略的信息。
這樣一種機制帶來了一個幸運的結(jié)果:完全不需要強化學(xué)習(xí)了!
這樣一來,就能在具有高維狀態(tài)和動作空間的通用型 MDP 框架中來解決 RLHF 問題了。
研究者提出,他們這項研究成果的核心見解是:將基于后悔的偏好框架與最大熵(MaxEnt)原理結(jié)合起來,可得到優(yōu)勢函數(shù)與策略之間的雙射。通過將對優(yōu)勢的優(yōu)化換成對策略的優(yōu)化,可以推導(dǎo)出一個純監(jiān)督學(xué)習(xí)的目標(biāo),其最優(yōu)值為專家獎勵下的最優(yōu)策略。該團隊將這種方法命名為對比偏好學(xué)習(xí)(Contrastive Preference Learning/CPL),因為其類似于人們廣為接受的對比學(xué)習(xí)目標(biāo)。
- 論文地址:https://arxiv.org/pdf/2310.13639.pdf
- 代碼地址:https://github.com/jhejna/cpl
相比于之前的方法,CPL 有三大關(guān)鍵優(yōu)勢。
一、CPL 能像監(jiān)督學(xué)習(xí)一樣擴展,因為它只使用監(jiān)督式目標(biāo)來匹配最優(yōu)優(yōu)勢,而無需使用任何策略梯度或動態(tài)規(guī)劃。
二、CPL 是完全離策略的方法,因此其可有效使用任何離線的次優(yōu)數(shù)據(jù)源。
三、CPL 可應(yīng)用于任意馬爾可夫決策過程(MDP),使其可以從序列數(shù)據(jù)上的偏好查詢中學(xué)習(xí)。
該團隊表示,之前的 RLHF 方法都無法同時滿足以上三點。為了表明 CPL 方法符合以上三點描述,研究者進行了實驗,結(jié)果表明該方法確實能有效應(yīng)對帶有次優(yōu)和高維離策略數(shù)據(jù)的序列決策問題。
值得注意的是,他們在實驗中發(fā)現(xiàn):在 MetaWorld 基準(zhǔn)上,CPL 竟能有效地使用與對話模型一樣的 RLHF 微調(diào)流程來學(xué)習(xí)在時間上擴展的操作策略。
具體來說,他們使用監(jiān)督學(xué)習(xí)方法,在高維圖像觀察上對策略進行預(yù)訓(xùn)練,然后使用偏好來對其進行微調(diào)。無需動態(tài)規(guī)劃或策略梯度,CPL 就能達到與基于先驗式強化學(xué)習(xí)的方法一樣的性能表現(xiàn)。與此同時,CPL 方法要快 1.6 倍,參數(shù)效率也提高了四倍。當(dāng)使用更密集的偏好數(shù)據(jù)時,CPL 的性能表現(xiàn)在 6 項任務(wù)的 5 項上超越了強化學(xué)習(xí)。
對比偏好學(xué)習(xí)
這種方法的核心思想很簡單:研究者發(fā)現(xiàn),當(dāng)使用最大熵強化學(xué)習(xí)框架時,后悔偏好模型中使用的優(yōu)勢函數(shù)可被輕松替換成策略的對數(shù)概率。但是,這種簡單的替換能帶來巨大的好處。如果使用策略的對數(shù)概率,就不需要學(xué)習(xí)優(yōu)勢函數(shù)或應(yīng)付與類強化學(xué)習(xí)算法相關(guān)的優(yōu)化難題了。
研究者表示,這不僅能造就對齊更緊密的后悔偏好模型,還能完全依靠監(jiān)督學(xué)習(xí)來學(xué)習(xí)人類反饋。
下面首先將推導(dǎo) CPL 目標(biāo),并表明對于帶有無界數(shù)據(jù)的專家用戶獎勵函數(shù) r_E,該方法可以收斂到最優(yōu)策略。然后將說明 CPL 與其它監(jiān)督學(xué)習(xí)方法的聯(lián)系。最后,研究者將說明如何在實踐中使用 CPL。他們表示,這些算法屬于一個用于解決序列決策問題的新方法類別,這類方法非常高效,因為它能直接從基于后悔的偏好中學(xué)習(xí)出策略,而無需強化學(xué)習(xí)。
從最優(yōu)優(yōu)勢到最優(yōu)策略
在使用后悔偏好模型時,偏好數(shù)據(jù)集 D_pref 包含有關(guān)最優(yōu)優(yōu)勢函數(shù) A^? (s, a) 的信息。我們可以直觀地認(rèn)為,該函數(shù)度量的是一個給定動作 a 比最優(yōu)策略在狀態(tài) s 時生成的動作的糟糕程度。
因此根據(jù)定義,最大化最優(yōu)優(yōu)勢的動作就是最優(yōu)動作,并且從偏好學(xué)習(xí)最優(yōu)優(yōu)勢函數(shù)應(yīng)該讓人能直觀地提取出最優(yōu)策略。
具體而言,該團隊證明了以下定理:
直接學(xué)習(xí)策略的好處。以這種方式直接學(xué)習(xí) π 有諸多實踐和理論上的好處。其中最明顯的可能是:直接學(xué)習(xí)策略的話,就無需學(xué)習(xí)其它任何函數(shù)了,比如獎勵函數(shù)或價值函數(shù)。這使得 CPL 比之前的方法簡單很多。
與對比學(xué)習(xí)的聯(lián)系。CPL 方法直接使用一個對比目標(biāo)來進行策略學(xué)習(xí)。研究者表示,鑒于對比學(xué)習(xí)目標(biāo)已經(jīng)在大型數(shù)據(jù)集和神經(jīng)網(wǎng)絡(luò)方面取得了有目共睹的成功,因此他們預(yù)計 CPL 能比使用傳統(tǒng)強化學(xué)習(xí)算法的強化學(xué)習(xí)方法進行更好的擴展。
實踐方面需要考慮的問題
對比偏好學(xué)習(xí)框架提供了一個通用的損失函數(shù),可用于從基于優(yōu)勢的偏好中學(xué)習(xí)策略,基于此可以派生出許多算法。下面將基于一個實踐效果很好的特定 CPL 框架實例介紹實踐方面需要考慮的問題。
使用有限離線數(shù)據(jù)的 CPL。盡管 CPL 可通過無界偏好數(shù)據(jù)收斂到最優(yōu)策略,但實際上我們通常關(guān)心的是學(xué)習(xí)有限離線數(shù)據(jù)集。在這種設(shè)置下,外推到數(shù)據(jù)集支持之外太遠的策略表現(xiàn)很差,因為它們采取的動作會導(dǎo)致出現(xiàn)分布之外的狀態(tài)。
正則化。在有限設(shè)置中,我們希望選擇能最小化 CPL 損失函數(shù)的策略,同時為該數(shù)據(jù)集中的動作賦予更高的可能性。為了做到這一點,研究者使用一個保守的正則化器得到了以下?lián)p失函數(shù):當(dāng)策略在 D_pref 中的動作上有更高的可能性時,就分配更低的損失,從而保證其在分布內(nèi)。
預(yù)訓(xùn)練。該團隊發(fā)現(xiàn),如果使用行為克?。˙C)方法對策略 π_θ 進行預(yù)訓(xùn)練,往往能得到更優(yōu)的結(jié)果。因此,在通過 CPL 損失使用偏好來進行微調(diào)之前,該團隊使用了標(biāo)準(zhǔn)的最大似然行為克隆目標(biāo)來訓(xùn)練策略,即:
實驗及結(jié)果
這一節(jié)將解答以下有關(guān) CPL 的問題:一、CPL 能否有效地根據(jù)基于后悔的偏好來微調(diào)策略?二、CPL 能否擴展用于高維控制問題和更大的網(wǎng)絡(luò)?三、CPL 的哪些組件對于獲得高性能很重要?
偏好數(shù)據(jù)。使用次優(yōu)的離策略 rollout 數(shù)據(jù)和偏好,研究者評估了 CPL 為一般性 MDP 學(xué)習(xí)策略的能力。
基準(zhǔn)方法。實驗中考慮了三種基準(zhǔn)方法:監(jiān)督式微調(diào)(SFT)、偏好隱式 Q 學(xué)習(xí)(P-IQL)、% BC(通過對 rollout 的 top X% 進行行為克隆來訓(xùn)練策略)。
CPL 表現(xiàn)如何?
使用基于狀態(tài)的觀察數(shù)據(jù)時,CPL 表現(xiàn)如何?對于基于狀態(tài)的實驗結(jié)果,主要可見表 1 的第 1 和 3 行。
當(dāng)使用更稀疏的比較數(shù)據(jù)時(第 3 行),CPL 在 6 個環(huán)境中的 5 個上都優(yōu)于之前的方法,并且相比于 P-IQL 的優(yōu)勢大都很明顯,尤其是 Button Press、Bin Picking 和 Sweep Into 環(huán)境。當(dāng)應(yīng)用于具有更密集比較的數(shù)據(jù)集時,CPL 比 P-IQL 的優(yōu)勢還要更大(第 1 行),并且在所有環(huán)境上都很顯著。
CPL 如何擴展用于高維觀察數(shù)據(jù)?為了測試 CPL 的監(jiān)督目標(biāo)能否擴展用于高維連續(xù)控制問題,該團隊將 MetaWorld 數(shù)據(jù)集渲染成了 64 × 64 的圖像。
表 1 的第 2 和 4 行給出了基于圖像的實驗結(jié)果。他們得到了有趣的發(fā)現(xiàn):對 SFT 來說,性能表現(xiàn)略有提升,但 P-IQL 的提升卻很明顯。當(dāng)學(xué)習(xí)更密集的偏好數(shù)據(jù)時(第 2 行),CPL 仍舊在 6 個環(huán)境中的 4 個上優(yōu)于 P-IQL,在 Sweep Into 上兩者相當(dāng)。當(dāng)學(xué)習(xí)更稀疏的比較數(shù)據(jù)時(第 4 行),CPL 和 P-IQL 在大多數(shù)任務(wù)上都表現(xiàn)相當(dāng)。
考慮到 CPL 有明顯更低的復(fù)雜性,這樣的結(jié)果就更驚人了!P-IQL 必須學(xué)習(xí)一個獎勵函數(shù)、一個 Q 函數(shù)、一個價值函數(shù)和一個策略。CPL 則都不需要,它只需學(xué)習(xí)一個策略,這能極大減少訓(xùn)練時間和參數(shù)數(shù)量。
正如下表 2 所示,在圖像任務(wù)上,CPL 的運行速度比 P-IQL 快 1.62 倍,并且參數(shù)數(shù)量還不到 P-IQL 的四分之一。隨著網(wǎng)絡(luò)越來越大,使用 CPL 所帶來的性能增益只會有增無減。
哪些組件有助于 CPL 的性能表現(xiàn)?
從實驗結(jié)果可以看到,當(dāng)使用有更密集比較的數(shù)據(jù)集時,CPL 和基準(zhǔn)方法之間的差距會更大。這與之前在對比學(xué)習(xí)方面的研究成果一致。
為了研究這種效果,研究者基于一個包含 5000 個片段的固定大小的數(shù)據(jù)集,通過增加每個片段采樣的比較數(shù)量,對 CPL 的性能進行了評估。下圖 2 給出了在基于狀態(tài)的觀察數(shù)據(jù)的開抽屜(Drawer Open)任務(wù)上的結(jié)果。
整體上看,當(dāng)每片段采樣的比較數(shù)量增加時,CPL 都能從中受益,僅有 Plate Slide 任務(wù)例外。
最后,該團隊也對 CPL 的超參數(shù)(溫度值 α 和偏差正則化器 λ)進行了消融研究;該研究也基于開抽屜任務(wù),結(jié)果見圖 2 右側(cè)。盡管 CPL 使用這些值的表現(xiàn)已經(jīng)很好了,但實驗發(fā)現(xiàn)通過適當(dāng)調(diào)整超參數(shù)(尤其是 λ),其表現(xiàn)還能更好。