RLHF中的「RL」是必需的嗎?有人用二進(jìn)制交叉熵直接微調(diào)LLM,效果更好
近來(lái),在大型數(shù)據(jù)集上訓(xùn)練的無(wú)監(jiān)督語(yǔ)言模型已經(jīng)獲得了令人驚訝的能力。然而,這些模型是在具有各種目標(biāo)、優(yōu)先事項(xiàng)和技能集的人類(lèi)生成的數(shù)據(jù)上訓(xùn)練的,其中一些目標(biāo)和技能設(shè)定未必希望被模仿。
從模型非常廣泛的知識(shí)和能力中選擇其期望的響應(yīng)和行為,對(duì)于構(gòu)建安全、高性能和可控的人工智能系統(tǒng)至關(guān)重要。很多現(xiàn)有的方法通過(guò)使用精心策劃的人類(lèi)偏好集將所需的行為灌輸?shù)秸Z(yǔ)言模型中,這些偏好集代表了人類(lèi)認(rèn)為安全和有益的行為類(lèi)型,這個(gè)偏好學(xué)習(xí)階段發(fā)生在對(duì)大型文本數(shù)據(jù)集進(jìn)行大規(guī)模無(wú)監(jiān)督預(yù)訓(xùn)練的初始階段之后。
雖然最直接的偏好學(xué)習(xí)方法是對(duì)人類(lèi)展示的高質(zhì)量響應(yīng)進(jìn)行監(jiān)督性微調(diào),但最近相對(duì)熱門(mén)的一類(lèi)方法是從人類(lèi)(或人工智能)反饋中進(jìn)行強(qiáng)化學(xué)習(xí)(RLHF/RLAIF)。RLHF 方法將獎(jiǎng)勵(lì)模型與人類(lèi)偏好的數(shù)據(jù)集相匹配,然后使用 RL 來(lái)優(yōu)化語(yǔ)言模型策略,以產(chǎn)生分配高獎(jiǎng)勵(lì)的響應(yīng),而不過(guò)度偏離原始模型。
雖然 RLHF 產(chǎn)生的模型具有令人印象深刻的對(duì)話和編碼能力,但 RLHF pipeline 比監(jiān)督學(xué)習(xí)復(fù)雜得多,涉及訓(xùn)練多個(gè)語(yǔ)言模型,并在訓(xùn)練的循環(huán)中從語(yǔ)言模型策略中采樣,產(chǎn)生大量的計(jì)算成本。
而最近的一項(xiàng)研究表明:現(xiàn)有方法使用的基于 RL 的目標(biāo)可以用一個(gè)簡(jiǎn)單的二進(jìn)制交叉熵目標(biāo)來(lái)精確優(yōu)化,從而大大簡(jiǎn)化偏好學(xué)習(xí) pipeline。也就是說(shuō),完全可以直接優(yōu)化語(yǔ)言模型以堅(jiān)持人類(lèi)的偏好,而不需要明確的獎(jiǎng)勵(lì)模型或強(qiáng)化學(xué)習(xí)。
論文鏈接:https://arxiv.org/pdf/2305.18290.pdf
來(lái)自斯坦福大學(xué)等機(jī)構(gòu)研究者提出了直接偏好優(yōu)化(Direct Preference Optimization,DPO),這種算法隱含地優(yōu)化了與現(xiàn)有 RLHF 算法相同的目標(biāo)(帶有 KL - 發(fā)散約束的獎(jiǎng)勵(lì)最大化),但實(shí)施起來(lái)很簡(jiǎn)單,而且可直接訓(xùn)練。
實(shí)驗(yàn)表明,至少當(dāng)用于 60 億參數(shù)語(yǔ)言模型的偏好學(xué)習(xí)任務(wù),如情感調(diào)節(jié)、摘要和對(duì)話時(shí),DPO 至少與現(xiàn)有的方法一樣有效,包括基于 PPO 的 RLHF。
DPO 算法
與現(xiàn)有的算法一樣,DPO 也依賴(lài)于理論上的偏好模型(如 Bradley-Terry 模型),以此衡量給定的獎(jiǎng)勵(lì)函數(shù)與經(jīng)驗(yàn)偏好數(shù)據(jù)的吻合程度。然而,現(xiàn)有的方法使用偏好模型定義偏好損失來(lái)訓(xùn)練獎(jiǎng)勵(lì)模型,然后訓(xùn)練優(yōu)化所學(xué)獎(jiǎng)勵(lì)模型的策略,而 DPO 使用變量的變化來(lái)直接定義偏好損失作為策略的一個(gè)函數(shù)。鑒于人類(lèi)對(duì)模型響應(yīng)的偏好數(shù)據(jù)集,DPO 因此可以使用一個(gè)簡(jiǎn)單的二進(jìn)制交叉熵目標(biāo)來(lái)優(yōu)化策略,而不需要明確地學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)或在訓(xùn)練期間從策略中采樣。
DPO 的更新增加了首選 response 與非首選 response 的相對(duì)對(duì)數(shù)概率,但它包含了一個(gè)動(dòng)態(tài)的、每個(gè)樣本的重要性權(quán)重,以防止模型退化,研究者發(fā)現(xiàn)這種退化會(huì)發(fā)生在一個(gè)樸素概率比目標(biāo)上。
為了從機(jī)制上理解 DPO,分析損失函數(shù)的梯度是很有用的。關(guān)于參數(shù) θ 的梯度可以寫(xiě)成:
其中是由語(yǔ)言模型
和參考模型
隱含定義的獎(jiǎng)勵(lì)。直觀地說(shuō),損失函數(shù)
的梯度增加了首選補(bǔ)全 y_w 的可能性,減少了非首選補(bǔ)全 y_l 的可能性。
重要的是,這些樣本的權(quán)重是由隱性獎(jiǎng)勵(lì)模型對(duì)不喜歡的完成度的評(píng)價(jià)高低來(lái)決定的,以 β 為尺度,即隱性獎(jiǎng)勵(lì)模型對(duì)完成度的排序有多不正確,這也是 KL 約束強(qiáng)度的體現(xiàn)。實(shí)驗(yàn)表明了這種加權(quán)的重要性,因?yàn)闆](méi)有加權(quán)系數(shù)的這種方法的 naive 版本會(huì)導(dǎo)致語(yǔ)言模型的退化(附錄表 2)。
在論文的第五章,研究者對(duì) DPO 方法做了進(jìn)一步的解釋?zhuān)峁┝死碚撝С?,并?DPO 的優(yōu)勢(shì)與用于 RLHF 的 Actor-Critic 算法(如 PPO)的問(wèn)題聯(lián)系起來(lái)。具體細(xì)節(jié)可參考原論文。
實(shí)驗(yàn)
在實(shí)驗(yàn)中,研究者評(píng)估了 DPO 直接根據(jù)偏好訓(xùn)練策略的能力。
首先,在一個(gè)控制良好的文本生成環(huán)境中,他們思考了這樣一個(gè)問(wèn)題:與 PPO 等常見(jiàn)偏好學(xué)習(xí)算法相比,DPO 在參考策略中權(quán)衡獎(jiǎng)勵(lì)最大化和 KL-divergence 最小化的效率如何?接著,研究者還評(píng)估了 DPO 在更大模型和更困難的 RLHF 任務(wù) (包括摘要和對(duì)話) 上的性能。
最終發(fā)現(xiàn),在幾乎沒(méi)有超參數(shù)調(diào)整的情況下,DPO 的表現(xiàn)往往與帶有 PPO 的 RLHF 等強(qiáng)大的基線一樣好,甚至更好,同時(shí)在學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)下返回最佳的 N 個(gè)采樣軌跡結(jié)果。
從任務(wù)上說(shuō),研究者探索了三個(gè)不同的開(kāi)放式文本生成任務(wù)。在所有實(shí)驗(yàn)中,算法從偏好數(shù)據(jù)集中學(xué)習(xí)策略。
在可控情感生成中,x 是來(lái)自 IMDb 數(shù)據(jù)集的電影評(píng)論的前綴,策略必須生成具有積極情感的 y。為了進(jìn)行對(duì)照評(píng)估,實(shí)驗(yàn)使用了預(yù)先訓(xùn)練好的情感分類(lèi)器去生成偏好對(duì),其中。
對(duì)于 SFT,研究者微調(diào)了 GPT-2-large,直到收斂于 IMDB 數(shù)據(jù)集的訓(xùn)練分割的評(píng)論??傊?,x 是來(lái)自 Reddit 的論壇帖子,該策略必須生成帖子中要點(diǎn)的總結(jié)?;诖饲肮ぷ?,實(shí)驗(yàn)使用了 Reddit TL;DR 摘要數(shù)據(jù)集以及 Stiennon et al. 收集的人類(lèi)偏好。實(shí)驗(yàn)還使用了一個(gè) SFT 模型,該模型是根據(jù)人類(lèi)撰寫(xiě)的論壇文章摘要 2 和 RLHF 的 TRLX 框架進(jìn)行微調(diào)的。人類(lèi)偏好數(shù)據(jù)集是由 Stiennon et al. 從一個(gè)不同的但經(jīng)過(guò)類(lèi)似訓(xùn)練的 SFT 模型中收集的樣本。
最后,在單輪對(duì)話中,x 是一個(gè)人類(lèi)問(wèn)題,可以是從天體物理到建立關(guān)系建議的任何問(wèn)題。一個(gè)策略必須對(duì)用戶(hù)的查詢(xún)做出有吸引力和有幫助的響應(yīng);策略必須對(duì)用戶(hù)的查詢(xún)做出有意思且有幫助的響應(yīng);實(shí)驗(yàn)使用 Anthropic Helpful and Harmless 對(duì)話集,其中包含人類(lèi)和自動(dòng)化助手之間的 170k 對(duì)話。每個(gè)文本以一對(duì)由大型語(yǔ)言模型 (盡管未知) 生成的響應(yīng)以及表示人類(lèi)首選響應(yīng)的偏好標(biāo)簽結(jié)束。在這種情況下,沒(méi)有預(yù)訓(xùn)練的 SFT 模型可用。因此,實(shí)驗(yàn)只在首選完成項(xiàng)上微調(diào)現(xiàn)成的語(yǔ)言模型,以形成 SFT 模型。
研究者使用了兩種評(píng)估方法。為了分析每種算法在優(yōu)化約束獎(jiǎng)勵(lì)最大化目標(biāo)方面的效率,在可控情感生成環(huán)境中,實(shí)驗(yàn)通過(guò)其實(shí)現(xiàn)獎(jiǎng)勵(lì)的邊界和與參考策略的 KL-divergence 來(lái)評(píng)估每種算法。實(shí)驗(yàn)可以使用 ground-truth 獎(jiǎng)勵(lì)函數(shù) (情感分類(lèi)器),因此這一邊界是可以計(jì)算得出的。但事實(shí)上,ground truth 獎(jiǎng)勵(lì)函數(shù)是未知的。因此研究者通過(guò)基線策略的勝率評(píng)估算法的勝率,并用 GPT-4 作為在摘要和單輪對(duì)話設(shè)置中人類(lèi)評(píng)估摘要質(zhì)量和響應(yīng)有用性的代理。針對(duì)摘要,實(shí)驗(yàn)使用測(cè)試機(jī)中的參考摘要作為極限;針對(duì)對(duì)話,選用測(cè)試數(shù)據(jù)集中的首選響應(yīng)作為基線。雖然現(xiàn)有研究表明語(yǔ)言模型可以成為比現(xiàn)有度量更好的自動(dòng)評(píng)估器,但研究者進(jìn)行了一項(xiàng)人類(lèi)研究,證明了使用 GPT-4 進(jìn)行評(píng)估的可行性 GPT-4 判斷與人類(lèi)有很強(qiáng)的相關(guān)性,人類(lèi)與 GPT-4 的一致性通常類(lèi)似或高于人類(lèi)標(biāo)注者之間的一致性。
除了 DPO 之外,研究者還評(píng)估了幾種現(xiàn)有的訓(xùn)練語(yǔ)言模型來(lái)與人類(lèi)偏好保持一致。最簡(jiǎn)單的是,實(shí)驗(yàn)在摘要任務(wù)中探索了 GPT-J 的零樣本 prompt,在對(duì)話任務(wù)中探索了 Pythia-2.8B 的 2-shot prompt。此外,實(shí)驗(yàn)還評(píng)估了 SFT 模型和 Preferred-FT。Preferred-FT 是一個(gè)通過(guò)監(jiān)督學(xué)習(xí)從 SFT 模型 (可控情感和摘要) 或通用語(yǔ)言模型 (單回合對(duì)話) 中選擇的完成 y_w 進(jìn)行微調(diào)的模型。另一種偽監(jiān)督方法是 Unlikelihood,它簡(jiǎn)單地優(yōu)化策略,使分配給 y_w 的概率最大化,分配給 y_l 的概率最小化。實(shí)驗(yàn)在「Unlikehood」上使用了一個(gè)可選系數(shù) α∈[0,1]。他們還考慮了 PPO,使用從偏好數(shù)據(jù)中學(xué)習(xí)的獎(jiǎng)勵(lì)函數(shù),以及 PPO-GT。PPO-GT 是從可控情感設(shè)置中可用的 ground truth 獎(jiǎng)勵(lì)函數(shù)學(xué)習(xí)的 oracle。在情感實(shí)驗(yàn)中,團(tuán)隊(duì)使用了 PPO-GT 的兩個(gè)實(shí)現(xiàn),一個(gè)是現(xiàn)成的版本,以及一個(gè)修改版本。后者將獎(jiǎng)勵(lì)歸一化,并進(jìn)一步調(diào)整超參數(shù)以提高性能 (在運(yùn)行具有學(xué)習(xí)獎(jiǎng)勵(lì)的「Normal」PPO 時(shí),實(shí)驗(yàn)也使用了這些修改)。最后,研究者考慮了 N 個(gè)基線中的最優(yōu)值,從 SFT 模型 (或?qū)υ捴械?Preferred-FT) 中采樣 N 個(gè)回答,并根據(jù)從偏好數(shù)據(jù)集中學(xué)習(xí)的獎(jiǎng)勵(lì)函數(shù)返回得分最高的回答。這種高性能方法將獎(jiǎng)勵(lì)模型的質(zhì)量與 PPO 優(yōu)化解耦,但即使對(duì)中度 N 來(lái)說(shuō),在計(jì)算上也是不切實(shí)際的,因?yàn)樗跍y(cè)試時(shí)需要對(duì)每個(gè)查詢(xún)進(jìn)行 N 次采樣完成。
圖 2 展示了情緒設(shè)置中各種算法的獎(jiǎng)勵(lì) KL 邊界。
圖 3 展示了 DPO 收斂到其最佳性能的速度相對(duì)較快。
更多研究細(xì)節(jié),可參考原論文。