自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

LLM | 偏好學(xué)習(xí)算法并不學(xué)習(xí)偏好排序

人工智能
偏好學(xué)習(xí)算法(Preference learning algorithms,如RLHF和DPO)常用于引導(dǎo)大型語言模型(LLMs)生成更符合人類偏好的內(nèi)容,但論文對其內(nèi)部機制的理解仍有限。

圖片圖片

一、結(jié)論寫在前面

偏好學(xué)習(xí)算法(Preference learning algorithms,如RLHF和DPO)常用于引導(dǎo)大型語言模型(LLMs)生成更符合人類偏好的內(nèi)容,但論文對其內(nèi)部機制的理解仍有限。論文探討了傳統(tǒng)觀點,即偏好學(xué)習(xí)訓(xùn)練模型通過排序準(zhǔn)確性來賦予更偏好的輸出比不太偏好的輸出更高的似然性。

論文的工作凸顯了偏好學(xué)習(xí)與排序準(zhǔn)確性之間顯著但關(guān)系微妙。論文理論和實證上都證明了RLHF和DPO難以教會模型正確地對偏好和非偏好輸出進行排序,即使在訓(xùn)練數(shù)據(jù)集中也是如此。盡管學(xué)習(xí)目標(biāo)理論上促進了高排序準(zhǔn)確性。論文發(fā)現(xiàn)大多數(shù)最先進的偏好調(diào)整模型在常見偏好數(shù)據(jù)集上的排序準(zhǔn)確率不足60%。論文進一步推導(dǎo)了如果偏好調(diào)整的LLM完美優(yōu)化DPO或RLHF目標(biāo),其理想化的排序準(zhǔn)確率。    

論文證明現(xiàn)有模型存在顯著的對齊差距——即觀察到的與理想化的排序準(zhǔn)確率之間的差距。論文認(rèn)為這種差異源于DPO目標(biāo),該目標(biāo)在經(jīng)驗上和理論上都不適合修正參考模型中的輕微排序錯誤,并推導(dǎo)出一個簡單高效的公式來量化學(xué)習(xí)特定偏好數(shù)據(jù)點的難度。最后,論文證明當(dāng)模型接近目標(biāo)中使用的參考模型時,排序準(zhǔn)確性與經(jīng)驗上流行的勝率指標(biāo)高度相關(guān),進一步揭示了策略內(nèi)(如RLHF)和策略外(如DPO)偏好學(xué)習(xí)算法之間的差異。

二、論文的簡單介紹

2.1 論文的背景

偏好學(xué)習(xí)算法最初設(shè)計用于使用候選者之間的成對偏好數(shù)據(jù)集來訓(xùn)練具有高排序準(zhǔn)確性的模型——即,模型能夠精確地將偏好的輸出排在不偏好的輸出之上。在語言模型的情況下,排序由分配給每個候選的似然性決定。

許多語言模型對齊技術(shù)旨在產(chǎn)生具有高偏好排序準(zhǔn)確性的模型,包括SLiC、RAFT、PRO和RRHF[。最著名的是,Rafailov等人聲稱他們流行的直接偏好優(yōu)化(DPO)算法"增加了優(yōu)選響應(yīng)相對于非優(yōu)選響應(yīng)的對數(shù)概率"。通常通過測量結(jié)果模型的生成結(jié)果相對于另一個模型的偏好程度(即勝率)來評估這些不同的目標(biāo)[69]。然而,損失函數(shù)、排序準(zhǔn)確性和勝率之間的關(guān)系尚不清楚,這讓人不禁懷疑這些對齊技術(shù)在訓(xùn)練過程中實際上在做什么。    

2.2 對齊差距

使用完美的參考模型訓(xùn)練以達(dá)到低DPO損失,將產(chǎn)生一個具有完美排序準(zhǔn)確性的模型。然而,圖1a顯示現(xiàn)實世界的參考模型在常見的偏好數(shù)據(jù)集上排序準(zhǔn)確性較低,這促使論文研究更現(xiàn)實、不完美的參考模型。

2.2.1 現(xiàn)有參考模型很少具有正確排序

圖1a表明,參考模型在常見的偏好數(shù)據(jù)集上很少能達(dá)到高排序準(zhǔn)確性(除了合成指令GPT-J成對數(shù)據(jù)集),盡管許多模型可能已經(jīng)根據(jù)偏好完成進行了訓(xùn)練。許多模型的訓(xùn)練數(shù)據(jù)沒有詳細(xì)記錄,因此論文不清楚哪些偏好數(shù)據(jù)集,如果有的話,是分布內(nèi)的。論文還對幾個預(yù)訓(xùn)練的大型語言模型(LLMs)進行了微調(diào),以偏好完成,并觀察到排序準(zhǔn)確性并沒有顯著提高?;谡撐牡陌l(fā)現(xiàn),論文轉(zhuǎn)向不完美的參考模型的情況。

2.2.2 理想化的排序準(zhǔn)確性

論文上面表明,從經(jīng)驗上看,參考模型在排序可能的完成時表現(xiàn)出較差的準(zhǔn)確性。然而,RLHF獎勵和DPO目標(biāo)被設(shè)計為確保模型學(xué)習(xí)偏好數(shù)據(jù)集,但不會偏離參考模型rRef太遠(yuǎn),因此偏好調(diào)整模型的可能準(zhǔn)確性可能存在限制。在這里,論文通過研究在完美優(yōu)化DPO或RLHF時,當(dāng)訪問完美數(shù)據(jù)(即人類偏好的真實比例)時,最優(yōu)策略將是什么,來正式化這一直覺。

圖片    

2.2.3 測量對齊差距

論文發(fā)現(xiàn)了一些令人驚訝的結(jié)果。首先,即使在理想條件下(即在真實偏好數(shù)據(jù)上完美優(yōu)化目標(biāo)函數(shù)),理想排序準(zhǔn)確性有時仍低于100%。這種差距隨著β的選擇而變化,表明DPO/RLHF的極限在很大程度上取決于對πRef的依賴程度。此外,論文發(fā)現(xiàn)許多最先進的模型都無法達(dá)到接近理想排序準(zhǔn)確性的排序準(zhǔn)確性,表現(xiàn)出19到59個百分點的對齊差距。

表1:現(xiàn)有算法的理想排名準(zhǔn)確性并不完美,但偏好調(diào)整模型顯示出的排名準(zhǔn)確性遠(yuǎn)未達(dá)到這種理想情況。論文提供了在Alpaca Farm [8]驗證數(shù)據(jù)集(詳見附錄C.2)上,多種開放訪問的偏好調(diào)整模型的長度歸一化(R)和非長度歸一化(R)排名準(zhǔn)確性。同時提供了理想排名準(zhǔn)確性(推論3.3)。由于理想排名準(zhǔn)確性可以通過多種B值計算,論文提供了最小、中位數(shù)和最大理想排名準(zhǔn)確性值的范圍,詳情見附錄C.4

圖片圖片


2.3 理解DPO的排名準(zhǔn)確性

論文現(xiàn)在轉(zhuǎn)向訓(xùn)練目標(biāo)來解釋對齊差距。論文專注于DPO目標(biāo),因為其未能達(dá)到高排名準(zhǔn)確性特別令人驚訝(表1)。特別是,DPO直接在線下數(shù)據(jù)集上最大化偏好-非偏好對的獎勵邊際,因此論文期望它在分布外的保留數(shù)據(jù)上表現(xiàn)良好。論文還注意到,DPO是社區(qū)中對齊LLMs的流行選擇,因為它比執(zhí)行RLHF成本更低。    

2.3.1 DPO很少改變偏好排序

為了研究DPO訓(xùn)練過程中排序準(zhǔn)確性的變化,論文在Anthropic HH-RLHF偏好數(shù)據(jù)集上訓(xùn)練了三種規(guī)模的模型(GPT-2、Pythia 2.8B和Llama 2-7B),每種模型都有三個隨機種子,并研究了訓(xùn)練數(shù)據(jù)集的不同分區(qū)上的排序準(zhǔn)確性。論文在圖2中展示了訓(xùn)練一個Pythia 2.8B模型的結(jié)果,其他兩個模型的結(jié)果放在附錄D.2中。在圖2中,論文根據(jù)參考模型πRef是否具有正確的排序以及當(dāng)前模型πθ是否具有正確的排序,將訓(xùn)練數(shù)據(jù)集中隨機抽取的1K個樣本劃分為四組。

令人驚訝的是,圖2顯示,盡管DPO在訓(xùn)練過程中持續(xù)降低損失Cppo,但它很少改變排序。除了模型忘記正確偏好排序的那組點之外,論文觀察到損失持續(xù)下降,獎勵邊際持續(xù)增加。然而,在驗證損失最低的點,不到一半的錯誤排序點已被翻轉(zhuǎn)為正確的排序。這表明DPO目標(biāo)在實際中誘導(dǎo)高排序準(zhǔn)確性方面存在問題。               

圖片圖片

圖2:盡管不斷降低損失,DPO很少顛倒對子的排名,而是主要增加了已正確排序?qū)ψ拥莫剟钸呺H。論文使用DPO目標(biāo)訓(xùn)練了一個Pythia-2.8B模型,并將訓(xùn)練數(shù)據(jù)集分為四個子集:初始時排名正確并被翻轉(zhuǎn)為(1)正確或(2)錯誤的例子,以及初始時排名錯誤并被翻轉(zhuǎn)為(3)正確或(4)錯誤的例子。在所有三個圖中,點的色調(diào)表示類別。虛線垂直線表示評估損失達(dá)到最低的訓(xùn)練步驟。論文還為另外兩個模型提供了每種三個種子的結(jié)果,詳見附錄D    

圖片圖片

圖 3:單獨的 DPO 損失并不能預(yù)測排名準(zhǔn)確性,這是由于損失中參考模型對數(shù)比率的影響。每個點代表來自訓(xùn)練數(shù)據(jù)集 1K 子樣本中一個獨立訓(xùn)練示例的 DPO 損失,使用的是對應(yīng)于驗證損失最低檢查點的模型 rg-。每個點的顏色表示 wg 是否在該示例上實現(xiàn)了正確的排名,即是否 o (yw .c) > To* (yw w)。虛線是定理 4.1 中的函數(shù) f(c) = - log o(3o)??傊?,tg- 正確分類的示例往往是參考模型已經(jīng)正確分類的那些。

2.3.2 分析:翻轉(zhuǎn)排名有多容易?

下面的結(jié)果表明,DPO 損失可以在模型排名準(zhǔn)確性沒有改善的情況下顯著降低。論文的理論成果使論文能夠正式識別那些在其排名中難以翻轉(zhuǎn)的點。圖 3 展示了多種設(shè)置下的參考模型對數(shù)比率,并強調(diào)了即使在參考模型中排名錯誤輕微的數(shù)據(jù)點,也需要損失降低到非常低的值才能翻轉(zhuǎn)排名。論文觀察到,難以學(xué)習(xí)的數(shù)據(jù)點明顯比易于學(xué)習(xí)的點要長,而且易于學(xué)習(xí)的數(shù)據(jù)點通常包含的偏好注釋較為明確。更廣泛地說,論文的結(jié)果激發(fā)了使用更強大的 TRef 模型以及 DPO 的迭代或策略內(nèi)變體的需求。

2.4 排名準(zhǔn)確性與勝率

論文對排名準(zhǔn)確性的研究揭示了 DPO 和 RLHF 如何與偏好數(shù)據(jù)對齊,但論文尚未將這些見解與模型在對齊過程中生成行為的變化聯(lián)系起來。特別是,排名準(zhǔn)確性是一個方便但策略外的指標(biāo),因此不如策略內(nèi)指標(biāo)(如勝率)那樣被廣泛采用(見第 2.2 節(jié))。論文通過排名準(zhǔn)確性和勝率的視角,探討了大型語言模型(LLMs)的策略內(nèi)(即生成性)和策略外(即分類性)行為之間的差距。由于 DPO 目標(biāo)直接優(yōu)化排名準(zhǔn)確性(命題 2.6),這兩個指標(biāo)之間的關(guān)系直接反映了策略外訓(xùn)練如何影響策略內(nèi)行為。    

論文研究了勝率與排名準(zhǔn)確性之間的關(guān)系,具體在兩種情況下進行:(1) 在DPO訓(xùn)練期間,以及(2) 在一種調(diào)節(jié)TRef影響的DPO變體中。論文使用Alpaca Eval GPT4 自動標(biāo)注工具對訓(xùn)練數(shù)據(jù)集中的500個響應(yīng)進行勝率測量。

論文推測,當(dāng)模型與參考模型相距較遠(yuǎn)時,向參考模型進行正則化可能會損害模型在預(yù)訓(xùn)練階段主要獲得生成能力。換句話說,當(dāng)離線目標(biāo)中使用的參考模型與當(dāng)前模型相距甚遠(yuǎn)時,模型的離策略行為無法再可預(yù)測地描述在線策略生成。論文的發(fā)現(xiàn)證實了在擬合偏好數(shù)據(jù)與維持預(yù)訓(xùn)練階段獲得的生成能力之間的基本權(quán)衡[21],并與先前的觀察結(jié)果一致,即添加在線策略偏好數(shù)據(jù)可以使離線學(xué)習(xí)更有效[48, 63, 23, 51]。

圖片圖片

圖4:當(dāng)模型權(quán)重未遠(yuǎn)離ORef時,排名準(zhǔn)確率和勝率同步增加。圖片 表示在檢查點t時的模型權(quán)重,而0,表示模型權(quán)重轉(zhuǎn)移

論文標(biāo)題:Preference Learning Algorithms Do Not Learn Preference Rankings

論文鏈接:https://arxiv.org/pdf/2405.19534    

責(zé)任編輯:武曉燕 來源: AI帝國
相關(guān)推薦

2023-11-13 07:51:58

ChatGPT研究

2025-04-15 08:44:43

2020-12-11 12:52:58

Java技術(shù)開發(fā)

2024-11-27 13:36:10

2015-02-28 10:26:54

JMP

2013-01-14 16:10:06

2018-08-20 20:40:52

2024-12-26 15:35:33

2024-06-20 10:49:15

2015-08-03 13:52:52

2024-03-04 00:20:00

語言模型人工智能

2024-04-17 08:50:36

MusicLM音樂模型人工智能

2017-08-04 17:44:02

2024-12-02 12:30:44

2024-02-19 00:10:00

AI模型

2024-03-05 09:00:00

大型語言模型Mistral-7b人工智能

2010-01-11 14:05:01

C++學(xué)習(xí)方法

2017-10-18 22:18:09

2019-03-28 19:59:05

云桌面銳捷網(wǎng)絡(luò)

2019-11-22 09:42:11

內(nèi)衣信息網(wǎng)頁
點贊
收藏

51CTO技術(shù)棧公眾號