自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

什么樣的偏好,才叫好的偏好?——揭秘偏好對齊數(shù)據(jù)的「三駕馬車」

人工智能 新聞
AIR 框架的提出,為偏好學(xué)習(xí)的科學(xué)化和系統(tǒng)化進(jìn)程提供了一種新的思路與方法。通過解構(gòu)標(biāo)注、指令和回復(fù)對三大核心要素,我們揭示了對齊性能提升的關(guān)鍵路徑。

論文有兩位共同一作。何秉翔,清華大學(xué)博士一年級,研究方向為大語言模型對齊、強化學(xué)習(xí)。張文斌,哈爾濱工業(yè)大學(xué)博士一年級,研究方向為自然語言處理。

近年來,大語言模型(LLMs)的對齊研究成為人工智能領(lǐng)域的核心挑戰(zhàn)之一,而偏好數(shù)據(jù)集的質(zhì)量直接決定了對齊的效果。無論是通過人類反饋的強化學(xué)習(xí)(RLHF),還是基于「RL-Free」的各類直接偏好優(yōu)化方法(例如 DPO),都離不開高質(zhì)量偏好數(shù)據(jù)集的構(gòu)建。

盡管已有諸多研究致力于擴展偏好數(shù)據(jù)集的規(guī)模并優(yōu)化標(biāo)注方式,但對于哪些因素會對偏好數(shù)據(jù)集的對齊性能產(chǎn)生影響缺乏系統(tǒng)性分析,導(dǎo)致優(yōu)化策略往往依賴經(jīng)驗,缺乏明確的原則指導(dǎo)。

這不禁引發(fā)了一個核心問題:哪些因素會影響偏好數(shù)據(jù)集的對齊性能?

為填補這一空白,近期來自清華大學(xué)、哈爾濱工業(yè)大學(xué)和阿里安全的研究團(tuán)隊提出 AIRAnnotations, Instructions, Response Pairs)框架,系統(tǒng)性地剖析構(gòu)成偏好數(shù)據(jù)集的三大核心要素:標(biāo)注(Annotations)、指令(Instructions)與回復(fù)對(Response Pairs),并通過控制變量實驗,量化不同組件對于最終對齊效果的獨立貢獻(xiàn)。

研究團(tuán)隊在 MT-Bench(多輪對話)、ArenaHard(復(fù)雜推理)、AlpacaEval 2.0(指令遵循)等 6 大評測集構(gòu)建實驗矩陣,覆蓋編碼、數(shù)學(xué)、知識推理、指令遵循等對齊關(guān)鍵領(lǐng)域,發(fā)現(xiàn)三個要素對偏好數(shù)據(jù)的質(zhì)量都會產(chǎn)生關(guān)鍵影響,設(shè)計合理的優(yōu)化策略能夠顯著提升累積對齊性能。

這意味著我們將偏好數(shù)據(jù)集的設(shè)計轉(zhuǎn)變?yōu)橐环N更加科學(xué)、關(guān)注組件優(yōu)化的策略。這種方法不僅顯著提升了對齊性能,還為未來的對齊研究提供了一張高效的藍(lán)圖。

同時,AIR 技術(shù)已賦能阿里安全御風(fēng)大模型的業(yè)務(wù)偏好優(yōu)化,提升了模型 zeroshot 解決業(yè)務(wù)問題的能力,促進(jìn)阿里廣泛多域安全審核業(yè)務(wù)的模型上線。

【TL;DR】AIR 框架提出大模型偏好數(shù)據(jù)集的三大設(shè)計準(zhǔn)則

  • 極簡標(biāo)注策略:利用生成式獎勵模型(如 Llama-3.1-70B-Instruct)的文本生成能力完成偏好標(biāo)注,僅需基礎(chǔ)的 point-wise 評分指令(如「請從 0-9 分評估回復(fù)質(zhì)量」)配合貪心解碼。實驗證明復(fù)雜標(biāo)注設(shè)計會產(chǎn)生過度干預(yù),反而不利于模型學(xué)習(xí)偏好信號。
  • 智能指令篩選:基于動態(tài)質(zhì)量方差分析的指令優(yōu)選機制,通過多模型采樣后保留回復(fù)分?jǐn)?shù)方差最小的指令。值得注意的是,雖然多輪對話指令能增強對話連貫性,但因在其他評估維度未現(xiàn)顯著增益,最終采用非篩選的指令輪數(shù)方案。
  • 科學(xué)回復(fù)對構(gòu)造:通過三重黃金準(zhǔn)則實現(xiàn)高效對比學(xué)習(xí):① 設(shè)置合理質(zhì)量差(Δ=2/3)構(gòu)建清晰對比梯度;② 錨定高質(zhì)量基線(評分≥8)確保回復(fù)可靠性;③ 采用 On/Off-Policy 混合策略(1:1 配比)精準(zhǔn)控制策略分布偏移。

圖片

  • 論文標(biāo)題:AIR: A Systematic Analysis of Annotations, Instructions, and Response Pairs in Preference Dataset
  • 論文鏈接:https://arxiv.org/abs/2504.03612

圖片

圖 1:(左)AIR 框架將偏好學(xué)習(xí)拆解為這三個核心部分,并在最外層標(biāo)注了經(jīng)過實證驗證的最佳設(shè)計原則。(右)當(dāng)我們逐步整合這些優(yōu)化后的標(biāo)注、響應(yīng)組合和指令時,在 14k 偏好數(shù)據(jù)對上的累積效果非常顯著,明顯提升了所有基準(zhǔn)測試中的對齊性能。

我們在一個被廣泛使用的開源 SFT 模型(Llama-3.1-Tulu-3-8B-SFT)基礎(chǔ)上,結(jié)合 ShareGPT 與 UltraFeedback 指令集,基于最簡單的 DPO 設(shè)置,系統(tǒng)性探索了偏好數(shù)據(jù)集的三大核心組件——標(biāo)注(A)、指令(I)、回復(fù)對(R),提出可擴展的組件化優(yōu)化框架 AIR,并在 MT-Bench、ArenaHard、AlpacaEval 2.0 等 6 大評測集做了大規(guī)模、系統(tǒng)性的評測。

同時為了確保實驗結(jié)論可信,我們在不同的指令集、不同的標(biāo)注模型上做了驗證實驗。我們總結(jié)出如下三大設(shè)計原則:

偏好標(biāo)注:大道至簡,避免復(fù)雜標(biāo)注策略

我們從標(biāo)注模型架構(gòu)、標(biāo)注 Prompt 設(shè)計和解碼方式三個方面,分析了如何對偏好進(jìn)行有效標(biāo)注。

  • 標(biāo)注模型架構(gòu):我們分別用 SOTA 的分類式的獎勵模型(Skywork-Reward-Gemma-2-27B-v0.2; RewardBench: 94.3)和普通的生成式模型(Llama-3.1-70B-Instruct; RewardBench: 84.0)標(biāo)注偏好數(shù)據(jù)集,然后評測它們用于對齊的性能。我們發(fā)現(xiàn)盡管在 RewardBench 上得分較低,Llama-3.1-70B-Instruct 在所有 Benchmark 上的平均分比基于分類器的模型高 1.4(圖 2 左),這表明分類式獎勵模型可能過擬合了 RewardBench,而 RewardBench 同樣低估了生成式模型用于偏好標(biāo)注的泛化能力。
  • 標(biāo)注 Prompt 設(shè)計:對于用生成式模型標(biāo)注偏好,我們由簡單到復(fù)雜設(shè)計了六種標(biāo)注策略。從最簡單的單點打分(Single)開始,變成成對打分(Pair),加入評分手冊(Guided),讓模型先給出解釋再打分(Explained),提出多個細(xì)粒度問題再打分(Fine-Grained)。我們驚訝地發(fā)現(xiàn)最簡單的單點打分策略性能最佳(表 1)。這可能表明,在追求復(fù)雜標(biāo)注流程時,過多的人類要求引入了噪音,而使用簡約的標(biāo)注 Prompt 并利用標(biāo)注模型的固有判斷力,比使用復(fù)雜的標(biāo)注 Prompt 更契合真實世界的偏好信號,這和 DeepSeek-R1-Zero 在 Zero-RL 過程中使用的簡約 prompt 有著異曲同工之妙。
  • 標(biāo)注解碼方式:近期的研究中出現(xiàn)了多種聚合解碼方法,用以提高標(biāo)注的可靠性。如多樣本平均(計算多次高熱采樣的平均得分)和基于概率的加權(quán)(對輸出「0」到「9」的概率進(jìn)行加權(quán))。我們將這兩種方法與貪心解碼方法進(jìn)行了比較,如圖 2(右)所示,貪心解碼性能最佳。盡管它最簡單,但其平均得分比多樣本平均高出 1.9,比基于概率的加權(quán)高出 1.4。

圖片

圖 2:(左)生成式標(biāo)注性能超越 SOTA 分類器模型(+1.4),揭示 RewardBench 評估盲區(qū);(右)Greedy Decoding 效果優(yōu)于多次打分平均(+1.9)與概率加權(quán)(+1.4)

圖片

表 1:單點打分策略(Single-Basic)比復(fù)雜兩兩對比方案性能提升 +3.12

指令篩選:偏好數(shù)據(jù)需要能夠引發(fā)細(xì)粒度差異的指令

當(dāng)前指令篩選方法主要關(guān)注指令本身的靜態(tài)屬性(如質(zhì)量、難度、多樣性),卻忽視了動態(tài)的響應(yīng)一致性問題——同一指令在不同大語言模型中可能引發(fā)差異顯著的回復(fù)。這種響應(yīng)分歧會模糊偏好學(xué)習(xí)的信號邊界,降低對齊效率。

因此,我們探究了更高的指令推理穩(wěn)定性(即指令能夠引發(fā)不同 LLMs 回復(fù)之間更細(xì)粒度的差異)能否為模型對齊提供更有效的信號。

為了驗證這一點,我們提出了基于回復(fù)質(zhì)量方差的指令選擇方法,首先從不同的 LLMs 中采樣回復(fù),然后標(biāo)注他們的得分并計算方差,最后優(yōu)先選擇方差較低的指令。結(jié)果如圖 3(左)所示,僅僅篩選質(zhì)量較高的指令(InsTag Quality Filtering)并沒有顯著收益,而篩選低方差的指令取得了最佳性能,在 AlpacaEval 2(+3.7)和 ArenaHard(+4.6)上表現(xiàn)出色。這可能由于低方差的指令迫使模型學(xué)習(xí)細(xì)粒度偏好差異(如邏輯嚴(yán)謹(jǐn)性),而不會依賴于回答對之間明顯的差別,或簡單地對錯誤進(jìn)行修正。

我們還將指令篩選的分析擴展到了指令的結(jié)構(gòu)——具體來說,提高對話的輪數(shù)能否改善偏好學(xué)習(xí)的性能。為了驗證這一點,我們將單輪和多輪指令分開,并以與之前相同的方式構(gòu)建偏好對。結(jié)果如圖 3(右)所示,多輪上下文指令在 MT-Bench 第二輪中產(chǎn)生了提升(+0.7),但在其他單輪測試中改進(jìn)較小。這表明多輪指令增強了多輪對話的能力,但它的價值取決于未來的評測集是否會優(yōu)先衡量對話深度而不是單輪任務(wù)。

圖 3:(左)低方差指令表現(xiàn)最佳,在推理任務(wù)(ArenaHard,+4.6)和指令遵循(AlpacaEval 2,+3.7)上表現(xiàn)突出;(右)含有多輪上下文的指令在涉及多輪對話能力的評測集(如 MT-Bench Turn 2,+0.7)上效果較好,但在其他評測集上提升不明顯

回復(fù)對構(gòu)造:信號清晰性、回復(fù)質(zhì)量和策略多樣性的平衡

回復(fù)對的構(gòu)造必須平衡三個相互競爭的目標(biāo):(1)信號清晰性(正負(fù)樣本之間的對比應(yīng)該明確無誤)(2)回復(fù)質(zhì)量(回復(fù)應(yīng)該都具有足夠的質(zhì)量以避免無效比較)(3)策略對齊(混合 On-Policy 和 Off-Policy 回復(fù)以控制偏好學(xué)習(xí)時的分布偏移)。

  • 信號清晰性在 10 分制下,我們構(gòu)建了具有低(Δ=1)、中等(Δ=2 或 3)和高(Δ≥4)分?jǐn)?shù)差距的回復(fù)對,并平衡了各組之間的數(shù)據(jù)集規(guī)模。如圖 4(左)所示,中等差距在所有評測集的性能上實現(xiàn)了更高的平均性能(+1.29/+5.42)。這是因為正負(fù)樣本之間適度的差距提供了清晰的偏好信號,又不會過度簡化學(xué)習(xí)目標(biāo),從而避免了噪聲(低Δ)或過擬合(高Δ)。
  • 回復(fù)質(zhì)量:如圖 4(中)所示,在控制各組分?jǐn)?shù)差距的分布一致的前提下,高分回復(fù)對(正樣本分?jǐn)?shù)≥8)在所有基準(zhǔn)測試中都取得了最顯著的性能,總體上比低分回復(fù)對(正樣本分?jǐn)?shù)<7)高出 +9.35。這表明,高分回復(fù)對提供了更清晰的學(xué)習(xí)信號,因為兩個回復(fù)都是合格的且可區(qū)分的。而低分回復(fù)對存在放大低質(zhì)回復(fù)噪聲的風(fēng)險。
  • 策略對齊:一系列研究驗證了在偏好學(xué)習(xí)中,使用 On-Policy 樣本的有效性,但是在 DPO 訓(xùn)練中如何最好地混合 On-policy 和 Off-policy 的樣本仍然不確定。因此我們研究了不同混合策略的影響。我們比較了 4 種基于混合 On-Policy 樣本比例的混合策略。實驗結(jié)果如圖 4(右)所示,中等混合(所有回復(fù)對都包含一個 On-Policy 和一個 Off-Policy 的回復(fù))取得了最佳的性能。這表明,將 On-Policy 和 Off-Policy 回復(fù)適度混合,既能保證避免對靜態(tài)數(shù)據(jù)集的過擬合,又保持了偏好學(xué)習(xí)過程中策略的更新不會偏移。

圖片

圖 4:中等分?jǐn)?shù)差(左)、較高絕對分(中)、On/Off-Policy 1:1 混合(右)的偏好對效果最好

各組件之間協(xié)同帶來的綜合影響

為了量化我們發(fā)現(xiàn)的所有有效組件之間的協(xié)同效應(yīng),我們將各個組件逐步整合到偏好數(shù)據(jù)集中,并觀察偏好學(xué)習(xí)性能的逐步提升。

如圖 1(右)所示,當(dāng)我們逐步整合這些優(yōu)化后的標(biāo)注、回復(fù)組合和指令時,穩(wěn)步帶來了 +5.3 的平均性能提升。更改為單點打分策略和使用更高的絕對回復(fù)質(zhì)量分?jǐn)?shù)顯示出了顯著的改進(jìn)(+1.78,+1.6)。

由于最先進(jìn)模型訓(xùn)練使用的偏好數(shù)據(jù)集大小遠(yuǎn)大于我們這里使用的 14k 偏好數(shù)據(jù),因此可以預(yù)見將 AIR 框架下全部組件組合起來的 scaling law 將在更大的偏好數(shù)據(jù)集規(guī)模下繼續(xù)擴大。

結(jié)語

AIR 框架的提出,為偏好學(xué)習(xí)的科學(xué)化和系統(tǒng)化進(jìn)程提供了一種新的思路與方法。通過解構(gòu)標(biāo)注、指令和回復(fù)對三大核心要素,我們揭示了對齊性能提升的關(guān)鍵路徑。

這一創(chuàng)新標(biāo)志著偏好學(xué)習(xí)從盲目追求數(shù)據(jù)量到注重數(shù)據(jù)質(zhì)量和設(shè)計原則的飛躍,為構(gòu)建構(gòu)建高質(zhì)量的偏好數(shù)據(jù)集、更智能更可靠的 AI 系統(tǒng)奠定了堅實基礎(chǔ)。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2024-06-05 09:59:13

2015-02-28 10:26:54

JMP

2024-04-16 14:01:40

大型語言模型ORPO

2024-04-17 08:50:36

MusicLM音樂模型人工智能

2013-01-14 16:10:06

2024-10-23 09:00:00

2024-03-04 00:20:00

語言模型人工智能

2012-06-18 09:33:03

云計算IBM惠普

2018-08-20 20:40:52

2015-08-03 13:52:52

2016-10-24 22:57:05

2019-11-22 09:42:11

內(nèi)衣信息網(wǎng)頁

2023-08-22 13:21:07

AI算法

2024-12-27 11:52:25

GRAPEVLA 模型人工智能

2025-03-13 09:47:29

2016-10-24 22:50:56

GFS大數(shù)據(jù)Google

2024-12-23 16:16:39

火山引擎Align-IQAAIGC圖像

2011-09-20 09:50:21

英特爾云計算開放

2021-03-08 21:43:27

比特幣加密貨幣數(shù)字貨幣

2015-04-08 10:40:09

點贊
收藏

51CTO技術(shù)棧公眾號