綜合RLHF、DPO、KTO優(yōu)勢，統(tǒng)一對齊框架UNA來了

作者：機(jī)器之心 2024-10-09 16:00:00

UNA 的提出標(biāo)志著大規(guī)模語言模型對齊技術(shù)的一個重要進(jìn)展。

論文主要作者：

1. 王智超：本科就讀于廈門大學(xué)土木工程系，研究生博士就讀于佐治亞理工并獲得土木工程和計算機(jī)工程碩士及機(jī)械工程博士，現(xiàn)任職于 Salesforce，專注于 LLM Alignment。

2. 閉彬：本科就讀于華中科技大學(xué)計算機(jī)工程系，研究生就讀于香港大學(xué)計算機(jī)科學(xué)系，博士就讀于 UCLA 計算機(jī)科學(xué)系，現(xiàn)任職于 Salesforce，專注于 LLM Alignment。

3. 黃燦：廈門大學(xué)數(shù)學(xué)系副教授

隨著大規(guī)模語言模型的快速發(fā)展，如 GPT、Claude 等，LLM 通過預(yù)訓(xùn)練海量的文本數(shù)據(jù)展現(xiàn)了驚人的語言生成能力。然而，即便如此，LLM 仍然存在生成不當(dāng)或偏離預(yù)期的結(jié)果。這種現(xiàn)象在推理過程中尤為突出，常常導(dǎo)致不準(zhǔn)確、不符合語境或不合倫理的回答。為了解決這一問題，學(xué)術(shù)界和工業(yè)界提出了一系列對齊（Alignment）技術(shù)，旨在優(yōu)化模型的輸出，使其更加符合人類的價值觀和期望。

其中，RLHF 是一種廣泛使用的方法，依賴于從人類反饋中學(xué)習(xí)強(qiáng)化策略。RLHF 的流程包括兩個階段：首先，通過人類偏好數(shù)據(jù)訓(xùn)練獎勵模型（Reward Model, RM），然后使用該獎勵模型指導(dǎo)策略模型（Policy Model）的強(qiáng)化學(xué)習(xí)優(yōu)化。然而，RLHF 存在若干顯著問題，如高內(nèi)存占用、訓(xùn)練不穩(wěn)定以及流程復(fù)雜等。

為了解決 RLHF 的復(fù)雜性，DPO 方法被提出。DPO 簡化了 RLHF 的流程，將強(qiáng)化學(xué)習(xí)的訓(xùn)練階段轉(zhuǎn)化為一個二分類問題，減少了內(nèi)存消耗并提高了訓(xùn)練穩(wěn)定性。但 DPO 無法充分利用獎勵模型，且僅適用于成對的偏好數(shù)據(jù)，無法處理更為廣泛的反饋類型。

此外，KTO 進(jìn)一步擴(kuò)展了 DPO，能夠處理二元數(shù)據(jù)（如正向和負(fù)向反饋），但它同樣有其局限性，無法統(tǒng)一處理不同類型的反饋數(shù)據(jù)，也無法有效利用已有的獎勵模型。

在這種背景下，來自 Salesforce、廈門大學(xué)的研究團(tuán)隊(duì)提出了一種名為 UNA 的新方法，它通過一種通用的隱式獎勵函數(shù)，統(tǒng)一了當(dāng)前主流的大規(guī)模語言模型（LLM）對齊技術(shù)。主要包括 RLHF、DPO 和 KTO，這些技術(shù)的結(jié)合不僅簡化了模型的訓(xùn)練流程，還提高了模型對齊的性能，穩(wěn)定性和效率。

論文標(biāo)題：UNA: Unifying Alignments of RLHF/PPO, DPO and KTO by a Generalized Implicit Reward Function
論文地址：https://arxiv.org/abs/2408.15339

UNA 的創(chuàng)新點(diǎn)

UNA 的核心創(chuàng)新點(diǎn)在于通過一個（generalized implicit reward function）將 RLHF、DPO 和 KTO 統(tǒng)一為一個監(jiān)督學(xué)習(xí)問題。UNA 的創(chuàng)新體現(xiàn)在以下幾個方面：

推導(dǎo)通用的隱式獎勵函數(shù)：UNA 通過使用 RLHF 的目標(biāo)函數(shù)推導(dǎo)出一個通用的隱式獎勵函數(shù)。
簡化 RLHF 的流程：UNA 將傳統(tǒng) RLHF 中不穩(wěn)定且資源密集的強(qiáng)化學(xué)習(xí)過程轉(zhuǎn)化為一個穩(wěn)定的監(jiān)督學(xué)習(xí)過程，減少了訓(xùn)練的不穩(wěn)定性和對內(nèi)存的需求。
多種反饋數(shù)據(jù)的支持：UNA 能夠處理不同類型的反饋數(shù)據(jù)，包括成對反饋（pairwise feedback）、二元反饋（binary feedback）以及基于評分的反饋（score-based feedback）。

監(jiān)督學(xué)習(xí)框架的統(tǒng)一性：UNA 通過最小化隱式獎勵和顯式獎勵之間的差異，統(tǒng)一了對策略模型的優(yōu)化。

UNA 的理論基礎(chǔ)

UNA 的理論基礎(chǔ)源于對 RLHF 目標(biāo)函數(shù)的重新推導(dǎo)。研究人員證明，給定 RLHF 的經(jīng)典目標(biāo)函數(shù)，最優(yōu)策略可以通過一個隱式的獎勵函數(shù)來誘導(dǎo)。該隱式獎勵函數(shù)是策略模型與參考策略之間的對比結(jié)果，通過這個函數(shù)，UNA 能夠?qū)⒉煌愋偷莫剟钚畔⒄系浇y(tǒng)一的框架中進(jìn)行處理。

實(shí)驗(yàn)結(jié)果與性能表現(xiàn)

研究人員通過一系列實(shí)驗(yàn)驗(yàn)證了 UNA 的有效性和優(yōu)越性。在多個下游任務(wù)中，UNA 相較于傳統(tǒng)的 RLHF、DPO 和 KTO 都有顯著的性能提升，特別是在訓(xùn)練速度、內(nèi)存占用和任務(wù)表現(xiàn)等方面。以下是實(shí)驗(yàn)結(jié)果的主要亮點(diǎn)：

任務(wù)表現(xiàn)：在多個語言理解任務(wù)和生成任務(wù)中，UNA 的表現(xiàn)優(yōu)于 RLHF 和 DPO。例如，在 Huggingface 的 Open LLM Leadboard 數(shù)據(jù)集上的測試中，UNA 在多個評價指標(biāo)上超越了 RLHF 和 DPO，表現(xiàn)出了更強(qiáng)的對齊能力和任務(wù)適應(yīng)性。
訓(xùn)練速度：由于 UNA 將 RLHF 中的強(qiáng)化學(xué)習(xí)任務(wù)轉(zhuǎn)化為一個監(jiān)督學(xué)習(xí)問題，其訓(xùn)練速度提高了近一倍。
內(nèi)存占用：UNA 的內(nèi)存消耗顯著低于 RLHF。由于 UNA 不再需要維護(hù)多個模型（如策略模型、參考策略、獎勵模型和價值模型），其內(nèi)存占用大幅減少，尤其在處理大規(guī)模模型時，這種優(yōu)勢尤為明顯。

總結(jié)

UNA 的提出標(biāo)志著大規(guī)模語言模型對齊技術(shù)的一個重要進(jìn)展。通過統(tǒng)一 RLHF、DPO 和 KTO，UNA 不僅簡化了模型的訓(xùn)練流程，還提高了訓(xùn)練的穩(wěn)定性和效率。其通用的隱式獎勵函數(shù)為模型的對齊提供了一個統(tǒng)一的框架，使得 UNA 在處理多樣化反饋數(shù)據(jù)時具有更強(qiáng)的適應(yīng)性和靈活性。實(shí)驗(yàn)結(jié)果表明，UNA 在多個下游任務(wù)中表現(xiàn)優(yōu)越，為語言模型的實(shí)際應(yīng)用提供了新的可能性。未來，隨著 UNA 的進(jìn)一步發(fā)展，預(yù)期它將在更多的應(yīng)用場景中展現(xiàn)出強(qiáng)大的能力。

責(zé)任編輯：張燕妮來源：機(jī)器之心