無需RLHF顯著提升GPT-4/Llama2性能，北大團(tuán)隊提出Aligner對齊新范式

作者：機器之心 2024-02-07 12:13:03

對齊新范式：修正未對齊的答案比生成對齊的回答更容易。

背景

大語言模型（LLMs）雖展現(xiàn)出了強大的能力，但也可能產(chǎn)生不可預(yù)測和有害的輸出，例如冒犯性回應(yīng)、虛假信息和泄露隱私數(shù)據(jù)，給用戶和社會造成傷害。確保這些模型的行為與人類意圖和價值觀相對齊，是一個緊迫的挑戰(zhàn)。

盡管基于人類反饋的強化學(xué)習(xí)（RLHF）提供了一種解決方案，但它面臨復(fù)雜的訓(xùn)練架構(gòu)、對參數(shù)的高敏感性，以及獎勵模型在不同數(shù)據(jù)集上的不穩(wěn)定性等多重挑戰(zhàn)。這些因素導(dǎo)致 RLHF 技術(shù)實現(xiàn)難、奏效難、復(fù)現(xiàn)難。

為了克服這些挑戰(zhàn)，北京大學(xué)團(tuán)隊提出了一種新的高效對齊范式 ——Aligner，其核心在于學(xué)習(xí)答案對齊與未對齊之間的修正殘差，從而繞過繁瑣的 RLHF 流程。

借鑒殘差學(xué)習(xí)和可擴展監(jiān)督的思想，Aligner 通過簡單的復(fù)制和殘差修正步驟簡化了對齊過程，使用 Seq2Seq 模型學(xué)習(xí)隱式殘差，以優(yōu)化對齊效果。

相較于 RLHF 需要訓(xùn)練多個模型的復(fù)雜性，Aligner 僅通過在待對齊模型后附加一個額外模塊即可實現(xiàn)對齊，且所需計算資源主要取決于對齊效果的期望，并非上游模型的規(guī)模。實驗表明，使用 Aligner-7B 能顯著提高 GPT-4 的幫助性和安全性，分別增加了 17.5% 和 26.9%。

此外，利用 Aligner 框架，作者通過弱模型（Aligner-13B）監(jiān)督信號增強強模型（Llama-70B）性能，實現(xiàn)了 weak-to-strong 泛化，為超級對齊提供了實踐方案。

論文地址：https://arxiv.org/abs/2402.02416
項目主頁 & 開源地址：https://aligner2024.github.io
題目：Aligner : Achieving Efficient Alignment through Weak-to-Strong Correction

什么是 Aligner?

基于核心洞察：

Correcting unaligned answer is easier than generating aligned answers.

修正未對齊的回答要比生成對齊的回答容易。

作為一種高效的對齊方法，Aligner 具備以下優(yōu)秀特性：

作為一個自回歸 Seq2Seq 模型，Aligner 在問題-答案-修正后的答案（Query-Answer-Correction, Q-A-C）數(shù)據(jù)集上訓(xùn)練，學(xué)習(xí)對齊與未對齊答案之間的差異，從而實現(xiàn)了更精準(zhǔn)的模型對齊。例如，在對齊 70B LLM 時，Aligner-7B 大規(guī)模降低了訓(xùn)練參數(shù)量，相較于 DPO 小 16.67 倍，比 RLHF 小 30.7 倍。
Aligner 范式實現(xiàn)了從弱到強的泛化，采用高較小參數(shù)量的 Aligner 模型監(jiān)督信號微調(diào)參數(shù)量大的 LLMs ，顯著提升了強模型的性能。例如，利用 Aligner-13B 監(jiān)督下微調(diào) Llama2-70B，其幫助性和安全性分別提升了 8.2% 和 61.6%。
由于 Aligner 即插即用的特性以及它對模型參數(shù)并不敏感，它能夠?qū)R如 GPT3.5、GPT4 和 Claude2，這些無法獲取參數(shù)的模型。僅一次訓(xùn)練，Aligner-7B 對齊并提升了包括閉源、開源及安全 / 未安全對齊模型在內(nèi)的 11 種模型的幫助性和安全性。其中 Aligner-7B 顯著提升了 GPT-4 的幫助性和安全性，分別提高了 17.5% 和 26.9%。

Aligner 總體性能表現(xiàn)

作者展現(xiàn)了各個尺寸的 Aligner（7B，13B，70B）在基于 API 的模型、開源模型（包括經(jīng)過安全對齊和未經(jīng)過安全對齊）均能提升性能表現(xiàn)?？傮w來說，隨著模型變大，Aligner 的性能逐步提升，并且修正時所能提供的信息密度逐漸增大，這也使得修正后的答案更加安全且具有幫助性。

怎么訓(xùn)練一個 Aligner 模型？

1.Query-Answer (Q-A) 數(shù)據(jù)收集

作者從各種開源數(shù)據(jù)集中獲取 Query，包括 Stanford Alpaca、ShareGPT、HH-RLHF 以及其他用戶共享對話。這些問題經(jīng)歷了重復(fù)模式去除和質(zhì)量過濾的過程，用于后續(xù)的答案和更正的答案生成。未修正的回答則是使用各種開源模型生成的，如 Alpaca-7B、Vicuna-（7B，13B，33B）、Llama2-(7B,13B)-Chat, and Alpaca2-(7B,13B)。

2. 答案修正

作者使用 GPT-4、Llama2-70B-Chat 和人工標(biāo)注來根據(jù)大語言模型的 3H 標(biāo)準(zhǔn)（幫助性、安全性、誠實性）來修正 Q-A 數(shù)據(jù)集中的答案。

對于已符合標(biāo)準(zhǔn)的答案，保持原樣。修改過程基于一系列定義明確的原則，從而為 Seq2Seq 模型的訓(xùn)練建立了約束條件，重點在于提升回答的幫助性和安全性。答案的修正前后分布變化明顯，下圖清晰展示了修改對數(shù)據(jù)集的影響：

3. 模型訓(xùn)練

基于上述過程，作者構(gòu)建了新的修正數(shù)據(jù)集，其中表示用戶的問題，是問題的原始答案，是根據(jù)既定原則修正的答案。

模型訓(xùn)練過程相對簡單。作者訓(xùn)練一個由參數(shù)化的條件 Seq2Seq 模型，使得原始答案重分布到對齊的答案。

基于上游大語言模型的對齊答案生成過程為:

訓(xùn)練的 loss 如下：

其中第 2 項與 Aligner 參數(shù)無關(guān)，Aligner 的訓(xùn)練目標(biāo)可以推導(dǎo)為：

下圖動態(tài)地展示了 Aligner 的中間過程：

值得注意的是，Aligner 在訓(xùn)練和推理階段都不需要訪問上游模型的參數(shù)。Aligner 的推理過程只需要獲取用戶的問題和上游大語言模型生成的初始答案，然后生成更符合人類價值觀的答案。

修正現(xiàn)有答案而不是直接回答，這使得 Aligner 能夠容易地與人類價值觀對齊，從而顯著降低了對模型能力的要求。

Aligner 與現(xiàn)有對齊范式對比

Aligner vs SFT

與 Aligner 相反，SFT 直接從 Query 語義空間創(chuàng)建到 Answer 語義空間的跨域映射，這個過程學(xué)習(xí)依賴于上游模型來推斷和模擬語義空間中的各種上下文，這比學(xué)習(xí)修正信號要難得多。

Aligner 訓(xùn)練范式可以被認(rèn)為是一種殘差學(xué)習(xí)（殘差修正）形式，作者在 Aligner 中創(chuàng)建「復(fù)制（copy）+ 修正（correct）」學(xué)習(xí)范式。因此，Aligner 在本質(zhì)上創(chuàng)建了從回答語義空間到修正的回答的語義空間的殘差映射，這兩個語義空間在分布上更接近。

為此，作者從 Q-A-C 訓(xùn)練數(shù)據(jù)集中以不同比例構(gòu)造了 Q-A-A 數(shù)據(jù)，訓(xùn)練 Aligner 進(jìn)行恒等映射學(xué)習(xí)（也稱為 copy mapping）（稱為預(yù)熱步驟）。在此基礎(chǔ)上，使用整個 Q-A-C 訓(xùn)練數(shù)據(jù)集進(jìn)行訓(xùn)練，這種殘差學(xué)習(xí)范式，也被 ResNet 中采用用來解決堆疊過深的神經(jīng)網(wǎng)絡(luò)導(dǎo)致的梯度消失的問題。實驗結(jié)果表明：當(dāng)預(yù)熱比例為 20% 時，模型能夠獲得最佳表現(xiàn)。

Aligner vs RLHF

RLHF 通過在人類偏好數(shù)據(jù)集上訓(xùn)練獎勵模型（RM），并利用這個獎勵模型來進(jìn)行 PPO 算法微調(diào) LLMs，從而使 LLMs 和人類偏好的行為相一致。

具體而言，獎勵模型需要將人類偏好數(shù)據(jù)從離散映射到連續(xù)的數(shù)值空間以進(jìn)行優(yōu)化，但是相較于在文本空間具有較強泛化能力的 Seq2Seq 模型，這類數(shù)值獎勵模型在文本空間的泛化能力較弱，從而導(dǎo)致了 RLHF 在不同的模型上效果不穩(wěn)定。

而 Aligner 通過訓(xùn)練一個 Seq2Seq 模型來學(xué)習(xí)對齊和未對齊答案之間的差異性（殘差），從而有效的避開了 RLHF 過程，并取得了比 RLHF 更具備泛化性的表現(xiàn)。

Aligner vs. Prompt Engineering

提示詞工程（Prompt Engineering ）是激發(fā) LLMs 能力的常見方法，然而這種方法存在著一些關(guān)鍵問題，如：難以設(shè)計 prompt，且需要針對不同模型進(jìn)行不同設(shè)計，最終效果依賴于模型的能力，當(dāng)模型能力不足以解決任務(wù)時，可能需要多次迭代，浪費上下文窗口，小模型的上下文窗口受限會影響到提示詞工程的效果，而對于大模型而言，占用過長的上下文極大增加了訓(xùn)練的成本。

Aligner 本身可以支持任意模型的對齊，經(jīng)過一次訓(xùn)練可以對齊 11 類不同類型的模型，并且能夠不占用原模型的上下文窗口。值得注意的是，Aligner 可以與現(xiàn)有的提示詞工程方法無縫結(jié)合起來，達(dá)到 1+1>2 的效果。

總的來說：Aligner 展現(xiàn)出了以下顯著優(yōu)勢：

1.Aligner 訓(xùn)練更加簡單。相較于 RLHF 復(fù)雜的獎勵模型學(xué)習(xí)及基于該模型的強化學(xué)習(xí)（RL）微調(diào)過程，Aligner 的實現(xiàn)過程更為直接且易于操作。反觀 RLHF 中涉及的多項工程調(diào)參細(xì)節(jié)以及 RL 算法的固有不穩(wěn)定性和超參數(shù)敏感性，Aligner 大大簡化了工程復(fù)雜度。

2.Aligner 訓(xùn)練數(shù)據(jù)少且對齊效果明顯。基于 20K 數(shù)據(jù)訓(xùn)練一個 Aligner-7B 的模型，可以提升 GPT-4 在幫助性方面 12% 以及安全性方面 26%，并提升 Vicuna 33B 模型 29% 的幫助性以及 45.3% 的安全性，而 RLHF 需要更多的偏好數(shù)據(jù)，并需要精細(xì)化的調(diào)參才有望達(dá)到這個效果。

3.Aligner 不需要接觸模型權(quán)重。雖然 RLHF 在模型對齊方面被證明有效，但依賴于對模型直接訓(xùn)練。面對未開源的 API-based 模型如 GPT-4 及其在下游任務(wù)中的微調(diào)需求，RLHF 的適用性受限。相反，Aligner 無需直接操作模型原始參數(shù)，通過將對齊需求外置于一個獨立的對齊模塊中，實現(xiàn)了靈活的對齊方式。

4.Aligner 對模型類型無感。在 RLHF 框架下，針對不同模型（如 Llama2，Alpaca）的微調(diào)不僅需要重新收集偏好數(shù)據(jù)，還需在獎勵模型訓(xùn)練及 RL 階段調(diào)整訓(xùn)練參數(shù)。而 Aligner 通過一次性訓(xùn)練，可以支持任意模型的對齊。例如，僅需要在修正數(shù)據(jù)集上訓(xùn)練一次，Aligner-7B 可以對齊 11 種不同模型（包括開源模型、API 模型如 GPT），并在幫助性和安全性方面分別提升 21.9% 和 23.8% 性能。

5.Aligner 對訓(xùn)練資源的需求更加靈活。RLHF 微調(diào)一個 70B 的模型仍然對計算資源有著極高的要求，需要數(shù)百個 GPU 卡才能進(jìn)行。因為 RLHF 方法還需要額外加載與模型參數(shù)量相當(dāng)?shù)莫剟钅Ｐ汀ctor 模型及 Critic 模型。因此，就單位時間內(nèi)的訓(xùn)練資源消耗而言，RLHF 實際上需要比預(yù)訓(xùn)練更多的計算資源。

相較之下，Aligner 提供了更為靈活的訓(xùn)練策略，允許用戶根據(jù)自身的實際計算資源情況，靈活選擇 Aligner 的訓(xùn)練規(guī)模。例如，針對一個 70B 模型的對齊需求，用戶可以根據(jù)實際可用的資源選擇不同規(guī)模的 Aligner 模型（7B、13B、70B 等），以實現(xiàn)目標(biāo)模型的有效對齊。

這種靈活性不僅降低了對計算資源的絕對需求，也為用戶提供了在有限資源下進(jìn)行高效對齊的可能性。

Weak-to-strong Generalization

Weak-to-strong generalization 討論的問題在于能否使用弱模型的標(biāo)簽訓(xùn)練強模型，使得強模型在性能上有所提升。OpenAI 使用這一類比旨在解決超對齊（SuperAlignment）的問題，具體來說，他們使用真值標(biāo)簽（groud truth）訓(xùn)練弱模型。

OpenAI 的研究人員進(jìn)行了一些初步實驗，例如在文本分類（text classfication）的任務(wù)上，訓(xùn)練數(shù)據(jù)集被分為了兩部分，前半部分的輸入和真值標(biāo)簽被用來訓(xùn)練弱模型，而后半部分的訓(xùn)練數(shù)據(jù)僅保留輸入，標(biāo)簽由弱模型產(chǎn)生。在訓(xùn)練強模型時僅使用弱模型產(chǎn)生的弱標(biāo)簽為強模型提供監(jiān)督信號。

使用真值標(biāo)簽訓(xùn)練弱模型是為了使弱模型獲得解決相應(yīng)任務(wù)的能力，但是用于產(chǎn)生弱標(biāo)簽的輸入和訓(xùn)練弱模型的輸入并不相同。這種范式類似于「教學(xué)」的概念，即用弱模型來指導(dǎo)強模型。

作者基于 Aligner 的性質(zhì)，提出了一種新穎的 weak-to-strong generalization 范式。

作者的核心觀點是讓 Aligner 充當(dāng) 「站在巨人肩膀上的監(jiān)督員」。與 OpenAI 直接監(jiān)督「巨人」的方法不同，Aligner 將通過弱到強的修正，修正更強的模型在這一過程中提供更準(zhǔn)確的標(biāo)簽。

具體來說，在 Aligner 的訓(xùn)練過程中，修正數(shù)據(jù)包含 GPT-4、人類標(biāo)注員和更大的模型標(biāo)注。隨后，作者使用 Aligner 在新的 Q-A 數(shù)據(jù)集上生成弱標(biāo)簽（即修正）；進(jìn)而使用弱標(biāo)簽對原模型進(jìn)行微調(diào)。

實驗結(jié)果表明這一范式可以進(jìn)一步提升模型的對齊表現(xiàn)。

實驗結(jié)果

Aligner vs SFT/RLHF/DPO

作者使用 Aligner 的 Query-Answer-Correction 訓(xùn)練數(shù)據(jù)集，分別通過 SFT/RLHF/DPO 方法對 Alpaca-7B 進(jìn)行微調(diào)。

進(jìn)行性能評估時，使用開源的 BeaverTails 和 HarmfulQA 的測試 prompt 數(shù)據(jù)集，將微調(diào)后模型生成的回答與對原始 Alpaca-7B 模型的回答使用 Aligner 進(jìn)行修正后產(chǎn)生的回答，在幫助性和安全性方面進(jìn)行比較，結(jié)果如下：

實驗結(jié)果表明，Aligner 對比諸如 SFT/RLHF/DPO 這樣成熟的 LLM 對齊范式具有明顯的優(yōu)勢，在幫助性和安全性這兩個指標(biāo)上均有顯著領(lǐng)先。

分析具體的實驗案例，可以發(fā)現(xiàn)，使用 RLHF/DPO 范式微調(diào)的對齊模型，為了提升安全性可能更傾向于產(chǎn)生保守的回答，而在提升幫助性的過程中又無法兼顧安全性，導(dǎo)致回答中的危險信息增加。

Aligner vs Prompt Engineering

對比 Aligner-13B 與 CAI / Self-Critique 方法對同一上游模型的性能提升，實驗結(jié)果如下圖所示：Aligner-13B 對 GPT-4 在幫助性和安全性兩方面的提升，均高于 CAI/Self-Critique 方法，這說明 Aligner 范式相較于常用 prompt engineering 方法具有明顯優(yōu)勢。

值得注意的是，實驗中僅在推理時使用 CAI prompts，以鼓勵其自我修改答案，這也是 Self-Refine 的形式之一。

除此之外，作者還進(jìn)行了進(jìn)一步探究，他們對使用 CAI 方法修正后的回答再經(jīng)過 Aligner 進(jìn)行修正，并將經(jīng)過 Aligner 前后的回答進(jìn)行直接比較，實驗結(jié)果如下圖所示。

Method A：CAI + Aligner Method B：CAI only

使用 Aligner 對 CAI 修正后的回答進(jìn)行二次修正后，回答在不損失安全性的同時，在幫助性方面的獲得了極為顯著的提升。這說明 Aligner 不僅在單獨使用時具有很強的競爭力，還能與其他現(xiàn)有對齊方法結(jié)合，進(jìn)一步提升其性能。

Weak-to-strong Generalization

Method：weak-to-strong 訓(xùn)練數(shù)據(jù)集由（q，a，a′）三元組組成，其中 q 表示來自 Aligner 訓(xùn)練數(shù)據(jù)集 - 50K 的問題，a 表示 Alpaca-7B 模型生成的答案，a′表示 Aligner-7B 給定的對齊答案（q，a）。與僅利用 a′作為基本事實標(biāo)簽的 SFT 不同，在 RLHF 和 DPO 訓(xùn)練中，a′被認(rèn)為比 a 更好。

作者在新的 Q-A 數(shù)據(jù)集上用 Aligner 對原回答進(jìn)行修正，將修正后的回答作為弱標(biāo)簽，并用這些弱標(biāo)簽作為監(jiān)督信號訓(xùn)練更大尺寸的模型。這一過程和 OpenAI 的訓(xùn)練范式是類似的。

作者通過三種方法基于弱標(biāo)簽對強模型進(jìn)行訓(xùn)練：SFT、RLHF 和 DPO。上表的實驗結(jié)果顯示，通過 SFT 微調(diào)上游模型時，Aligner-7B 和 Aligner-13B 的弱標(biāo)簽在所有場景中都提高了 Llama2 系列強模型的性能。

展望：Aligner 潛在的研究方向

Aligner 作為一種創(chuàng)新的對齊方法，擁有巨大的研究潛力。在論文中，作者提出了幾種 Aligner 的應(yīng)用場景，包括：

1. 多輪對話場景的應(yīng)用。在多輪對話中，面對稀疏獎勵的挑戰(zhàn)尤為突出。在問答式對話（QA）中，通常只有在對話結(jié)束時才能獲得標(biāo)量形式的監(jiān)督信號。

這種稀疏性在多輪對話（例如連續(xù)的 QA 場景）中的問題會進(jìn)一步放大，導(dǎo)致基于強化學(xué)習(xí)的人類反饋（RLHF）難以發(fā)揮效果。研究 Aligner 在改善多輪對話對齊效果方面的潛力，是一個值得深入探索的領(lǐng)域。

2. 人類價值向獎勵模型的對齊。在基于人類偏好的獎勵模型構(gòu)建和大型語言模型（LLMs）微調(diào)的多階段過程中，確保 LLMs 與特定的人類價值（例如公平性、共情等）對齊面臨巨大挑戰(zhàn)。

通過將價值對齊任務(wù)交由模型外的 Aligner 對齊模塊處理，并利用特定語料訓(xùn)練 Aligner，不僅為價值對齊提供了新的思路，還使 Aligner 能夠修正前置模型的輸出以反映特定的價值觀。

3.MoE-Aligner 的流式化和并行處理。通過將 Aligner 專門化處理并集成，可以創(chuàng)建更強大且全面的混合專家（MoE）Aligner，這種 Aligner 能夠滿足多重混合安全及價值對齊需求。同時，進(jìn)一步提高 Aligner 的并行處理能力，以減少推理時間的損耗，是一個可行的發(fā)展方向。

4. 模型訓(xùn)練過程中的融合。通過在特定的權(quán)重層后集成 Aligner 層，可以實現(xiàn)對模型訓(xùn)練過程中輸出的實時干預(yù)。這種方法不僅能提高對齊效率，還有助于優(yōu)化模型訓(xùn)練流程，實現(xiàn)更高效的模型對齊。

團(tuán)隊介紹

該工作由北京大學(xué)人工智能研究院 AI 安全與治理中心楊耀東課題組獨立完成。團(tuán)隊深耕大語言模型的對齊技術(shù)，包括開源百萬級安全對齊偏好數(shù)據(jù)集 BeaverTails（NeurIPS 2023）、大語言模型的安全對齊算法 SafeRLHF（ICLR 2024 Spotlight），相關(guān)技術(shù)已被多個開源模型采納。撰寫業(yè)內(nèi)首個人工智能對齊的全面性綜述并配套了資源網(wǎng)站 www.alignmentsurvey.com（點擊原文可直接跳轉(zhuǎn)），系統(tǒng)性的闡述了 Learning from Feedback、Learning under Distribution Shift，Assurance，Governance 四個視角下的 AI 對齊問題。該團(tuán)隊關(guān)于對齊與超對齊的觀點被采編為 2024 年第 5 期《三聯(lián)生活周刊》封面。

責(zé)任編輯：張燕妮來源：機器之心

AI 模型

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

無需RLHF顯著提升GPT-4/Llama2性能，北大團(tuán)隊提出Aligner對齊新范式

背景