自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

LLM超越人類時該如何對齊?谷歌用新RLHF框架解決了這個問題

人工智能 新聞
對基于 LLM 的 AI 來說,高質(zhì)量的人類數(shù)據(jù)非常關(guān)鍵,但已有研究預(yù)計這些高質(zhì)量數(shù)據(jù)將在未來幾年耗盡。

我們這個世界是不斷變化的開放世界。人工智能要在這個世界長久立足,就需要突破許多限制,包括可用數(shù)據(jù)和規(guī)模和質(zhì)量以及有用新信息的增長率。

對基于 LLM 的 AI 來說,高質(zhì)量的人類數(shù)據(jù)非常關(guān)鍵,但已有研究預(yù)計這些高質(zhì)量數(shù)據(jù)將在未來幾年耗盡。

圖片

如果 LLM 保持現(xiàn)在的發(fā)展勢頭,預(yù)計在 2028 年(中位數(shù))左右,已有的數(shù)據(jù)儲量將被全部利用完,來自論文《Will we run out of data? Limits of LLM scaling based on human-generated data》

此后,這類數(shù)據(jù)的質(zhì)量也將停滯不前:隨著 LLM 能力越來越強(qiáng),它們將能解決越來越復(fù)雜和越來越多的難題,而這些難題所需的訓(xùn)練數(shù)據(jù)已經(jīng)超出了人類的能力。

因此,我們就需要為 LLM 構(gòu)建一種能使其實現(xiàn)自我提升的基本機(jī)制,讓模型可以持續(xù)地自我生成和自我求解更困難的問題。

于是,問題就來了:語言模型能否自我創(chuàng)建可學(xué)習(xí)的新任務(wù),從而實現(xiàn)自我改進(jìn)以更好地泛化用于人類偏好對齊?

為了提升語言模型的對齊能力,人們已經(jīng)提出了許多偏好優(yōu)化算法,但它們都默認(rèn)使用固定的提示詞訓(xùn)練分布。這種固定的訓(xùn)練范式缺乏可擴(kuò)展性,并不可避免地導(dǎo)致泛化問題和效率問題。

基于這些考慮,谷歌 DeepMind 和芝加哥大學(xué)一個研究團(tuán)隊開發(fā)了一種可擴(kuò)展的開放式 RLHF 框架 eva,即 Evolving Alignment via Asymmetric Self-Play,也就是「通過非對稱自博弈實現(xiàn)的演進(jìn)式對齊」

  • 論文標(biāo)題:Evolving Alignment via Asymmetric Self-Play
  • 論文地址:https://arxiv.org/pdf/2411.00062

eva 能讓自我提升式語言模型的訓(xùn)練分布自動演進(jìn),如圖 1 所示。

圖片

eva 的核心方法

在介紹 eva 的核心方法之前,我們需要先了解一些前提設(shè)置,這里截圖如下:

圖片

概述地講,eva 可通過一個創(chuàng)建器(creator)將經(jīng)典 RLHF 擴(kuò)展成開放式 RLHF,該創(chuàng)建器使用易于實現(xiàn)的估計、采樣、進(jìn)化程序來調(diào)整提示詞的分布,模仿不對稱自博弈的最小最大遺憾(minimax-regret)策略。

圖片

圖片

原理:用于聯(lián)合自我提升的開放式 RLHF

直觀說明

經(jīng)典 RLHF 是在一個靜態(tài)提示詞分布上執(zhí)行優(yōu)化,這意味著智能體僅與固定的參考點對齊,這使得它難以對應(yīng)不斷變化的現(xiàn)實世界中的新問題。

新提出的開放式 RLHF 框架 eva 則打破了這個靜態(tài)設(shè)置,其目標(biāo)是開發(fā)出一種能很好地泛化到未曾見過的新環(huán)境的智能體。為此,該團(tuán)隊必須設(shè)計一個新的目標(biāo),而不僅僅是在一個固定數(shù)據(jù)集上執(zhí)行優(yōu)化。

形式化描述

π_φ (x) 是可優(yōu)化的提示詞生成策略,其會與響應(yīng)策略 π_θ (y | x) 一起被聯(lián)合優(yōu)化,如下所示:

圖片

其中,p_ref (x) 表示所有可能任務(wù)(通過提示詞實例化)的理想化的可能很難處理的概率,其可作為智能體可能遇到的任務(wù)的全部多樣性和復(fù)雜性的概念參考,同時用作對齊的指導(dǎo)目標(biāo)。此外,聯(lián)合優(yōu)化可確保任務(wù)分配和智能體的響應(yīng)策略同步更新,從而適應(yīng)日益復(fù)雜的任務(wù),進(jìn)而促進(jìn)泛化。

機(jī)制:通過創(chuàng)建器和求解器博弈實現(xiàn)非對稱自博弈

直觀說明

由于未指定的參考很難處理以及聯(lián)合微分存在不穩(wěn)定問題,因此 (7) 式很難直接優(yōu)化。為此,該團(tuán)隊提出了一種交替式的優(yōu)化方案,其做法是將該問題表述成一個非對稱的創(chuàng)建器 - 求解器博弈。

  • 直觀地講,創(chuàng)建器可以通過復(fù)雜度不斷增加的提示詞例程來指導(dǎo)求解器,從而實現(xiàn)高效和一般性的學(xué)習(xí),以處理現(xiàn)實任務(wù)的多樣性。
  • 從數(shù)學(xué)上看,這類似于通過期望最大化進(jìn)行的 RL 優(yōu)化,其中提示詞分布的 φ 在每個步驟中都是固定的。

形式化描述

該團(tuán)隊將這種交替優(yōu)化表述成了一種非對稱博弈,如下所示:

  • 創(chuàng)建器(Creator:提示詞博弈者 π_X,其作用是策略性地為求解器生成提示詞。 
  • 求解器(Solver:響應(yīng)博弈者 π_{Y|X}(或 π),其作用是學(xué)習(xí)生成更符合偏好的響應(yīng)。

該團(tuán)隊采用了 minimax regret 策略,其中求解器的目標(biāo)是最小化后悔值,而創(chuàng)建器則是為了最大化這個值,即當(dāng)前策略和最優(yōu)策略之間的獎勵之差為:

圖片

在納什均衡下,之前已有研究表明:

圖片

然而,如果無法獲得真正的最優(yōu)策略,就必須近似后悔值。利用隨機(jī)策略和獎勵信號,該團(tuán)隊設(shè)計了基于優(yōu)勢的代理函數(shù):

圖片

總之,eva 允許創(chuàng)建一個不斷演進(jìn)的提示詞分布,其難度會隨智能體的演進(jìn)而逐步提升。新引入的 minimax regret 可進(jìn)一步增加這種不斷發(fā)展的例程的穩(wěn)健性,其做法是激勵智能體在所有情況下都表現(xiàn)良好。他們使用了信息量代理來指導(dǎo)學(xué)習(xí)。

總之,eva 是將對齊視為一種非對稱博弈,其機(jī)制是創(chuàng)建器不斷挑戰(zhàn)求解器,而求解器則不斷學(xué)習(xí)提升。

實際的算法

下面說明如何實際實現(xiàn)算法 1 中的 eva。

1. 創(chuàng)建器步驟:估計,采樣,然后演進(jìn)

顯然,創(chuàng)建器會找到最有用的提示詞并生成它們的變體,并將這些變體用于偏好優(yōu)化。創(chuàng)建器的實現(xiàn)分為 3 步。

  • 第 1 步:info (?)—— 估計信息量。對于提示集 X) t 中的每個 x,生成響應(yīng)、注釋獎勵并通過 (10) 式估計 x 的信息量指標(biāo)。
  • 第 2 步:sample (?)—— 對富含信息的子集進(jìn)行加權(quán)采樣。使用信息量指標(biāo)作為權(quán)重,對富含信息的提示詞子集 X^info_t 進(jìn)行采樣,以便稍后執(zhí)行演進(jìn)。
  • 第 3 步:evolve (?)—— 為高優(yōu)勢提示詞執(zhí)行近端區(qū)域演進(jìn)。具體來說,迭代 X^info_t 中的每個提示詞,讓它們各自都演化為多個變體,然后(可選)將新生成的提示詞與對 X_t 的均勻采樣的緩存混合以創(chuàng)建 X′_t。

2. 求解器步驟:求解然后優(yōu)化

此步驟是經(jīng)典的偏好優(yōu)化,其中生成響應(yīng)并執(zhí)行梯度下降。以逐點獎勵模型設(shè)置為例,對于每個提示,采樣 n 個響應(yīng),每個響應(yīng)都帶有獎勵注釋;這里采用最大和最小獎勵的響應(yīng)來構(gòu)建偏好對,然后進(jìn)行優(yōu)化。

總之,eva 可以使用新的創(chuàng)建器模塊統(tǒng)一現(xiàn)有的迭代優(yōu)化工作流程,該模塊可以與求解器策略共享相同的網(wǎng)絡(luò),也可獨立運行。

實驗結(jié)果

這里我們僅關(guān)注實驗的主要結(jié)果,實驗設(shè)置請參看原論文。

總體而言,eva 在對齊方面取得了顯著的進(jìn)步,同時無需依賴任何人工數(shù)據(jù),因此更具效率。圖片是基礎(chǔ)設(shè)置,即一次迭代微調(diào)后的模型,eva 則會在此基礎(chǔ)上添加一個創(chuàng)建器,以實現(xiàn)初始迭代的提示詞集的自我演進(jìn),并使用一個偏好優(yōu)化算法進(jìn)行額外的開放式 RLHF 迭代,這會得到圖片。

圖片

eva 能實現(xiàn)自我提升

如表 1 紅色標(biāo)記所示,eva 在不同優(yōu)化算法中的表現(xiàn)顯著優(yōu)于基礎(chǔ)設(shè)置,尤其是在更難的 Arena-Hard 基準(zhǔn)上,該基準(zhǔn)由于其提示詞的復(fù)雜性和更公平的評分系統(tǒng)而被認(rèn)為更具挑戰(zhàn)性。

具體來說,eva 使用 SimPO 作為求解器時增益為 8.4%,使用 DPO 作為求解器時增益為 8.5%,超越了其 27B 版本并與 Arena-Hard 排行榜上報告的 claude-3-opus-240229 相當(dāng),同時還使用了全自動的提示詞生成進(jìn)行對齊。

圖片

eva 可以超越人工編寫的提示詞

實驗進(jìn)一步表明,使用 eva 提示詞訓(xùn)練的模型圖片的表現(xiàn)能夠比肩甚至超越那些使用了來自 UltraFeedback 的額外新提示詞訓(xùn)練的模型圖片,這可被視為是人類提示詞。同時,前者還能做到成本更低,速度更快。

此外,在 MT-Bench 上,使用新的人類提示詞進(jìn)行訓(xùn)練通常會在第一輪中表現(xiàn)出性能下降,在第二輪中也只會有適度的提升。相比之下,eva 能顯著提高第二輪的表現(xiàn)。

針對此現(xiàn)象,該團(tuán)隊給出了自己的假設(shè):eva 可演化出全新的可學(xué)習(xí)的提示詞,并且其中包含第二輪問題的特征,這表明 eva 涌現(xiàn)出了處理后續(xù)互動等新技能。

消融研究

為了驗證 eva 各組件的有效性,該團(tuán)隊也執(zhí)行了消融研究,下面我們簡單給出其發(fā)現(xiàn),詳細(xì)實驗過程請訪問原論文:

  • 信息量指標(biāo):新提出的基于后悔值的指標(biāo)優(yōu)于其它替代指標(biāo);
  • 采樣之后執(zhí)行演化的流程:新方法優(yōu)于貪婪選擇方法;
  • 使用獎勵模型進(jìn)行擴(kuò)展:eva 的對齊增益會隨獎勵模型而擴(kuò)展;
  • 持續(xù)訓(xùn)練:新提出的方法可通過增量訓(xùn)練獲得單調(diào)增益;eva 演化得到的數(shù)據(jù)和調(diào)度可用作隱式正則化器,從而實現(xiàn)更好的局部最小值。
責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-07-11 15:38:51

模型方案

2023-12-06 13:20:00

AI模型

2023-08-22 13:21:07

AI算法

2024-08-05 13:00:00

2023-09-05 12:59:33

模型數(shù)據(jù)

2024-02-26 08:21:51

CPUkafka死循環(huán)

2023-09-06 13:17:00

AI數(shù)據(jù)

2023-12-13 13:36:40

模型算力

2024-07-22 08:22:00

2017-05-10 11:42:27

人工智能

2024-04-25 07:00:00

2024-06-28 13:39:15

2025-02-13 09:00:00

2024-10-09 16:00:00

AI模型數(shù)據(jù)

2023-04-28 15:24:06

模型研究

2025-04-02 04:55:00

2024-09-23 14:46:27

2024-01-24 13:37:36

大型語言模型人工智能

2023-10-20 12:53:00

模型訓(xùn)練

2024-02-26 12:10:37

點贊
收藏

51CTO技術(shù)棧公眾號