自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

RLHF vs RL「AI」F,谷歌實(shí)證:大模型訓(xùn)練中人類反饋可被AI替代

人工智能 新聞
眾所周知,RLHF 是 ChatGPT 和 Bard 等 LLM 成功路上不可或缺的重要一環(huán),而現(xiàn)在谷歌的一項(xiàng)研究表明可以把 RLHF 中的 H(人類)替換成 AI,而且新提出的根據(jù)人工智能反饋的強(qiáng)化學(xué)習(xí)(RLAIF)在實(shí)驗(yàn)中的表現(xiàn)大體上與 RLHF 接近??梢灶A(yù)見,如果這項(xiàng)技術(shù)的有效性得到進(jìn)一步驗(yàn)證,人類離 LLM 的訓(xùn)練流程又會(huì)更遠(yuǎn)一步,同時(shí) AI 訓(xùn)練 AI 的構(gòu)想也會(huì)更接近現(xiàn)實(shí)。

根據(jù)人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)是一種對(duì)齊語言模型與人類偏好的有效技術(shù),而且其被認(rèn)為是 ChatGPT 和 Bard 等現(xiàn)代對(duì)話語言模型的成功的關(guān)鍵驅(qū)動(dòng)因素之一。通過使用強(qiáng)化學(xué)習(xí)(RL)進(jìn)行訓(xùn)練,語言模型可以優(yōu)化用于復(fù)雜的序列級(jí)目標(biāo) —— 使用傳統(tǒng)的監(jiān)督式微調(diào)時(shí),這些目標(biāo)不是輕易可微的。

在擴(kuò)展 RLHF 方面,對(duì)高質(zhì)量人類標(biāo)簽的需求是一大障礙;而且人們很自然地會(huì)問:生成的標(biāo)簽是否也能得到可媲美的結(jié)果?

一些研究表明大型語言模型(LLM)能與人類判斷高度對(duì)齊 —— 在某些任務(wù)上甚至優(yōu)于人類。

2022 年,Bai et al. 的論文《Constitutional AI: Harmlessness from AI Feedback》最早提出使用 AI 偏好來訓(xùn)練用于強(qiáng)化學(xué)習(xí)微調(diào)的獎(jiǎng)勵(lì)模型,該技術(shù)被稱為根據(jù)人工智能反饋的強(qiáng)化學(xué)習(xí)(RLAIF)。這項(xiàng)研究表明,通過混合使用人類與 AI 偏好,并組合 Constitutional AI 自我修正技術(shù),可讓 LLM 的表現(xiàn)超越使用監(jiān)督式微調(diào)的方法。不過他們的研究并未直接對(duì)比使用人類反饋和 AI 反饋時(shí)的效果,于是能否使用 RLAIF 適當(dāng)?shù)靥娲?RLHF 就仍舊是一個(gè)有待解答的問題。

Google Research 決定填補(bǔ)這一空白,憑借強(qiáng)大的實(shí)驗(yàn)資源,他們直接比較了 RLAIF 和 RLHF 方法在摘要任務(wù)上的表現(xiàn)。

論文:https://arxiv.org/pdf/2309.00267.pdf

給定一段文本和兩個(gè)候選響應(yīng),研究者使用現(xiàn)有的 LLM 為其分配一個(gè)偏好標(biāo)簽。然后再基于該 LLM 偏好,使用對(duì)比損失訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型(RM)。最后,他們使用該 RM 來提供獎(jiǎng)勵(lì),通過強(qiáng)化學(xué)習(xí)方法微調(diào)得到一個(gè)策略模型。

結(jié)果表明,RLAIF 能與 RLHF 媲美,這體現(xiàn)在兩個(gè)方面:

圖片

一、谷歌觀察到,RLAIF 和 RLHF 策略分別在 71% 和 73% 的時(shí)間里比監(jiān)督式微調(diào)(SFT)基準(zhǔn)更受人類青睞,而這兩個(gè)勝率在統(tǒng)計(jì)學(xué)意義上沒有顯著差別。

二、當(dāng)被要求直接比較 RLAIF 與 RLHF 的結(jié)果時(shí),人類對(duì)兩者的偏好大致相同(即 50% 勝率)。這些結(jié)果表明 RLAIF 可以替代 RLHF,其不依賴于人類標(biāo)注,并且具有良好的擴(kuò)展性。

此外,該團(tuán)隊(duì)還研究了能盡可能使 AI 生成的偏好與人類偏好對(duì)齊的技術(shù)。他們發(fā)現(xiàn),通過 prompt 為 LLM 提供詳細(xì)的指示并借助思維鏈推理能提升對(duì)齊效果。

他們觀察到了出乎意料的現(xiàn)象:少樣本上下文學(xué)習(xí)和自我一致性(采樣多個(gè)思維鏈原理并對(duì)最終偏好進(jìn)行平均的過程)都不能提升準(zhǔn)確度,甚至?xí)?dǎo)致準(zhǔn)確度下降。

他們還進(jìn)行了縮放實(shí)驗(yàn),以量化打標(biāo)簽 LLM 的大小與偏好示例數(shù)量之間的權(quán)衡。

這項(xiàng)研究的主要貢獻(xiàn)包括:

  • 基于摘要任務(wù)表明 RLAIF 能取得與 RLHF 相當(dāng)?shù)谋憩F(xiàn)。
  • 比較了多種用于生成 AI 標(biāo)簽的技術(shù),并為 RLAIF 實(shí)踐者確定了最優(yōu)設(shè)置。

RLAIF 方法

這一節(jié)將描述使用 LLM 生成偏好標(biāo)簽的技術(shù)、執(zhí)行強(qiáng)化學(xué)習(xí)的方法以及評(píng)估指標(biāo)。

圖片

使用 LLM 標(biāo)記偏好

谷歌在實(shí)驗(yàn)中的做法是使用一個(gè)現(xiàn)成可用的 LLM 來在成對(duì)的候選項(xiàng)中標(biāo)記偏好。給定一段文本和兩個(gè)候選摘要,LLM 的任務(wù)是評(píng)判哪個(gè)摘要更好。LLM 的輸入的結(jié)構(gòu)如下(表 1 給出了一個(gè)示例):

圖片

  1. 序言 —— 描述當(dāng)前任務(wù)的介紹和指示
  2. 少樣本示例(可選)—— 一段示例文本、兩個(gè)摘要、一個(gè)思維鏈原理(如果可用)和一個(gè)偏好判斷
  3. 所要標(biāo)注的樣本 —— 一段文本和一對(duì)要標(biāo)記的摘要
  4. 結(jié)尾 —— 一段用于提示 LLM 的結(jié)束字符串(如 Preferred Summary=)

通過為 LLM 提供輸入而得到的偏好結(jié)果 1 和 2,可以得到生成 1 和 2 的對(duì)數(shù)概率,然后計(jì)算 softmax,得到偏好分布。

從 LLM 獲取偏好標(biāo)簽的方法有很多,比如從模型中解碼自由形式的響應(yīng)并以啟發(fā)式方法提取偏好(比如輸出 =「第一個(gè)偏好更好」)或?qū)⑵梅植急硎境梢粋€(gè)單樣本表征。但是,谷歌這個(gè)團(tuán)隊(duì)并未實(shí)驗(yàn)這些方法,因?yàn)樗麄兊姆椒ㄒ涯艿玫捷^高的準(zhǔn)確度。

對(duì)于序言,研究者實(shí)驗(yàn)了兩種類型:

  • 基本型:就是簡(jiǎn)單地問:「哪個(gè)摘要更好?」
  • OpenAI 型:模仿了給人類偏好標(biāo)注者的評(píng)級(jí)指令,該指令生成了 OpenAI TL;DR 偏好數(shù)據(jù)集并且包含有關(guān)組成優(yōu)良摘要的內(nèi)容的詳細(xì)信息。完整序言見下表。

圖片

研究者還實(shí)驗(yàn)了上下文學(xué)習(xí),即在 prompt 中添加少樣本示例,其中的示例是人工選取的以覆蓋不同的主題。

解決位置偏見

眾所周知,LLM 有位置偏見,也就是候選項(xiàng)在輸入中的位置會(huì)影響 LLM 給出的評(píng)估結(jié)果。

為了緩解偏好標(biāo)注中的位置偏見,這個(gè)研究團(tuán)隊(duì)采用的做法是為每一對(duì)候選項(xiàng)做兩次推理 —— 兩次中候選項(xiàng)在輸入中的位置相互調(diào)換。然后再對(duì)兩次推理的結(jié)果做平均,得到最終的偏好分布。

思維鏈推理

他們也使用了思維鏈(CoT)推理來提升與人類偏好的對(duì)齊程度。為此,他們將結(jié)尾的標(biāo)準(zhǔn) prompt 替換成了「Consider the coherence, accuracy, coverage, and overall quality of each summary and explain which one is better. Rationale:」然后解碼 LLM 給出的響應(yīng)。最后,再將原始 prompt、響應(yīng)和原始結(jié)尾字符串「Preferred Summary=」連接到一起,按照前述的評(píng)分流程得到一個(gè)偏好分布。圖 3 給出了圖示說明。

自我一致性

對(duì)于思維鏈 prompt,研究者也實(shí)驗(yàn)了自我一致性 —— 這項(xiàng)技術(shù)是通過采樣多個(gè)推理路徑并聚合每個(gè)路徑末尾產(chǎn)生的最終答案來改進(jìn)思維鏈推理。研究者使用非零解碼溫度對(duì)多個(gè)思想鏈原理進(jìn)行采樣,然后得到每個(gè)思維鏈的 LLM 偏好分布。然后對(duì)結(jié)果進(jìn)行平均,以得到最終的偏好分布。

根據(jù)人工智能反饋的強(qiáng)化學(xué)習(xí)

使用 LLM 標(biāo)記好偏好之后,就可以用這些數(shù)據(jù)來訓(xùn)練一個(gè)預(yù)測(cè)偏好的獎(jiǎng)勵(lì)模型(RM)。由于這里的方法是得到軟標(biāo)簽(如 preferences_i = [0.6, 0.4] ),因此他們對(duì) RM 生成的獎(jiǎng)勵(lì)分?jǐn)?shù)的 softmax 使用了交叉熵?fù)p失。softmax 會(huì)將 RM 的下限分?jǐn)?shù)轉(zhuǎn)換成一個(gè)概率分布。

在 AI 標(biāo)簽數(shù)據(jù)集上訓(xùn)練 RM 可以被視為一種模型蒸餾,尤其是因?yàn)榇驑?biāo)簽的 AI 往往比 RM 強(qiáng)大得多。另一種方法是不用 RM,而是直接把 AI 反饋用作強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)信號(hào),不過這種方法計(jì)算成本要高得多,因?yàn)榇驑?biāo)簽的 AI 比 RM 大。

使用訓(xùn)練得到的 RM 就能執(zhí)行強(qiáng)化學(xué)習(xí)了,這里研究者使用了一種針對(duì)語言建模領(lǐng)域修改過的 Advantage Actor Critic (A2C) 算法。

評(píng)估

這項(xiàng)研究使用了三個(gè)評(píng)估指標(biāo):打標(biāo)簽 AI 對(duì)齊度、配對(duì)準(zhǔn)確度和勝率。

打標(biāo)簽 AI 對(duì)齊度衡量的是 AI 標(biāo)注的偏好與人類偏好對(duì)齊的程度。對(duì)于各個(gè)示例,其計(jì)算方式是將軟性的 AI 標(biāo)記的偏好轉(zhuǎn)換成二元表征(如 preferences_i = [0.6, 0.4] → [1, 0]);如果 AI 給出的標(biāo)簽與目標(biāo)人類偏好一致,則分配 1,否則分配 0。其可以表示為:

圖片

其中 p_ai 和 p_h 分別是 AI 和人類偏好的二元表征,x 是索引,D 是數(shù)據(jù)集。

配對(duì)準(zhǔn)確度衡量的是訓(xùn)練好的獎(jiǎng)勵(lì)模型相對(duì)于一個(gè)保留的人類偏好集的準(zhǔn)確度如何。給定共享的上下文和一對(duì)候選響應(yīng),如果 RM 給人類偏好的候選項(xiàng)的分?jǐn)?shù)高于人類不偏好的候選項(xiàng),那么配對(duì)準(zhǔn)確度為 1。否則其值為 0。將多個(gè)示例的該值平均之后,可以衡量 RM 的總準(zhǔn)確度。

勝率則是通過人類更喜歡兩個(gè)策略中哪個(gè)策略來端到端地評(píng)估策略的質(zhì)量。給定一個(gè)輸入和兩個(gè)生成結(jié)果,讓人類標(biāo)注者標(biāo)記自己更喜歡的那一個(gè)。在所有實(shí)例中,相比于來自策略 B 的結(jié)果,人類標(biāo)注者更偏好來自策略 A 的結(jié)果的百分比稱為「A 對(duì) B 的勝率」。

實(shí)驗(yàn)

結(jié)果表明 RLAIF 與 RLHF 的表現(xiàn)相當(dāng),如圖 1 所示。相比于基礎(chǔ) SFT 策略,人類標(biāo)注者在 71% 的情況下都更偏愛 RLAIF。

研究者實(shí)驗(yàn)了三種類型的 prompt 設(shè)計(jì)方案 —— 序言具體指定、思維鏈推理、和少樣本上下文學(xué)習(xí),結(jié)果見表 2。

圖片

總體而言,研究者觀察到,最優(yōu)配置為:采用詳細(xì)的序言、思維鏈推理、不采用上下文學(xué)習(xí)(OpenAI + COT 0-shot)。這一組合的打標(biāo)簽 AI 對(duì)齊度為 78.0%,比使用最基礎(chǔ)的 prompt 時(shí)高 1.9%。

在自我一致性方面,研究者實(shí)驗(yàn)了 4 和 16 個(gè)樣本的情況,而解碼溫度設(shè)置為 1。

圖片

結(jié)果發(fā)現(xiàn),相比于不使用自我一致性,這兩種情況下對(duì)齊度都下降了 5% 以上。研究者以人工方式檢查了思維鏈原理,但未能揭示出自我一致性導(dǎo)致準(zhǔn)確度更低的常見模式。

他們也實(shí)驗(yàn)了不同模型大小的標(biāo)注偏好,并觀察到對(duì)齊度與模型大小之間存在緊密關(guān)聯(lián)。

圖片

研究者也通過實(shí)驗(yàn)觀察了獎(jiǎng)勵(lì)模型(RM)準(zhǔn)確度隨訓(xùn)練樣本數(shù)量的變化模式。結(jié)果如圖 5 所示。

圖片

定性分析

為了更好地理解 RLAIF 和 RLHF 孰優(yōu)孰劣,研究者讓人類評(píng)估了這兩個(gè)策略生成的摘要。很多時(shí)候,這兩個(gè)策略得到的摘要很相近,這也反映在它們相近的勝率上。但是,研究者也找到了兩種它們會(huì)出現(xiàn)差異的模式。

其中一個(gè)模式是 RLAIF 似乎比 RLHF 更不容易出現(xiàn)幻覺。RLHF 中的幻覺往往看似合理,但又與原文本不一致。

另一個(gè)模式是:相比于 RLHF,RLAIF 有時(shí)候會(huì)生成更不連貫和更不符合語法的摘要。

總體而言,盡管這兩個(gè)策略各自有一定的傾向性,但卻能產(chǎn)生相當(dāng)接近的高質(zhì)量摘要。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-09-05 19:43:05

模型RLHFAI

2025-04-01 09:54:09

AI算法大模型AI

2023-09-05 12:59:33

模型數(shù)據(jù)

2023-02-27 14:55:54

技術(shù)研究

2023-05-25 09:00:00

人工智能ChatGPTOpenAI

2024-01-23 10:35:09

ChatGPT人工智能

2025-01-09 08:01:10

2023-07-14 11:47:08

AI醫(yī)生

2023-12-26 12:07:14

模型訓(xùn)練

2023-09-18 13:13:00

人工智能訓(xùn)練

2023-08-30 13:09:43

AI數(shù)據(jù)

2024-12-25 08:02:17

人工智能AI運(yùn)維

2023-05-22 09:19:19

2024-03-12 10:36:17

AI大模型人工智能

2024-05-13 13:37:10

模型數(shù)據(jù)

2023-12-12 10:57:05

AI谷歌

2023-08-03 10:59:49

人工智能

2024-06-19 16:11:22

2024-06-20 07:23:29

2024-03-25 11:37:40

機(jī)器學(xué)習(xí)人工智能進(jìn)化算法
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)