自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

DeepMind新研究:ReST讓大模型與人類偏好對齊,比在線RLHF更有效

人工智能 新聞
本文提出了一種新的RLHF算法ReST,極大地提高了翻譯質(zhì)量。不同于 RLHF 使用人類反饋改進(jìn)語言模型,ReST 通過生成和使用離線數(shù)據(jù)進(jìn)行訓(xùn)練,從而使得 LLM 與人類偏好保持一致。

這幾個月以來,我們已經(jīng)見證了大型語言模型(LLM)在生成高質(zhì)量文本和解決眾多語言任務(wù)方面出色的能力。然而,LLM 又面臨這樣一個困境,即產(chǎn)生的輸出很大程度上與人類偏好并不一致。如果沒有適當(dāng)?shù)膶R,語言模型可能輸出不安全的內(nèi)容。此外,對齊 LLM 還有助于改善下游任務(wù)。

有研究者提出基于人類反饋的強(qiáng)化學(xué)習(xí) (RLHF),通過使用人類偏好來解決對齊問題。

一般來講,RLHF 依賴于 PPO、A2C 等在線 RL 方法,但這些方法計算成本高昂且容易遭受打擊;雖然離線 RL 可以避免在線 RL 的缺陷,然而,離線學(xué)習(xí)的質(zhì)量過分依賴離線數(shù)據(jù)集的屬性。因此,精心策劃的數(shù)據(jù)集對離線強(qiáng)化學(xué)習(xí)來說非常重要。

本文,來自 Google DeepMind 的研究者提出了一種簡單的算法使 LLM 與人類偏好對齊,他們將該方法命名為 ReST(Reinforced Self-Training)。不同于 RLHF 使用人類反饋改進(jìn)語言模型,ReST 通過生成和使用離線數(shù)據(jù)進(jìn)行訓(xùn)練,從而使得 LLM 與人類偏好保持一致。

給定一個初始 LLM 策略,ReST 能夠根據(jù)該策略生成數(shù)據(jù)集,然后該數(shù)據(jù)集基于離線 RL 算法被反過來提高 LLM 策略。ReST 比典型的在線 RLHF 方法更有效,因為訓(xùn)練數(shù)據(jù)集是離線生成的,這允許數(shù)據(jù)重用。

研究團(tuán)隊表示,雖然 ReST 可用于所有生成任務(wù),但本文的重點是機(jī)器翻譯。結(jié)果表明,ReST 可以極大地提高翻譯質(zhì)量。

論文地址:https://arxiv.org/pdf/2308.08998.pdf

有研究者評論道:「DeepMind 展示了自然語言生成的迭代自我改進(jìn)。他們將『人』從人類反饋強(qiáng)化學(xué)習(xí) (RLHF) 循環(huán)中剔除,提出 ReST。」

下面那我們看具體實現(xiàn)方法。

方法介紹

該研究提出了一種稱為強(qiáng)化自訓(xùn)練(Reinforced Self-Training,ReST)的 RLHF 算法,ReST 可將語言模型的輸出與人類偏好保持一致。人類對序列的偏好是使用學(xué)得的獎勵函數(shù)來建模的。ReST 算法將典型 RL pipeline 的數(shù)據(jù)集增長(Grow)和策略改進(jìn)(Improve)解耦成兩個單獨的離線階段。

如下圖 1 所示,ReST 方法包括兩個循環(huán):內(nèi)循環(huán)(Improve step)和外循環(huán)(Grow step)。并且與在線或離線 RL 的典型 RLHF 方法相比,ReST 具有以下優(yōu)勢:

  • 與在線 RL 相比,ReST 由于在 Improve step 中利用了 Grow step 的輸出,因此計算負(fù)擔(dān)大大減少;
  • 策略的質(zhì)量不在受原始數(shù)據(jù)集質(zhì)量的限制(如離線 RL),因為新的訓(xùn)練數(shù)據(jù)是從 Grow step 中經(jīng)過采樣得到的;
  • 檢查數(shù)據(jù)質(zhì)量并判斷對齊變得更加容易,因為 Improve step 和 Grow step 這兩個過程是解耦的;
  • ReST 簡單、穩(wěn)定,并且只有少量的超參數(shù)需要調(diào)優(yōu)。


該研究首先訓(xùn)練一個初始模型圖片,在給定序列對數(shù)據(jù)集 D 的情況下,使用如下等式 (1) 中的 NLL 損失將輸入序列??映射到輸出序列??。

接下來,Grow 步驟會創(chuàng)建一個新的數(shù)據(jù)集 D_??,使用模型中的樣本來擴(kuò)充初始訓(xùn)練數(shù)據(jù)集:

其中,條件輸入是從原始數(shù)據(jù)集圖片中重新采樣的,就像自訓(xùn)練一樣;但在可以訪問 ??(??) 的情況下也可以直接從中采樣,即圖片。例如,在文生圖模型中,文本輸入的分布可以從語言模型 ??(??) 中采樣。

然后,Improve 步驟使用 D_?? 來微調(diào)策略??_??。值得注意的是,該研究將原始數(shù)據(jù)集保留在訓(xùn)練中,以確保策略不會發(fā)散。

整個 ReST 算法如下圖算法 1 所示,其中包含多個數(shù)據(jù)集增長和策略改進(jìn)步驟:

實驗

研究者在機(jī)器翻譯任務(wù)上進(jìn)行了實驗,測試基準(zhǔn)包括 IWSLT 2014 、 WMT 2020 、 Web Domain 。

圖 3 繪制了帶有多個 Improve steps 的平均獎勵:可以看到,隨著 Improve steps 增加,翻譯模型在所有三個數(shù)據(jù)集上的性能都得到了提高。

增加 Grow step(G)能否提高獎勵模型的得分?帶著這一問題,研究者進(jìn)行了另一項實驗。結(jié)果如圖 4 所示,帶有一個 Grow step 的方法在 IWSLT 2014 和 Web Domain 數(shù)據(jù)集上有所提高,當(dāng) Grow step 為 2 時,模型將得分從 77.8 提高到 80.5,提高了 5.3。

圖片

ReST 是否優(yōu)于監(jiān)督訓(xùn)練?結(jié)果如圖 5 所示,即使在第一個 grow step 之后,ReST 的不同變體(紫色)也顯著優(yōu)于監(jiān)督學(xué)習(xí)(灰色)。

ReST 可以在推理時使用 Best-of-N 采樣進(jìn)一步改進(jìn)嗎?圖 6 展示了 BC( behavioral cloning )和 ReST 變體之間的 Best-of-N 抽樣結(jié)果。ReST 的性能隨著 ?? 和 Improve step 數(shù)量的增加而提高。得出 ReST 仍然可以從 Best-of-N 采樣中受益。

ReST 與在線 RL 相比如何?該研究將 ReST 與 PPO 進(jìn)行了比較,PPO 是一種廣泛用于 RLHF 的在線 RL 算法。結(jié)果總結(jié)在表 1 中。

圖片

下圖表明,所有 ReST 變體在人類評分方面優(yōu)于 BC 方法:

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-10-23 09:00:00

2024-01-24 13:37:36

大型語言模型人工智能

2024-01-15 16:41:00

模型數(shù)據(jù)

2023-07-20 13:11:54

語言模型助手

2023-07-11 15:38:51

模型方案

2024-09-23 14:46:27

2024-04-16 14:01:40

大型語言模型ORPO

2024-11-05 13:30:00

2022-08-22 15:47:48

谷歌模型

2024-12-27 11:52:25

GRAPEVLA 模型人工智能

2013-04-01 00:43:50

華為金華威

2013-04-01 00:59:33

金華威華為

2024-01-07 22:58:56

2023-04-28 15:24:06

模型研究

2024-03-04 00:20:00

語言模型人工智能

2023-11-13 07:56:16

AI模型

2023-12-06 13:20:00

AI模型

2024-04-25 07:00:00

2023-09-05 12:59:33

模型數(shù)據(jù)

2023-09-06 13:17:00

AI數(shù)據(jù)
點贊
收藏

51CTO技術(shù)棧公眾號