自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

什么是從人類反饋中強(qiáng)化學(xué)習(xí)(RLHF)?

譯文
人工智能
自從OpenAI公司發(fā)布ChatGPT以來,人們對大型語言模型(LLM)的這一重大進(jìn)步感到興奮。雖然ChatGPT與其他最先進(jìn)的大型語言模型大小相同,但其性能要高得多,并且承諾支持新的應(yīng)用程序或顛覆取代原有的應(yīng)用程序。

譯者 | 李睿

審校 | 重樓

自從OpenAI公司發(fā)布ChatGPT以來,人們對大型語言模型(LLM)的這一重大進(jìn)步感到興奮。雖然ChatGPT與其他最先進(jìn)的大型語言模型大小相同,但其性能要高得多,并且承諾支持新的應(yīng)用程序或顛覆取代原有的應(yīng)用程序。

ChatGPT的驚人表現(xiàn)背后的主要原因之一是得益于其訓(xùn)練技術(shù):從人類反饋中強(qiáng)化學(xué)習(xí)(RLHF)。雖然RLHF在大型語言模型方面已經(jīng)展現(xiàn)了令人印象深刻的結(jié)果,但可以追溯到發(fā)布的首個GPT,而首個GPT應(yīng)用程序并不是用于自然語言處理。

以下是人們需要了解的關(guān)于RLHF以及它如何應(yīng)用于大型語言模型的知識。

什么是RLHF?

強(qiáng)化學(xué)習(xí)(RL)是機(jī)器學(xué)習(xí)的一個領(lǐng)域,其中代理通過與環(huán)境的交互來學(xué)習(xí)策略。代理采取行動(包括什么都不做)。這些行動會影響代理所處的環(huán)境,而環(huán)境進(jìn)而轉(zhuǎn)換到新的狀態(tài)并返回獎勵。獎勵是使強(qiáng)化學(xué)習(xí)代理能夠調(diào)整其行動策略的反饋信號。當(dāng)代理進(jìn)行訓(xùn)練時,它會調(diào)整自己的策略,并采取一系列行動,使其回報最大化。

設(shè)計正確的獎勵系統(tǒng)是強(qiáng)化學(xué)習(xí)的關(guān)鍵挑戰(zhàn)之一。在某些應(yīng)用中,獎勵將會延遲很久??紤]一個用于下國際象棋的強(qiáng)化學(xué)習(xí)代理,只有在擊敗對手后才能獲得積極的獎勵,這可能需要下數(shù)十步棋才獲得。在這種情況下,代理將會浪費(fèi)大量的初始訓(xùn)練時間隨機(jī)移動,直到它偶然發(fā)現(xiàn)獲勝的組合。在其他應(yīng)用程序中,獎勵甚至不能用數(shù)學(xué)或邏輯公式來定義(當(dāng)討論語言模型時,將會詳細(xì)討論這一點)。

來自人類反饋的強(qiáng)化學(xué)習(xí)通過將人類納入訓(xùn)練過程來增強(qiáng)強(qiáng)化學(xué)習(xí)代理的訓(xùn)練,這有助于解釋獎勵系統(tǒng)中無法衡量的元素。

為什么不總是用RLHF?首先,其擴(kuò)展性很差。一般來說,機(jī)器學(xué)習(xí)的一個重要優(yōu)勢是它能夠隨著計算資源的可用性進(jìn)行擴(kuò)展。隨著計算機(jī)發(fā)展得越來越快,數(shù)據(jù)變得越來越可用,因此能夠以更快的速度訓(xùn)練更大的機(jī)器學(xué)習(xí)模型,而依賴人類訓(xùn)練強(qiáng)化學(xué)習(xí)系統(tǒng)成為瓶頸。

因此,大多數(shù)RLHF系統(tǒng)依賴于自動化系統(tǒng)和人工提供的獎勵信號的組合。計算獎勵系統(tǒng)為強(qiáng)化學(xué)習(xí)代理提供主要反饋。人類管理者或者偶爾提供額外的獎勵/懲罰信號,或者提供訓(xùn)練獎勵模型所需的數(shù)據(jù)。

RLHF的示例

假設(shè)創(chuàng)造一個烹飪披薩餅的機(jī)器人,可以將一些可測量的元素整合到自動獎勵系統(tǒng)中(例如,披薩餅的厚度、醬汁和奶酪的數(shù)量等)。但為了確保披薩美味可口,需要人類品嘗,并在訓(xùn)練過程中為機(jī)器人烹飪的披薩餅打分。

語言作為強(qiáng)化學(xué)習(xí)問題

大型語言模型已被證明非常擅長于多種任務(wù),包括文本摘要、問題回答、文本生成、代碼生成、蛋白質(zhì)折疊等等。在非常大的范圍內(nèi),大型語言模型可以進(jìn)行零樣本和小樣本學(xué)習(xí),完成它們沒有受過訓(xùn)練的任務(wù)。Transformer模型(大型語言模型中使用的架構(gòu))的一大成就是它能夠通過無監(jiān)督學(xué)習(xí)進(jìn)行訓(xùn)練。

然而,盡管大型語言模型取得了令人著迷的成就,但它們與其他機(jī)器學(xué)習(xí)模型有著共同的基本特征。它們的核心是非常大的預(yù)測機(jī)器,旨在猜測序列中的下一個令牌(提示符)。在一個非常大的文本語料庫上訓(xùn)練,大型語言模型開發(fā)了一個數(shù)學(xué)模型,可以產(chǎn)生(大部分)連貫和一致的長文本。

語言的最大挑戰(zhàn)在于,在很多情況下,提示有很多正確答案。但是,根據(jù)大型語言模型的用戶、應(yīng)用程序和場景的不同,并不是這些方法都是可取的。不幸的是,大型文本語料庫上的無監(jiān)督學(xué)習(xí)并不能使模型與它將用于的所有不同應(yīng)用程序保持一致。

幸運(yùn)的是,強(qiáng)化學(xué)習(xí)可以幫助大型語言模型朝著正確的方向前進(jìn)。但首先把語言定義為強(qiáng)化學(xué)習(xí)問題:

  • 代理:語言模型是強(qiáng)化學(xué)習(xí)代理,必須學(xué)習(xí)創(chuàng)建最佳文本輸出。
  • 動作空間:動作空間是大型語言模型可以生成的可能語言輸出的集合(非常大)。
  • 狀態(tài)空間:環(huán)境的狀態(tài)包括用戶提示和大型語言模型的輸出(非常大)。
  • 獎勵:獎勵衡量大型語言模型的響應(yīng)與應(yīng)用程序場景和用戶意圖的一致性。

上述強(qiáng)化學(xué)習(xí)系統(tǒng)中的所有元素都是微不足道的,除了獎勵系統(tǒng)。與下國際象棋、圍棋甚至機(jī)器人問題不同,獎勵語言模型的規(guī)則并沒有很好地定義。幸運(yùn)的是,在RLHF的幫助下,可以為語言模型創(chuàng)建良好的獎勵系統(tǒng)。

用于語言模型的RLHF

語言模型的RLHF由三個階段組成。首先,從一個預(yù)先訓(xùn)練好的語言模型開始,這是非常重要的,因為大型語言模型需要大量的訓(xùn)練數(shù)據(jù)。用人類的反饋從零開始訓(xùn)練它們幾乎是不可能的。通過無監(jiān)督學(xué)習(xí)預(yù)訓(xùn)練的大型語言模型已經(jīng)有了堅實的語言模型,并將創(chuàng)建連貫的輸出,盡管其中一些或許多可能與用戶的目標(biāo)和意圖不一致。

在第二階段,為強(qiáng)化學(xué)習(xí)系統(tǒng)創(chuàng)建了一個獎勵模型。在這個階段,訓(xùn)練另一個機(jī)器學(xué)習(xí)模型,它接受主要模型生成的文本,并生成質(zhì)量分?jǐn)?shù)。第二個模型通常是另一個大型語言模型,它已被修改為輸出標(biāo)量值而不是文本標(biāo)記序列。

為了訓(xùn)練獎勵模型,必須創(chuàng)建一個由大型語言模型生成的文本標(biāo)記為質(zhì)量的數(shù)據(jù)集。為了組成每個訓(xùn)練示例,給主要的大型語言模型一個提示,并讓它生成幾個輸出。然后,讓評估人員對生成的文本進(jìn)行從最好到最差的排序。然后,訓(xùn)練獎勵模型來預(yù)測大型語言模型文本的分?jǐn)?shù)。通過訓(xùn)練大型語言模型的輸出和排名分?jǐn)?shù),獎勵模型創(chuàng)建了人類偏好的數(shù)學(xué)表示。

在最后階段,創(chuàng)建了強(qiáng)化學(xué)習(xí)循環(huán)。主要大型語言模型的副本成為強(qiáng)化學(xué)習(xí)代理。在每個訓(xùn)練集中,大型語言模型從訓(xùn)練數(shù)據(jù)集中獲取幾個提示并生成文本。然后,它的輸出被傳遞給獎勵模型,獎勵模型提供一個分?jǐn)?shù)來評估其與人類偏好的一致性。大型語言模型隨后被更新,以創(chuàng)建在獎勵模型中得分更高的輸出。

雖然這是RLHF用于語言模型的通用框架,但不同的實現(xiàn)也會進(jìn)行修改。例如,由于更新主要的大型語言模型的成本非常昂貴,機(jī)器學(xué)習(xí)團(tuán)隊有時會凍結(jié)它的許多層以降低訓(xùn)練成本。

RLHF對語言模型的另一個考慮是保持獎勵優(yōu)化和語言一致性之間的平衡。獎勵模式是對人類偏好的不完美近似。像大多數(shù)強(qiáng)化學(xué)習(xí)系統(tǒng)一樣,代理大型語言模型可能會找到一條捷徑,在違反語法或邏輯一致性的同時最大化獎勵。為了防止發(fā)生這種情況,機(jī)器學(xué)習(xí)工程團(tuán)隊在強(qiáng)化學(xué)習(xí)循環(huán)中保留了原始大型語言模型的副本。原始大型語言模型輸出與強(qiáng)化學(xué)習(xí)訓(xùn)練的大型語言模型輸出的輸出之間的差異(也稱為KL散度)作為負(fù)值集成到獎勵信號中,以防止模型與原始輸出偏離太多。

ChatGPT如何使用RLHF

OpenAI公司還沒有公布ChatGPT的技術(shù)細(xì)節(jié)。但是可以從有關(guān)ChatGPT博客文章和InstructGPT的詳細(xì)信息中了解很多內(nèi)容,而InstructGPT也使用RLHF。

ChatGPT使用以上描述的通用RLHF框架,并進(jìn)行了一些修改。在第一階段,工程師們對預(yù)先訓(xùn)練好的GPT-3.5模型進(jìn)行了“監(jiān)督微調(diào)”。他們雇傭了一組人類作家,并要求他們對一系列提示給出答案。他們使用提示答案對數(shù)據(jù)集來微調(diào)大型語言模型。據(jù)報道,OpenAI公司在這些數(shù)據(jù)上花費(fèi)了大量資金,這也是ChatGPT優(yōu)于其他類似大型語言模型的部分原因。

在第二階段,OpenAI公司根據(jù)標(biāo)準(zhǔn)程序創(chuàng)建了獎勵模型,對提示生成多個答案,并由人工注釋器對其進(jìn)行排序。

在最后階段,使用近端策略優(yōu)化(PPO) 強(qiáng)化學(xué)習(xí)算法來訓(xùn)練主要的大型語言模型。OpenAI公司沒有提供進(jìn)一步的細(xì)節(jié),例如它是否凍結(jié)了模型的任何部分,或者它如何確保強(qiáng)化學(xué)習(xí)訓(xùn)練的模型不會偏離原始分布太多。

ChatGPT的訓(xùn)練流程

RLHF對語言模型的限制

雖然RLHF是一種非常有效的技術(shù),但它也有一些局限性。人工勞動總是成為機(jī)器學(xué)習(xí)管道的瓶頸。人工標(biāo)記數(shù)據(jù)緩慢而成本昂貴,這就是無監(jiān)督學(xué)習(xí)一直是機(jī)器學(xué)習(xí)研究人員長期追求的目標(biāo)的原因。

在某些情況下,可以從機(jī)器學(xué)習(xí)系統(tǒng)的用戶那里獲得免費(fèi)標(biāo)簽。這就是在ChatGPT和其他類似的大型語言模型界面中看到的贊成/反對投票按鈕的作用。另一種技術(shù)是從在線論壇和社交網(wǎng)絡(luò)中獲取標(biāo)記數(shù)據(jù)。例如,許多Reddit帖子都是以問題形式發(fā)布的,最佳的答案會得到更高的支持率。然而,這樣的數(shù)據(jù)集仍然需要清理和修改,但這樣做成本昂貴并且緩慢,而且也不能保證所需要的數(shù)據(jù)在一個在線來源中就能得到。

大型科技公司和資金雄厚的實驗室(例如OpenAI和DeepMind)有能力投入巨資創(chuàng)建特殊的RLHF數(shù)據(jù)集。但規(guī)模較小的企業(yè)將不得不依賴開源數(shù)據(jù)集和網(wǎng)絡(luò)抓取技術(shù)。

RLHF也不是完美的解決方案。人類的反饋可以幫助大型語言模型避免產(chǎn)生有害或錯誤的結(jié)果,但人類的偏好并不是明確的,永遠(yuǎn)不可能創(chuàng)造符合所有社會和社會結(jié)構(gòu)的偏好和規(guī)范的獎勵模式。

然而,RLHF提供了一個框架,可以更好地將大型語言模型與人類保持一致。到目前為止,已經(jīng)看到RLHF與ChatGPT等通用模型結(jié)合在一起工作,而RLHF將成為一種非常有效的技術(shù),用于優(yōu)化特定應(yīng)用的大型語言模型。

原文標(biāo)題:What is reinforcement learning from human feedback (RLHF)?,作者:Ben Dickson

責(zé)任編輯:華軒 來源: 51CTO
相關(guān)推薦

2024-07-22 08:22:00

2023-07-04 12:55:39

模型指南IFT

2023-08-05 12:50:18

AI技術(shù)

2023-11-13 07:51:58

ChatGPT研究

2024-02-19 00:10:00

AI模型

2024-08-09 12:46:04

2022-07-11 11:14:47

強(qiáng)化學(xué)習(xí)AI基于模型

2023-06-16 09:49:11

人工智能研究

2024-08-06 14:07:40

2024-04-16 14:01:40

大型語言模型ORPO

2025-03-06 08:19:01

2023-08-30 14:14:00

AI模型

2023-09-05 19:43:05

模型RLHFAI

2025-02-13 10:34:30

LLM算法PPO

2024-12-09 08:45:00

模型AI

2023-07-28 16:35:26

代碼模型

2023-07-20 13:11:54

語言模型助手

2024-03-15 15:26:00

AI數(shù)據(jù)

2017-07-25 16:04:31

概念應(yīng)用強(qiáng)化學(xué)習(xí)

2023-09-06 13:17:00

AI數(shù)據(jù)
點贊
收藏

51CTO技術(shù)棧公眾號