自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<blockquote id="ghi6h"><p id="ghi6h"></p></blockquote>

<blockquote id="ghi6h"><p id="ghi6h"></p></blockquote>

<sub id="ghi6h"></sub><sub id="ghi6h"></sub>

<cite id="ghi6h"></cite>

<cite id="ghi6h"><track id="ghi6h"></track></cite>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

什么是從人類反饋中強(qiáng)化學(xué)習(xí)（RLHF）？

作者：李睿 2023-05-25 09:00:00

自從OpenAI公司發(fā)布ChatGPT以來，人們對大型語言模型(LLM)的這一重大進(jìn)步感到興奮。雖然ChatGPT與其他最先進(jìn)的大型語言模型大小相同，但其性能要高得多，并且承諾支持新的應(yīng)用程序或顛覆取代原有的應(yīng)用程序。

譯者 | 李睿

審校 | 重樓

自從OpenAI公司發(fā)布ChatGPT以來，人們對大型語言模型(LLM)的這一重大進(jìn)步感到興奮。雖然ChatGPT與其他最先進(jìn)的大型語言模型大小相同，但其性能要高得多，并且承諾支持新的應(yīng)用程序或顛覆取代原有的應(yīng)用程序。

ChatGPT的驚人表現(xiàn)背后的主要原因之一是得益于其訓(xùn)練技術(shù)：從人類反饋中強(qiáng)化學(xué)習(xí)(RLHF)。雖然RLHF在大型語言模型方面已經(jīng)展現(xiàn)了令人印象深刻的結(jié)果，但可以追溯到發(fā)布的首個GPT，而首個GPT應(yīng)用程序并不是用于自然語言處理。

以下是人們需要了解的關(guān)于RLHF以及它如何應(yīng)用于大型語言模型的知識。

什么是RLHF?

強(qiáng)化學(xué)習(xí)（RL）是機(jī)器學(xué)習(xí)的一個領(lǐng)域，其中代理通過與環(huán)境的交互來學(xué)習(xí)策略。代理采取行動(包括什么都不做)。這些行動會影響代理所處的環(huán)境，而環(huán)境進(jìn)而轉(zhuǎn)換到新的狀態(tài)并返回獎勵。獎勵是使強(qiáng)化學(xué)習(xí)代理能夠調(diào)整其行動策略的反饋信號。當(dāng)代理進(jìn)行訓(xùn)練時，它會調(diào)整自己的策略，并采取一系列行動，使其回報最大化。

設(shè)計正確的獎勵系統(tǒng)是強(qiáng)化學(xué)習(xí)的關(guān)鍵挑戰(zhàn)之一。在某些應(yīng)用中，獎勵將會延遲很久?？紤]一個用于下國際象棋的強(qiáng)化學(xué)習(xí)代理，只有在擊敗對手后才能獲得積極的獎勵，這可能需要下數(shù)十步棋才獲得。在這種情況下，代理將會浪費(fèi)大量的初始訓(xùn)練時間隨機(jī)移動，直到它偶然發(fā)現(xiàn)獲勝的組合。在其他應(yīng)用程序中，獎勵甚至不能用數(shù)學(xué)或邏輯公式來定義(當(dāng)討論語言模型時，將會詳細(xì)討論這一點)。

來自人類反饋的強(qiáng)化學(xué)習(xí)通過將人類納入訓(xùn)練過程來增強(qiáng)強(qiáng)化學(xué)習(xí)代理的訓(xùn)練，這有助于解釋獎勵系統(tǒng)中無法衡量的元素。

為什么不總是用RLHF?首先，其擴(kuò)展性很差。一般來說，機(jī)器學(xué)習(xí)的一個重要優(yōu)勢是它能夠隨著計算資源的可用性進(jìn)行擴(kuò)展。隨著計算機(jī)發(fā)展得越來越快，數(shù)據(jù)變得越來越可用，因此能夠以更快的速度訓(xùn)練更大的機(jī)器學(xué)習(xí)模型，而依賴人類訓(xùn)練強(qiáng)化學(xué)習(xí)系統(tǒng)成為瓶頸。

因此，大多數(shù)RLHF系統(tǒng)依賴于自動化系統(tǒng)和人工提供的獎勵信號的組合。計算獎勵系統(tǒng)為強(qiáng)化學(xué)習(xí)代理提供主要反饋。人類管理者或者偶爾提供額外的獎勵/懲罰信號，或者提供訓(xùn)練獎勵模型所需的數(shù)據(jù)。

RLHF的示例

假設(shè)創(chuàng)造一個烹飪披薩餅的機(jī)器人，可以將一些可測量的元素整合到自動獎勵系統(tǒng)中(例如，披薩餅的厚度、醬汁和奶酪的數(shù)量等)。但為了確保披薩美味可口，需要人類品嘗，并在訓(xùn)練過程中為機(jī)器人烹飪的披薩餅打分。

語言作為強(qiáng)化學(xué)習(xí)問題

大型語言模型已被證明非常擅長于多種任務(wù)，包括文本摘要、問題回答、文本生成、代碼生成、蛋白質(zhì)折疊等等。在非常大的范圍內(nèi)，大型語言模型可以進(jìn)行零樣本和小樣本學(xué)習(xí)，完成它們沒有受過訓(xùn)練的任務(wù)。Transformer模型(大型語言模型中使用的架構(gòu))的一大成就是它能夠通過無監(jiān)督學(xué)習(xí)進(jìn)行訓(xùn)練。

然而，盡管大型語言模型取得了令人著迷的成就，但它們與其他機(jī)器學(xué)習(xí)模型有著共同的基本特征。它們的核心是非常大的預(yù)測機(jī)器，旨在猜測序列中的下一個令牌(提示符)。在一個非常大的文本語料庫上訓(xùn)練，大型語言模型開發(fā)了一個數(shù)學(xué)模型，可以產(chǎn)生(大部分)連貫和一致的長文本。

語言的最大挑戰(zhàn)在于，在很多情況下，提示有很多正確答案。但是，根據(jù)大型語言模型的用戶、應(yīng)用程序和場景的不同，并不是這些方法都是可取的。不幸的是，大型文本語料庫上的無監(jiān)督學(xué)習(xí)并不能使模型與它將用于的所有不同應(yīng)用程序保持一致。

幸運(yùn)的是，強(qiáng)化學(xué)習(xí)可以幫助大型語言模型朝著正確的方向前進(jìn)。但首先把語言定義為強(qiáng)化學(xué)習(xí)問題：

代理：語言模型是強(qiáng)化學(xué)習(xí)代理，必須學(xué)習(xí)創(chuàng)建最佳文本輸出。
動作空間：動作空間是大型語言模型可以生成的可能語言輸出的集合(非常大)。
狀態(tài)空間：環(huán)境的狀態(tài)包括用戶提示和大型語言模型的輸出(非常大)。
獎勵：獎勵衡量大型語言模型的響應(yīng)與應(yīng)用程序場景和用戶意圖的一致性。

上述強(qiáng)化學(xué)習(xí)系統(tǒng)中的所有元素都是微不足道的，除了獎勵系統(tǒng)。與下國際象棋、圍棋甚至機(jī)器人問題不同，獎勵語言模型的規(guī)則并沒有很好地定義。幸運(yùn)的是，在RLHF的幫助下，可以為語言模型創(chuàng)建良好的獎勵系統(tǒng)。

用于語言模型的RLHF

語言模型的RLHF由三個階段組成。首先，從一個預(yù)先訓(xùn)練好的語言模型開始，這是非常重要的，因為大型語言模型需要大量的訓(xùn)練數(shù)據(jù)。用人類的反饋從零開始訓(xùn)練它們幾乎是不可能的。通過無監(jiān)督學(xué)習(xí)預(yù)訓(xùn)練的大型語言模型已經(jīng)有了堅實的語言模型，并將創(chuàng)建連貫的輸出，盡管其中一些或許多可能與用戶的目標(biāo)和意圖不一致。

在第二階段，為強(qiáng)化學(xué)習(xí)系統(tǒng)創(chuàng)建了一個獎勵模型。在這個階段，訓(xùn)練另一個機(jī)器學(xué)習(xí)模型，它接受主要模型生成的文本，并生成質(zhì)量分?jǐn)?shù)。第二個模型通常是另一個大型語言模型，它已被修改為輸出標(biāo)量值而不是文本標(biāo)記序列。

為了訓(xùn)練獎勵模型，必須創(chuàng)建一個由大型語言模型生成的文本標(biāo)記為質(zhì)量的數(shù)據(jù)集。為了組成每個訓(xùn)練示例，給主要的大型語言模型一個提示，并讓它生成幾個輸出。然后，讓評估人員對生成的文本進(jìn)行從最好到最差的排序。然后，訓(xùn)練獎勵模型來預(yù)測大型語言模型文本的分?jǐn)?shù)。通過訓(xùn)練大型語言模型的輸出和排名分?jǐn)?shù)，獎勵模型創(chuàng)建了人類偏好的數(shù)學(xué)表示。

在最后階段，創(chuàng)建了強(qiáng)化學(xué)習(xí)循環(huán)。主要大型語言模型的副本成為強(qiáng)化學(xué)習(xí)代理。在每個訓(xùn)練集中，大型語言模型從訓(xùn)練數(shù)據(jù)集中獲取幾個提示并生成文本。然后，它的輸出被傳遞給獎勵模型，獎勵模型提供一個分?jǐn)?shù)來評估其與人類偏好的一致性。大型語言模型隨后被更新，以創(chuàng)建在獎勵模型中得分更高的輸出。

雖然這是RLHF用于語言模型的通用框架，但不同的實現(xiàn)也會進(jìn)行修改。例如，由于更新主要的大型語言模型的成本非常昂貴，機(jī)器學(xué)習(xí)團(tuán)隊有時會凍結(jié)它的許多層以降低訓(xùn)練成本。

RLHF對語言模型的另一個考慮是保持獎勵優(yōu)化和語言一致性之間的平衡。獎勵模式是對人類偏好的不完美近似。像大多數(shù)強(qiáng)化學(xué)習(xí)系統(tǒng)一樣，代理大型語言模型可能會找到一條捷徑，在違反語法或邏輯一致性的同時最大化獎勵。為了防止發(fā)生這種情況，機(jī)器學(xué)習(xí)工程團(tuán)隊在強(qiáng)化學(xué)習(xí)循環(huán)中保留了原始大型語言模型的副本。原始大型語言模型輸出與強(qiáng)化學(xué)習(xí)訓(xùn)練的大型語言模型輸出的輸出之間的差異(也稱為KL散度)作為負(fù)值集成到獎勵信號中，以防止模型與原始輸出偏離太多。

ChatGPT如何使用RLHF

OpenAI公司還沒有公布ChatGPT的技術(shù)細(xì)節(jié)。但是可以從有關(guān)ChatGPT博客文章和InstructGPT的詳細(xì)信息中了解很多內(nèi)容，而InstructGPT也使用RLHF。

ChatGPT使用以上描述的通用RLHF框架，并進(jìn)行了一些修改。在第一階段，工程師們對預(yù)先訓(xùn)練好的GPT-3.5模型進(jìn)行了“監(jiān)督微調(diào)”。他們雇傭了一組人類作家，并要求他們對一系列提示給出答案。他們使用提示答案對數(shù)據(jù)集來微調(diào)大型語言模型。據(jù)報道，OpenAI公司在這些數(shù)據(jù)上花費(fèi)了大量資金，這也是ChatGPT優(yōu)于其他類似大型語言模型的部分原因。

在第二階段，OpenAI公司根據(jù)標(biāo)準(zhǔn)程序創(chuàng)建了獎勵模型，對提示生成多個答案，并由人工注釋器對其進(jìn)行排序。

在最后階段，使用近端策略優(yōu)化(PPO) 強(qiáng)化學(xué)習(xí)算法來訓(xùn)練主要的大型語言模型。OpenAI公司沒有提供進(jìn)一步的細(xì)節(jié)，例如它是否凍結(jié)了模型的任何部分，或者它如何確保強(qiáng)化學(xué)習(xí)訓(xùn)練的模型不會偏離原始分布太多。

ChatGPT的訓(xùn)練流程

RLHF對語言模型的限制

雖然RLHF是一種非常有效的技術(shù)，但它也有一些局限性。人工勞動總是成為機(jī)器學(xué)習(xí)管道的瓶頸。人工標(biāo)記數(shù)據(jù)緩慢而成本昂貴，這就是無監(jiān)督學(xué)習(xí)一直是機(jī)器學(xué)習(xí)研究人員長期追求的目標(biāo)的原因。

在某些情況下，可以從機(jī)器學(xué)習(xí)系統(tǒng)的用戶那里獲得免費(fèi)標(biāo)簽。這就是在ChatGPT和其他類似的大型語言模型界面中看到的贊成/反對投票按鈕的作用。另一種技術(shù)是從在線論壇和社交網(wǎng)絡(luò)中獲取標(biāo)記數(shù)據(jù)。例如，許多Reddit帖子都是以問題形式發(fā)布的，最佳的答案會得到更高的支持率。然而，這樣的數(shù)據(jù)集仍然需要清理和修改，但這樣做成本昂貴并且緩慢，而且也不能保證所需要的數(shù)據(jù)在一個在線來源中就能得到。

大型科技公司和資金雄厚的實驗室（例如OpenAI和DeepMind）有能力投入巨資創(chuàng)建特殊的RLHF數(shù)據(jù)集。但規(guī)模較小的企業(yè)將不得不依賴開源數(shù)據(jù)集和網(wǎng)絡(luò)抓取技術(shù)。

RLHF也不是完美的解決方案。人類的反饋可以幫助大型語言模型避免產(chǎn)生有害或錯誤的結(jié)果，但人類的偏好并不是明確的，永遠(yuǎn)不可能創(chuàng)造符合所有社會和社會結(jié)構(gòu)的偏好和規(guī)范的獎勵模式。

然而，RLHF提供了一個框架，可以更好地將大型語言模型與人類保持一致。到目前為止，已經(jīng)看到RLHF與ChatGPT等通用模型結(jié)合在一起工作，而RLHF將成為一種非常有效的技術(shù)，用于優(yōu)化特定應(yīng)用的大型語言模型。

原文標(biāo)題：What is reinforcement learning from human feedback (RLHF)?，作者：Ben Dickson

責(zé)任編輯：華軒來源： 51CTO

人工智能 ChatGPT OpenAI

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營