自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

解讀ChatGPT中的RLHF

原創(chuàng) 精選
人工智能
RLHF 背后的基本思想是采用預(yù)先訓(xùn)練好的語言模型,并讓人們對(duì)其輸出的結(jié)果進(jìn)行排序。這個(gè)輸出的排名作為一個(gè)信號(hào),引導(dǎo)模型“更喜歡”某些結(jié)果,從而誘導(dǎo)響應(yīng),使其更安全可信。

無論是 ChatGPT 還是 GPT-4,它們的核心技術(shù)機(jī)制之一都是基于人類反饋的強(qiáng)化學(xué)習(xí)(Reinforcement Learning from Human Feedback,RLHF)。這是大型語言模型生成領(lǐng)域的新訓(xùn)練范式,即以強(qiáng)化學(xué)習(xí)方式依據(jù)人類反饋優(yōu)化語言模型。那么,什么是 RLHF 呢?

RLHF 背后的基本思想是采用預(yù)先訓(xùn)練好的語言模型,并讓人們對(duì)其輸出的結(jié)果進(jìn)行排序。這個(gè)輸出的排名作為一個(gè)信號(hào),引導(dǎo)模型“更喜歡”某些結(jié)果,從而誘導(dǎo)響應(yīng),使其更安全可信。

RLHF 可以利用人工反饋優(yōu)化語言模型。通過將RL算法與人工輸入結(jié)合,幫助模型學(xué)習(xí)并提高其性能。結(jié)合人工反饋,RLHF 可以幫助語言模型更好地理解和生成自然語言,并提高它們執(zhí)行特定任務(wù)的能力,如文本分類或語言翻譯。此外,RLHF 還可以幫助緩解語言模型中的偏差問題,允許人類糾正并引導(dǎo)模型朝著更公平和包容性的語言使用方向發(fā)展。然而,另一方面,它也引入了一種途徑,用于將人類偏見嵌入模型中。

1. 關(guān)于強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)在數(shù)學(xué)方面有其基礎(chǔ)知識(shí),其中通過代理與環(huán)境進(jìn)行交互,如下圖所示:

圖片

代理人通過采取一個(gè)行動(dòng)與環(huán)境進(jìn)行交互,環(huán)境返回一個(gè)狀態(tài)和一個(gè)獎(jiǎng)勵(lì)。獎(jiǎng)勵(lì)就是我們想要優(yōu)化的目標(biāo),狀態(tài)是當(dāng)前時(shí)間索引中環(huán)境/世界的表示,策略用于從該狀態(tài)映射到操作。作為對(duì)代理執(zhí)行的操作的回報(bào),環(huán)境返回相應(yīng)的獎(jiǎng)勵(lì)和下一個(gè)狀態(tài)。

當(dāng)利用大語音模型完成 NLP 任務(wù)時(shí),如何為一個(gè)語言模型編碼幽默、道德或者安全呢?這些都有一些人類自己能夠理解的微妙之處,但是我們不能通過創(chuàng)建定制的損失函數(shù)來訓(xùn)練模型。這就是人類反饋強(qiáng)化學(xué)習(xí)的用武之地。

下圖顯示了 RLHF 模型如何從大模型和人工標(biāo)注中獲取輸入,并創(chuàng)建一個(gè)比單獨(dú)使用這兩者更好的響應(yīng)。

圖片

2. RLHF之模型訓(xùn)練

讓我們先從一個(gè)高層次的 RLHF 開始,并首先收集所有的背景和事實(shí)。

RLHF 可能相當(dāng)復(fù)雜,需要訓(xùn)練多個(gè)模型和不同的部署階段。由于 GPT-4、 ChatGPT 和 DirectGPT 都用 RLHF (由 OpenAI 提供)進(jìn)行了微調(diào),因此讓我們通過查看訓(xùn)練步驟來更深入地了解它。

RLHF 的設(shè)計(jì)是為了使模型更安全、更準(zhǔn)確,并確保模型生成的輸出文本是安全的,更符合用戶的需要。人工智能代理首先在環(huán)境中隨機(jī)作出決策。人工排名者會(huì)周期性地接收多個(gè)數(shù)據(jù)樣本,甚至可能是模型的輸出 ,根據(jù)人類偏好進(jìn)行排名,例如,給定兩個(gè)視頻,人工排名者決定哪個(gè)視頻更適合當(dāng)前任務(wù)。

Agent將同時(shí)建立一個(gè)基于任務(wù)目標(biāo)的模型,并通過使用 RL 對(duì)其進(jìn)行細(xì)化。Agent將開始只需要人類對(duì)視頻的反饋,并進(jìn)一步完善其理解。

這種循環(huán)行為可以從 OpenAI 的下圖中直觀地看到:

圖片

OpenAI 使用客戶通過 ChatGPT API 向模型提交的提示,并通過手動(dòng)對(duì)模型的幾個(gè)期望輸出排序來微調(diào)語言模型,從而獲得人工反饋。這豐富了模型產(chǎn)出的質(zhì)量,從而引導(dǎo)模型朝著信任和安全的方向發(fā)展。

這個(gè)過程被稱為監(jiān)督式學(xué)習(xí),模型通過使用標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練,以提高其準(zhǔn)確性和性能。通過使用客戶提示對(duì)模型進(jìn)行微調(diào),OpenAI 旨在使 ChatGPT在響應(yīng)給定提示時(shí)更有效地生成相關(guān)且連貫的文本。

圖片

為什么我們不總是使用 RLHF呢?由于依賴人工標(biāo)注,它的擴(kuò)展性很差。手工標(biāo)記數(shù)據(jù)既緩慢又昂貴,這就是為什么非監(jiān)督式學(xué)習(xí)一直是機(jī)器學(xué)習(xí)研究人員長期追求的目標(biāo)。

3. RLHF之預(yù)訓(xùn)練語言模型

大模型是使用不同參數(shù)的各種模型進(jìn)行預(yù)訓(xùn)練的,并且可以針對(duì)特定任務(wù)進(jìn)行微調(diào)。這又如何與 RLHF 相關(guān)呢?

生成數(shù)據(jù)以訓(xùn)練獎(jiǎng)勵(lì)模型是將人類偏好整合到系統(tǒng)中所必需的。然而,由于 RLHF 訓(xùn)練中各種選擇的設(shè)計(jì)空間沒有得到充分的探索,對(duì)于哪種模式最適合開始 RLHF 訓(xùn)練還沒有明確的答案。下圖像顯示了預(yù)訓(xùn)練語言模型的內(nèi)部工作原理以及用 RLHF 進(jìn)一步進(jìn)行微調(diào)的可選路徑。

圖片

大模型的參數(shù)范圍從100億到2800億不等,但目前還沒有關(guān)于大模型佳尺寸的答案。可以付錢讓人撰寫對(duì)現(xiàn)有提示的回應(yīng),然后這些數(shù)據(jù)可以用于訓(xùn)練,但會(huì)變得成本昂貴。

4. RLHF之訓(xùn)練獎(jiǎng)勵(lì)模型

RLHF 的最重要任務(wù)是生成一個(gè)獎(jiǎng)勵(lì)模型 (RM),它可以根據(jù)人的偏好為輸入文本分配一個(gè)標(biāo)量獎(jiǎng)勵(lì)。獎(jiǎng)勵(lì)模型可以是端到端的語言模型或模塊化系統(tǒng),并使用提示對(duì)數(shù)據(jù)集進(jìn)行訓(xùn)練。下圖展示了獎(jiǎng)勵(lì)模型是如何工作的:

圖片

可以看到,目標(biāo)是希望得到一個(gè)模型,它可以將某個(gè)輸入文本序列映射到標(biāo)量獎(jiǎng)勵(lì)值。眾所周知,增強(qiáng)學(xué)習(xí)采用單個(gè)標(biāo)量值,并通過其環(huán)境隨著時(shí)間的推移對(duì)其進(jìn)行優(yōu)化。

獎(jiǎng)勵(lì)模型的訓(xùn)練也是從一個(gè)數(shù)據(jù)集開始的,但要注意它與用于大型模型預(yù)訓(xùn)練的數(shù)據(jù)集不同。這里的數(shù)據(jù)集側(cè)重于特定的首選項(xiàng),是一個(gè)提示輸入數(shù)據(jù)集。它包含模型將用于的特定用例的提示,以及與提示示例相關(guān)聯(lián)的預(yù)期獎(jiǎng)勵(lì),例如 $(prompt, reward)$ pairs。數(shù)據(jù)集通常比預(yù)先訓(xùn)練的數(shù)據(jù)集小得多。因此,輸出是文本示例的排名/獎(jiǎng)勵(lì)。

通常情況下,可以使用一個(gè)大型的“teacher”模型集合來減輕偏見,增加排名的多樣性,或讓人工對(duì)排名參與這些模型的循環(huán)。例如,當(dāng)使用 ChatGPT 時(shí),它有一個(gè)向上或向下的圖標(biāo)。這允許模型通過眾包學(xué)習(xí)它的排名輸出。

5. 用增強(qiáng)學(xué)習(xí)對(duì)大模型進(jìn)行微調(diào)

下圖解釋了獎(jiǎng)勵(lì)模型微調(diào)的工作原理。

圖片

首先,獲取提示數(shù)據(jù)集,即用戶所說的內(nèi)容或者我們希望模型能夠很好生成的內(nèi)容。然后,它被發(fā)送到增強(qiáng)學(xué)習(xí)的策略中,這是一個(gè)調(diào)優(yōu)的語言模型,以根據(jù)提示生成適當(dāng)?shù)妮敵?。隨著初始大語言模型的輸出,這被傳遞到生成標(biāo)量獎(jiǎng)勵(lì)值的獎(jiǎng)勵(lì)模型中。

這是在一個(gè)反饋循環(huán)中完成的,基于它接受訓(xùn)練的人工標(biāo)注,獎(jiǎng)勵(lì)模型可以分配獎(jiǎng)勵(lì),在資源允許的情況下盡可能多地使用樣本,因此,它會(huì)隨著時(shí)間的推移而更新。

Kullback-Leibler(KL)是兩個(gè)概率分布之間差異的度量,可以用來度量初始大模型輸出與調(diào)優(yōu)后的大模型輸出。因此,使用 RLHF,KL 可以用來比較當(dāng)前策略的概率分布和代表期望行為的參考分布。

此外,RLHF 可以對(duì)最近的政策優(yōu)化微調(diào)。近似策略優(yōu)化(PPO)是一種流行的強(qiáng)化學(xué)習(xí)算法,由于其能夠在具有高維狀態(tài)和行為空間的復(fù)雜環(huán)境中有效地優(yōu)化策略,因此經(jīng)常用于RLHF的微調(diào)過程中。PPO 有效地平衡了訓(xùn)練過程中的探索和開發(fā),這對(duì)于必須從人類反饋和試錯(cuò)探索中學(xué)習(xí)的 RLHF Agent來說非常重要。在 RLHF 中使用 PPO 可以導(dǎo)致更快和更強(qiáng)大的學(xué)習(xí),因?yàn)橹悄?Agent 能夠從人類反饋和強(qiáng)化學(xué)習(xí)中學(xué)習(xí)。

在一定程度上,這個(gè)過程阻止了語言模型產(chǎn)生胡言亂語。換句話說,它驅(qū)使模型專注于高回報(bào),從而最終導(dǎo)致它產(chǎn)生一個(gè)準(zhǔn)確的文本結(jié)果。

6. RLHF之偏差考量及緩解策略

大型模型已經(jīng)被部署在各種應(yīng)用程序中,從搜索引擎(Bing Chat,Google’s Bard)到文本文檔(Microsoft Office co-Pilot、Google Docs、Notion)等。那么,RLHF 能否給模型增加偏差呢?

答案是肯定的。就像任何有人工輸入的機(jī)器學(xué)習(xí)方法一樣,RLHF 有可能引入偏差。RLHF 可能引入不同形式的偏差如下:

  • 選擇偏差:RLHF 依賴于人類評(píng)估者的反饋,他們可能有自己的偏見和偏好,可以限制他們的反饋到他們可以涉及的主題或情況。因此,Agent 可能不會(huì)接觸到它在現(xiàn)實(shí)世界中將會(huì)遇到的真實(shí)行為和結(jié)果的范圍。
  • 確認(rèn)偏差:人類評(píng)估者可能更有可能提供反饋,確認(rèn)他們現(xiàn)有的信念或期望,而不是提供客觀的反饋。這可能導(dǎo)致代理因?yàn)槟承┬袨榛蚪Y(jié)果而得到加強(qiáng),而這些行為或結(jié)果在長期來看可能不是最理想的結(jié)果。
  • 評(píng)分者之間的差異:不同的人類評(píng)價(jià)者可能對(duì) Agent 的響應(yīng)質(zhì)量有不同的意見或判斷,從而導(dǎo)致 Agent 收到的反饋不一致。這可能使得有效訓(xùn)練 Agent 變得困難,并且可能導(dǎo)致性能不理想。
  • 有限的反饋:人工評(píng)估者可能無法提供關(guān)于 Agent 所有方面的反饋,從而導(dǎo)致 Agent 的學(xué)習(xí)差距和在某些情況下潛在的次優(yōu)結(jié)果。

針對(duì)RLHF可能存在的不同類型偏差,緩解策略如下:

  • 選擇不同的評(píng)估者:選擇具有不同背景和觀點(diǎn)的評(píng)估者可以幫助減少反饋中的偏見。可以通過招募來自不同人口群體、地區(qū)或行業(yè)的評(píng)估人員來實(shí)現(xiàn)。
  • 共識(shí)評(píng)價(jià):使用共識(shí)評(píng)價(jià),即多個(gè)評(píng)價(jià)者就同一項(xiàng)任務(wù)提供反饋,有助于減少個(gè)別偏見的影響,并提高反饋的可靠性。這幾乎就像是評(píng)估中的“規(guī)范化”。
  • 校正評(píng)估者:通過向評(píng)價(jià)者提供關(guān)于如何提供反饋的培訓(xùn)和指導(dǎo)來校準(zhǔn)評(píng)價(jià)者,可有助于提高反饋的質(zhì)量和一致性。
  • 評(píng)價(jià)反饋過程:定期評(píng)價(jià)反饋過程,包括反饋的質(zhì)量和訓(xùn)練過程的有效性,可有助于查明和解決可能存在的偏差。
  • 評(píng)估Agent的表現(xiàn):定期評(píng)估Agent在各種任務(wù)和不同環(huán)境中的表現(xiàn),可以幫助確保它不會(huì)過于適合特定的示例,并能夠推廣到新的情況。
  • 平衡反饋:在人工評(píng)價(jià)者的反饋與其他反饋來源(如專家反饋)之間取得平衡,有助于減少反饋中偏差的影響,并提高訓(xùn)練數(shù)據(jù)的整體質(zhì)量。

7. 強(qiáng)化學(xué)習(xí)與監(jiān)督式學(xué)習(xí)中微調(diào)的對(duì)比

下圖描述了強(qiáng)化學(xué)習(xí)與監(jiān)督式學(xué)習(xí)中微調(diào)的主要區(qū)別:

圖片

既然增強(qiáng)學(xué)習(xí)需要人工反饋提供的標(biāo)簽,那為什么我們不只是把這些標(biāo)簽和監(jiān)督式學(xué)習(xí)本身一起使用呢?

監(jiān)督式學(xué)習(xí)的重點(diǎn)是縮小真實(shí)標(biāo)簽和模型輸出之間的差距。在這里,它意味著模型只是記住等級(jí),并可能產(chǎn)生胡言亂語的輸出,因?yàn)樗闹攸c(diǎn)是最大限度地提高它的等級(jí)。這就是 RL 中獎(jiǎng)勵(lì)模型所做的,是 KL 差異可以提供幫助的地方。在這種情況下,如果聯(lián)合訓(xùn)練兩個(gè)損失函數(shù),一個(gè)用于排名,一個(gè)用于輸出。那么,這個(gè)場(chǎng)景就只適用于問答任務(wù),而不適用于 ChatGPT 或其他會(huì)話模型的每種會(huì)話模式。

GPT 使用交叉熵?fù)p失函數(shù)對(duì)下一個(gè)詞進(jìn)行預(yù)測(cè)。然而,RLHF 不使用標(biāo)準(zhǔn)損失函數(shù),而是使用客觀函數(shù)來幫助模型更好地服務(wù)于使用 RLHF 的任務(wù),例如信任和安全。此外,因?yàn)榉穸ㄒ粋€(gè)詞可以完全改變文本的意思,它在這里不是用武之地。根據(jù)經(jīng)驗(yàn),RLHF 的性能往往優(yōu)于監(jiān)督式學(xué)習(xí)。監(jiān)督式學(xué)習(xí)使用標(biāo)注級(jí)損失,例如可以在文本段落中求和或取平均值,而 RL 將整個(gè)文本段落作為一個(gè)整體來考慮。

最后,二者不是互斥的,可以首先使用 SL 進(jìn)行微調(diào),然后使用 RLHF 進(jìn)行更新。

8. RHLF之潛在演進(jìn)方向——RLAIF

Anthroic 的對(duì)話助手 Claude 采用了一種不同的方法來處理 RLHF,即從人工智能反饋 (RLAIF) 中創(chuàng)建 RLHF V2,并去掉了人工反饋。

RLAIF 利用人工智能系統(tǒng)協(xié)助監(jiān)管其他人工智能的可能性,以及提高監(jiān)管的可擴(kuò)展性。通過減少回避式響應(yīng),減少有益和無害之間的緊張關(guān)系,并鼓勵(lì) AI 解釋對(duì)有害請(qǐng)求的反對(duì)意見,從而改進(jìn)對(duì)無害 AI 助手的訓(xùn)練,使控制人工智能行為的原則及其實(shí)現(xiàn)更加透明。通過消除在改變目標(biāo)時(shí)收集新的人工反饋標(biāo)簽的需要,來減少迭代時(shí)間。

RLAIF 允許模型解釋為什么它拒絕提供一個(gè)答案,這是基于它的思維鏈推理能力。這使我們能夠洞察模型的推理過程。使用 RLAIF,不需要人工標(biāo)簽,它大大降低了成本和人力。它允許 LLM “反映”通過堅(jiān)持一組原則或章程而產(chǎn)生的輸出。人工智能將審查自己的響應(yīng),并確保他們遵守基本原則。

具體實(shí)現(xiàn)包括兩個(gè)步驟:監(jiān)督式學(xué)習(xí)階段和 RLAIF 階段,系統(tǒng)參考架構(gòu)如下:

圖片

在監(jiān)督式學(xué)習(xí)階段,AI系統(tǒng)首先采用一套自我完善的規(guī)則,包括AI對(duì)各種大范圍提示的答復(fù),然后修訂這些關(guān)于原型的初步答復(fù)。首先,檢索預(yù)先訓(xùn)練LLM模型的響應(yīng),其中模型的響應(yīng)可能包含有害元素。隨后,要求模型使用一套既定的原則來評(píng)估自己的響應(yīng)。然后,提示模型根據(jù)其提供的評(píng)估修改其響應(yīng)。這兩個(gè)步驟也稱為“批評(píng)和修訂”管道,將在n次迭代中重復(fù)執(zhí)行。最后,使用由有害提示生成的修訂響應(yīng)的所有迭代對(duì)預(yù)先訓(xùn)練好的LLM進(jìn)行微調(diào)。

此外,重要的是要包括一組有用的提示和它們各自的響應(yīng),以確保經(jīng)過微調(diào)的模型仍然是有用的,也就是這個(gè)階段的“監(jiān)督”性質(zhì)。這個(gè)修改后的模型被稱為監(jiān)督式學(xué)習(xí)AI憲章(SL-CAI)模型。

在強(qiáng)化學(xué)習(xí)階段,需要AI系統(tǒng)探索對(duì)成千上萬個(gè)提示的可能反應(yīng),并使用思維鏈推理來確定最符合憲章原則的行為。首先,利用前一階段開發(fā)的SL-CAI模型為有害提示生成響應(yīng)對(duì)。然后,引入一個(gè)反饋模型,它本質(zhì)上是一個(gè)預(yù)訓(xùn)練的語言模型,用于評(píng)估一對(duì)反饋,并根據(jù)已建立的原則選擇危害較小的反饋。反饋模型的歸一化對(duì)數(shù)概率用于訓(xùn)練偏好模型或獎(jiǎng)勵(lì)模型。最后,使用這一獎(jiǎng)勵(lì)模型作為獎(jiǎng)勵(lì)函數(shù),使用近似策略優(yōu)化(PPO)訓(xùn)練SL-CAI模型。這就產(chǎn)生了最終的強(qiáng)化學(xué)習(xí)人工智能憲章(RL-CAI)模型。

9. 小結(jié)

RLHF的主要任務(wù)是生成獎(jiǎng)勵(lì)模型,通過人類偏好為輸入文本分配標(biāo)量獎(jiǎng)勵(lì),并使用增強(qiáng)學(xué)習(xí)對(duì)大型語言模型進(jìn)行微調(diào)。同時(shí),RLHF可能會(huì)產(chǎn)生偏差,需要使用相應(yīng)的緩解策略。通過強(qiáng)化學(xué)習(xí)和監(jiān)督式學(xué)習(xí)中微調(diào)的對(duì)比,可以了解到二者結(jié)合使用的可能性,也就是RLHF的一個(gè)潛在發(fā)展方向——RLAIF。

【參考資料與關(guān)聯(lián)閱讀】

  • “Deep reinforcement learning from human preferences” by OpenAI (2017),https://arxiv.org/abs/1706.03741
  • Reinforcement Learning from Human Feedback,https://openai.com/blog/deep-reinforcement-learning-from-human-preferences/
  • Learning to summarize from human feedback by OpenAI (2020),https://arxiv.org/abs/2009.01325
  • Illustrating Reinforcement Learning from Human Feedback (RLHF)
  • https://www.linkedin.com/posts/sebastianraschka_ai-deeplearning-machinelearning-activity-7036333477658599424-rkSL
責(zé)任編輯:武曉燕 來源: 喔家ArchiSelf
相關(guān)推薦

2022-12-19 13:26:37

2023-01-31 10:13:29

AI模型

2024-08-09 12:46:04

2023-07-11 15:38:51

模型方案

2023-09-05 12:59:33

模型數(shù)據(jù)

2023-05-25 09:00:00

人工智能ChatGPTOpenAI

2023-04-28 15:24:06

模型研究

2024-04-16 14:01:40

大型語言模型ORPO

2024-07-29 00:01:00

2013-05-21 15:03:23

MariaDB

2022-12-29 16:58:31

ChatGPT模型

2023-03-06 14:35:08

2023-11-13 07:51:58

ChatGPT研究

2023-09-06 13:17:00

AI數(shù)據(jù)

2010-05-12 10:35:19

路由交換

2023-04-12 16:16:53

微軟開源

2023-05-25 14:06:45

ChatGPT人工智能工具

2024-08-06 14:07:40

2018-01-30 10:34:24

爬蟲HTTP過程

2024-07-31 08:12:33

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)