自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

老婆餅里沒有老婆,RLHF里也沒有真正的RL

人工智能 新聞
雖然 RLHF、DPO 和相關(guān)方法提供了一種實(shí)用的方法,可以在短期環(huán)境中使 LLM 與人類偏好保持一致,但它們無(wú)法賦予 LLM 真正、持久的目標(biāo)或意圖。

老婆餅里沒有老婆,夫妻肺片里沒有夫妻,RLHF 里也沒有真正的 RL。在最近的一篇博客中,德克薩斯大學(xué)奧斯汀分校助理教授 Atlas Wang 分享了這樣一個(gè)觀點(diǎn)。

圖片

  • 博客鏈接:https://www.linkedin.com/pulse/why-rlhf-other-rl-like-methods-dont-bring-true-rl-llmsand-atlas-wang-s1efc/

他指出,RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí))和其他類似的方法并沒有為大型語(yǔ)言模型(LLM)帶來(lái)真正的強(qiáng)化學(xué)習(xí)(RL),因?yàn)樗鼈內(nèi)狈?RL 的核心特征:持續(xù)的環(huán)境交互和長(zhǎng)期目標(biāo)的追求。

RLHF 主要通過(guò)單步或幾步優(yōu)化來(lái)調(diào)整模型輸出,使其符合人類偏好,而不是在一個(gè)動(dòng)態(tài)環(huán)境中進(jìn)行多步驟的策略調(diào)整。此外,RLHF 通常是離線或半離線進(jìn)行的,缺乏實(shí)時(shí)的環(huán)境反饋和策略更新。因此,盡管 RLHF 可以改善模型的對(duì)齊性和輸出質(zhì)量,但它并不能賦予 LLM 真正的目標(biāo)或意圖,讓它們「想要」贏得游戲。LLM 仍然主要是一個(gè)基于上下文預(yù)測(cè)下一個(gè) token 的統(tǒng)計(jì)系統(tǒng)。

整篇文章討論了幾個(gè)有趣的問(wèn)題:

1. RLHF (及相關(guān)方法)與經(jīng)典 RL 有何不同?

2. 為什么這些方法實(shí)際上無(wú)法給出 LLM 真實(shí)目標(biāo)或意圖?

3. 為什么沒有人大規(guī)模地為 LLM 做「真正的 RL」?

4. 現(xiàn)有的最接近給 LLM 一個(gè)「目標(biāo)」的方法是什么?

5. 沒有「目標(biāo)驅(qū)動(dòng)」的 LLM 的后果是什么?  

通過(guò)了解這些細(xì)微差別,我們可以清楚地知道 LLM 能做什么、不能做什么,以及為什么。

谷歌 DeepMind 首席科學(xué)家 Denny Zhou 轉(zhuǎn)發(fā)該文章時(shí)評(píng)價(jià)說(shuō),「對(duì)于任何有 RL 知識(shí)背景的人來(lái)說(shuō),(文章中的觀點(diǎn))是顯而易見的。但對(duì)于新人來(lái)說(shuō),這是一份很好的介紹。」

圖片

區(qū)分 RLHF 和經(jīng)典強(qiáng)化學(xué)習(xí)

什么是經(jīng)典強(qiáng)化學(xué)習(xí)?在經(jīng)典強(qiáng)化學(xué)習(xí)設(shè)置中,你有:  

  • 在環(huán)境中采取行動(dòng)的智能體。
  • 環(huán)境會(huì)根據(jù)智能體的行動(dòng)改變狀態(tài)。
  • 智能體的行動(dòng)會(huì)受到獎(jiǎng)勵(lì)或懲罰,目的是在多個(gè)步驟中實(shí)現(xiàn)長(zhǎng)期累積獎(jiǎng)勵(lì)的最大化。

主要特征:持續(xù)或偶發(fā)交互。智能體探索多種狀態(tài)、做出決策、觀察獎(jiǎng)勵(lì),并在一個(gè)連續(xù)的循環(huán)中調(diào)整其策略。

RLHF 是一種使用根據(jù)人類偏好數(shù)據(jù)訓(xùn)練的獎(jiǎng)勵(lì)模型來(lái)完善模型輸出的工作流。常見流程包括:  

  • 監(jiān)督微調(diào)(SFT):首先在高質(zhì)量數(shù)據(jù)上訓(xùn)練或微調(diào)基礎(chǔ)語(yǔ)言模型。
  • 獎(jiǎng)勵(lì)模型訓(xùn)練:收集成對(duì)的輸出結(jié)果,詢問(wèn)人類更喜歡哪一個(gè),然后訓(xùn)練一個(gè)「獎(jiǎng)勵(lì)模型」,以接近人類的判斷。
  • 策略優(yōu)化:使用類似強(qiáng)化學(xué)習(xí)的算法(通常為 PPO,即「近端策略優(yōu)化」)來(lái)調(diào)整 LLM 的參數(shù),使其產(chǎn)生獎(jiǎng)勵(lì)模型所喜歡的輸出結(jié)果。

與傳統(tǒng) RL 不同的是,RLHF 中的「環(huán)境」基本上是一個(gè)單步文本生成過(guò)程和一個(gè)靜態(tài)獎(jiǎng)勵(lì)模型 —— 這其中沒有擴(kuò)展循環(huán)或持續(xù)變化的狀態(tài)。

為什么 RLHF(及相關(guān)方法)不是真正的 RL?  

  • 單步或幾步優(yōu)化。在 RLHF 中,LLM 會(huì)基于給定的提示生成文本,然后獎(jiǎng)勵(lì)模型會(huì)提供一個(gè)單一的偏好分?jǐn)?shù)。RLHF 中的「強(qiáng)化」步驟更類似于一步式策略梯度優(yōu)化,以實(shí)現(xiàn)人類偏好的輸出,而不是在不斷變化的環(huán)境中對(duì)狀態(tài)和行動(dòng)進(jìn)行基于智能體的全面循環(huán)。這更像是一種「一勞永逸」的評(píng)分,而不是讓一個(gè)智能體隨時(shí)間推移探索多步行動(dòng),并接收環(huán)境反饋。
  • 大多離線或半離線。獎(jiǎng)勵(lì)模型通常在人類標(biāo)簽數(shù)據(jù)上進(jìn)行離線訓(xùn)練,然后用于更新 LLM 的策略。LLM 在線調(diào)整策略時(shí),并沒有實(shí)時(shí)探索連續(xù)的環(huán)境循環(huán)。
  • 缺乏基于環(huán)境的長(zhǎng)期(Long-Horizon)目標(biāo)。經(jīng)典的 RL 智能體會(huì)追蹤多個(gè)狀態(tài)下的長(zhǎng)期回報(bào)。相比之下,基于 RLHF 的 LLM 訓(xùn)練側(cè)重于根據(jù)人類偏好調(diào)整即時(shí)文本輸出。LLM 并沒有在一個(gè)動(dòng)態(tài)環(huán)境中導(dǎo)航多個(gè)時(shí)間步驟。
  • 表面約束與真正的內(nèi)部目標(biāo)。RLHF 可以有效地影響某些輸出的概率 —— 引導(dǎo)模型遠(yuǎn)離不受歡迎的文本。但模型內(nèi)部并沒有形成產(chǎn)生這些輸出的「愿望」或「欲望」;它仍然是一個(gè)生成下一個(gè) token 的統(tǒng)計(jì)系統(tǒng)。

請(qǐng)記住,不管是 RLHF、SFT 還是其他什么,LLM 都不是為了真正的目標(biāo)或意圖而訓(xùn)練的!LLM 的核心是根據(jù)給定上下文預(yù)測(cè)下一個(gè) token。它們的「動(dòng)機(jī)」純粹是最大限度地提高下一個(gè) token 的正確率(由訓(xùn)練數(shù)據(jù)和任何后續(xù)微調(diào)信號(hào)確定)。這個(gè)過(guò)程并不存在主觀上的愿望或意圖。我們常說(shuō) AlphaZero「想要」在國(guó)際象棋中獲勝,但這只是一種方便的簡(jiǎn)單說(shuō)法。從內(nèi)部來(lái)說(shuō),AlphaZero 是在最大化數(shù)學(xué)獎(jiǎng)勵(lì)函數(shù) —— 沒有任何感覺上的欲望。同樣,經(jīng)過(guò) RLHF 調(diào)整的 LLM 也在最大化對(duì)齊獎(jiǎng)勵(lì)信號(hào),而沒有內(nèi)心的渴望狀態(tài)。

RLHF vs. IRL 如何?

亞利桑那州立大學(xué)計(jì)算機(jī)科學(xué)教授 Subbarao Kambhampati 指出,「RLHF」有點(diǎn)名不副實(shí),因?yàn)樗鼘娜祟惻袛嘀袑W(xué)習(xí)偏好或獎(jiǎng)勵(lì)模型(在概念上更接近于逆強(qiáng)化學(xué)習(xí),即 IRL)與一步或幾步策略優(yōu)化相結(jié)合,而不是經(jīng)典 RL 中典型的長(zhǎng)期迭代交互。

  • IRL:在經(jīng)典表述中,智能體通過(guò)觀察專家在動(dòng)態(tài)環(huán)境中的演示來(lái)推斷獎(jiǎng)勵(lì)函數(shù)。相比之下,RLHF 通常收集靜態(tài)的成對(duì)比較(例如,「你更喜歡這兩個(gè)模型輸出中的哪一個(gè)?」),并訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型來(lái)模仿人類的偏好。在不斷演化的環(huán)境中,沒有擴(kuò)展的多步驟專家軌跡。
  • RL 中的偏好學(xué)習(xí):在當(dāng)前的深度強(qiáng)化學(xué)習(xí)中,有一些方法可以從軌跡 rollout 的成對(duì)比較中學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)(例如,「你更喜歡機(jī)器人步行者的哪種步態(tài)?」)。然而,這些方法往往存在樣本復(fù)雜度高的問(wèn)題(例如,需要多次詢問(wèn)人類),因此許多研究論文都采用了在受控任務(wù)中模擬人類反應(yīng)的方法。
  • 為什么 RLHF 也不是「經(jīng)典 IRL」:即使 RLHF 在從人類數(shù)據(jù)中學(xué)習(xí)偏好模型方面讓人聯(lián)想到 IRL,它也不是分析專家行為隨時(shí)間變化的經(jīng)典方案。相反,RLHF 側(cè)重于人類對(duì)最終或短序列輸出的靜態(tài)判斷。因此,RLHF 仍然主要是離線或接近離線的,這進(jìn)一步限制了它與傳統(tǒng) IRL 設(shè)置的相似性 —— 盡管 Subbarao Kambhampati 也評(píng)論說(shuō),從成對(duì)偏好中學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)(已成為(I)RL 文獻(xiàn)的主流)!

CoT、PRM 或多智能體工作流有助于解決這個(gè)問(wèn)題嗎?

基于流程的獎(jiǎng)勵(lì)模型和思維鏈

基于流程的獎(jiǎng)勵(lì)模型可能會(huì)對(duì)中間推理步驟(思維鏈或 CoT)提供反饋,而不是僅根據(jù)最終輸出(如問(wèn)題的最終答案)提供獎(jiǎng)勵(lì)。這樣做的目的是鼓勵(lì)模型以更易于解釋、正確率更高或更符合特定標(biāo)準(zhǔn)的方式解釋或展示其推理過(guò)程。

這就是「真正的 RL」嗎?并非如此。

即使你為中間步驟分配了部分獎(jiǎng)勵(lì)(比如 CoT 解釋),你仍然處于這樣一種環(huán)境中:你通常會(huì)將整個(gè)輸出(包括推理)輸入獎(jiǎng)勵(lì)模型,獲得獎(jiǎng)勵(lì),然后進(jìn)行一步策略優(yōu)化。而不是在一個(gè)動(dòng)態(tài)環(huán)境中,由 LLM「嘗試」部分推理步驟、獲得反饋、進(jìn)行調(diào)整,并在同一 episode 中繼續(xù)進(jìn)行開放式循環(huán)。

因此,雖然 CoT / PRM 會(huì)給人一種多步驟 RL 的錯(cuò)覺,因?yàn)槟銜?huì)對(duì)中間步驟進(jìn)行獎(jiǎng)勵(lì)或懲罰,但實(shí)際上,它仍然相當(dāng)于對(duì)單一步驟(文本生成和推理)進(jìn)行離線或近似離線的策略調(diào)整,而不是經(jīng)典 RL 的持續(xù)智能體 - 環(huán)境循環(huán)。

多智能體工作流也不會(huì)神奇地創(chuàng)建意圖

你可以在工作流中協(xié)調(diào)多個(gè) LLM(例如,「系統(tǒng) A 生成計(jì)劃,系統(tǒng) B 批改計(jì)劃,系統(tǒng) C 完善計(jì)劃」),但從內(nèi)部來(lái)看,每個(gè) LLM 仍然是根據(jù)下一個(gè) token 的概率生成文本。盡管這樣的多智能體設(shè)置可以表現(xiàn)出看起來(lái)協(xié)調(diào)或有目的的涌現(xiàn)行為,但它并沒有賦予任何單個(gè)模型內(nèi)在或秉持的目標(biāo)。

為什么我們的多智能體 LLM 工作流常??雌饋?lái)有意圖?人類會(huì)自然而然地將心理狀態(tài)投射到行為看似有目的的系統(tǒng)上,這就是所謂的「意圖立場(chǎng)」。但是,每個(gè) LLM 智能體只是對(duì)提示做出響應(yīng)。每個(gè)智能體背后的思維鏈并不等同于個(gè)人欲望或驅(qū)動(dòng)力;它只是一個(gè)多步驟反饋回路中更復(fù)雜的 prompt-completion。

因此,多智能體協(xié)調(diào)可以產(chǎn)生非常有趣的新興任務(wù)解決能力,但 LLM 本身仍然不會(huì)產(chǎn)生「我想要這個(gè)結(jié)果」的動(dòng)機(jī)。

為什么至今還沒有人用「真正的 RL」訓(xùn)練 LLM?

  • 因?yàn)樘F了!大規(guī)模模型的經(jīng)典 RL 需要一個(gè)穩(wěn)定、交互式的環(huán)境,外加大量計(jì)算來(lái)運(yùn)行重復(fù)的 episode。每個(gè)訓(xùn)練周期的前向傳遞次數(shù)對(duì)于今天的十億參數(shù) LLM 來(lái)說(shuō)過(guò)于昂貴。
  • 缺乏環(huán)境定義。文本生成并非天然的「狀態(tài) - 動(dòng)作轉(zhuǎn)換」環(huán)境。我們可以嘗試將其包裝成類似游戲的模擬環(huán)境,但這樣就必須為多步驟文本交互定義獎(jiǎng)勵(lì)結(jié)構(gòu),而這并非易事。
  • 性能已經(jīng)足夠好了。在許多使用案例中,RLHF 或 DPO(直接偏好優(yōu)化)已經(jīng)能產(chǎn)生足夠好的對(duì)齊效果。實(shí)事求是地說(shuō),團(tuán)隊(duì)會(huì)堅(jiān)持使用更簡(jiǎn)單的離線方法,而不是建立一個(gè)復(fù)雜的 RL 管道,以巨大的成本換取微不足道的收益。

最接近給 LLM 一個(gè)「目標(biāo)」的現(xiàn)有方法是什么?

在我看來(lái),與「給 LLM 一個(gè)目標(biāo)」最接近的方法是使用提示工程或?qū)⒍鄠€(gè) LLM 提示串聯(lián)成一個(gè)循環(huán)來(lái)構(gòu)建一個(gè)元系統(tǒng)或「智能體」。像 Auto-GPT 或 BabyAGI 這樣的工具試圖模擬一個(gè)智能體,它能:   

  • 接收自然語(yǔ)言目標(biāo)(如「研究 X,然后制定計(jì)劃」)。
  • 反復(fù)計(jì)劃、推理和提示自己。
  • 評(píng)估進(jìn)展并完善計(jì)劃。

然而,所有這些「目標(biāo)保持」都是在系統(tǒng)層面,在提示或鏈接邏輯中協(xié)調(diào)進(jìn)行的,而不是從 LLM 的內(nèi)部動(dòng)機(jī)狀態(tài)出發(fā)。LLM 本身仍然是被動(dòng)地對(duì)提示做出反應(yīng),缺乏內(nèi)在的欲望。

多智能體是另一種「窮人的解決方案」。正如在上文所討論的,你可以協(xié)調(diào)多個(gè) LLM 對(duì)彼此的輸出結(jié)果進(jìn)行評(píng)論或驗(yàn)證,從而有效地劃分子任務(wù)并組合出部分解決方案。這看起來(lái)是有目標(biāo)的,但同樣,「目標(biāo)」是由工作流和提示從外部協(xié)調(diào)的;LLM 不會(huì)自發(fā)生成或堅(jiān)持自己的目標(biāo)。

LLM 沒有「真正目標(biāo)」的后果

  • 簡(jiǎn)化的對(duì)齊(在某些方面)。由于 LLM 沒有真正追逐個(gè)體目標(biāo),它們不太可能「繞過(guò)」限制或自主計(jì)劃非法行為。對(duì)齊通常相當(dāng)于設(shè)置正確的提示約束和微調(diào),將其推向可接受的產(chǎn)出。Anthropic 最近的博客與這一觀點(diǎn)有關(guān)(參見《震驚!Claude 偽對(duì)齊率竟能高達(dá) 78%,Anthropic 137 頁(yè)長(zhǎng)論文自揭短》)
  • 更難委派開放式任務(wù)。如果我們希望 AI 能夠自發(fā)地發(fā)現(xiàn)新問(wèn)題,積極收集資源,并堅(jiān)持?jǐn)?shù)月來(lái)解決這些問(wèn)題,我們就需要一個(gè)具有持續(xù)內(nèi)驅(qū)力的系統(tǒng) —— 類似于真正的 RL 智能體或高級(jí)規(guī)劃系統(tǒng)。目前的 LLM 無(wú)法以這種方式實(shí)現(xiàn)真正的自我啟動(dòng)。
  • 潛在的創(chuàng)新缺失。在豐富的 RL 環(huán)境中進(jìn)行自由探索,可能會(huì)產(chǎn)生驚人的發(fā)現(xiàn)(如 AlphaZero 在國(guó)際象棋或圍棋中的突破)。如果依賴于只有表面反饋的單步文本生成,我們可能會(huì)錯(cuò)過(guò)多步獎(jiǎng)勵(lì)優(yōu)化所帶來(lái)的全新策略。

不過(guò),這也有積極的一面。例如,我認(rèn)為沒有持續(xù)目標(biāo)的 LLM 在某些方面更加透明。它本質(zhì)上是一個(gè)由即時(shí)反饋信號(hào)引導(dǎo)的強(qiáng)大的下一個(gè) token 預(yù)測(cè)器 —— 沒有多步驟 RL 循環(huán)中出現(xiàn)的復(fù)雜的隱藏目標(biāo)。

明確時(shí)間跨度、目標(biāo)、獎(jiǎng)勵(lì)和行動(dòng)空間

單步或幾步方法(如 RLHF 或 DPO)與「真正的」RL 的關(guān)鍵區(qū)別在于時(shí)間跨度:

  • 短期優(yōu)化:RLHF 和 DPO 有效地針對(duì)即時(shí)(一步)反饋進(jìn)行優(yōu)化。即使反饋函數(shù)是通過(guò)(從人類標(biāo)記的數(shù)據(jù)中)學(xué)習(xí)獲得的,也不存在長(zhǎng)期規(guī)劃的持續(xù)狀態(tài) - 行動(dòng)循環(huán)。
  • 長(zhǎng)期優(yōu)化:在經(jīng)典 RL 中,智能體會(huì)對(duì)多個(gè)步驟的累積獎(jiǎng)勵(lì)進(jìn)行優(yōu)化,形成類似于「目標(biāo)」的東西。獎(jiǎng)勵(lì)模型與行動(dòng)空間相結(jié)合,可驅(qū)動(dòng)在動(dòng)態(tài)環(huán)境中塑造多步驟行為的策略。

此外,RL 通常假定有一個(gè)定義明確的行動(dòng)空間(例如,將游戲棋子向上 / 向下 / 向左 / 向右移動(dòng))。而在 LLM 微調(diào)中,「動(dòng)作」的概念是模糊的,通常會(huì)被直接參數(shù)更新或生成 token 所取代。增強(qiáng)提示,甚至只是從固定詞匯中生成 token,都可以被視為「動(dòng)作」,而「環(huán)境」則是 LLM 的內(nèi)部狀態(tài)。然而,這是對(duì) RL 循環(huán)的非標(biāo)準(zhǔn)或某種不尋常的重新解釋。

另一個(gè)專家澄清的問(wèn)題是 RL 中獎(jiǎng)勵(lì)和目標(biāo)之間的區(qū)別。原則上,RL「獎(jiǎng)勵(lì)」是指導(dǎo)智能體學(xué)習(xí)過(guò)程的信號(hào),而不總是明確的最終目標(biāo)。如果獎(jiǎng)勵(lì)稀少(僅在成功 episode 結(jié)束時(shí)提供),智能體的實(shí)際「目標(biāo)」可能看起來(lái)是「達(dá)到成功條件」。然而,在實(shí)踐中,好的 RL 設(shè)計(jì)通常會(huì)使用密集的獎(jiǎng)勵(lì)信號(hào)來(lái)引導(dǎo)中間狀態(tài),從而幫助智能體更有效地學(xué)習(xí)。

對(duì)于 LLM 而言,「目標(biāo)」的概念意味著對(duì)某些目標(biāo)的持續(xù)、多步驟的追求。由于 RLHF 通常是在單步或幾步過(guò)程中進(jìn)行的,因此該模型從未真正形成長(zhǎng)期目標(biāo)的內(nèi)部表征。它只是根據(jù)獎(jiǎng)勵(lì)模型或偏好函數(shù)來(lái)優(yōu)化即時(shí)文本輸出。

后記

RLHF、DPO、憲法 AI(Constitutional AI)和其他受 RL 啟發(fā)的微調(diào)方法對(duì)于使 LLM 更加一致和有用大有裨益。它們讓我們能夠利用人類的偏好來(lái)塑造輸出,減少有毒內(nèi)容,并引導(dǎo) LLM 響應(yīng)的風(fēng)格。

然而,這些技術(shù)并不能為 LLM 提供真正的長(zhǎng)期目標(biāo)、內(nèi)部動(dòng)機(jī)或經(jīng)典 RL 意義上的「意圖」。LLM 仍然是一個(gè)復(fù)雜的下一個(gè) token 預(yù)測(cè)器,而不是一個(gè)自主智能體。

如果未來(lái)我們希望 LLM 擁有真正的 RL 怎么辦?如果有一天,研究人員將 LLM 集成到實(shí)際的多步驟 RL 框架中(想想看:一個(gè)智能體在模擬或現(xiàn)實(shí)世界中導(dǎo)航,不斷閱讀和生成文本,接收反饋,并實(shí)時(shí)調(diào)整策略),那么我們就可能接近真正的智能體行為。這需要大量的資源、精心的環(huán)境設(shè)計(jì)和強(qiáng)大的安全措施。在此之前,我們所擁有的系統(tǒng) —— 盡管功能強(qiáng)大 —— 從根本上說(shuō)仍然是被動(dòng)的、由離線或半離線反饋信號(hào)形成的下一個(gè) token 預(yù)測(cè)器。

為什么這一切都很重要?

  • 從業(yè)者應(yīng)該意識(shí)到這些局限性,不要高估 LLM 的自主性。
  • 政策制定者和倫理學(xué)家應(yīng)該認(rèn)識(shí)到,LLM 不可能自發(fā)地策劃或撒謊來(lái)達(dá)到隱藏的目的,除非被提示指引去模仿這種行為。
  • 反過(guò)來(lái)說(shuō),如果未來(lái)的系統(tǒng)真的結(jié)合了具有大規(guī)模計(jì)算和動(dòng)態(tài)環(huán)境的「真正 RL」,我們可能會(huì)看到更多類似智能體的突發(fā)行為 —— 這就會(huì)引發(fā)新的調(diào)整和安全問(wèn)題。

未來(lái)方向?

  • 更高的樣本復(fù)雜度:一個(gè)經(jīng)常出現(xiàn)的限制因素是,基于偏好的學(xué)習(xí)可能需要大量的人類 token 比較,尤其是當(dāng)任務(wù)變得越來(lái)越復(fù)雜時(shí)。研究人員通常采用模擬人的判斷來(lái)進(jìn)行 RL 實(shí)驗(yàn),但這也帶來(lái)了新的問(wèn)題,即這些模擬器如何忠實(shí)地模擬真實(shí)的人類偏好。
  • 擴(kuò)展到長(zhǎng)期任務(wù):許多專家懷疑,短期輸出的成對(duì)比較能否直接擴(kuò)展到更復(fù)雜的多步驟任務(wù)。使用 LLM 進(jìn)行真正的多步驟 RL 需要一個(gè)環(huán)境,在這個(gè)環(huán)境中,模型可以進(jìn)行探索、獲得中間獎(jiǎng)勵(lì)并進(jìn)行迭代 —— 而這在目前是非常昂貴的,也無(wú)法大規(guī)模廣泛實(shí)施。
  • 銜接符號(hào)與次符號(hào)方法:對(duì)于真正的長(zhǎng)期偏好(如需要概念或符號(hào)理解的任務(wù)),純粹的「原始」配對(duì)偏好數(shù)據(jù)可能并不足夠??赡苄枰撤N形式的結(jié)構(gòu)化、符號(hào)化反饋(或「通用語(yǔ)言」),才能有效地將人類的細(xì)微目標(biāo)傳達(dá)給人工智能系統(tǒng)。

最后,雖然 RLHF、DPO 和相關(guān)方法提供了一種實(shí)用的方法,可以在短期環(huán)境中使 LLM 與人類偏好保持一致,但它們無(wú)法賦予 LLM 真正、持久的目標(biāo)或意圖。這些方法也只是與經(jīng)典的 RL 或 IRL 范式略有對(duì)應(yīng)。未來(lái)的系統(tǒng)若能在真正的多步驟 RL 循環(huán)中使用 LLM,就能解鎖更多自主的、類似智能體的行為,但同時(shí)也會(huì)引發(fā)新的安全和一致性問(wèn)題。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2015-12-14 14:14:16

紅杉創(chuàng)業(yè)寒冬

2013-06-13 14:05:51

關(guān)機(jī)程序

2017-03-28 20:35:12

MapReduce編程函數(shù)

2011-04-28 09:26:06

程序員

2022-08-04 23:41:10

零信任安全API

2021-07-21 09:35:36

switchbreakJava

2012-05-16 18:21:27

2015-05-05 10:55:25

OpenStackNebula倒閉開源云項(xiàng)目

2017-08-30 12:17:02

Python王者榮耀套路

2011-04-27 10:11:58

耗材用戶體驗(yàn)

2020-12-21 08:24:21

程序員設(shè)備加班

2018-11-27 18:35:04

ERPCIO信息化

2020-08-05 19:01:57

谷歌代碼開發(fā)者

2023-05-05 17:15:42

谷歌OpenAl服務(wù)器

2019-12-10 11:01:06

云計(jì)算/預(yù)判性科研/自

2018-01-19 11:08:59

2014-08-07 09:40:46

2013-08-28 13:20:08

李彥宏百度

2018-03-06 10:46:42

代碼Python買水果
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)