自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Karpathy觀點(diǎn)惹爭(zhēng)議:RLHF不是真正的強(qiáng)化學(xué)習(xí),谷歌、Meta下場(chǎng)反對(duì)

人工智能 新聞
RLHF 與 RL 到底能不能歸屬為一類,看來(lái)大家還是有不一樣的看法。

AI 大牛 Karpathy 又來(lái)科普人工智能概念了。

昨日,他發(fā)推表示,「基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)只是勉強(qiáng)算得上是強(qiáng)化學(xué)習(xí)(RL)?!?/span>

Karpathy 的全文解釋如下:

RLHF 是訓(xùn)練大語(yǔ)言模型(LLM)的第三個(gè)(也是最后一個(gè))主要階段,前兩個(gè)階段分別是預(yù)訓(xùn)練和監(jiān)督微調(diào)(SFT)。我認(rèn)為 RLHF 只是勉強(qiáng)算得上 RL,它沒(méi)有得到廣泛的認(rèn)可。RL 很強(qiáng)大,但 RLHF 卻不然。

讓我們看看 AlphaGo 的例子,它是使用真正的 RL 訓(xùn)練的。計(jì)算機(jī)玩圍棋(Go)游戲,并在實(shí)現(xiàn)獎(jiǎng)勵(lì)函數(shù)最大化的回合(贏得比賽)中訓(xùn)練,最終超越了最厲害的人類棋手。AlphaGo 沒(méi)有使用 RLHF 進(jìn)行訓(xùn)練,如果它用了,效果就不會(huì)那么好。

用 RLHF 訓(xùn)練 AlphaGo 會(huì)是什么樣子呢?首先,你要給人類標(biāo)注員兩個(gè)圍棋棋盤(pán)的狀態(tài),然后問(wèn)他們更喜歡哪一種:

圖片

然后你會(huì)收集到 10 萬(wàn)個(gè)類似的比較,并訓(xùn)練一個(gè)「獎(jiǎng)勵(lì)模型」(RM)神經(jīng)網(wǎng)絡(luò)來(lái)模擬人類對(duì)棋盤(pán)狀態(tài)的氛圍檢查(vibe check)。你要訓(xùn)練它同意人類判斷的平均水平。一旦我們有了獎(jiǎng)勵(lì)模型氛圍檢查,你就可以針對(duì)此運(yùn)行 RL,學(xué)習(xí)如何下出帶來(lái)良好氛圍的棋步。顯然,這不會(huì)在圍棋中產(chǎn)生任何太有趣的結(jié)果。

這主要有以下兩個(gè)根本的、獨(dú)立的原因:

1) 氛圍可能會(huì)產(chǎn)生誤導(dǎo),這不是實(shí)際獎(jiǎng)勵(lì)(贏得比賽)。這是一個(gè)糟糕的智能體目標(biāo)。更糟糕的是,2) 你會(huì)發(fā)現(xiàn)你的 RL 優(yōu)化偏離了軌道,因?yàn)樗芸彀l(fā)現(xiàn)棋盤(pán)狀態(tài)與獎(jiǎng)勵(lì)模型相反。請(qǐng)記住,獎(jiǎng)勵(lì)模型是一個(gè)龐大的神經(jīng)網(wǎng)絡(luò),使用數(shù)十億參數(shù)來(lái)模擬氛圍。有些棋盤(pán)狀態(tài)超出了自身訓(xùn)練數(shù)據(jù)的分布范圍,實(shí)際上并不是良好狀態(tài),但卻從獎(jiǎng)勵(lì)模型中獲得了非常高的獎(jiǎng)勵(lì)。

出于同樣的原因,我有時(shí)感到驚訝的一點(diǎn)是 RLHF 工作竟然適用于 LLM。我們?yōu)?LLM 訓(xùn)練的獎(jiǎng)勵(lì)模型只是以完全相同的方式進(jìn)行氛圍檢查,它會(huì)對(duì)人類評(píng)分者在統(tǒng)計(jì)學(xué)上看起來(lái)喜歡的助手響應(yīng)給出高分。這不是正確解決問(wèn)題的實(shí)際目標(biāo),而是人類認(rèn)為好的智能體目標(biāo)。

其次,你甚至無(wú)法長(zhǎng)時(shí)間地運(yùn)行 RLHF,因?yàn)槟愕哪P秃芸鞂W(xué)會(huì)以游戲獎(jiǎng)勵(lì)模型的方式來(lái)做出響應(yīng)。這些預(yù)測(cè)看起來(lái)真的非常奇怪,你會(huì)看到你的 LLM 助手開(kāi)始對(duì)很多 prompt 做出無(wú)意義的響應(yīng),比如「The the the the the the」。這在你看來(lái)是荒謬的,但隨后你查看獎(jiǎng)勵(lì)模型氛圍檢查,卻發(fā)現(xiàn)出于某種原因,獎(jiǎng)勵(lì)模型會(huì)認(rèn)為這些看起來(lái)很棒。

你的 LLM 發(fā)現(xiàn)了一個(gè)對(duì)抗性示例,它超出了獎(jiǎng)勵(lì)模型訓(xùn)練數(shù)據(jù)的范圍,處于未定義的范圍。你可以通過(guò)反復(fù)講這些特定示例添加到訓(xùn)練集來(lái)緩解這一情況,但下次仍會(huì)找到其他對(duì)抗性示例。你甚至無(wú)法運(yùn)行 RLHF 進(jìn)行很多優(yōu)化步驟。你執(zhí)行了幾百或幾千步之后必須調(diào)用它,因?yàn)槟愕膬?yōu)化將開(kāi)始與獎(jiǎng)勵(lì)模型博弈。這并不是 AlphaGo 那樣的 RL。

不過(guò),RLHF 是構(gòu)建 LLM 助手的一個(gè)非常有用的步驟。我認(rèn)為這有幾個(gè)微妙的原因,其中我最喜歡的一點(diǎn)是通過(guò) RLHF,LLM 助手會(huì)從生成器 - 判別器的 gap 中受益。也就是說(shuō),對(duì)于很多問(wèn)題類型,人類標(biāo)注員從幾個(gè)候選答案中選出最佳答案要比從頭寫(xiě)出理想答案容易得多。一個(gè)很好的例子是像「生成一首回形針詩(shī)」這樣的 prompt。一個(gè)普通的人類標(biāo)注員很難從頭寫(xiě)出一首好詩(shī)來(lái)作為監(jiān)督微調(diào)示例,但可以在給定幾個(gè)候選答案(詩(shī))的情況下選出一首較好的。因此 RLHF 是一種從人類監(jiān)督的「容易度」差距中獲益的方式。

還有一些其他原因,比如 RLHF 有助于緩解幻覺(jué)。如果獎(jiǎng)勵(lì)模型是一個(gè)足夠強(qiáng)大的模型,能夠在訓(xùn)練期間發(fā)現(xiàn) LLM 編造的東西,則可以學(xué)會(huì)用低獎(jiǎng)勵(lì)來(lái)懲罰這種行為,教會(huì)模型在不確定時(shí)避免冒險(xiǎn)獲取事實(shí)性知識(shí)。但令人滿意的幻覺(jué)緩解和處理是另外的事情,這里不做延伸。總之,RLHF 確實(shí)有用,但它不是 RL。

到目前為止,還沒(méi)有一個(gè)針對(duì) LLM 的生產(chǎn)級(jí) RL 在開(kāi)放域得到令人信服的實(shí)現(xiàn)和大規(guī)模展示。直觀地說(shuō),這是因?yàn)樵陂_(kāi)放式問(wèn)題解決任務(wù)中獲得實(shí)際獎(jiǎng)勵(lì)(即贏得比賽)非常困難。在圍棋這類封閉、類博弈的環(huán)境中,一切都很有趣。其中動(dòng)態(tài)受到限制,獎(jiǎng)勵(lì)函數(shù)評(píng)估成本很低,不可能進(jìn)行博弈。

但是,你如何為總結(jié)一篇文章提供客觀的獎(jiǎng)勵(lì)?或者回答關(guān)于某個(gè) pip 安裝的模棱兩可的問(wèn)題?或者講個(gè)笑話?或者將一些 Java 代碼重寫(xiě)為 Python?實(shí)現(xiàn)這些在原則上并非不可能, 但也非易事,需要一些創(chuàng)造性思維。無(wú)論誰(shuí)能令人信服地解決這個(gè)問(wèn)題,都將能夠運(yùn)行真正的 RL,使得 AlphaGo 在圍棋中擊敗了人類。有了 RL,LLM 在解決開(kāi)放域問(wèn)題中才有可能真正擊敗人類。

Karpathy 的觀點(diǎn)得到一些人的附議,并指出 RLHF 與 RL 的更多差異。比如 RLHF 沒(méi)有進(jìn)行適當(dāng)?shù)乃阉?,主要學(xué)習(xí)利用預(yù)訓(xùn)練軌跡的子集。相比之下,在進(jìn)行適當(dāng)?shù)?RL 時(shí),離散動(dòng)作分布通常會(huì)通過(guò)在損失函數(shù)中添加熵項(xiàng)來(lái)增噪。Kaypathy 認(rèn)為,原則上你可以輕松地為 RLHF 目標(biāo)添加熵獎(jiǎng)勵(lì),這在 RL 中也經(jīng)常這樣做。但實(shí)際上似乎并不多見(jiàn)。

圖片

谷歌研究科學(xué)家 Kevin Patrick Murphy 也完全同意 Karpathy 的觀點(diǎn)。他認(rèn)為 RLHF 更像是一個(gè)具有字符串值操作的上下文「強(qiáng)盜」,其中 prompt 是上下文,所以不能稱為完整的 RL。此外將日常任務(wù)的獎(jiǎng)勵(lì)形式化是困難的部分(他認(rèn)為或許可以叫做對(duì)齊)。

圖片

圖源:https://x.com/sirbayes/status/1821421936045597022

不過(guò),另一位谷歌高級(jí)研究科學(xué)家 Natasha Jaques 認(rèn)為 Karpathy 的觀點(diǎn)是錯(cuò)誤的。她認(rèn)為智能體在與人互動(dòng)時(shí),給出人類喜歡的答案才是真正的目標(biāo)。

超出分布范圍并不是 RLHF 獨(dú)有的問(wèn)題。如果僅僅因?yàn)槿祟惙答伇冗\(yùn)行無(wú)限的圍棋模擬更受限,并不意味著這不是一個(gè)不值得解決的問(wèn)題,只會(huì)讓它成為一個(gè)更具挑戰(zhàn)性的問(wèn)題。她希望這成為一個(gè)更有影響力的問(wèn)題,畢竟在 LLM 中減少偏見(jiàn)比在圍棋中擊敗人類更有意義。使用貶義的話術(shù),比如 Karpathy 說(shuō)獎(jiǎng)勵(lì)模型是一種氛圍檢查,這是愚蠢的。你可以用同樣的論點(diǎn)來(lái)反對(duì)價(jià)值估計(jì)。

她覺(jué)得 Karpathy 的觀點(diǎn)只會(huì)阻止人們從事 RLHF 工作,而它是目前唯一可行的減輕 LLM 偏見(jiàn)和幻覺(jué)可能造成嚴(yán)重傷害的方法。

圖片

圖源:https://x.com/natashajaques/status/1821631137590259979

Meta 研究者 Pierluca D'Oro 不同意 Karpathy 的主要觀點(diǎn),但同意「RLHF is just barely RL」這一標(biāo)題。他認(rèn)為通常用于微調(diào) LLM 的 RLHF 幾乎不能算是 RL。

主要觀點(diǎn)如下:在強(qiáng)化學(xué)習(xí)中,追求一個(gè)「完美的獎(jiǎng)勵(lì)」概念是不現(xiàn)實(shí)的,因?yàn)榇蠖鄶?shù)復(fù)雜任務(wù)中,除了目標(biāo)的重要性,執(zhí)行方式同樣重要。盡管在圍棋等明確規(guī)則的任務(wù)中,RL 表現(xiàn)出色。但在涉及復(fù)雜行為時(shí),傳統(tǒng) RL 的獎(jiǎng)勵(lì)機(jī)制可能無(wú)法滿足需求。他主張研究如何在不完美的獎(jiǎng)勵(lì)模型下提高 RL 的性能,并強(qiáng)調(diào)了反饋循環(huán)、魯棒 RL 機(jī)制以及人機(jī)協(xié)作的重要性。 

圖片

圖源:https://x.com/proceduralia/status/1821560990091128943

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2024-08-09 12:46:04

2023-05-25 09:00:00

人工智能ChatGPTOpenAI

2023-02-27 09:24:05

模型技術(shù)

2025-04-18 10:01:41

2018-08-29 08:13:22

Google 學(xué)習(xí)框架技術(shù)

2013-03-07 10:26:21

編程程序員編程觀點(diǎn)

2023-03-09 08:00:00

強(qiáng)化學(xué)習(xí)機(jī)器學(xué)習(xí)圍棋

2020-08-10 06:36:21

強(qiáng)化學(xué)習(xí)代碼深度學(xué)習(xí)

2021-10-11 09:51:38

谷歌人工智能強(qiáng)化學(xué)習(xí)

2021-09-17 15:54:41

深度學(xué)習(xí)機(jī)器學(xué)習(xí)人工智能

2024-11-18 13:30:00

2020-11-12 19:31:41

強(qiáng)化學(xué)習(xí)人工智能機(jī)器學(xué)習(xí)

2009-04-03 08:26:54

華為末位淘汰制裁員

2020-12-17 19:43:36

編程代碼程序員

2024-07-22 08:22:00

2022-11-02 14:02:02

強(qiáng)化學(xué)習(xí)訓(xùn)練

2023-11-07 07:13:31

推薦系統(tǒng)多任務(wù)學(xué)習(xí)

2024-12-09 08:45:00

模型AI

2023-02-27 13:57:43

ChatGPTAI繪畫(huà)

2023-07-20 15:18:42

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)