ChatGPT「秘方」竟在拖LLM后腿?Karpathy、LeCun聯(lián)手開(kāi)懟RLHF!
昨天,Andrej Karpathy又發(fā)了長(zhǎng)推,不過(guò)用了一句很有爭(zhēng)議的話開(kāi)頭——「RLHF只是勉強(qiáng)的RL」。
圖片
這條推特可謂「一石激起千層浪」,瞬間點(diǎn)燃了LLM社區(qū)的討論熱情。
畢竟RLHF作為剛提出沒(méi)幾年的方法,又新穎又有爭(zhēng)議。一邊遭受質(zhì)疑,一邊又在工業(yè)界和學(xué)界迅速流行。
5G沖浪的LeCun也趕來(lái)聲援Karpathy,但他的話很短,只有一句——「RLHF不是真正的RL」。
圖片
RLHF最早可以追溯到OpenAI安全團(tuán)隊(duì)2017年發(fā)表的論文:
圖片
論文地址:https://arxiv.org/abs/1706.03741
當(dāng)時(shí),Jan Leike還在DeepMind、Dario Amodei還沒(méi)創(chuàng)辦Anthropic,而OpenAI還沒(méi)all in語(yǔ)言模型,仍是一家研究范圍更廣泛的AI公司。
他們提出,通過(guò)人類反饋,讓AI模型更好地學(xué)習(xí)「如何翻出一個(gè)漂亮的后空翻」。
圖片
訓(xùn)練時(shí),AI agent在環(huán)境中不斷觀察并行動(dòng),并得到獎(jiǎng)勵(lì)模型的反饋進(jìn)行自我改進(jìn)。但比較特別的是,獎(jiǎng)勵(lì)函數(shù)是由擬合人類反饋得到的。
圖片
2019年,這項(xiàng)技術(shù)被用到了NLP領(lǐng)域,用于微調(diào)語(yǔ)言模型。
圖片
論文地址:https://arxiv.org/abs/1909.08593
這篇論文附帶的代碼也很好地定義了RLHF的標(biāo)準(zhǔn)流程。
圖片
倉(cāng)庫(kù)地址:https://github.com/openai/lm-human-preferences?tab=readme-ov-file
到了2022年3月,ChatGPT發(fā)布前夕,OpenAI發(fā)布了使用RLHF微調(diào)過(guò)的大模型InstructGPT,這是彌合GPT-3和GPT-3.5 Turbo之間差距的關(guān)鍵一步,后者為ChatGPT的推出提供了關(guān)健動(dòng)力。
圖片
論文地址:https://arxiv.org/abs/2203.02155
此后,RLHF就成為了OpenAI、DeepMind、谷歌、Anthropic等AI巨頭們訓(xùn)練模型的必備環(huán)節(jié)。
所以,Karpathy為什么會(huì)突然對(duì)此發(fā)難?我們先來(lái)看一下他的推特原文是怎么說(shuō)的。
Karpathy原帖的大意如下:
RLHF全稱為「從人類反饋中進(jìn)行強(qiáng)化學(xué)習(xí)」(Reinforcement Learning from Human Feedback),是訓(xùn)練LLM的第三個(gè)階段,也是最后一個(gè)主要階段,接在預(yù)訓(xùn)練和監(jiān)督微調(diào)(SFT)之后。
我對(duì)RLHF的批評(píng)是:它幾乎算不上是真正的強(qiáng)化學(xué)習(xí),而且我認(rèn)為這一點(diǎn)沒(méi)有被廣泛理解。強(qiáng)化學(xué)習(xí)很強(qiáng)大,而RLHF則不然。
讓我們來(lái)看一個(gè)AlphaGo的例子,它的訓(xùn)練用到了實(shí)際的RL算法:計(jì)算機(jī)通過(guò)下圍棋,在最大化獎(jiǎng)勵(lì)函數(shù)(即贏得比賽)的推演過(guò)程中進(jìn)行訓(xùn)練,最終超越了最優(yōu)秀的人類棋手。AlphaGo并不是用RLHF訓(xùn)練的,否則它的效果就不會(huì)這么好。
那么,用RLHF訓(xùn)練AlphaGo會(huì)是什么樣子呢?首先,你需要讓人類標(biāo)注者看到兩個(gè)圍棋局面,并詢問(wèn)他們更喜歡哪個(gè):
圖片
你需要收集大概10萬(wàn)條這類的對(duì)比數(shù)據(jù),并訓(xùn)練一個(gè)「獎(jiǎng)勵(lì)模型」RM(Reward Model)來(lái)模仿人類對(duì)棋盤狀態(tài)的這種「直覺(jué)判斷」(vibe check),使RM的判斷在平均水平上與人類一致。
有了獎(jiǎng)勵(lì)模型的直覺(jué)判斷,就可以在此基礎(chǔ)上運(yùn)行強(qiáng)化學(xué)習(xí),讓原模型學(xué)習(xí)下出能夠讓人類直覺(jué)上認(rèn)為不錯(cuò)的棋步。
顯然,這在圍棋中不會(huì)產(chǎn)出太好的結(jié)果,有兩個(gè)根本且獨(dú)立的原因:
1. 直覺(jué)可能會(huì)產(chǎn)生誤導(dǎo)。這并不是真正的獎(jiǎng)勵(lì)(贏得比賽),而是個(gè)很差的替代目標(biāo)。但更糟的是——
2. 強(qiáng)化學(xué)習(xí)優(yōu)化會(huì)失控,因?yàn)樗芸炀蜁?huì)發(fā)現(xiàn)對(duì)抗獎(jiǎng)勵(lì)模型的棋盤狀態(tài)。RM是一個(gè)擁有數(shù)十億參數(shù)的龐大神經(jīng)網(wǎng)絡(luò),用來(lái)模仿直覺(jué)。有些棋盤狀態(tài)超出了訓(xùn)練數(shù)據(jù)的分布范圍,可能并不是好的狀態(tài),但由于偶然性,也會(huì)從RM得到了很高的獎(jiǎng)勵(lì)。
出于完全相同的原因,有時(shí)我驚訝于RLHF對(duì)LLM的效果,因?yàn)槠渲械腞M也在進(jìn)行同樣的直覺(jué)判斷。它對(duì)人類評(píng)分員似乎喜歡的那類響應(yīng)打出高分,但這不是正確解決問(wèn)題的「實(shí)際」目標(biāo),只是人類覺(jué)得不錯(cuò)的替代目標(biāo)。
其次,RLHF不能運(yùn)行太久,因?yàn)樵P秃芸炀湍軐W(xué)會(huì)操控獎(jiǎng)勵(lì)模型,從而預(yù)測(cè)出一些看起來(lái)很奇怪的token。比如,LLM助手會(huì)開(kāi)始對(duì)提示詞響應(yīng)一些無(wú)厘頭的內(nèi)容,像「the the the the the the」。
這在人類看來(lái)很荒謬,但由于某種原因,RM認(rèn)為這些響應(yīng)看起來(lái)很棒。
這就是LLM找到的對(duì)抗性案例(adversarial examples),對(duì)于RM的訓(xùn)練數(shù)據(jù)而言,這是未定義領(lǐng)域的分布外數(shù)據(jù)。
你可以反復(fù)將這些特定例子添加到訓(xùn)練集中來(lái)緩解這種情況,但下次還會(huì)有其他對(duì)抗性案例出現(xiàn)。因此,RLHF不能運(yùn)行過(guò)多步驟,幾百/幾千步后就必須停下,因?yàn)槟P偷膬?yōu)化過(guò)程將開(kāi)始操控RM。這不是像AlphaGo那樣的強(qiáng)化學(xué)習(xí)。
然而,在構(gòu)建LLM助手時(shí),RLHF依舊是利大于弊。其中有幾個(gè)微妙的原因,但我最喜歡指出的是,LLM可以通過(guò)RLHF過(guò)程受益于生成器和判別器之間的難度差距(generator-discriminator gap)。
對(duì)于許多類型的問(wèn)題,相比于從零開(kāi)始撰寫理想答案,人類標(biāo)注者會(huì)覺(jué)得從幾個(gè)候選中選擇最佳答案要容易得多。比如這樣的提示:「生成一首關(guān)于回形針的詩(shī)」,普通的人類標(biāo)注者很難寫出一首好詩(shī)作為SFT示例,但在給出幾個(gè)候選答案的情況下,他們可以選出一個(gè)看起來(lái)不錯(cuò)的詩(shī)。
因此,RLHF相當(dāng)于利用了這種人類監(jiān)督的「簡(jiǎn)便性」差距。
還有其他幾個(gè)原因,例如,RLHF也有助于減少幻覺(jué)現(xiàn)象。如果RM是一個(gè)足夠強(qiáng)大的模型,可以捕捉到LLM的虛構(gòu)內(nèi)容,就能通過(guò)低獎(jiǎng)勵(lì)來(lái)懲罰這種行為,教會(huì)模型在不確定時(shí)避免冒險(xiǎn)使用事實(shí)知識(shí)。但對(duì)幻覺(jué)及其令人滿意的緩解措施是另一個(gè)話題,此處不再贅述。
總之,RLHF確實(shí)是凈有用的,但它不是傳統(tǒng)的強(qiáng)化學(xué)習(xí)。
迄今為止,在開(kāi)放領(lǐng)域還沒(méi)有出現(xiàn)生產(chǎn)級(jí)的「實(shí)際」RL方法,可以大規(guī)模地在LLM上實(shí)現(xiàn),并給出令人信服的演示。從直觀上講,這是因?yàn)樵陂_(kāi)放式的問(wèn)題解決任務(wù)中給出獎(jiǎng)勵(lì)值(等效于AlphaGo贏得比賽)確實(shí)很困難。
在一個(gè)封閉的、類似游戲的環(huán)境中,比如圍棋,動(dòng)態(tài)受到限制,獎(jiǎng)勵(lì)函數(shù)易于評(píng)估且無(wú)法操控。但你如何為總結(jié)一篇文章提供明確的獎(jiǎng)勵(lì)?或者回答關(guān)于pip安裝的略顯模糊的問(wèn)題?或者講個(gè)笑話?或者將一些Java代碼重寫為Python?
原則上,朝這個(gè)方向發(fā)展是可能的,但并不簡(jiǎn)單,它需要一些創(chuàng)造性的思考。如果有人給出令人信服的解決方案,就能運(yùn)行實(shí)際的強(qiáng)化學(xué)習(xí),那種讓AlphaGo在圍棋中擊敗人類的強(qiáng)化學(xué)習(xí),只是最后得到的LLM將有可能在開(kāi)放領(lǐng)域問(wèn)題解決中擊敗人類。
強(qiáng)化學(xué)習(xí)到底是什么
如果RLHF「不是RL」,那真正的RL是什么?
Karpathy的描述比較簡(jiǎn)潔而直觀——就是AlphaGo用的那種。
幸好,「強(qiáng)化學(xué)習(xí)」是一個(gè)人為提出的概念,更容易厘清;而且「強(qiáng)化學(xué)習(xí)之父」Richard Sutton專門寫過(guò)一本書來(lái)解釋這個(gè)領(lǐng)域的基本問(wèn)題。
圖片
https://web.stanford.edu/class/psych209/Readings/SuttonBartoIPRLBook2ndEd.pdf
開(kāi)頭第一章第一節(jié),強(qiáng)化學(xué)習(xí)的基本概念。雖然不是嚴(yán)謹(jǐn)完備的數(shù)學(xué)定義,但基本闡明了要點(diǎn)。
圖片
基本思想是,一個(gè)正在學(xué)習(xí)的agent與環(huán)境交互,如何捕捉到它面臨的最重要的實(shí)際問(wèn)題。
顯然,這樣的agent必須能夠在某種程度上感知環(huán)境狀態(tài),且必須能夠采取某種行動(dòng)以影響狀態(tài)。agent也必須有關(guān)于環(huán)境狀態(tài)的目標(biāo)。這一表述旨在包含三個(gè)方面:感知、行動(dòng)和目標(biāo),以可行的最簡(jiǎn)潔的形式,而不會(huì)讓任何一個(gè)方面只有平凡解。
任何適于解決這類問(wèn)題的方法,我們都認(rèn)為是強(qiáng)化學(xué)習(xí)方法。
除了agent和環(huán)境的存在,強(qiáng)化學(xué)習(xí)系統(tǒng)中還有以下四個(gè)要素:
- 策略(policy),定義正在學(xué)習(xí)的agent在指定時(shí)間的行為
- 獎(jiǎng)勵(lì)信號(hào)(reward signal),定義強(qiáng)化學(xué)習(xí)問(wèn)題的目標(biāo),是對(duì)agent行為的即時(shí)反饋
- 值函數(shù)(value function),定義長(zhǎng)期的優(yōu)化目標(biāo)
- 環(huán)境模型(model of the enviroment),模擬環(huán)境行為
圖片
那么問(wèn)題來(lái)了,根據(jù)Sutton書中對(duì)強(qiáng)化學(xué)習(xí)的定義,你同意Karpathy的說(shuō)法嗎?
誰(shuí)贊同,誰(shuí)反對(duì)?
非常明顯的是,Karpathy的觀點(diǎn)吸引了許多LLM領(lǐng)域的學(xué)者和研究員的關(guān)注。
谷歌大腦、DeepMind研究科學(xué)家Kevein Murphy:
圖片
完全同意。我認(rèn)為RLHF更像是行為(action)值是字符串的上下文多臂賭博機(jī),其中提示詞作為上下文,而不是完整的強(qiáng)化學(xué)習(xí)。但為日常任務(wù)制定明確的獎(jiǎng)勵(lì)機(jī)制是困難的部分。(我想這被稱為「模型對(duì)齊」?)
Allen AI機(jī)器學(xué)習(xí)研究員Nathan Lambert回復(fù):
圖片
同意,很棒的總結(jié)。就其提供的價(jià)值而言,下面是我最喜歡的引用,說(shuō)明了RLHF的「風(fēng)格」部分為何有用。
但這與為L(zhǎng)LM解鎖完整版本的RL相比,仍然微不足道。
圖片
這張圖出自Lambert自己撰寫的博客:
圖片
之后,他又專門發(fā)推進(jìn)一步解釋:
圖片
RLHF勉強(qiáng)算是 RL,但
- 它仍然使RL比以往任何時(shí)候都更重要,并且
- RLHF可能比至今為止其他的RL更有影響力
很罕見(jiàn)的是,以上是為數(shù)不多力挺Karpathy的觀點(diǎn)。多數(shù)人還是站在了Karpathy的對(duì)立面反駁他。
評(píng)論區(qū)有網(wǎng)友直接回懟:「你就是看獎(jiǎng)勵(lì)函數(shù)不順眼」。
圖片
Karpathy只能繼續(xù)解釋:
我的主要?jiǎng)訖C(jī)是想說(shuō),LLM遠(yuǎn)未達(dá)到原則上所能達(dá)到的高度,它們還沒(méi)有像其他最近/流行的ASI演示那樣有相同的訓(xùn)練方式。我想要直觀地指出這種差距的根源。
馬里蘭大學(xué)副教授Furong Huang的觀點(diǎn)更強(qiáng)調(diào)RLHF對(duì)LLM的價(jià)值。
圖片
當(dāng)模型已經(jīng)非常優(yōu)秀時(shí),RLHF是有幫助的,你只需通過(guò)收集用戶反饋來(lái)「修補(bǔ)問(wèn)題」。
RL對(duì)于推理和規(guī)劃等更復(fù)雜的任務(wù)確實(shí)很重要,把LLM放到RL循環(huán)中有助于泛化和「熱啟動(dòng)」RL。
Mila在讀博士、Meta研究員Pierluca D'Oro自己就在為agent開(kāi)發(fā)獎(jiǎng)勵(lì)模型,他同意Karpathy「RLHF不是真正的RL」的說(shuō)法,但并不認(rèn)為Karpathy預(yù)期的那種獎(jiǎng)勵(lì)模型能夠?qū)崿F(xiàn)。
圖片
我是一名科學(xué)家,致力于為智能體創(chuàng)建更好的獎(jiǎng)勵(lì)模型,我不同意這篇推文的主要觀點(diǎn)。使用你無(wú)法完全信任的獎(jiǎng)勵(lì)進(jìn)行的RL也是RL,而且我認(rèn)為這正是我們應(yīng)該研究的RL。
是的,毫無(wú)疑問(wèn),當(dāng)獎(jiǎng)勵(lì)明確定義時(shí),RL能夠最大程度地發(fā)揮作用。比如圍棋中的獲勝條件,就是明確的!我們不在乎智能體如何獲勝,只要它符合游戲規(guī)則即可。這些規(guī)則非常簡(jiǎn)單,可以由人類直接編碼到智能體的設(shè)計(jì)中,或者智能體通過(guò)計(jì)算推斷出來(lái)。
但是如果對(duì)于一個(gè)復(fù)雜任務(wù),不僅僅是「做什么」重要,而是「怎么做」也很重要呢?「怎么做」往往不像在圍棋中要求智能體下有效棋步那樣容易實(shí)現(xiàn)。對(duì)于人類來(lái)說(shuō),這通常來(lái)自于人類的常識(shí)、期望或榮譽(yù)。LLM的對(duì)齊正是通過(guò)RLHF來(lái)提取這種「怎么做」。
這也可以延伸到那些看似容易定義明確目標(biāo)的(智能體)任務(wù)。想要一個(gè)好的電子游戲中的NPC?可以試試正式定義一個(gè)你可以100%信任的「樂(lè)趣」的概念,祝你好運(yùn)。想要一個(gè)好的網(wǎng)絡(luò)智能體?試試正式定義一個(gè)你可以100%信任的「預(yù)期行為」的概念,祝你好運(yùn)。想要一個(gè)好的分子?定義一個(gè)你可以100%信任的「毒性」的概念,祝你好運(yùn)。
AI智能體旨在做對(duì)人類有益的事情。人類不僅有內(nèi)部多樣性,而且極其復(fù)雜,顯然超出了我們能夠完全理解的范圍。我可以編寫一個(gè)我認(rèn)為是「在NetHack游戲中實(shí)現(xiàn)這個(gè)目標(biāo)」的代碼,然后發(fā)現(xiàn)我對(duì)「實(shí)現(xiàn)」的理解比智能體的定義更為細(xì)致,就像我們最近在Motif上的工作中所做的那樣。
我認(rèn)為追求「完美獎(jiǎng)勵(lì)」的雄心是無(wú)望的,我不認(rèn)為大多數(shù)我們希望智能體表現(xiàn)出的行為存在這樣的概念。然而,我認(rèn)為有一些方法有望在獎(jiǎng)勵(lì)不完美的情況下實(shí)際提高RL的性能:
- 盡可能活躍的反饋循環(huán),以優(yōu)化智能體的獎(jiǎng)勵(lì)函數(shù)
- 對(duì)錯(cuò)誤獎(jiǎng)勵(lì)更穩(wěn)健的RL機(jī)制
- 減少人類與AI合作的摩擦
不過(guò),我同意推文標(biāo)題所說(shuō)的,RLHF在用于微調(diào)LLM時(shí)幾乎不能算是RL。但對(duì)我來(lái)說(shuō),這主要是因?yàn)樗陌腚x線性質(zhì),以及智能體缺乏主動(dòng)收集自身數(shù)據(jù)的機(jī)會(huì)。這些可能是RL在處理模糊、復(fù)雜,以及潛在可被利用的獎(jiǎng)勵(lì)函數(shù)時(shí)奏效的關(guān)鍵因素。
華盛頓大學(xué)助理教授、谷歌AI高級(jí)研究科學(xué)家Natasha Jaques的反對(duì)態(tài)度更鮮明,力挺RLHF方法:
圖片
這是一個(gè)不好的看法。在與人類互動(dòng)時(shí),給出人類喜歡的答案就是真正的目標(biāo)。
超出分布不是RLHF獨(dú)有的問(wèn)題。數(shù)據(jù)集中的人類反饋比運(yùn)行無(wú)限的圍棋模擬更有限,但這并不意味著是不值得研究的方法,它只是一個(gè)更具挑戰(zhàn)性的問(wèn)題,并且我們希望它是一個(gè)更有影響力的問(wèn)題,因?yàn)闇p少LLM的偏見(jiàn)對(duì)人類的益處顯然多過(guò)比在圍棋上擊敗人類。使用貶義語(yǔ)言稱RM為「直覺(jué)判斷」是愚蠢的;你可以對(duì)價(jià)值估計(jì)提出同樣的論點(diǎn)。
發(fā)布這樣的內(nèi)容只會(huì)阻礙人們研究RLHF,而目前這是唯一可行的方法來(lái)緩解LLM偏見(jiàn)和幻覺(jué)可能造成的嚴(yán)重危害。
參考資料:
https://x.com/karpathy/status/1821277264996352246 https://x.com/ylecun/status/1821478966365962255