LeCun八年前神預(yù)言,大模型路線再顛覆?OpenAI宣告:強化學(xué)習(xí)取得穩(wěn)定性突破
在2016年的NeurIPS會議上,圖靈獎得主Yann LeCun首次提出著名的「蛋糕比喻」:
如果智能是一塊蛋糕,那么蛋糕中的大部分都是無監(jiān)督學(xué)習(xí),蛋糕上的糖霜(錦上添花)是有監(jiān)督學(xué)習(xí),蛋糕上的櫻桃則是強化學(xué)習(xí)。
If intelligence is a cake, the bulk of the cake is unsupervised learning, the icing on the cake is supervised learning, and the cherry on the cake is reinforcement learning (RL).
從大型語言模型的發(fā)展路線來看,這種比喻實在是完美預(yù)測:從計算量FLOP上的開銷來看,對互聯(lián)網(wǎng)上的海量數(shù)據(jù)進(jìn)行自監(jiān)督學(xué)習(xí)占據(jù)了大部分訓(xùn)練時間;之后是用指令監(jiān)督微調(diào)(SFT)數(shù)據(jù)進(jìn)行后訓(xùn)練,開銷相比自監(jiān)督訓(xùn)練來說大大降低;最后的強化學(xué)習(xí)則是讓大模型走向終端用戶的必備階段,可以提高模型的安全性,但模型只是從部分訓(xùn)練樣本中學(xué)習(xí)少量信息。
在OpenAI的第二天直播中,宣布即將開放「強化微調(diào)」(RFT)的API,開發(fā)者只需提供最低「幾十個」高質(zhì)量樣本,就能實現(xiàn)領(lǐng)域?qū)<夷P偷亩ㄖ?,還能根據(jù)提供的參考答案對模型的回復(fù)進(jìn)行評分,再次印證了強化學(xué)習(xí)的重要性!
強化微調(diào)的重點是「匹配答案」(matching answer),給定查詢和正確答案,RFT可以幫助模型「學(xué)習(xí)」如何獲得正確答案。
相比標(biāo)準(zhǔn)的指令調(diào)優(yōu)(instruction tuning)只是對數(shù)據(jù)進(jìn)行1-2個epoch的損失計算,并更新模型權(quán)重,強化微調(diào)則是通過對相同的幾個數(shù)據(jù)點進(jìn)行成百上千個epochs來讓模型有時間學(xué)習(xí)新行為。
重復(fù)數(shù)據(jù)在基礎(chǔ)模型訓(xùn)練的時候作用不大,但卻可以提升RFT的穩(wěn)定性。
強化學(xué)習(xí)的發(fā)展可能已經(jīng)超過了Yann LeCun的預(yù)測,不再只是一顆蛋糕上的櫻桃,未來或許「有監(jiān)督微調(diào)」不再那么重要,只需要在互聯(lián)網(wǎng)數(shù)據(jù)上進(jìn)行自監(jiān)督,然后進(jìn)行自我強化學(xué)習(xí),而不需要明確的人工設(shè)計。
大模型技術(shù)路線再次顛覆
「強化微調(diào)」的出世,也標(biāo)志著語言模型和強化學(xué)習(xí)的發(fā)展路線再次發(fā)生變化:
1. 強化學(xué)習(xí)的穩(wěn)定性是可以解決的
開發(fā)人員在考慮是否采用強化學(xué)習(xí)時,其穩(wěn)定性一直是核心因素,主要體現(xiàn)在兩方面:強化學(xué)習(xí)本身可能會發(fā)生劇烈變化,不一定穩(wěn)定有效;其次,強化學(xué)習(xí)的訓(xùn)練本身比標(biāo)準(zhǔn)語言模型訓(xùn)練更脆弱,更容易出現(xiàn)損失峰值、崩潰等情況。
如今OpenAI能發(fā)布強化學(xué)習(xí)的API,雖然目前仍然處于測試階段,但也代表著他們對這項技術(shù)的穩(wěn)定性有了突破,不管用戶的數(shù)據(jù)是什么樣,都能穩(wěn)定、有效地訓(xùn)練。
以往,研究人員要運行強化學(xué)習(xí)算法時,通常都會一次性運行多個隨機種子,然后選擇那些沒有崩潰的模型繼續(xù)運行;而現(xiàn)在就可以依賴強化學(xué)習(xí)模型的穩(wěn)定運行,并在模型檢查點上與初始策略計算KL距離,以確保效果不會下降。
2. 開源版本或許已經(jīng)「存在」
強化微調(diào)與AI2最近發(fā)布的「具有可驗證獎勵的強化學(xué)習(xí)(RLVR)」工作非常相似,核心組件,如數(shù)據(jù)格式和優(yōu)化器類型是相同的,只要開源社區(qū)繼續(xù)合作來增加強化學(xué)習(xí)數(shù)據(jù),對不同的模型、不同類型的數(shù)據(jù)等進(jìn)行實驗。
3. 高級推理模型的潛在數(shù)據(jù)飛輪
之前有猜測認(rèn)為,OpenAI的o1模型使用了某種搜索策略,主要通過大規(guī)模RL數(shù)據(jù)進(jìn)行訓(xùn)練,并具有可驗證的輸出,和這個API很類似。
按照預(yù)期來說,用戶通過API上傳數(shù)據(jù),OpenAI就可以積累海量數(shù)據(jù)集來繼續(xù)訓(xùn)練o1模型的下一個版本,o1目前的主要限制仍然是適用領(lǐng)域缺乏多樣性,如果有用戶的飛輪數(shù)據(jù)參與進(jìn)來,o1勢必會更加強大。
4. 強化學(xué)習(xí)語言模型訓(xùn)練的范圍不斷擴(kuò)大
在基礎(chǔ)科學(xué)層面上,o1的最大的貢獻(xiàn)是,讓我們有了更多的方法來訓(xùn)練語言模型,以實現(xiàn)潛在的高價值行為;向研究人員和工程師開放的大門越多,我們對人工智能的總體發(fā)展軌跡就應(yīng)該越樂觀。
大概一年前,OpenAI的一位研究人員就曾提到過,他們對RLHF及相關(guān)方法非常有信心,因為損失函數(shù)比自回歸預(yù)測更通用,最近的發(fā)展也正如大部分人期待的,強化學(xué)習(xí)中的人類反饋(human feedback)也并不是特別必要。
強化微調(diào)實現(xiàn)的猜測
由于OpenAI沒有公布任何技術(shù)細(xì)節(jié),所以對具體的實現(xiàn)仍然只能靠猜。
分類模型/配置(Grader models/configs act as reward shaping for generalized answer checking)
強化學(xué)習(xí)能成功實現(xiàn)的核心是「正確界定環(huán)境范圍」,其中環(huán)境由轉(zhuǎn)移函數(shù)(transition function)和獎勵函數(shù)組成;
語言模型的轉(zhuǎn)移函數(shù)是人為設(shè)計的,也就是語言模型策略本身;獎勵函數(shù)是從狀態(tài)和動作(即提示和模型回復(fù))到獎勵標(biāo)量值的映射。
對語言模型的輸出答案進(jìn)行評分并不新鮮,比如Llama 3.1同時使用「Python代碼」和「其他大模型」作為判斷器來檢查數(shù)學(xué)答案是否正確;答案的錯誤或正確對應(yīng)0或1的二進(jìn)制分?jǐn)?shù)。
12月7日,OpenAI微調(diào)團(tuán)隊的John Allard此前發(fā)布過一份關(guān)于評分器背后思路的說明,以及相關(guān)配置的屏幕截圖,基本思路是把待評分的回復(fù)分解成一個結(jié)構(gòu)化的對象,然后對每一項的數(shù)值進(jìn)行比較,得到精確率、召回率等指標(biāo)。
比如想訓(xùn)練一個信息抽取器模型,評分器會根據(jù)預(yù)定義的結(jié)構(gòu),比如就讀的大學(xué)、已知的編程語言、當(dāng)前居住城市等項分別進(jìn)行評分,最后獲得一個匯總評分。
{
"university": "University of California Berkeley",
"programming_languages": ["python", "c++", "java"],
"city": "Los Angeles",
"state": "California"
}
推文鏈接:https://x.com/john__allard/status/1865520756559614090?s=46
數(shù)據(jù)效率優(yōu)化
在直播中,OpenAI提到用戶只需要「幾十個」RFT樣本就可以在新領(lǐng)域進(jìn)行學(xué)習(xí);對于每個提示,強化學(xué)習(xí)(RL)可以根據(jù)超參數(shù)設(shè)置在一批中生成多個評分回復(fù),在學(xué)習(xí)步驟和數(shù)據(jù)的多次迭代中「重復(fù)訓(xùn)練」,因此模型能夠嘗試不同的「策略」來找到正確的答案。
比如用幾千個提示在數(shù)據(jù)集上運行數(shù)十萬條強化學(xué)習(xí)訓(xùn)練數(shù)據(jù),模型可以多次看到相同的提示而不會過度擬合。
穩(wěn)定的基礎(chǔ)語言模型
事實證明,強化學(xué)習(xí)更適合微調(diào)而不是從頭開始訓(xùn)練,基礎(chǔ)強化學(xué)習(xí)工作已經(jīng)在控制和決策方面證明了這個結(jié)論;憑借非常穩(wěn)定的基礎(chǔ),強化學(xué)習(xí)微調(diào)可以溫和地搜索更好的行為表達(dá),而不會顯著改變模型性能。
比如某個RFT領(lǐng)域?qū)τ谀P蛠碚f是非常新的,可能只需要10個樣本即可獲得總體性能提升。
對于OpenAI來說,o1模型經(jīng)過大規(guī)模訓(xùn)練,應(yīng)該已經(jīng)極其穩(wěn)定了,可以作為強化學(xué)習(xí)微調(diào)的基礎(chǔ), 其微調(diào)平臺團(tuán)隊成員John Allard就曾表示:任何人都可以利用相同的訓(xùn)練算法和基礎(chǔ)設(shè)施在新領(lǐng)域微調(diào)出一個專家o1模型。