自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

LeCun八年前神預(yù)言,大模型路線再顛覆?OpenAI宣告:強化學(xué)習(xí)取得穩(wěn)定性突破

人工智能 新聞
只需幾十個樣本即可訓(xùn)練專家模型,強化微調(diào)RLF能掀起強化學(xué)習(xí)熱潮嗎?具體技術(shù)實現(xiàn)尚不清楚,AI2此前開源的RLVR或許在技術(shù)思路上存在相似之處。

在2016年的NeurIPS會議上,圖靈獎得主Yann LeCun首次提出著名的「蛋糕比喻」:

如果智能是一塊蛋糕,那么蛋糕中的大部分都是無監(jiān)督學(xué)習(xí),蛋糕上的糖霜(錦上添花)是有監(jiān)督學(xué)習(xí),蛋糕上的櫻桃則是強化學(xué)習(xí)。

If intelligence is a cake, the bulk of the cake is unsupervised learning, the icing on the cake is supervised learning, and the cherry on the cake is reinforcement learning (RL).

圖片

從大型語言模型的發(fā)展路線來看,這種比喻實在是完美預(yù)測:從計算量FLOP上的開銷來看,對互聯(lián)網(wǎng)上的海量數(shù)據(jù)進(jìn)行自監(jiān)督學(xué)習(xí)占據(jù)了大部分訓(xùn)練時間;之后是用指令監(jiān)督微調(diào)(SFT)數(shù)據(jù)進(jìn)行后訓(xùn)練,開銷相比自監(jiān)督訓(xùn)練來說大大降低;最后的強化學(xué)習(xí)則是讓大模型走向終端用戶的必備階段,可以提高模型的安全性,但模型只是從部分訓(xùn)練樣本中學(xué)習(xí)少量信息。

在OpenAI的第二天直播中,宣布即將開放「強化微調(diào)」(RFT)的API,開發(fā)者只需提供最低「幾十個」高質(zhì)量樣本,就能實現(xiàn)領(lǐng)域?qū)<夷P偷亩ㄖ?,還能根據(jù)提供的參考答案對模型的回復(fù)進(jìn)行評分,再次印證了強化學(xué)習(xí)的重要性!

強化微調(diào)的重點是「匹配答案」(matching answer),給定查詢和正確答案,RFT可以幫助模型「學(xué)習(xí)」如何獲得正確答案。

相比標(biāo)準(zhǔn)的指令調(diào)優(yōu)(instruction tuning)只是對數(shù)據(jù)進(jìn)行1-2個epoch的損失計算,并更新模型權(quán)重,強化微調(diào)則是通過對相同的幾個數(shù)據(jù)點進(jìn)行成百上千個epochs來讓模型有時間學(xué)習(xí)新行為。

重復(fù)數(shù)據(jù)在基礎(chǔ)模型訓(xùn)練的時候作用不大,但卻可以提升RFT的穩(wěn)定性。

強化學(xué)習(xí)的發(fā)展可能已經(jīng)超過了Yann LeCun的預(yù)測,不再只是一顆蛋糕上的櫻桃,未來或許「有監(jiān)督微調(diào)」不再那么重要,只需要在互聯(lián)網(wǎng)數(shù)據(jù)上進(jìn)行自監(jiān)督,然后進(jìn)行自我強化學(xué)習(xí),而不需要明確的人工設(shè)計。

大模型技術(shù)路線再次顛覆

「強化微調(diào)」的出世,也標(biāo)志著語言模型和強化學(xué)習(xí)的發(fā)展路線再次發(fā)生變化:

1. 強化學(xué)習(xí)的穩(wěn)定性是可以解決的

開發(fā)人員在考慮是否采用強化學(xué)習(xí)時,其穩(wěn)定性一直是核心因素,主要體現(xiàn)在兩方面:強化學(xué)習(xí)本身可能會發(fā)生劇烈變化,不一定穩(wěn)定有效;其次,強化學(xué)習(xí)的訓(xùn)練本身比標(biāo)準(zhǔn)語言模型訓(xùn)練更脆弱,更容易出現(xiàn)損失峰值、崩潰等情況。

如今OpenAI能發(fā)布強化學(xué)習(xí)的API,雖然目前仍然處于測試階段,但也代表著他們對這項技術(shù)的穩(wěn)定性有了突破,不管用戶的數(shù)據(jù)是什么樣,都能穩(wěn)定、有效地訓(xùn)練。

以往,研究人員要運行強化學(xué)習(xí)算法時,通常都會一次性運行多個隨機種子,然后選擇那些沒有崩潰的模型繼續(xù)運行;而現(xiàn)在就可以依賴強化學(xué)習(xí)模型的穩(wěn)定運行,并在模型檢查點上與初始策略計算KL距離,以確保效果不會下降。

2. 開源版本或許已經(jīng)「存在」

強化微調(diào)與AI2最近發(fā)布的「具有可驗證獎勵的強化學(xué)習(xí)(RLVR)」工作非常相似,核心組件,如數(shù)據(jù)格式和優(yōu)化器類型是相同的,只要開源社區(qū)繼續(xù)合作來增加強化學(xué)習(xí)數(shù)據(jù),對不同的模型、不同類型的數(shù)據(jù)等進(jìn)行實驗。

3. 高級推理模型的潛在數(shù)據(jù)飛輪

之前有猜測認(rèn)為,OpenAI的o1模型使用了某種搜索策略,主要通過大規(guī)模RL數(shù)據(jù)進(jìn)行訓(xùn)練,并具有可驗證的輸出,和這個API很類似。

按照預(yù)期來說,用戶通過API上傳數(shù)據(jù),OpenAI就可以積累海量數(shù)據(jù)集來繼續(xù)訓(xùn)練o1模型的下一個版本,o1目前的主要限制仍然是適用領(lǐng)域缺乏多樣性,如果有用戶的飛輪數(shù)據(jù)參與進(jìn)來,o1勢必會更加強大。

4. 強化學(xué)習(xí)語言模型訓(xùn)練的范圍不斷擴(kuò)大

在基礎(chǔ)科學(xué)層面上,o1的最大的貢獻(xiàn)是,讓我們有了更多的方法來訓(xùn)練語言模型,以實現(xiàn)潛在的高價值行為;向研究人員和工程師開放的大門越多,我們對人工智能的總體發(fā)展軌跡就應(yīng)該越樂觀。

大概一年前,OpenAI的一位研究人員就曾提到過,他們對RLHF及相關(guān)方法非常有信心,因為損失函數(shù)比自回歸預(yù)測更通用,最近的發(fā)展也正如大部分人期待的,強化學(xué)習(xí)中的人類反饋(human feedback)也并不是特別必要。

強化微調(diào)實現(xiàn)的猜測

由于OpenAI沒有公布任何技術(shù)細(xì)節(jié),所以對具體的實現(xiàn)仍然只能靠猜。

分類模型/配置(Grader models/configs act as reward shaping for generalized answer checking)

強化學(xué)習(xí)能成功實現(xiàn)的核心是「正確界定環(huán)境范圍」,其中環(huán)境由轉(zhuǎn)移函數(shù)(transition function)和獎勵函數(shù)組成;

語言模型的轉(zhuǎn)移函數(shù)是人為設(shè)計的,也就是語言模型策略本身;獎勵函數(shù)是從狀態(tài)和動作(即提示和模型回復(fù))到獎勵標(biāo)量值的映射。

對語言模型的輸出答案進(jìn)行評分并不新鮮,比如Llama 3.1同時使用「Python代碼」和「其他大模型」作為判斷器來檢查數(shù)學(xué)答案是否正確;答案的錯誤或正確對應(yīng)0或1的二進(jìn)制分?jǐn)?shù)。

12月7日,OpenAI微調(diào)團(tuán)隊的John Allard此前發(fā)布過一份關(guān)于評分器背后思路的說明,以及相關(guān)配置的屏幕截圖,基本思路是把待評分的回復(fù)分解成一個結(jié)構(gòu)化的對象,然后對每一項的數(shù)值進(jìn)行比較,得到精確率、召回率等指標(biāo)。

比如想訓(xùn)練一個信息抽取器模型,評分器會根據(jù)預(yù)定義的結(jié)構(gòu),比如就讀的大學(xué)、已知的編程語言、當(dāng)前居住城市等項分別進(jìn)行評分,最后獲得一個匯總評分。

{
  "university": "University of California Berkeley",
  "programming_languages": ["python", "c++", "java"],
  "city": "Los Angeles",
  "state": "California"
}

圖片

推文鏈接:https://x.com/john__allard/status/1865520756559614090?s=46

數(shù)據(jù)效率優(yōu)化

在直播中,OpenAI提到用戶只需要「幾十個」RFT樣本就可以在新領(lǐng)域進(jìn)行學(xué)習(xí);對于每個提示,強化學(xué)習(xí)(RL)可以根據(jù)超參數(shù)設(shè)置在一批中生成多個評分回復(fù),在學(xué)習(xí)步驟和數(shù)據(jù)的多次迭代中「重復(fù)訓(xùn)練」,因此模型能夠嘗試不同的「策略」來找到正確的答案。

比如用幾千個提示在數(shù)據(jù)集上運行數(shù)十萬條強化學(xué)習(xí)訓(xùn)練數(shù)據(jù),模型可以多次看到相同的提示而不會過度擬合。

圖片

穩(wěn)定的基礎(chǔ)語言模型

事實證明,強化學(xué)習(xí)更適合微調(diào)而不是從頭開始訓(xùn)練,基礎(chǔ)強化學(xué)習(xí)工作已經(jīng)在控制和決策方面證明了這個結(jié)論;憑借非常穩(wěn)定的基礎(chǔ),強化學(xué)習(xí)微調(diào)可以溫和地搜索更好的行為表達(dá),而不會顯著改變模型性能。

比如某個RFT領(lǐng)域?qū)τ谀P蛠碚f是非常新的,可能只需要10個樣本即可獲得總體性能提升。

對于OpenAI來說,o1模型經(jīng)過大規(guī)模訓(xùn)練,應(yīng)該已經(jīng)極其穩(wěn)定了,可以作為強化學(xué)習(xí)微調(diào)的基礎(chǔ), 其微調(diào)平臺團(tuán)隊成員John Allard就曾表示:任何人都可以利用相同的訓(xùn)練算法和基礎(chǔ)設(shè)施在新領(lǐng)域微調(diào)出一個專家o1模型。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2020-01-23 15:33:07

AI 數(shù)據(jù)人工智能

2022-06-25 21:38:36

AI模型

2025-01-17 13:41:24

2024-09-13 06:32:25

2022-09-04 14:38:00

世界模型建模IRIS

2020-07-31 16:54:52

戴爾

2017-08-17 09:15:23

強化學(xué)習(xí)KerasOpenAI

2023-04-26 18:36:13

2023-08-28 06:52:29

2023-02-27 09:24:05

模型技術(shù)

2017-02-27 11:36:31

阿里

2022-09-15 08:33:27

安全生產(chǎn)系統(tǒng)Review

2023-06-30 08:43:36

2017-08-22 15:56:49

神經(jīng)網(wǎng)絡(luò)強化學(xué)習(xí)DQN

2009-07-27 10:08:14

2011-12-21 09:46:46

程序員

2023-05-25 21:35:00

穩(wěn)定性建設(shè)前端

2011-08-01 11:03:15

2020-07-13 08:10:13

軟件設(shè)計系統(tǒng)

2020-07-28 08:07:14

ElasticSear
點贊
收藏

51CTO技術(shù)棧公眾號