自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

抱抱臉Open了OpenAI的秘密武器,網(wǎng)易參與復(fù)現(xiàn)

人工智能
InstructGPT的結(jié)構(gòu)和訓練技術(shù)與ChatGPT大差不差,所以也被稱為是ChatGPT的兄弟模型。而此后OpenAI并未放出ChatGPT論文,所以有不少學者從InstructGPT出發(fā)探索ChatGPT的內(nèi)核。

OpenAI的秘密武器、ChatGPT背后功臣RLHF,被開源了。

來自Hugging Face、加拿大蒙特利爾Mila研究所、網(wǎng)易伏羲AI Lab的研究人員從零開始復(fù)現(xiàn)了OpenAI的RLHF pipeline,羅列了25個關(guān)鍵實施細節(jié)。

最終成功展示了隨著模型大小的增加,響應(yīng)質(zhì)量顯著提升的scaling行為,其中2.8B、6.9B的Pythia模型在性能上超過了OpenAI發(fā)布的1.3B checkpoint。

圖片

沒有寫在論文中,但被作者在推文中po出來的,還有一個初步的Pythia 1.4B實驗,根據(jù)GPT-4的數(shù)據(jù)顯示,這個1.4B模型非常接近OpenAI的1.3B性能(由于GPT4成本過高,只進行了一次評估)

圖片

研究人員表示,他們的這一“配方”的獨特之處在于對SFT、RM和PPO使用了單一的學習率,所以再重現(xiàn)他們的工作會變得更加簡單。

作者已公開發(fā)布了訓練好的模型checkpoint和代碼。

圖片

順便一提,Huggingface最近上了一把新聞,抱抱臉現(xiàn)在是正式譯名了:

圖片

寫在前頭

大語言模型的功能實質(zhì)上就是在玩“詞語接龍”——以給定的前面的token,預(yù)測下一個token。

為了讓輸出的下一個token符合人類意愿,人類反饋強化學習(RLHF)這一方法理念逐漸被引入pipeline,用于收集成對的人類偏好,訓練獎勵模型(RM)來對這些偏好進行建模,并使用強化學習(RL)創(chuàng)建一個模型來輸出人類喜歡的內(nèi)容。

OpenAI對RLHF的探索一直走在前頭。

在2020年“Learning to summarize from human feedback”這項工作中,OpenAI研究員將RLHF應(yīng)用到了捕捉原始文本主要信息和意圖的摘要任務(wù)中。

這種人類反饋訓練的模型在英文摘要任務(wù)上顯著優(yōu)于人類參考摘要和僅使用監(jiān)督學習的更大模型。且具有較強的泛化能力,在沒有特定領(lǐng)域微調(diào)的情況下,也能生成高質(zhì)量的文章摘要,接近人類參考摘要的質(zhì)量。

圖片

在2022年“Training language models to follow instructions with human feedback”這項工作中,RLHF再次被使用,為指令遵循任務(wù)而專門設(shè)計的InstructGPT誕生。

這也是GPT-3到ChatGPT的過渡論文。

圖片

InstructGPT的結(jié)構(gòu)和訓練技術(shù)與ChatGPT大差不差,所以也被稱為是ChatGPT的兄弟模型。而此后OpenAI并未放出ChatGPT論文,所以有不少學者從InstructGPT出發(fā)探索ChatGPT的內(nèi)核。

其中秘密武器RLHF,開源界圍繞著它做了不少工作,不過想要重現(xiàn)OpenAI的RLHF pipeline很是困難。

主要有這么幾個原因:

  • RL和RLHF有許多微妙的實現(xiàn)細節(jié),這些細節(jié)對訓練穩(wěn)定性有很大影響;
  • 對于指令遵循任務(wù),如評估一個編碼任務(wù)中生成的800行代碼片段的質(zhì)量,評估模型的表現(xiàn)不太行;
  • 模型需要長時間的訓練和迭代。

考慮到以上原因,加之總結(jié)任務(wù)比一般的指令任務(wù)更容易評估,所以Hugging Face最新的這項工作選擇退后一步,從OpenAI早期的RLHF工作(也就是上面第一篇論文的摘要任務(wù))中,探尋OpenAI的RLHF的真面目。

25個細節(jié)深度復(fù)現(xiàn)

RLHF通常包括以下三個步驟。

步驟1:訓練SFT(監(jiān)督微調(diào))策略

使用下一個詞預(yù)測損失對預(yù)訓練的LLM進行微調(diào),這些微調(diào)數(shù)據(jù)基于人類示范。

在這項復(fù)現(xiàn)工作中,人類示范數(shù)據(jù)與OpenAI的工作保持一致,選自過濾后的Reddit TL;DR(Too Long; Didn’t Read)數(shù)據(jù)集(當時OpenAI還Open了他們的人類反饋數(shù)據(jù)集)。

步驟2:收集偏好對并訓練RM(獎勵模型)

使用SFT策略等采樣不同完成序列,讓人類標注員指出他們較偏好的序列。

基于這些偏好數(shù)據(jù),通過在SFT策略上添加一個隨機初始化的線性頭來初始化RM,并優(yōu)化交叉熵損失函數(shù)進行訓練,目標是預(yù)測人類標注員更傾向于接受哪種完成序列。

步驟3:針對RM訓練RL(強化學習)策略

從SFT策略初始化,RL策略根據(jù)RM對采樣的完成序列給出獎勵分數(shù),同時加上一個KL懲罰項以防止過度偏離SFT策略。然后使用PPO算法最大化這個RLHF目標函數(shù)。

研究人員針從數(shù)據(jù)集到SFT、RM、OPP,共介紹了25個復(fù)現(xiàn)細節(jié),深入分析了TL;DR數(shù)據(jù)集的規(guī)格、分詞過程和分詞長度分布。同時,詳細描述了SFT和RM組件的訓練設(shè)置、實施細節(jié)和結(jié)果。

感興趣的家人們可以劃到最后查看論文,這里羅列了作者認為有趣的細節(jié)。

數(shù)據(jù)預(yù)處理階段:

對于RLHF的提示查詢,OpenAI在最后一段進行截斷,而不是使用硬性的截斷限制;同時確?!癟L;DR:”之后沒有多余的空格。

圖片

始終在reference completions前加上前導空格,在reference completions后添加`<|endoftext|>`,并使用單獨的[PAD] token填充。

圖片

SFT和偏好數(shù)據(jù)集的tokenization length不同,因此在SFT和RM訓練期間分別設(shè)置最大token長度時需要注意。

圖片

RM的驗證集非常有趣,因為它包含更多獨特的策略對進行比較,所以它有很多超出分布的數(shù)據(jù)。

圖片

SFT階段:

SFT階段沒有太多的實現(xiàn)細節(jié),只需要標準的下一個token預(yù)測損失就可以了。除了使用了不同的學習率之外,研究人員的設(shè)置幾乎與原始設(shè)置相同。

損失下降,ROUGE分數(shù)在4個隨機種子和3個模型checkpoint大小上都有所提高。

圖片

RM訓練:

RM訓練更有趣。例如,研究人員發(fā)現(xiàn)RM只在EOS token處提取獎勵。此外,在檢查獎勵的logits時,除了EOS token外,幾乎所有的logits都是負數(shù)。

圖片

結(jié)果非常不錯,驗證準確率提高了,RM幾乎完美地轉(zhuǎn)移到了偏好數(shù)據(jù)集驗證集中的CNN/DM子集上。

圖片

他們計算了SFT demonstration的平均獎勵——標量值看起來有些隨意;還計算了OpenAI偏好數(shù)據(jù)集中每個批號和置信度的驗證準確率。

值得注意的是,不同的批次/置信度可能會有截然不同的準確率。

圖片

研究人員也測量了RM與GPT3.5和RM的一致性率(agreement rate),并發(fā)現(xiàn)一致性率有所提高,但在6.9B級別時有所減弱。

并繪制了AnthropicAI所做的RM校準,發(fā)現(xiàn)RM通常校準不足。

圖片

研究人員將驗證準確率與DPO的隱式RM進行了比較,發(fā)現(xiàn)出于某種原因DPO的驗證準確率較低。

幾個不同點:

  • RM訓練只在EOS token處應(yīng)用損失,而DPO在每個完成token處應(yīng)用損失。
  • DPO還有一個可能影響訓練的$beta參數(shù),RM則沒有。
  • 研究員Michael Noukhovitch提出了個有說服力的觀點:DPO的目標可能更難優(yōu)化,因為你需要使你的logprobs與基本模型有足夠大的不同才能更改獎勵,而RM可以學習一個線性頭,可以更容易/更快地改變獎勵的值。

圖片

PPO訓練:

有趣的是,學習值函數(shù)的行為與RM截然不同。例如,值函數(shù)logits通常更為正,因為在每個時間步長,它都試圖對最終分數(shù)進行建模。

圖片

PPO也使用了EOS技巧。在PPO訓練中,研究人員通常采樣固定數(shù)量的token,比如48個。如果完成不以EOS token結(jié)束怎么辦?前面已經(jīng)提到了,非EOS token的logits幾乎總是負的(并且可能無效)。

EOS技巧基本上用恒定的-1獎勵取代了不以EOS token結(jié)尾的完成的獎勵。有幾個目的:

圖片

研究人員還嘗試了PPO的獎勵白化處理,并發(fā)現(xiàn)這樣使得與參考摘要的勝率略有降低,以及完成token的長度略微縮短。

圖片

長度在這里是一個混雜因素,所以研究人員引導了OpenAI進行的長度控制分析,通過將x軸設(shè)置為模型摘要長度與參考摘要長度之比的對數(shù)來執(zhí)行。

當長度得到控制時,研究人員發(fā)現(xiàn)比較獎勵白化的結(jié)果更具挑戰(zhàn)性,但盡管如此,在每個摘要長度上,PPO模型幾乎總是優(yōu)于SFT模型。

圖片

PPO 的訓練曲線如下所示。值得注意的是,幾個1B型號的KL值爆炸了。從優(yōu)化的角度來看,這并沒有什么問題,因為RLHF獎勵一直在上升,這些1B模型對應(yīng)于“獎勵黑客”/過度優(yōu)化的模型。

圖片

為了更好地理解模型的行為,研究人員還可視化突出顯示了經(jīng)過微調(diào)的模型在生成文本時總會以一個EOS token結(jié)束。為了進一步探索這一點,原論文附錄部分提供了更多類似的可視化效果。

圖片

論文鏈接:https://arxiv.org/abs/2403.17031。
GitHub鏈接:
[1]https://github.com/vwxyzjn/summarize_from_feedback_details。

[2]https://github.com/vwxyzjn/summarize_from_feedback_details/blob/main/visualize_tokens.py。
參考鏈接:https://x.com/vwxyzjn/status/1773011925666050313?s=20。

責任編輯:姜華 來源: 量子位
相關(guān)推薦

2013-10-16 09:28:14

亞馬遜AWSSDN

2013-10-16 09:33:36

亞馬遜AWSSDN

2014-01-07 10:46:39

2011-08-11 17:05:26

2024-07-11 08:34:48

2022-02-11 10:47:17

CIOIT團隊企業(yè)

2023-05-08 14:54:00

AI任務(wù)HuggingGPT

2019-11-27 10:40:34

數(shù)據(jù)工具CIO

2009-07-28 10:36:58

云計算Google秘密武器

2019-11-27 10:38:37

數(shù)據(jù)分析數(shù)據(jù)準備工具

2011-06-02 10:24:11

iTravel蘋果

2023-02-24 10:26:34

語音AI人工智能

2015-03-30 16:58:05

秘密武器華為

2024-07-01 12:54:39

2023-09-25 15:29:44

Go并發(fā)Goroutines

2015-06-08 09:50:07

Android M谷歌

2024-09-11 12:43:59

2025-01-06 23:33:04

2019-02-27 09:44:01

CIO秘密武器顧問

2020-04-29 09:24:48

Python數(shù)據(jù)工具
點贊
收藏

51CTO技術(shù)棧公眾號