自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="jff6k"><rp id="jff6k"></rp></cite>

<cite id="jff6k"></cite><legend id="jff6k"><track id="jff6k"><dfn id="jff6k"></dfn></track></legend>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

抱抱臉Open了OpenAI的秘密武器，網(wǎng)易參與復(fù)現(xiàn)

2024-04-08 08:03:00

InstructGPT的結(jié)構(gòu)和訓練技術(shù)與ChatGPT大差不差，所以也被稱為是ChatGPT的兄弟模型。而此后OpenAI并未放出ChatGPT論文，所以有不少學者從InstructGPT出發(fā)探索ChatGPT的內(nèi)核。

OpenAI的秘密武器、ChatGPT背后功臣RLHF，被開源了。

來自Hugging Face、加拿大蒙特利爾Mila研究所、網(wǎng)易伏羲AI Lab的研究人員從零開始復(fù)現(xiàn)了OpenAI的RLHF pipeline，羅列了25個關(guān)鍵實施細節(jié)。

最終成功展示了隨著模型大小的增加，響應(yīng)質(zhì)量顯著提升的scaling行為，其中2.8B、6.9B的Pythia模型在性能上超過了OpenAI發(fā)布的1.3B checkpoint。

沒有寫在論文中，但被作者在推文中po出來的，還有一個初步的Pythia 1.4B實驗，根據(jù)GPT-4的數(shù)據(jù)顯示，這個1.4B模型非常接近OpenAI的1.3B性能（由于GPT4成本過高，只進行了一次評估）。

研究人員表示，他們的這一“配方”的獨特之處在于對SFT、RM和PPO使用了單一的學習率，所以再重現(xiàn)他們的工作會變得更加簡單。

作者已公開發(fā)布了訓練好的模型checkpoint和代碼。

順便一提，Huggingface最近上了一把新聞，抱抱臉現(xiàn)在是正式譯名了：

寫在前頭

大語言模型的功能實質(zhì)上就是在玩“詞語接龍”——以給定的前面的token，預(yù)測下一個token。

為了讓輸出的下一個token符合人類意愿，人類反饋強化學習（RLHF）這一方法理念逐漸被引入pipeline，用于收集成對的人類偏好，訓練獎勵模型（RM）來對這些偏好進行建模，并使用強化學習（RL）創(chuàng)建一個模型來輸出人類喜歡的內(nèi)容。

OpenAI對RLHF的探索一直走在前頭。

在2020年“Learning to summarize from human feedback”這項工作中，OpenAI研究員將RLHF應(yīng)用到了捕捉原始文本主要信息和意圖的摘要任務(wù)中。

這種人類反饋訓練的模型在英文摘要任務(wù)上顯著優(yōu)于人類參考摘要和僅使用監(jiān)督學習的更大模型。且具有較強的泛化能力，在沒有特定領(lǐng)域微調(diào)的情況下，也能生成高質(zhì)量的文章摘要，接近人類參考摘要的質(zhì)量。

在2022年“Training language models to follow instructions with human feedback”這項工作中，RLHF再次被使用，為指令遵循任務(wù)而專門設(shè)計的InstructGPT誕生。

這也是GPT-3到ChatGPT的過渡論文。

InstructGPT的結(jié)構(gòu)和訓練技術(shù)與ChatGPT大差不差，所以也被稱為是ChatGPT的兄弟模型。而此后OpenAI并未放出ChatGPT論文，所以有不少學者從InstructGPT出發(fā)探索ChatGPT的內(nèi)核。

其中秘密武器RLHF，開源界圍繞著它做了不少工作，不過想要重現(xiàn)OpenAI的RLHF pipeline很是困難。

主要有這么幾個原因：

RL和RLHF有許多微妙的實現(xiàn)細節(jié)，這些細節(jié)對訓練穩(wěn)定性有很大影響；
對于指令遵循任務(wù)，如評估一個編碼任務(wù)中生成的800行代碼片段的質(zhì)量，評估模型的表現(xiàn)不太行；
模型需要長時間的訓練和迭代。

考慮到以上原因，加之總結(jié)任務(wù)比一般的指令任務(wù)更容易評估，所以Hugging Face最新的這項工作選擇退后一步，從OpenAI早期的RLHF工作（也就是上面第一篇論文的摘要任務(wù)）中，探尋OpenAI的RLHF的真面目。

25個細節(jié)深度復(fù)現(xiàn)

RLHF通常包括以下三個步驟。

步驟1：訓練SFT（監(jiān)督微調(diào)）策略

使用下一個詞預(yù)測損失對預(yù)訓練的LLM進行微調(diào)，這些微調(diào)數(shù)據(jù)基于人類示范。

在這項復(fù)現(xiàn)工作中，人類示范數(shù)據(jù)與OpenAI的工作保持一致，選自過濾后的Reddit TL;DR（Too Long; Didn’t Read）數(shù)據(jù)集（當時OpenAI還Open了他們的人類反饋數(shù)據(jù)集）。

步驟2：收集偏好對并訓練RM（獎勵模型）

使用SFT策略等采樣不同完成序列，讓人類標注員指出他們較偏好的序列。

基于這些偏好數(shù)據(jù)，通過在SFT策略上添加一個隨機初始化的線性頭來初始化RM，并優(yōu)化交叉熵損失函數(shù)進行訓練，目標是預(yù)測人類標注員更傾向于接受哪種完成序列。

步驟3：針對RM訓練RL（強化學習）策略

從SFT策略初始化，RL策略根據(jù)RM對采樣的完成序列給出獎勵分數(shù)，同時加上一個KL懲罰項以防止過度偏離SFT策略。然后使用PPO算法最大化這個RLHF目標函數(shù)。

研究人員針從數(shù)據(jù)集到SFT、RM、OPP，共介紹了25個復(fù)現(xiàn)細節(jié)，深入分析了TL;DR數(shù)據(jù)集的規(guī)格、分詞過程和分詞長度分布。同時，詳細描述了SFT和RM組件的訓練設(shè)置、實施細節(jié)和結(jié)果。

感興趣的家人們可以劃到最后查看論文，這里羅列了作者認為有趣的細節(jié)。

數(shù)據(jù)預(yù)處理階段：

對于RLHF的提示查詢，OpenAI在最后一段進行截斷，而不是使用硬性的截斷限制；同時確?！癟L;DR:”之后沒有多余的空格。

始終在reference completions前加上前導空格，在reference completions后添加`<|endoftext|>`，并使用單獨的[PAD] token填充。

SFT和偏好數(shù)據(jù)集的tokenization length不同，因此在SFT和RM訓練期間分別設(shè)置最大token長度時需要注意。

RM的驗證集非常有趣，因為它包含更多獨特的策略對進行比較，所以它有很多超出分布的數(shù)據(jù)。

SFT階段：

SFT階段沒有太多的實現(xiàn)細節(jié)，只需要標準的下一個token預(yù)測損失就可以了。除了使用了不同的學習率之外，研究人員的設(shè)置幾乎與原始設(shè)置相同。

損失下降，ROUGE分數(shù)在4個隨機種子和3個模型checkpoint大小上都有所提高。

RM訓練：

RM訓練更有趣。例如，研究人員發(fā)現(xiàn)RM只在EOS token處提取獎勵。此外，在檢查獎勵的logits時，除了EOS token外，幾乎所有的logits都是負數(shù)。

結(jié)果非常不錯，驗證準確率提高了，RM幾乎完美地轉(zhuǎn)移到了偏好數(shù)據(jù)集驗證集中的CNN/DM子集上。

他們計算了SFT demonstration的平均獎勵——標量值看起來有些隨意；還計算了OpenAI偏好數(shù)據(jù)集中每個批號和置信度的驗證準確率。

值得注意的是，不同的批次/置信度可能會有截然不同的準確率。

研究人員也測量了RM與GPT3.5和RM的一致性率（agreement rate），并發(fā)現(xiàn)一致性率有所提高，但在6.9B級別時有所減弱。

并繪制了AnthropicAI所做的RM校準，發(fā)現(xiàn)RM通常校準不足。

研究人員將驗證準確率與DPO的隱式RM進行了比較，發(fā)現(xiàn)出于某種原因DPO的驗證準確率較低。

幾個不同點：

RM訓練只在EOS token處應(yīng)用損失，而DPO在每個完成token處應(yīng)用損失。
DPO還有一個可能影響訓練的$beta參數(shù)，RM則沒有。
研究員Michael Noukhovitch提出了個有說服力的觀點：DPO的目標可能更難優(yōu)化，因為你需要使你的logprobs與基本模型有足夠大的不同才能更改獎勵，而RM可以學習一個線性頭，可以更容易/更快地改變獎勵的值。

PPO訓練：

有趣的是，學習值函數(shù)的行為與RM截然不同。例如，值函數(shù)logits通常更為正，因為在每個時間步長，它都試圖對最終分數(shù)進行建模。

PPO也使用了EOS技巧。在PPO訓練中，研究人員通常采樣固定數(shù)量的token，比如48個。如果完成不以EOS token結(jié)束怎么辦？前面已經(jīng)提到了，非EOS token的logits幾乎總是負的（并且可能無效）。

EOS技巧基本上用恒定的-1獎勵取代了不以EOS token結(jié)尾的完成的獎勵。有幾個目的：

研究人員還嘗試了PPO的獎勵白化處理，并發(fā)現(xiàn)這樣使得與參考摘要的勝率略有降低，以及完成token的長度略微縮短。

長度在這里是一個混雜因素，所以研究人員引導了OpenAI進行的長度控制分析，通過將x軸設(shè)置為模型摘要長度與參考摘要長度之比的對數(shù)來執(zhí)行。

當長度得到控制時，研究人員發(fā)現(xiàn)比較獎勵白化的結(jié)果更具挑戰(zhàn)性，但盡管如此，在每個摘要長度上，PPO模型幾乎總是優(yōu)于SFT模型。

PPO 的訓練曲線如下所示。值得注意的是，幾個1B型號的KL值爆炸了。從優(yōu)化的角度來看，這并沒有什么問題，因為RLHF獎勵一直在上升，這些1B模型對應(yīng)于“獎勵黑客”/過度優(yōu)化的模型。

為了更好地理解模型的行為，研究人員還可視化突出顯示了經(jīng)過微調(diào)的模型在生成文本時總會以一個EOS token結(jié)束。為了進一步探索這一點，原論文附錄部分提供了更多類似的可視化效果。

論文鏈接：https://arxiv.org/abs/2403.17031。
GitHub鏈接：
[1]https://github.com/vwxyzjn/summarize_from_feedback_details。
[2]https://github.com/vwxyzjn/summarize_from_feedback_details/blob/main/visualize_tokens.py。
參考鏈接：https://x.com/vwxyzjn/status/1773011925666050313?s=20。

責任編輯：姜華來源：量子位

ChatGPT OpenAI 大語言模型

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<kbd id="dchsa"></kbd>

<sub id="dchsa"><rt id="dchsa"><form id="dchsa"></form></rt></sub>

^{<sub id="dchsa"><i id="dchsa"></i></sub>}

<style id="dchsa"><li id="dchsa"></li></style>

<sup id="dchsa"></sup>