自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

僅靠開源數(shù)據(jù)復(fù)刻出LLaMA3指令學(xué)習(xí)效果,在線迭代RLHF全流程解決方案來(lái)了

發(fā)布于 2024-5-20 09:23
瀏覽
0收藏

本文作者熊偉是伊利諾伊香檳分校的在讀博士生,其導(dǎo)師為 Tong Zhang 與 Nan Jiang。他的主要研究方向是 RLHF 與機(jī)器學(xué)習(xí)理論。


基于人類反饋的強(qiáng)化學(xué)習(xí) (RLHF) 使得大語(yǔ)言模型的輸出能夠更加符合人類的目標(biāo)、期望與需求,是提升許多閉源語(yǔ)言模型 Chat-GPT, Claude, Gemini 表現(xiàn)的核心方法之一。在此之前,傳統(tǒng)的開源解決方案是基于離線數(shù)據(jù)集的直接偏好優(yōu)化 (DPO),并獲得了一系列的明顯超出 SFT 的開源模型。然而,在過(guò)去的幾個(gè)月中,許多研究表現(xiàn),在線迭代版本的 RLHF 算法通常要明顯超過(guò)他們的離線版本。與此同時(shí),開源社區(qū)在這個(gè)領(lǐng)域暫時(shí)還沒(méi)有一個(gè)完整的、易于復(fù)現(xiàn)的全流程解決方案。


近日,來(lái)自 UIUC、Salesforce 的研究人員基于 ICML 2024 論文《Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint》與其他一些領(lǐng)域相關(guān)工作實(shí)現(xiàn)了完全基于開源數(shù)據(jù)、模型的在線迭代 RLHF 全流程: (1) 有監(jiān)督學(xué)習(xí);(2) 獎(jiǎng)勵(lì)函數(shù)與偏好函數(shù)的建模;(3) 以及基于 DPO 的迭代 RLHF,并基于 LLaMA3-8B 得到目前最先進(jìn)水平的開源 RLHF 模型。此外,研究人員還將模型、代碼、數(shù)據(jù)、和超參數(shù)選擇全部開源到 GitHub 與 hugging face,以便社區(qū)人員能夠復(fù)現(xiàn)和進(jìn)一步在這個(gè)方向進(jìn)行研究。


僅靠開源數(shù)據(jù)復(fù)刻出LLaMA3指令學(xué)習(xí)效果,在線迭代RLHF全流程解決方案來(lái)了-AI.x社區(qū)

Figure 1 最終模型與 LLaMA3-8B-it 對(duì)比


僅靠開源數(shù)據(jù)復(fù)刻出LLaMA3指令學(xué)習(xí)效果,在線迭代RLHF全流程解決方案來(lái)了-AI.x社區(qū)


  • 論文地址:https://arxiv.org/pdf/2405.07863
  • 獎(jiǎng)勵(lì)模型 / 偏好模型建模: https://github.com/RLHFlow/RLHF-Reward-Modeling
  • 迭代 RLHF: https://github.com/RLHFlow/Online-RLHF
  • Huggingface RLFlow: https://huggingface.co/RLHFlow


離線 RLHF 與在線迭代 RLHF


離線直接偏好優(yōu)化 (offline DPO) 由于基于深度強(qiáng)化學(xué)習(xí)算法 PPO 的 RLHF 方案訓(xùn)練的不穩(wěn)定性以及對(duì) GPU 資源的不友好 (需要同時(shí)加載多個(gè)模型),開源社區(qū)通常使用直接偏好優(yōu)化算法 (DPO), 在離線的偏好數(shù)據(jù)集上進(jìn)行有監(jiān)督學(xué)習(xí),具體地說(shuō):


  • 離線偏好數(shù)據(jù)集收集:首先隨機(jī)采樣一個(gè) prompt,并使用 SFT 模型以及更加強(qiáng)大的語(yǔ)言模型 (GPT-4, Claude, LLaMA2-Chat-70B) 收集兩個(gè)回復(fù),最后讓人類 / GPT-4 標(biāo)注其更喜歡的回復(fù);
  • 在離線數(shù)據(jù)集上使用 DPO/Slic/IPO 等損失函數(shù)進(jìn)行有監(jiān)督學(xué)習(xí)。


由于離線偏好數(shù)據(jù)集的回復(fù)通常由更加強(qiáng)大的語(yǔ)言模型 (GPT-4, Claude, LLaMA2-Chat-70B) 收集,并用以訓(xùn)練 10B 以下的模型,所以可以看成是一種特殊的蒸餾方式。此外,研究人員在論文中證明了在這種情況下,需要離線數(shù)據(jù)集對(duì)全空間有較好的覆蓋,此時(shí)才能保證 DPO 能學(xué)習(xí)到最優(yōu)策略。


在線迭代 RLHF 相反,在線迭代 RLHF 并不完全依賴于外部專家模型的回復(fù),而是通過(guò)當(dāng)前模型自己生成的回復(fù)組成的偏好數(shù)據(jù)集進(jìn)行學(xué)習(xí),具體的說(shuō),此時(shí)既可以從一個(gè)離線數(shù)據(jù)集開始,也可以完全從零開始,在每一輪迭代中,


  • 模型選擇:首先依據(jù)歷史數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練,從而得到兩個(gè)模型;
  • 數(shù)據(jù)收集:對(duì)每條 prompt, 用兩個(gè)模型采樣 2 條回復(fù),并讓外部偏好模型進(jìn)行標(biāo)注,總共收集 m 個(gè)偏好數(shù)據(jù)對(duì)加入歷史數(shù)據(jù)集中。


可見(jiàn)為了實(shí)現(xiàn)在線迭代 RLHF,(1) 首先需要一個(gè)外部偏好模型,以及 (2) 需要明確每輪的模型選取策略。


基于開源數(shù)據(jù)集的偏好模型建模


理想情況下,在線迭代學(xué)習(xí)的外部偏好信號(hào)應(yīng)當(dāng)由一組有代表性的人類給出,用以模擬模型部署所面對(duì)的用戶。由于人類標(biāo)注價(jià)格昂貴,研究人員選擇基于開源數(shù)據(jù)集,訓(xùn)練一個(gè)獎(jiǎng)勵(lì)函數(shù)或者成對(duì)偏好函數(shù),根據(jù) UW 與 Allen AI 提出的評(píng)估獎(jiǎng)勵(lì)函數(shù)質(zhì)量的 rewardbench 結(jié)果,訓(xùn)練所得到的模型達(dá)到開源模型的最佳表現(xiàn) (Cohere RM 并不開源):


僅靠開源數(shù)據(jù)復(fù)刻出LLaMA3指令學(xué)習(xí)效果,在線迭代RLHF全流程解決方案來(lái)了-AI.x社區(qū)


同時(shí),研究人員收集清洗了開源偏好數(shù)據(jù)集中的 prompt 集合,可視化結(jié)果如下


僅靠開源數(shù)據(jù)復(fù)刻出LLaMA3指令學(xué)習(xí)效果,在線迭代RLHF全流程解決方案來(lái)了-AI.x社區(qū)


數(shù)據(jù)收集策略選擇


在原始論文中,研究者推導(dǎo)出一般性的策略選取原則:


利用現(xiàn)有數(shù)據(jù)的信息選取主要模型:首先在歷史收集到的所有數(shù)據(jù)集上運(yùn)行 DPO (也可以替換為 Slic, IPO 等算法), 獲得主要模型;


最大化差異進(jìn)行探索幫助主要模型學(xué)習(xí):由于主要模型僅僅利用歷史數(shù)據(jù),它能夠收斂的前提是收集到的在線數(shù)據(jù)能夠源源不斷的提供新的信息,這啟發(fā)研究人員在選擇第二個(gè)模型時(shí)從下面的集合中選擇相對(duì)于主要模型不確定性比較大的方向進(jìn)行探索:


僅靠開源數(shù)據(jù)復(fù)刻出LLaMA3指令學(xué)習(xí)效果,在線迭代RLHF全流程解決方案來(lái)了-AI.x社區(qū)


由于對(duì)于神經(jīng)網(wǎng)絡(luò)不確定性估計(jì)沒(méi)有解析解,研究人員解釋上述策略選擇原則為:在保證輔助策略距離主要模型不要太遠(yuǎn)的情況下,盡可能最大化他們的差異,這啟發(fā)研究人員通過(guò)調(diào)整采樣參數(shù)來(lái)獲得主要模型的變種,結(jié)合一些現(xiàn)有文獻(xiàn)中流行的啟發(fā)式方法拒絕采樣進(jìn)行探索,具體實(shí)現(xiàn)流程如下所示:


僅靠開源數(shù)據(jù)復(fù)刻出LLaMA3指令學(xué)習(xí)效果,在線迭代RLHF全流程解決方案來(lái)了-AI.x社區(qū)


主要結(jié)果


研究人員基于 LLaMA3-8B 實(shí)現(xiàn)了全流程訓(xùn)練,如 Table 1 所示,所得到的最終模型在指令跟隨測(cè)試中大幅度超出現(xiàn)有的 < 10B 開源模型水平,同時(shí)大幅度超出 offline DPO 基準(zhǔn),這驗(yàn)證了在線迭代 RLHF 的卓越效果。


僅靠開源數(shù)據(jù)復(fù)刻出LLaMA3指令學(xué)習(xí)效果,在線迭代RLHF全流程解決方案來(lái)了-AI.x社區(qū)

Table 1 最終模型與其他 LLM 在指令跟隨測(cè)試中的結(jié)果比較。


為了理解在線迭代 RLHF 對(duì)模型推理、數(shù)學(xué)、代碼等能力的影響,研究人員也在標(biāo)準(zhǔn)的學(xué)術(shù)測(cè)試集上進(jìn)行測(cè)試:


僅靠開源數(shù)據(jù)復(fù)刻出LLaMA3指令學(xué)習(xí)效果,在線迭代RLHF全流程解決方案來(lái)了-AI.x社區(qū)

Table 2 學(xué)術(shù)測(cè)試集結(jié)果。


經(jīng)歷在線迭代 RLHF 之后,模型在這些測(cè)試上并沒(méi)有明顯的性能下降,并在部分基準(zhǔn)上獲得了較為明顯的提升。研究人員認(rèn)為這是回答風(fēng)格的變化使得模型能夠更高效地使用在預(yù)訓(xùn)練與有監(jiān)督學(xué)習(xí)階段獲得的知識(shí)。


與此同時(shí),研究人員也進(jìn)行了一系列的消融實(shí)驗(yàn)。首先,研究人員發(fā)現(xiàn) RLHF 之后的模型通常會(huì)面臨回復(fù)長(zhǎng)度大幅度增加的問(wèn)題,為此他們提出可以在獎(jiǎng)勵(lì)函數(shù)中加入長(zhǎng)度懲罰,實(shí)驗(yàn)結(jié)果表明,這樣一個(gè)簡(jiǎn)單的修改可以大幅度將最終模型的平均輸出長(zhǎng)度從 656 token 降低到 382 token。此外研究人員還使用了開源社區(qū)的 UltraRM-13B 作為基準(zhǔn) (在 reward bench 上大約排名第 30) 訓(xùn)練了一個(gè)模型,其在指令跟隨測(cè)試與學(xué)術(shù)能力測(cè)試中都明顯差于基于作者所訓(xùn)練的 SOTA 開源獎(jiǎng)勵(lì)函數(shù)得到的模型。


僅靠開源數(shù)據(jù)復(fù)刻出LLaMA3指令學(xué)習(xí)效果,在線迭代RLHF全流程解決方案來(lái)了-AI.x社區(qū)

Table 3 消融實(shí)驗(yàn)結(jié)果。


總結(jié)


該項(xiàng)目提供了在線迭代 RLHF 全流程的實(shí)現(xiàn),并展示完全基于開源數(shù)據(jù)集與開源模型,可以得到達(dá)到當(dāng)前最先進(jìn)水平的 < 10B 語(yǔ)言模型。同時(shí),作者將模型、代碼、數(shù)據(jù)、以及超參數(shù)選擇全部開源到 GitHub 與 hugging face,以使得開源社區(qū)可以復(fù)現(xiàn)技術(shù)報(bào)告中的結(jié)果。


盡管已經(jīng)取得顯著進(jìn)展,這個(gè)項(xiàng)目仍然有許多潛在的方向亟待繼續(xù)探索。首先,由于資源限制,研究人員采用了基于豐富開源偏好數(shù)據(jù)集訓(xùn)練的獎(jiǎng)勵(lì)獎(jiǎng)勵(lì) / 偏好函數(shù)作為外部信號(hào)來(lái)源。未來(lái),如何開發(fā)出一個(gè)更加準(zhǔn)確和穩(wěn)定的偏好函數(shù),以提高模型的泛化和實(shí)用性,仍然需要進(jìn)一步研究。


其次,雖然當(dāng)前啟發(fā)式的探索策略在一些實(shí)例研究中效果不錯(cuò),考慮到語(yǔ)言模型回復(fù)的指數(shù)大小的空間,如何設(shè)計(jì)更高效的探索仍然值得進(jìn)一步研究。


最后,在消融實(shí)驗(yàn)中,研究人員發(fā)現(xiàn)簡(jiǎn)單的長(zhǎng)度懲罰可以緩解 RLHF 的長(zhǎng)度偏見(jiàn)。雖然此方法有效,但仍有空間發(fā)現(xiàn)更多高效的技術(shù)手段,以進(jìn)一步改善模型的輸出質(zhì)量和用戶體驗(yàn)。


本文轉(zhuǎn)自 機(jī)器之心 ,作者:機(jī)器之心


原文鏈接:??https://mp.weixin.qq.com/s/bRxdSCCPIrgNBgtDfyzhAA??

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦