深挖RLHF潛力,復(fù)旦語(yǔ)言和視覺團(tuán)隊(duì)創(chuàng)新獎(jiǎng)勵(lì)模型優(yōu)化,讓大模型更對(duì)齊
繼第一份大模型對(duì)齊技術(shù)報(bào)告(Secrets of RLHF in Large Language Models Part I)獲 NeurIPS 2023 workshop best paper 后,第二份報(bào)告強(qiáng)勢(shì)歸來(lái),復(fù)旦語(yǔ)言和視覺團(tuán)隊(duì)聯(lián)合推出的第二份報(bào)告將進(jìn)入這一領(lǐng)域更深層的探索和優(yōu)化之旅。在首份報(bào)告中,復(fù)旦團(tuán)隊(duì)揭示了 RLHF 在大語(yǔ)言模型中的基本框架,并深入分析了 PPO 算法的內(nèi)部機(jī)制,特別是 PPO-max 的高級(jí)版本在策略模型訓(xùn)練穩(wěn)定性中的關(guān)鍵作用。
現(xiàn)在,復(fù)旦團(tuán)隊(duì)進(jìn)一步挖掘 RLHF 的潛力,重點(diǎn)關(guān)注獎(jiǎng)勵(lì)模型(Reward Model)在面對(duì)實(shí)際應(yīng)用挑戰(zhàn)時(shí)的表現(xiàn)和優(yōu)化途徑。
- Secrets of RLHF in Large Language Models Part I: PPO 論文鏈接:https://arxiv.org/pdf/2307.04964.pdf
- Secrets of RLHF in Large Language Models Part II: Reward Modeling 論文鏈接:https://arxiv.org/abs/2401.06080
復(fù)旦團(tuán)隊(duì)究竟做了什么?
隨著 ChatGPT、GPT-4 等大型語(yǔ)言模型的技術(shù)創(chuàng)新和廣泛應(yīng)用,這些模型已成為當(dāng)下的技術(shù)熱點(diǎn),革新了我們與機(jī)器互動(dòng)的方式,為各行各業(yè)提供了前所未有的模型支持。這些模型在解決復(fù)雜問(wèn)題、自動(dòng)生成內(nèi)容和理解復(fù)雜指令方面展現(xiàn)出巨大價(jià)值。然而這些模型在在對(duì)齊人類價(jià)值觀和偏好方面,仍有所局限。OpenAI、Anthropic 等研究團(tuán)隊(duì)對(duì)此的應(yīng)對(duì)策略是深入研究基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF),目標(biāo)是使 AI 系統(tǒng)在價(jià)值觀上與人類更加一致。
OpenAI 的超級(jí)對(duì)齊、過(guò)程監(jiān)督和 Anthropic 的憲法式 AI 等最新研究,都進(jìn)一步強(qiáng)調(diào)了 AI 對(duì)齊的重要性。這些概念不僅關(guān)注于如何讓 AI 回答更加符合人類的文化和審美標(biāo)準(zhǔn),而且還關(guān)注于如何讓 AI 在更廣泛的倫理和價(jià)值觀層面與人類保持一致。這些進(jìn)展不僅展示了科學(xué)上的挑戰(zhàn),也體現(xiàn)了哲學(xué)上的探索。它們?cè)诖_保 AI 的目標(biāo)與人類社會(huì)真正對(duì)齊的過(guò)程中起到了關(guān)鍵作用,對(duì)未來(lái)人類文明的發(fā)展至關(guān)重要。
為了使大模型與人類的偏好對(duì)齊,RLHF 通過(guò)獎(jiǎng)勵(lì)模型(reward model)學(xué)習(xí)人類的偏好。好的獎(jiǎng)勵(lì)模型能夠反映人類的偏好和價(jià)值目標(biāo),指引大模型充分發(fā)揮自身的能力造福社會(huì);反之,壞的獎(jiǎng)勵(lì)模型則歪曲誤解人類的偏好,誤導(dǎo)大模型滑向不被人類理解和接納的深淵。因此,獎(jiǎng)勵(lì)模型的設(shè)計(jì)和實(shí)施對(duì)于大型語(yǔ)言模型的發(fā)展至關(guān)重要。
在研究過(guò)程中復(fù)旦團(tuán)隊(duì)曾發(fā)現(xiàn)一個(gè)有趣的現(xiàn)象,如果按照特定方式選擇 hh-rlhf 數(shù)據(jù)集(Anthropic 公開的有用和無(wú)害的人類偏好數(shù)據(jù)集)中的 70% 數(shù)據(jù)用于訓(xùn)練獎(jiǎng)勵(lì)模型,這個(gè)獎(jiǎng)勵(lì)模型用于 PPO 階段訓(xùn)練將導(dǎo)致模型無(wú)論輸入任何內(nèi)容都只會(huì)回復(fù) 「免責(zé)聲明」:
這種現(xiàn)象是 hh-rlhf 數(shù)據(jù)集中存在大量沖突、模糊數(shù)據(jù)的結(jié)果,這樣的沖突會(huì)導(dǎo)致獎(jiǎng)勵(lì)模型無(wú)法準(zhǔn)確反映人類的偏好,語(yǔ)言模型無(wú)法捕捉到一致的獎(jiǎng)懲,便采用這種萬(wàn)金油策略來(lái)應(yīng)對(duì)獎(jiǎng)勵(lì)模型。而復(fù)旦團(tuán)隊(duì)所做的第一個(gè)工作便是揭露了 hh-rlhf 數(shù)據(jù)集中存在大量噪音數(shù)據(jù)的現(xiàn)象。通過(guò)去除數(shù)據(jù)集中的噪音,可以使得模型更加貼合人類的喜好。正如下述例子中所看到的:
除了構(gòu)造出對(duì)于訓(xùn)練 RM 來(lái)說(shuō)更加優(yōu)質(zhì)的數(shù)據(jù),還可以從 RM 本身出發(fā), 適當(dāng)改變 RM 的選擇策略等,使得 RM 變的更好,進(jìn)而使得 LLM 能夠更貼切人類的喜好,這便是復(fù)旦團(tuán)隊(duì)所做的第二個(gè)工作。團(tuán)隊(duì)提出了使用對(duì)比學(xué)習(xí)、元學(xué)習(xí)的方式,很大程度提高了 RM 對(duì)于數(shù)據(jù)好壞的甄別的能力,RM 的改進(jìn)直接使得 LLM 變得更加符合人類的需求。
通過(guò)對(duì)比學(xué)習(xí)后的 RM 能夠指導(dǎo) LLM 回答問(wèn)題更加精確,更符合人類價(jià)值觀偏好。比如在遇到有害問(wèn)題時(shí),優(yōu)化前的 LLM 只會(huì)拒絕回答問(wèn)題,但是優(yōu)化后的 RM 能夠更具體的回答有害的地方,給出更符合人類價(jià)值觀的回答,正如下述例子所看到的:
上述例子中優(yōu)化前的 LLM 沒有按照用戶的指示回答問(wèn)題,而是說(shuō)它不能理解或回答問(wèn)題,這是不準(zhǔn)確的,因?yàn)樽鳛槿斯ぶ悄埽軌蚶斫獠⒏鶕?jù)輸入生成語(yǔ)言。這個(gè)回答不能解決用戶的問(wèn)題,也沒有幫助。另一方面,對(duì)比學(xué)習(xí)優(yōu)化后的 LLM 選擇不提供表示笨的詞語(yǔ),相反,它通過(guò)強(qiáng)調(diào)支持孩子的重要性并認(rèn)識(shí)到他們獨(dú)特的優(yōu)勢(shì)和劣勢(shì),提供了一種建設(shè)性的方法。這種回應(yīng)是有幫助的,因?yàn)樗鼘?duì)話轉(zhuǎn)向了一種積極和支持兒童發(fā)展的方法,這比提供負(fù)面標(biāo)簽更有益,危害更小,更符合人類價(jià)值觀的對(duì)齊。
同時(shí)復(fù)旦團(tuán)隊(duì)的研究進(jìn)一步提升了語(yǔ)言模型在面對(duì)不同數(shù)據(jù)分布的同一任務(wù)時(shí)的表現(xiàn),確保了模型能夠在相同任務(wù)不同數(shù)據(jù)分布的情況下,也能準(zhǔn)確把握和遵循人類價(jià)值觀,提高了語(yǔ)言模型的泛化能力。
通過(guò) RLHF 的應(yīng)用,我們可以對(duì)模型的輸出進(jìn)行細(xì)致的調(diào)整,引導(dǎo)模型以更符合人類喜好和期望的方式作出反應(yīng)。例如,未經(jīng) RLHF 優(yōu)化的模型可能提供的回答簡(jiǎn)單直接,可能缺乏文藝氣息;而經(jīng)過(guò) RLHF 優(yōu)化的模型則能提供更加典雅、有文學(xué)感的回答。正如下述對(duì)比的例子所看到的那樣,第一條回答略顯生硬,更談不上「信達(dá)雅」,第二條回答卻明顯更文學(xué)氣息,更耐人尋味。通過(guò) RLHF,大模型從從生硬的 「機(jī)言」跨越到多情的「人語(yǔ)」。
深化 RLHF:獎(jiǎng)勵(lì)模型在大語(yǔ)言模型中的關(guān)鍵作用與挑戰(zhàn)
在復(fù)旦團(tuán)隊(duì)的技術(shù)報(bào)告中,他們深入探索了 Reinforcement learning from human feedback(RLHF)這一技術(shù)。此技術(shù)對(duì)于使語(yǔ)言模型更好地與人類價(jià)值觀和意圖對(duì)齊,產(chǎn)生更有幫助和更無(wú)害的回應(yīng)具有重要意義。同時(shí)報(bào)告指出了在實(shí)際應(yīng)用中獎(jiǎng)勵(lì)模型所面臨的挑戰(zhàn),包括數(shù)據(jù)集中固有的不正確和模糊的偏好數(shù)據(jù),以及獎(jiǎng)勵(lì)模型在特定數(shù)據(jù)分布上訓(xùn)練時(shí)的泛化困難。
為了應(yīng)對(duì)這些挑戰(zhàn),復(fù)旦團(tuán)隊(duì)從數(shù)據(jù)和算法兩個(gè)角度進(jìn)行了深入研究。在數(shù)據(jù)方面,通過(guò)多個(gè)獎(jiǎng)勵(lì)模型的一致性結(jié)果來(lái)量化偏好的強(qiáng)度,并分析了不同強(qiáng)度偏好數(shù)據(jù)獎(jiǎng)勵(lì)模型性能的影響。在算法方面,團(tuán)隊(duì)探索了如何學(xué)習(xí)泛化特征以區(qū)分選擇和拒絕的回應(yīng),并利用元學(xué)習(xí)來(lái)促進(jìn)獎(jiǎng)勵(lì)模型對(duì)于超出分布(OOD)數(shù)據(jù)的泛化能力,以及迭代 RLHF 優(yōu)化。獎(jiǎng)勵(lì)模型被訓(xùn)練成為人類偏好的代理,但在準(zhǔn)確反映人類偏好方面面臨著諸多挑戰(zhàn)。
此外,復(fù)旦團(tuán)隊(duì)還開源了包含偏好強(qiáng)度注釋的 anthropic-hh 數(shù)據(jù)集,并使用 GPT-4 標(biāo)記了驗(yàn)證集。本技術(shù)報(bào)告所使用的訓(xùn)練代碼在項(xiàng)目網(wǎng)站提供。這些研究和開發(fā)不僅為 AI 技術(shù)樹立了新的里程碑,也為未來(lái)的研究和應(yīng)用開辟了新的道路,進(jìn)一步提升了語(yǔ)言模型的響應(yīng)質(zhì)量和適應(yīng)性。通過(guò)這些工作,團(tuán)隊(duì)更加深化了對(duì) RLHF 的理解,并為大語(yǔ)言模型的優(yōu)化開創(chuàng)了新篇章。
項(xiàng)目地址:https://github.com/OpenLMLab/MOSS-RLHF
數(shù)據(jù)影響力:塑造人類偏好模型的關(guān)鍵因素
復(fù)旦團(tuán)隊(duì)探索了人類偏好數(shù)據(jù)的固有噪聲問(wèn)題,并重點(diǎn)研究了偏好強(qiáng)度對(duì)獎(jiǎng)勵(lì)模型表現(xiàn)的影響。通過(guò)分析不同強(qiáng)度偏好數(shù)據(jù)對(duì)模型性能的影響,團(tuán)隊(duì)提出了新的獎(jiǎng)勵(lì)模型方法,以更準(zhǔn)確地建模偏好。實(shí)驗(yàn)顯示,通過(guò)這種方法,能夠更有效地辨別正確和錯(cuò)誤的偏好標(biāo)注,并提升模型的整體性能。
在這部分中,報(bào)告深入探討了數(shù)據(jù)如何影響對(duì)人類偏好的建模。
通過(guò)隨機(jī)初始化若干獎(jiǎng)勵(lì)模型,訓(xùn)練后在數(shù)據(jù)集上評(píng)估得到對(duì)數(shù)據(jù)集中比較對(duì)的細(xì)粒度打分,研究團(tuán)隊(duì)量化了每個(gè)比較對(duì)的偏好強(qiáng)度,并分析了不同強(qiáng)度偏好數(shù)據(jù)對(duì)獎(jiǎng)勵(lì)模型性能的影響。上圖中展示的是測(cè)試集上偏好強(qiáng)度的分布情況,注意到數(shù)據(jù)集中大約 25% 的數(shù)據(jù)的偏好強(qiáng)度小于零,并且有很多數(shù)據(jù)的偏好強(qiáng)度在 0 附近,意味著可能存在不正確的數(shù)據(jù)偏好標(biāo)注和低差異的數(shù)據(jù)。從數(shù)據(jù)集中抽取了一些真實(shí)存在的樣本如下:
數(shù)據(jù)示例一:標(biāo)簽錯(cuò)誤(harmful)
chosen 標(biāo)簽對(duì)應(yīng)的回復(fù)包含了剝奪人類睡眠的方法,而 rejected 標(biāo)簽對(duì)應(yīng)的回復(fù)拒絕了這種對(duì)人類有害的回答。從無(wú)害性角度來(lái)說(shuō),rejected 的回復(fù)是更安全、更符合人類偏好的。而模型評(píng)估 chosen 與 rejected 的平均得分差異(即偏好強(qiáng)度)為 - 6.23,表示更偏好 rejected 回復(fù),這與人類價(jià)值偏好一致。
數(shù)據(jù)示例一:標(biāo)簽錯(cuò)誤(helpful)
chosen 拒絕回復(fù),rejected 給出了比較詳細(xì)的解釋。從有用性的角度來(lái)說(shuō),rejected 標(biāo)簽對(duì)應(yīng)的回答是我們更希望看到的。而模型評(píng)估 chosen 與 rejected 的平均得分差異為 - 5.85,表現(xiàn)出對(duì) rejected 數(shù)據(jù)的偏好,與人類價(jià)值偏好一致。
數(shù)據(jù)示例二:低差異
對(duì)于上述 chosen 和 rejected 對(duì)應(yīng)的回復(fù),差異不大。模型評(píng)估 chosen 與 rejected 的平均得分差異為 - 0.0007,表示模型認(rèn)為這兩個(gè)回復(fù)差別不大,符合人類價(jià)值判斷。
在復(fù)旦團(tuán)隊(duì)的技術(shù)報(bào)告中提供了一個(gè)關(guān)于偏好強(qiáng)度的細(xì)致分析(如下左圖所示)。
將數(shù)據(jù)集按照偏好強(qiáng)度從小到大排序,等分成若干組分別計(jì)算組內(nèi)數(shù)據(jù)的統(tǒng)計(jì)信息??梢钥闯?,偏好差異的均值在不同數(shù)據(jù)組中表現(xiàn)出顯著的差異。這反映了數(shù)據(jù)中存在的不同偏好強(qiáng)度,從幾乎無(wú)差異到顯著差異的偏好都有所體現(xiàn)。同時(shí),偏好差異的標(biāo)準(zhǔn)差顯示出一種 U 形模式,這意味著在偏好非常明顯或非常不明顯的情況下,模型在評(píng)估偏好時(shí)的不確定性增加。
此外,團(tuán)隊(duì)使用 GPT-4 對(duì)測(cè)試集進(jìn)行標(biāo)注,衡量提出的偏好強(qiáng)度量化指標(biāo)與 GPT4 評(píng)估的一致性。
團(tuán)隊(duì)發(fā)現(xiàn)平均偏好差異與 GPT-4 一致性很高(如下右圖所示)。這說(shuō)明偏好強(qiáng)度指標(biāo)一定程度上反映了真實(shí)世界的人類價(jià)值偏好。
這一發(fā)現(xiàn)為我們提供了深入理解獎(jiǎng)勵(lì)模型處理不同類型偏好數(shù)據(jù)的能力,并指出了優(yōu)化模型時(shí)需要考慮的關(guān)鍵方面。通過(guò)對(duì)偏好差異的這種細(xì)致分析,我們能更好地調(diào)整獎(jiǎng)勵(lì)模型,以提高其在處理復(fù)雜偏好情境時(shí)的準(zhǔn)確性和魯棒性。
復(fù)旦團(tuán)隊(duì)進(jìn)一步考慮在獎(jiǎng)勵(lì)模型訓(xùn)練過(guò)程中對(duì)于不同類型的偏好數(shù)據(jù)施加不同的處理,以及如何通過(guò)調(diào)整方法來(lái)優(yōu)化模型性能。例如,團(tuán)隊(duì)深入分析了不同類型數(shù)據(jù)對(duì)獎(jiǎng)勵(lì)模型的影響,通過(guò)識(shí)別噪音數(shù)據(jù)并進(jìn)行矯正操作(如:標(biāo)簽反轉(zhuǎn)等),發(fā)現(xiàn)對(duì)偏好強(qiáng)度最低的 10% 樣本單獨(dú)訓(xùn)練,其在測(cè)試集上的正確率低于 35%,但是如果將其標(biāo)簽反轉(zhuǎn),正確率可以接近 65%。
實(shí)驗(yàn)表明,對(duì)數(shù)據(jù)集中特定部分進(jìn)行細(xì)致處理,可以顯著提高獎(jiǎng)勵(lì)模型在理解復(fù)雜人類偏好方面的性能。
在研究中,復(fù)旦團(tuán)隊(duì)探索了四種去噪方法(flip、margin、soft label 等)來(lái)提升獎(jiǎng)勵(lì)模型的性能,它們?cè)趯?shí)際測(cè)試中都顯示出了相對(duì)于原始方法的改進(jìn)。團(tuán)隊(duì)構(gòu)造了三個(gè)測(cè)試集,分別是原始測(cè)試集、GPT4 清洗后的測(cè)試集以及 GPT4 與原始測(cè)試集保持一致的測(cè)試子集。這些方法的訓(xùn)練過(guò)程如下圖中所示。實(shí)驗(yàn)顯示,原始方法在訓(xùn)練過(guò)程中在會(huì)有明顯的精度下滑,表明了原始數(shù)據(jù)集存在噪聲,會(huì)導(dǎo)致訓(xùn)練過(guò)擬合。而相比較來(lái)說(shuō),四種去噪方法在所有測(cè)試集上能夠保持穩(wěn)定的精度,表現(xiàn)出比原始方法整體更好的性能。
復(fù)旦團(tuán)隊(duì)使用 PPO 方法,利用上述四種方法和原始方法訓(xùn)練得到的獎(jiǎng)勵(lì)模型微調(diào) SFT 模型,下圖反映了 PPO 訓(xùn)練過(guò)程中各項(xiàng)指標(biāo)的變化情況,注意到 KL 散度和 PPL 指標(biāo)顯示去噪方法能夠提供更穩(wěn)定的 PPO 訓(xùn)練過(guò)程。
復(fù)旦團(tuán)隊(duì)利用 GPT-4-turbo 評(píng)估了不同方法經(jīng)過(guò) PPO 訓(xùn)練得到的語(yǔ)言模型相比較于原始方法的輸出質(zhì)量,特別是在有害提示下的表現(xiàn),復(fù)旦團(tuán)隊(duì)的方法顯示出了顯著的改善。這可能歸因于處理有害提示相關(guān)的偏好數(shù)據(jù)中的噪聲數(shù)據(jù)時(shí)去噪的有效性。
這些實(shí)驗(yàn)成果為如何更好地建模人類偏好提供了新的視角,并指出了未來(lái)研究的方向。
對(duì)比學(xué)習(xí):獎(jiǎng)勵(lì)模型的新視角
在傳統(tǒng)的獎(jiǎng)勵(lì)建模中,一個(gè)重大挑戰(zhàn)是模型通常在「chosen」和「rejected」樣本之間表現(xiàn)出高度的特征相似性,如上圖所示,通過(guò) t-SNE 獲得的特征分布顯示,在基線模型中,「chosen」和「rejected」樣本特征分布有顯著的重疊。這表明模型無(wú)法捕捉固有的細(xì)微差異 以及數(shù)據(jù)上的區(qū)別。缺乏這樣的辨別能力可能會(huì)導(dǎo)致表現(xiàn)不佳,因?yàn)槟P涂赡芎茈y有效地了解是什么使特定行為或結(jié)果變得更好或不更好。
相比之下,對(duì)比學(xué)習(xí)有一些先天的優(yōu)勢(shì):1)有效的特征提取:對(duì)比學(xué)習(xí)通過(guò)比較相似和不相似的樣本來(lái)訓(xùn)練模型,這有助于模型更有效地學(xué)習(xí)數(shù)據(jù)中的獨(dú)特特征。2)強(qiáng)大的泛化能力:通過(guò)學(xué)習(xí)區(qū)分不同的樣本,使用對(duì)比學(xué)習(xí)訓(xùn)練的模型通常表現(xiàn)出更好的泛化能力,使它們能夠更有效地處理新的、看不見的數(shù)據(jù)。
在 RLHF 的背景下,將對(duì)比學(xué)習(xí)整合到偏好建模中需要仔細(xì)對(duì)比數(shù)據(jù)的構(gòu)造。常有的兩種方法則是:① 「chosen」數(shù)據(jù) 和「rejected」數(shù)據(jù)的差異對(duì)比 ②「chosen」 數(shù)據(jù) 和 「rejected」數(shù)據(jù)的直接對(duì)比。
這兩種方法都有其優(yōu)點(diǎn)和局限性。如果目標(biāo)是使模型能夠更精確地識(shí)別和獎(jiǎng)勵(lì)表現(xiàn)明顯優(yōu)于壞數(shù)據(jù)的好數(shù)據(jù),那么第一種方法可能更合適,它允許模型學(xué)習(xí)區(qū)分喜歡和不喜歡。然而,如果目標(biāo)是增強(qiáng)模型的泛化能力并使其能夠有效地區(qū)分各種數(shù)據(jù),那么第二種方法可能更理想,它使模型能夠通過(guò)區(qū)分選擇和拒絕的反應(yīng)來(lái)推斷偏好。在實(shí)踐中,還可以考慮將這兩種方法結(jié)合起來(lái)以獲得更好的建模結(jié)果。
復(fù)旦團(tuán)隊(duì)基于已有的兩種對(duì)比學(xué)習(xí)方法來(lái)探究對(duì)比學(xué)習(xí)在獎(jiǎng)勵(lì)模型中能否區(qū)分出數(shù)據(jù)的差異性。
首先是 SwAV(Swapping Assignments between Views):SwAV 是一種創(chuàng)新的無(wú)監(jiān)督視覺特征學(xué)習(xí)方法,與傳統(tǒng)的對(duì)比學(xué)習(xí)方法不同,它在同時(shí)對(duì)數(shù)據(jù)進(jìn)行聚類的同時(shí),確保了對(duì)同一圖像不同增強(qiáng)(或「視圖」)的聚類分配的一致性。該方法包括創(chuàng)建圖像的多個(gè)視圖,預(yù)測(cè)每個(gè)視圖的聚類分配,然后使用交換機(jī)制來(lái)匹配一個(gè)視圖的聚類分配與另一個(gè)視圖的預(yù)測(cè)。這種方法提高了學(xué)習(xí)效率,避免了比較每一對(duì)可能的圖像,從而降低了計(jì)算成本。
其次是 SimCSE(Simple Contrastive Learning of Sentence Embeddings):SimCSE 是一種利用對(duì)比學(xué)習(xí)來(lái)學(xué)習(xí)句子嵌入的技術(shù)。它通過(guò)使用相同的句子作為正樣本,將它們輸入到基于 Transformer 的模型(如 BERT)中以生成嵌入。關(guān)鍵之處在于,相同的句子在不同的 dropout 掩碼下進(jìn)行建模,從而產(chǎn)生了嵌入的變化。負(fù)樣本則來(lái)自不同的句子,使得能夠高效而有效地學(xué)習(xí)句子表示,而無(wú)需復(fù)雜的數(shù)據(jù)增強(qiáng)或外部標(biāo)記數(shù)據(jù)。
如上圖所示,當(dāng)在獎(jiǎng)勵(lì)模型中引入 SimCSE 后,通過(guò) t-SNE 獲得的特征分布顯示,選擇和拒絕響應(yīng)之間的特征分布重疊減少了。
復(fù)旦團(tuán)隊(duì)還利用 GPT-4-turbo 評(píng)估了不同方法相比較于基線模型 (普通 PPO 和 SFT 模型) 的輸出質(zhì)量,如下圖所示,在有用性和無(wú)害性上,模型性能都有一定的提升,表明對(duì)比學(xué)習(xí)確實(shí)可以通過(guò)讓獎(jiǎng)勵(lì)模型增強(qiáng)區(qū)分?jǐn)?shù)據(jù)之間的差異性的能力來(lái)改善模型的能力。
MetaRM:引領(lǐng)獎(jiǎng)勵(lì)模型的未來(lái)
復(fù)旦團(tuán)隊(duì)所提出的目標(biāo)是,當(dāng)策略模型的分布隨著 PPO 訓(xùn)練而變化時(shí),獎(jiǎng)勵(lì)模型仍應(yīng)保持對(duì)從新分布中采樣的響應(yīng)的區(qū)分度。
在本節(jié)中,復(fù)旦團(tuán)隊(duì)提出了 MetaRM,一種通過(guò)元學(xué)習(xí)將原始偏好數(shù)據(jù)與移位分布對(duì)齊的方法。MetaRM 的關(guān)鍵思想是:獎(jiǎng)勵(lì)模型的訓(xùn)練階段應(yīng)該最小化原始偏好數(shù)據(jù)的損失,同時(shí)最大化從轉(zhuǎn)移的策略分布中采樣的響應(yīng)之間的差異。
MetaRM 的實(shí)現(xiàn)依靠四個(gè)關(guān)鍵步驟:首先,計(jì)算差異損失來(lái)評(píng)估策略變化后響應(yīng)的差異;其次,根據(jù)梯度上升方向調(diào)整獎(jiǎng)勵(lì)模型參數(shù);接著,使用更新后的參數(shù)計(jì)算原始偏好對(duì)的普通損失;最后,優(yōu)化原始參數(shù),以沿著梯度下降方向進(jìn)行調(diào)整。總體來(lái)說(shuō),MetaRM 通過(guò)元學(xué)習(xí)過(guò)程調(diào)整獎(jiǎng)勵(lì)模型,確保模型在面對(duì)策略分布的演變時(shí),仍能夠識(shí)別和獎(jiǎng)勵(lì)高質(zhì)量的響應(yīng)。
總之,MetaRM 的方法是使用元學(xué)習(xí)訓(xùn)練獎(jiǎng)勵(lì)模型,即使在策略模型的分布發(fā)生變化時(shí),也能夠識(shí)別出質(zhì)量響應(yīng),確保響應(yīng)仍與原始偏好對(duì)齊。
Main Results:實(shí)驗(yàn)結(jié)果深度剖析 RLHF
內(nèi)部任務(wù)評(píng)估
在上表中,展示了與 SFT 模型響應(yīng)相比,復(fù)旦團(tuán)隊(duì)所提出方法的獲勝、平局和失敗比例?;睾蠑?shù)代表相應(yīng)回合的模型生成的響應(yīng)。
此外,為了更全面地展示復(fù)旦團(tuán)隊(duì)所提出方法的優(yōu)越性,表格 3 中展示了與其它基線(包括普通 PPO)對(duì)比的最佳性能,還提供了對(duì) GPT-4 和人類評(píng)估的評(píng)估結(jié)果。
外部任務(wù)評(píng)估
如圖所示,即使在 OOD 情景下,復(fù)旦團(tuán)隊(duì)所提出的方法仍然優(yōu)于基線。這表明該方法可以在新領(lǐng)域?qū)崿F(xiàn)對(duì)齊,而無(wú)需昂貴的偏好標(biāo)記一組查詢,從而顯著降低了 RM 培訓(xùn)的培訓(xùn)成本。此外,團(tuán)隊(duì)觀察到與內(nèi)部分布評(píng)估結(jié)果相比,他們所提出的方法在獲勝率上略有下降。
總結(jié):深度剖析獎(jiǎng)勵(lì)模型推動(dòng) RLHF 新發(fā)展
在這篇技術(shù)報(bào)告中,復(fù)旦團(tuán)隊(duì)全面審視了強(qiáng)化學(xué)習(xí)與人類反饋(RLHF)在大語(yǔ)言模型中的應(yīng)用,并提出了創(chuàng)新的獎(jiǎng)勵(lì)模型方法。團(tuán)隊(duì)的研究不僅解決了數(shù)據(jù)集中存在的不正確和模糊偏好問(wèn)題,還提高了模型對(duì)于新場(chǎng)景的泛化能力。通過(guò)復(fù)旦團(tuán)隊(duì)所提出的方法,語(yǔ)言模型能夠更準(zhǔn)確地理解和符合人類的意圖和價(jià)值觀,從而產(chǎn)生更有幫助和更安全的回應(yīng)。復(fù)旦團(tuán)隊(duì)的工作不僅推動(dòng)了 RLHF 技術(shù)的發(fā)展,也為未來(lái)的研究者和開發(fā)者提供了新的思路和工具。
彩蛋
Easter Egg 1—Alignment with Translation Preference
幾千年來(lái),語(yǔ)言一直是連接人類文明的紐帶。每一種語(yǔ)言都是一個(gè)獨(dú)特的文化世界,充滿著細(xì)膩的情感和深厚的歷史。在這個(gè)數(shù)字時(shí)代,我們?cè)噲D通過(guò)機(jī)器翻譯來(lái)跨越語(yǔ)言障礙,但僅僅依靠字面意思的翻譯往往無(wú)法傳達(dá)語(yǔ)言的真正魅力。就像生活在一個(gè)五彩斑斕的世界里,卻只能看到黑白的世界。幸運(yùn)的是,RLHF 在模擬人類偏好方面不僅限于安全和道德;它還可以用來(lái)滿足人們對(duì)高質(zhì)量翻譯的偏好。為了實(shí)現(xiàn)這一目標(biāo),復(fù)旦團(tuán)隊(duì)監(jiān)督微調(diào) LLaMA-7b 模型,賦予其基本翻譯功能,然后利用獎(jiǎng)勵(lì)模型來(lái)學(xué)習(xí)人類翻譯偏好。最后,復(fù)旦團(tuán)隊(duì)通過(guò) PPO 算法優(yōu)化翻譯模型,使其生成更符合忠實(shí)、表達(dá)、優(yōu)雅偏好的翻譯。
以上三個(gè)英漢翻譯的例子生動(dòng)地說(shuō)明了翻譯不僅僅是語(yǔ)言的轉(zhuǎn)換,更是文化和情感的傳遞。在復(fù)旦團(tuán)隊(duì)技術(shù)報(bào)告的下一部分中,將努力探索如何將人類偏好和文化理解有效地融入到機(jī)器翻譯系統(tǒng)中。通過(guò)實(shí)驗(yàn)和數(shù)據(jù)分析,期望開發(fā)出一種不僅精確而且富有情感深度和文化敏感性的翻譯模型。這樣的模式不僅可以提高翻譯的準(zhǔn)確性,而且可以促進(jìn)不同文化之間的理解和交流。
Easter Egg 2—Alignment Using Compiler Feedback
“Everybody should learn to program a computer, because it teaches you how to think.”
— Steve Jobs
人工智能代理生成代碼的過(guò)程比最初看起來(lái)更加復(fù)雜。編程是一門與自然語(yǔ)言的復(fù)雜性和可變性相似的學(xué)科,提供了多種可能性。然而,如此廣泛的選擇范圍,與稀疏獎(jiǎng)勵(lì)信號(hào)的問(wèn)題并列時(shí),極大地限制了智能體的探索能力。因此,關(guān)鍵的挑戰(zhàn)在于在復(fù)雜任務(wù)的背景下制定穩(wěn)健有效的探索策略,這是當(dāng)前研究中尚未解決的問(wèn)題。未來(lái),復(fù)旦團(tuán)隊(duì)將進(jìn)一步闡述人工智能代理如何充分探索代碼合成任務(wù)。