陳丹琦團(tuán)隊(duì)新作:微調(diào)8B模型超越Claude3 Opus,背后是RLHF新平替
比斯坦福DPO(直接偏好優(yōu)化)更簡(jiǎn)單的RLHF平替來(lái)了,來(lái)自陳丹琦團(tuán)隊(duì)。
該方式在多項(xiàng)測(cè)試中性能都遠(yuǎn)超DPO,還能讓8B模型戰(zhàn)勝Claude 3的超大杯Opus。
而且與DPO相比,訓(xùn)練時(shí)間和GPU消耗也都大幅減少。
這種方法叫做SimPO,Sim是Simple的簡(jiǎn)寫,意在突出其簡(jiǎn)便性。
與DPO相比,SimPO擺脫了對(duì)參考模型的需要,在簡(jiǎn)化訓(xùn)練流程的同時(shí),還避免了訓(xùn)練和推理不一致的問題。
對(duì)于這項(xiàng)成果,普林斯頓PLI主任Sanjeev Arora教授這樣稱贊:
和(SimPO方法調(diào)整出的)模型聊天感覺讓人難以置信。
Llama3-8B是現(xiàn)在最好的小模型,SimPO把它變得更好了。
成果發(fā)布并開源后,大模型微調(diào)平臺(tái)Llama-Factory也迅速宣布引進(jìn)。
擺脫對(duì)參考模型的需要
陳丹琦團(tuán)隊(duì)的SimPO,和斯坦福提出的DPO一樣,都是對(duì)RLHF中的獎(jiǎng)勵(lì)函數(shù)進(jìn)行優(yōu)化。
在傳統(tǒng)的RLHF中,獎(jiǎng)勵(lì)函數(shù)通常由一個(gè)獨(dú)立的獎(jiǎng)勵(lì)模型提供,需要額外的訓(xùn)練和推理;DPO利用人類偏好和模型輸出之間的關(guān)系,直接用語(yǔ)言模型的對(duì)數(shù)概率來(lái)構(gòu)建獎(jiǎng)勵(lì)函數(shù),繞開了獎(jiǎng)勵(lì)模型的訓(xùn)練。
而和DPO相比,SimPO只基于當(dāng)前優(yōu)化的模型π_θ進(jìn)行設(shè)計(jì),完全擺脫了對(duì)參考模型π_ref的依賴。
具體來(lái)說,SimPO采用了長(zhǎng)度歸一化的對(duì)數(shù)概率作為獎(jiǎng)勵(lì)函數(shù)。
其中,β是一個(gè)正的縮放系數(shù),|y|表示回復(fù)y的token長(zhǎng)度,πθ(y|x)表示當(dāng)前語(yǔ)言模型πθ生成回復(fù)y的概率。
對(duì)數(shù)概率是衡量生成質(zhì)量的常用指標(biāo),較高的對(duì)數(shù)概率意味著在當(dāng)前模型看來(lái),這個(gè)回復(fù)是高質(zhì)量、自然、連貫的。
因此,這種獎(jiǎng)勵(lì)方式可以讓模型生成的回復(fù)更加符合自身已有知識(shí)。
長(zhǎng)度歸一化則是指,在函數(shù)當(dāng)中,獎(jiǎng)勵(lì)值除以了回復(fù)長(zhǎng)度|y|,起到了“懲罰”過長(zhǎng)回復(fù)的作用。
這樣做的原因是語(yǔ)言模型傾向于生成更長(zhǎng)的文本,因?yàn)槊總€(gè)額外的token都會(huì)為總對(duì)數(shù)概率做貢獻(xiàn),但過長(zhǎng)的回復(fù)往往會(huì)降低可讀性和信息密度。
除以長(zhǎng)度相當(dāng)于計(jì)算平均每個(gè)token的對(duì)數(shù)概率,鼓勵(lì)模型用盡可能簡(jiǎn)潔的方式表達(dá)完整的信息。
消融實(shí)驗(yàn)結(jié)果也證實(shí),如果不進(jìn)行長(zhǎng)度歸一化,模型很容易利用長(zhǎng)度偏差,只有在生成文本較長(zhǎng)時(shí)才有較好的表現(xiàn)。
除了使用對(duì)數(shù)概率和長(zhǎng)度歸一化,SimPO還引入了獎(jiǎng)勵(lì)差異項(xiàng)(公式中的γ)對(duì)目標(biāo)函數(shù)進(jìn)行改進(jìn)。
引入γ相當(dāng)于給正負(fù)樣本的差異設(shè)定了一個(gè)閾值,主要目的就是加強(qiáng)優(yōu)化信號(hào),促使模型學(xué)習(xí)更加鮮明地區(qū)分正負(fù)樣本。
在標(biāo)準(zhǔn)的Bradley-Terry損失中,只要正樣本的獎(jiǎng)勵(lì)略高于負(fù)樣本,損失就會(huì)很低,導(dǎo)致模型對(duì)正負(fù)樣本的區(qū)分不夠清晰;加入γ項(xiàng)后,模型必須使正樣本的獎(jiǎng)勵(lì)明顯高于負(fù)樣本,才能取得較好的優(yōu)化效果。
當(dāng)然如果γ過大則可能會(huì)給優(yōu)化帶來(lái)困難,導(dǎo)致訓(xùn)練不穩(wěn)定或收斂速度變慢,作者通過實(shí)驗(yàn)比較了不同γ值的效果,最終發(fā)現(xiàn)γ在0.8到1.6之間時(shí)SimPO可以取得最佳表現(xiàn)。
總體的消融實(shí)驗(yàn)結(jié)果表明,長(zhǎng)度歸一化和獎(jiǎng)勵(lì)差異項(xiàng)的引入都是讓SimPO表現(xiàn)進(jìn)一步提升的關(guān)鍵,無(wú)論是在AlpacaEval 2還是Arena-Hard當(dāng)中,缺少兩項(xiàng)技術(shù)中的任意一項(xiàng),都會(huì)造成表現(xiàn)下降。
那么,SimPO的具體表現(xiàn)究竟怎樣呢?
表現(xiàn)超越各種“PO”,還讓8B模型戰(zhàn)勝Claude 3
作者首先在AlpacaEval 2基準(zhǔn)上對(duì)SimPO調(diào)整后的Llama3-Instruct-8B模型和榜單上的先進(jìn)模型進(jìn)行了比較。
該測(cè)試的主要指標(biāo)是Win Rate及加入長(zhǎng)度控制(LC)后的Win Rate,即模型的回答被評(píng)判者認(rèn)為比GPT-4 Turbo(1106)更好的比例(這里評(píng)判者也是GPT4-Turbo)。
結(jié)果,SimPO調(diào)整后的8B模型,表現(xiàn)已經(jīng)超過了Claude 3的超大杯Opus;和DPO相比,勝率也有10%左右的提升。
接著,作者又用AlpacaEval 2、Arena-Hard和MT-Bench基準(zhǔn),將SimPO的實(shí)際效果與一些其他PO進(jìn)行了對(duì)比。
其中Arena-Hard與AlpacaEval 2類似都是比較勝率,但前者任務(wù)難度更大,需要多步推理和專業(yè)知識(shí),此外baseline也換成了GPT4-0314。
MT-Bench則是一個(gè)多語(yǔ)言理解評(píng)測(cè)基準(zhǔn),評(píng)價(jià)方式是直接打分,裁判是GPT-4和GPT-4-Turbo。
參與比較的其他PO如下表所示,其中ORPO和SimPO一樣都沒有使用參考模型。
結(jié)果,在Arena-Hard與AlpacaEval 2上,調(diào)整Mistral-7B和Llama3-8B兩種模型時(shí),無(wú)論是Base還是Instruct版本,SimPO的效果都顯著優(yōu)于DPO等其他方式。
在MT-Bench測(cè)試當(dāng)中,GPT-4-Turbo也都把最高分打給了SimPO,GPT-4給出的成績(jī)中SimPO也與最高分十分接近。
另外SimPO的開銷也大幅減少,在8塊H100上,SimPO調(diào)整Llama3-8B的時(shí)間為60分鐘,比DPO減少了20%;GPU消耗峰值為69GB,也比DPO少了10%。
但同時(shí),作者也指出了SimPO還存在一些不足:
- 一是未明確考慮安全性和誠(chéng)實(shí)性,采用的獎(jiǎng)勵(lì)函數(shù)主要關(guān)注了模型的表現(xiàn),需要進(jìn)一步加強(qiáng)安全措施;
- 二是在GSM8k等需要密集推理的任務(wù),特別是數(shù)學(xué)問題上的表現(xiàn)有所下降,未來(lái)會(huì)考慮集成一些正則化策略進(jìn)行改進(jìn)。
有網(wǎng)友也指出,讓一個(gè)8B模型取得超越Claude3-Opus的勝率,一定會(huì)有過擬合的現(xiàn)象出現(xiàn)。
對(duì)此作者表示確實(shí)存在這種可能,但也強(qiáng)調(diào),在單獨(dú)一個(gè)標(biāo)準(zhǔn)上成績(jī)比Claude高,并不意味著全面超越,比如在Arena-Hard上的表現(xiàn)就不如Claude。
不過無(wú)論如何,SimPO創(chuàng)新性運(yùn)用到的長(zhǎng)度歸一化和獎(jiǎng)勵(lì)差異項(xiàng),都可以給大模型從業(yè)者帶來(lái)新的啟發(fā)。
論文地址:???https://arxiv.org/abs/2405.14734??
本文轉(zhuǎn)自 量子位,作者:量子位
