Llama 2打敗GPT-4!Meta讓大模型自我獎勵自迭代,再證合成數(shù)據(jù)是LLM終局
Llama 2-70B一夜之間打敗GPT-4,讓整個AI社區(qū)為之震驚!
甚至,在AlpacaEval 2.0排行榜中,微調(diào)后的模型勝率完全碾壓Claude 2、Gemini Pro等模型。
Meta和NYU研究團(tuán)隊(duì)究竟提出了什么秘制配方,才能讓Llama 2-70B超強(qiáng)進(jìn)化?
正如論文題目所言——「自我獎勵語言模型」,模型生成訓(xùn)練數(shù)據(jù),并評估這些數(shù)據(jù)的質(zhì)量,然后用這些數(shù)據(jù)來自己訓(xùn)練自己。
簡單來說,最新方法可以讓LLM在迭代訓(xùn)練過程中不斷自我改進(jìn)。
論文地址:https://arxiv.org/pdf/2401.10020.pdf
LeCun也轉(zhuǎn)贊了自家實(shí)驗(yàn)室的研究。
RLAIF已經(jīng)不是新鮮事了,之前包括Anthropic,谷歌都推出過自己的「AI訓(xùn)AI」的技術(shù),那么Meta的這項(xiàng)工作和之前的幾家的RLAIF區(qū)別在哪里呢?
我們先來了解一下Meta的自我獎勵語言模型的大概框架。
研究團(tuán)隊(duì)開發(fā)了一個能夠遵循指令和自我評價回復(fù)質(zhì)量的能力的模型。模型可以生成新的訓(xùn)練數(shù)據(jù),對生成的回復(fù)進(jìn)行質(zhì)量評分,從而不斷改進(jìn)自己的輸出。
模型首先根據(jù)少量人工標(biāo)注數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,獲得初始化模型。
然后模型生成新的指令和多個候選回復(fù),并使用LLM-as-a-Judge的提示,讓模型對自己生成的回復(fù)打分。
根據(jù)打分形成新的訓(xùn)練數(shù)據(jù),繼續(xù)訓(xùn)練模型。
這樣可以迭代訓(xùn)練,在每次迭代中模型的遵循指令能力和打分能力都會提升。
研究人員從Llama 2 70B預(yù)訓(xùn)練模型開始迭代訓(xùn)練。
結(jié)果顯示在3次迭代中,模型遵循指令的能力有顯著提升,同時獎勵建模能力也在提高,評價結(jié)果與人工判斷的相關(guān)性更高。
這說明模型迭代過程中,不僅指令遵循能力提高,也更善于對自己生成的回復(fù)進(jìn)行判斷。
迭代第三次的模型在AlpacaEval 2.0基準(zhǔn)測試中,就戰(zhàn)勝了Claude 2、Gemini Pro、GPT-4 0613等模型。
Meta的這項(xiàng)工作與谷歌在去年9月發(fā)布的RLAIF論文相比,更近一步地使用了一個不斷進(jìn)化的獎勵模型來不斷迭代訓(xùn)練模型,而迭代后的模型也確實(shí)取得了明顯可見的性能提升。
可以說,Meta又將AI自我迭代大模型的前沿往前推進(jìn)了一大步。
如何訓(xùn)練「自我獎勵語言模型」
研究人員的方法首先假設(shè)可以訪問基本的預(yù)訓(xùn)練語言模型和少量人工注釋的種子數(shù)據(jù)。
然后研究人員建立一個模型,讓它同時擁有兩種能力:
- 指令遵循:給出描述用戶請求的提示,能夠生成高質(zhì)量、有幫助(且無害)的響應(yīng)。
- 自指令創(chuàng)建:能夠按照示例生成和評估新指令,再添加到自己的訓(xùn)練集中。
這兩個能力可以為了使模型能夠執(zhí)行自我對齊,即它們是用于使用人工智能反饋(AIF)迭代訓(xùn)練自身的組件。
自指令創(chuàng)建包括生成候選響應(yīng),然后模型本身判斷其質(zhì)量——充當(dāng)自己的獎勵模型,取代外部獎勵模型。
這是通過LLM-as-a-Judge機(jī)制實(shí)現(xiàn)的:通過將響應(yīng)評估制定為遵循指令的任務(wù)。
這個由模型自行創(chuàng)建的AIF偏好數(shù)據(jù)被用作訓(xùn)練集來訓(xùn)練模型。
整體自我對齊過程是一個不斷迭代過程,通過構(gòu)建一系列此類模型來進(jìn)行,目的是每個模型都比上一個模型有所改進(jìn)。
重要的是,由于模型既可以提高其生成能力,又可以通過相同的生成機(jī)制作為自己的獎勵模型,這意味著獎勵模型本身可以通過迭代過程來改進(jìn),這就不同于獎勵模型固定不變的傳統(tǒng)方法。
研究人員相信這樣可以提高這些學(xué)習(xí)模型未來自我改進(jìn)的潛力上限,消除限制性瓶頸。
初始化
種子指令跟隨數(shù)據(jù)
研究人員獲得一組人工編寫的(指令提示、響應(yīng))一般指令。
他們使用這些示例從預(yù)訓(xùn)練的基礎(chǔ)語言模型開始,用監(jiān)督微調(diào) (SFT) 的方式進(jìn)行訓(xùn)練。
種子LLM-as-a-Judge指令跟隨數(shù)據(jù)
研究人員假設(shè)他們提供了一組種子(評估指令提示、評估結(jié)果響應(yīng))示例,這些示例也可用于訓(xùn)練。
雖然這并不是絕對必要的,因?yàn)槭褂肐FT數(shù)據(jù)的模型已經(jīng)能夠訓(xùn)練LLM成為judge,而且研究人員表明此類訓(xùn)練數(shù)據(jù)可以提供改進(jìn)的結(jié)果。
在這些數(shù)據(jù)中,輸入提示要求模型評估對特定指令的給定響應(yīng)的質(zhì)量。
提供的評估結(jié)果響應(yīng)包括思路推理,然后是最終分?jǐn)?shù)(在研究人員的實(shí)驗(yàn)中,滿分 5 分)。
研究人員為這些提示選擇的格式如下圖2所示。作為LLM執(zhí)行獎勵模型角色的訓(xùn)練數(shù)據(jù)。
這些數(shù)據(jù)被稱為評估微調(diào)(EFT)數(shù)據(jù)。
研究人員在訓(xùn)練期間使用這兩個種子數(shù)據(jù)集。
再用3個步驟來創(chuàng)建自我指令:
-使用研究人員已經(jīng)訓(xùn)練好的模型,研究人員可以讓它自我修改自己的訓(xùn)練集。具體來說,就是為下一次訓(xùn)練迭代生成額外的訓(xùn)練數(shù)據(jù)。
-生成候選響應(yīng):然后,對于給定的提示 x,研究人員生成 N 個不同的候選響應(yīng) {y, . 。。, y} 。
-評估候選響應(yīng):最后,研究人員使用同一模型的LLM-as-a-Judge能力來評估其自己的候選響應(yīng),得分為 r∈ [0, 5](見圖 2)。
指令遵循訓(xùn)練
訓(xùn)練最初是使用種子 IFT 和 EFT 數(shù)據(jù)進(jìn)行的,這與獎勵模型固定的標(biāo)準(zhǔn)實(shí)踐不同。然后通過AI(自我)反饋添加附加數(shù)據(jù)。
AI反饋訓(xùn)練
執(zhí)行自指令創(chuàng)建過程后,研究人員可以使用額外的訓(xùn)練示例來擴(kuò)充種子數(shù)據(jù),研究人員將其稱為 AI 反饋訓(xùn)練 (AIFT) 數(shù)據(jù)。
他們嘗試了此類反饋的兩種變體:
偏好對:研究人員構(gòu)建以下形式的訓(xùn)練數(shù)據(jù)(指令提示 x,獲勝響應(yīng) y,失敗響應(yīng) y)。為了形成獲勝和失敗對,研究人員從 N 個評估的候選答案中選取最高和最低得分的答案。
將這些對可用于通過偏好調(diào)整算法進(jìn)行訓(xùn)練。
僅正面示例:在此變體中,研究人員遵循其他方法,將模型策劃的(指令提示、響應(yīng))附加示例添加到種子集中,以進(jìn)行監(jiān)督微調(diào)。
整體自對齊算法
迭代訓(xùn)練
研究人員的整個過程訓(xùn)練一系列模型。其中每個連續(xù)模型t使用由t ? 1模型創(chuàng)建的增強(qiáng)訓(xùn)練數(shù)據(jù)。
因此,研究人員將AIFT(M)定義為使用模型M創(chuàng)建的AI反饋訓(xùn)練數(shù)據(jù)。
M:基礎(chǔ)預(yù)訓(xùn)練LLM,沒有微調(diào)。
M1:用M初始化,然后使用SFT對IFT+EFT種子數(shù)據(jù)進(jìn)行微調(diào)。
M2:用M1初始化,然后使用DPO用AIFT(M1)數(shù)據(jù)進(jìn)行訓(xùn)練。
M3:用M2初始化,然后使用DPO用AIFT(M2)數(shù)據(jù)進(jìn)行訓(xùn)練。
實(shí)驗(yàn)結(jié)果
如文章開始所提到的那張圖中,研究人員將微調(diào)后Llama 2-70B三個迭代版本與其他先進(jìn)模型在AlpacaEval 2.0基準(zhǔn)上進(jìn)行了比較。
結(jié)果顯示,第三次迭代后的Llama 2-70B模型打敗了GPT-4 0613、Claude 2、Gemini Pro等模型。
此外,Llama 2-70B每個迭代版本比較,改進(jìn)幾乎保持線性。
研究人員通過各種指標(biāo)來評估作為評估者的大模型,這些指標(biāo)衡量與保留的人類偏好數(shù)據(jù)的一致性。
自我獎勵迭代2(模型M2),使用從其先前迭代M1派生的自我獎勵模型進(jìn)行訓(xùn)練,其性能優(yōu)于迭代1(M1)。
而M1本身也優(yōu)于僅利用指令微調(diào)(IFT)數(shù)據(jù)訓(xùn)練的標(biāo)準(zhǔn)SFT基準(zhǔn)模型。迭代3(模型 M3)比迭代2有了進(jìn)一步提高。
在這個框架之中,研究人員發(fā)現(xiàn),獎勵模型的性能也能隨著迭代不斷提高。
模型M2使用來自M1的獎勵模型進(jìn)行訓(xùn)練,與M1相比,在所有五個指標(biāo)上都體現(xiàn)出了更好的性能。
例如,成對準(zhǔn)確(pairwise accuracy)率從78.7%提高到 80.4%。M3繼續(xù)進(jìn)一步改進(jìn)了其中幾個指標(biāo)。
研究人員猜測,是由于模型在指令遵循方面變得更好,因此它在LLM-as-a-Judge的任務(wù)方面也有所改進(jìn)。
網(wǎng)友:讓開源再次偉大
Meta和NYU的最新研究讓許多人驚呼「讓開源再次偉大」。
俄亥俄州立大學(xué)計(jì)算機(jī)工程助理教授Yu Su表示,2024年才剛剛開始,我們已經(jīng)從合成數(shù)據(jù)中看到了許多重要成果。我個人認(rèn)為,這不僅僅是「數(shù)據(jù)增強(qiáng)」的改頭換面。以前的數(shù)據(jù)增強(qiáng)工作在很大程度上依賴于「人類工程」,而現(xiàn)在更像是LLM的「想象力」...
越來越多的研究表明,「人工訓(xùn)練數(shù)據(jù)耗盡」不會阻止LLM的發(fā)展。
這是DPO的「Attention Is All You Need」的時刻。
還有人表示「令人驚訝的是,每次迭代的改進(jìn)幾乎保持線性,僅在3次迭代之后,就已經(jīng)接近GPT-4級別」。