自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

Llama 2打敗GPT-4！Meta讓大模型自我獎勵自迭代，再證合成數(shù)據(jù)是LLM終局

作者：新智元 2024-01-22 08:50:00

人工智能新聞

AI訓(xùn)AI必將成為一大趨勢。Meta和NYU團(tuán)隊(duì)提出讓大模型「自我獎勵」的方法，讓Llama2一舉擊敗GPT-4 0613、Claude 2、Gemini Pro領(lǐng)先模型。

Llama 2-70B一夜之間打敗GPT-4，讓整個AI社區(qū)為之震驚！

甚至，在AlpacaEval 2.0排行榜中，微調(diào)后的模型勝率完全碾壓Claude 2、Gemini Pro等模型。

Meta和NYU研究團(tuán)隊(duì)究竟提出了什么秘制配方，才能讓Llama 2-70B超強(qiáng)進(jìn)化？

正如論文題目所言——「自我獎勵語言模型」，模型生成訓(xùn)練數(shù)據(jù)，并評估這些數(shù)據(jù)的質(zhì)量，然后用這些數(shù)據(jù)來自己訓(xùn)練自己。

簡單來說，最新方法可以讓LLM在迭代訓(xùn)練過程中不斷自我改進(jìn)。

論文地址：https://arxiv.org/pdf/2401.10020.pdf

LeCun也轉(zhuǎn)贊了自家實(shí)驗(yàn)室的研究。

RLAIF已經(jīng)不是新鮮事了，之前包括Anthropic，谷歌都推出過自己的「AI訓(xùn)AI」的技術(shù)，那么Meta的這項(xiàng)工作和之前的幾家的RLAIF區(qū)別在哪里呢？

我們先來了解一下Meta的自我獎勵語言模型的大概框架。

研究團(tuán)隊(duì)開發(fā)了一個能夠遵循指令和自我評價回復(fù)質(zhì)量的能力的模型。模型可以生成新的訓(xùn)練數(shù)據(jù)，對生成的回復(fù)進(jìn)行質(zhì)量評分，從而不斷改進(jìn)自己的輸出。

模型首先根據(jù)少量人工標(biāo)注數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練，獲得初始化模型。

然后模型生成新的指令和多個候選回復(fù)，并使用LLM-as-a-Judge的提示，讓模型對自己生成的回復(fù)打分。

根據(jù)打分形成新的訓(xùn)練數(shù)據(jù)，繼續(xù)訓(xùn)練模型。

這樣可以迭代訓(xùn)練，在每次迭代中模型的遵循指令能力和打分能力都會提升。

研究人員從Llama 2 70B預(yù)訓(xùn)練模型開始迭代訓(xùn)練。

結(jié)果顯示在3次迭代中，模型遵循指令的能力有顯著提升，同時獎勵建模能力也在提高，評價結(jié)果與人工判斷的相關(guān)性更高。

這說明模型迭代過程中，不僅指令遵循能力提高，也更善于對自己生成的回復(fù)進(jìn)行判斷。

迭代第三次的模型在AlpacaEval 2.0基準(zhǔn)測試中，就戰(zhàn)勝了Claude 2、Gemini Pro、GPT-4 0613等模型。

Meta的這項(xiàng)工作與谷歌在去年9月發(fā)布的RLAIF論文相比，更近一步地使用了一個不斷進(jìn)化的獎勵模型來不斷迭代訓(xùn)練模型，而迭代后的模型也確實(shí)取得了明顯可見的性能提升。

可以說，Meta又將AI自我迭代大模型的前沿往前推進(jìn)了一大步。

如何訓(xùn)練「自我獎勵語言模型」

研究人員的方法首先假設(shè)可以訪問基本的預(yù)訓(xùn)練語言模型和少量人工注釋的種子數(shù)據(jù)。

然后研究人員建立一個模型，讓它同時擁有兩種能力：

指令遵循：給出描述用戶請求的提示，能夠生成高質(zhì)量、有幫助（且無害）的響應(yīng)。
自指令創(chuàng)建：能夠按照示例生成和評估新指令，再添加到自己的訓(xùn)練集中。

這兩個能力可以為了使模型能夠執(zhí)行自我對齊，即它們是用于使用人工智能反饋（AIF）迭代訓(xùn)練自身的組件。

自指令創(chuàng)建包括生成候選響應(yīng)，然后模型本身判斷其質(zhì)量——充當(dāng)自己的獎勵模型，取代外部獎勵模型。

這是通過LLM-as-a-Judge機(jī)制實(shí)現(xiàn)的：通過將響應(yīng)評估制定為遵循指令的任務(wù)。

這個由模型自行創(chuàng)建的AIF偏好數(shù)據(jù)被用作訓(xùn)練集來訓(xùn)練模型。

整體自我對齊過程是一個不斷迭代過程，通過構(gòu)建一系列此類模型來進(jìn)行，目的是每個模型都比上一個模型有所改進(jìn)。

重要的是，由于模型既可以提高其生成能力，又可以通過相同的生成機(jī)制作為自己的獎勵模型，這意味著獎勵模型本身可以通過迭代過程來改進(jìn)，這就不同于獎勵模型固定不變的傳統(tǒng)方法。

研究人員相信這樣可以提高這些學(xué)習(xí)模型未來自我改進(jìn)的潛力上限，消除限制性瓶頸。

初始化

種子指令跟隨數(shù)據(jù)

研究人員獲得一組人工編寫的（指令提示、響應(yīng)）一般指令。

他們使用這些示例從預(yù)訓(xùn)練的基礎(chǔ)語言模型開始，用監(jiān)督微調(diào) (SFT) 的方式進(jìn)行訓(xùn)練。

種子LLM-as-a-Judge指令跟隨數(shù)據(jù)

研究人員假設(shè)他們提供了一組種子（評估指令提示、評估結(jié)果響應(yīng)）示例，這些示例也可用于訓(xùn)練。

雖然這并不是絕對必要的，因?yàn)槭褂肐FT數(shù)據(jù)的模型已經(jīng)能夠訓(xùn)練LLM成為judge，而且研究人員表明此類訓(xùn)練數(shù)據(jù)可以提供改進(jìn)的結(jié)果。

在這些數(shù)據(jù)中，輸入提示要求模型評估對特定指令的給定響應(yīng)的質(zhì)量。

提供的評估結(jié)果響應(yīng)包括思路推理，然后是最終分?jǐn)?shù)（在研究人員的實(shí)驗(yàn)中，滿分 5 分）。

研究人員為這些提示選擇的格式如下圖2所示。作為LLM執(zhí)行獎勵模型角色的訓(xùn)練數(shù)據(jù)。

這些數(shù)據(jù)被稱為評估微調(diào)（EFT）數(shù)據(jù)。

研究人員在訓(xùn)練期間使用這兩個種子數(shù)據(jù)集。

再用3個步驟來創(chuàng)建自我指令：

-使用研究人員已經(jīng)訓(xùn)練好的模型，研究人員可以讓它自我修改自己的訓(xùn)練集。具體來說，就是為下一次訓(xùn)練迭代生成額外的訓(xùn)練數(shù)據(jù)。

-生成候選響應(yīng)：然后，對于給定的提示 x，研究人員生成 N 個不同的候選響應(yīng) {y, . 。。, y} 。

-評估候選響應(yīng)：最后，研究人員使用同一模型的LLM-as-a-Judge能力來評估其自己的候選響應(yīng)，得分為 r∈ [0, 5]（見圖 2）。

指令遵循訓(xùn)練

訓(xùn)練最初是使用種子 IFT 和 EFT 數(shù)據(jù)進(jìn)行的，這與獎勵模型固定的標(biāo)準(zhǔn)實(shí)踐不同。然后通過AI（自我）反饋添加附加數(shù)據(jù)。

AI反饋訓(xùn)練

執(zhí)行自指令創(chuàng)建過程后，研究人員可以使用額外的訓(xùn)練示例來擴(kuò)充種子數(shù)據(jù)，研究人員將其稱為 AI 反饋訓(xùn)練 (AIFT) 數(shù)據(jù)。

他們嘗試了此類反饋的兩種變體：

偏好對：研究人員構(gòu)建以下形式的訓(xùn)練數(shù)據(jù)（指令提示 x，獲勝響應(yīng) y，失敗響應(yīng) y）。為了形成獲勝和失敗對，研究人員從 N 個評估的候選答案中選取最高和最低得分的答案。

將這些對可用于通過偏好調(diào)整算法進(jìn)行訓(xùn)練。

僅正面示例：在此變體中，研究人員遵循其他方法，將模型策劃的（指令提示、響應(yīng)）附加示例添加到種子集中，以進(jìn)行監(jiān)督微調(diào)。

整體自對齊算法

迭代訓(xùn)練

研究人員的整個過程訓(xùn)練一系列模型。其中每個連續(xù)模型t使用由t ? 1模型創(chuàng)建的增強(qiáng)訓(xùn)練數(shù)據(jù)。

因此，研究人員將AIFT(M)定義為使用模型M創(chuàng)建的AI反饋訓(xùn)練數(shù)據(jù)。

M：基礎(chǔ)預(yù)訓(xùn)練LLM，沒有微調(diào)。

M1：用M初始化，然后使用SFT對IFT+EFT種子數(shù)據(jù)進(jìn)行微調(diào)。

M2：用M1初始化，然后使用DPO用AIFT(M1)數(shù)據(jù)進(jìn)行訓(xùn)練。

M3：用M2初始化，然后使用DPO用AIFT(M2)數(shù)據(jù)進(jìn)行訓(xùn)練。

實(shí)驗(yàn)結(jié)果

如文章開始所提到的那張圖中，研究人員將微調(diào)后Llama 2-70B三個迭代版本與其他先進(jìn)模型在AlpacaEval 2.0基準(zhǔn)上進(jìn)行了比較。

結(jié)果顯示，第三次迭代后的Llama 2-70B模型打敗了GPT-4 0613、Claude 2、Gemini Pro等模型。

此外，Llama 2-70B每個迭代版本比較，改進(jìn)幾乎保持線性。

研究人員通過各種指標(biāo)來評估作為評估者的大模型，這些指標(biāo)衡量與保留的人類偏好數(shù)據(jù)的一致性。

自我獎勵迭代2（模型M2），使用從其先前迭代M1派生的自我獎勵模型進(jìn)行訓(xùn)練，其性能優(yōu)于迭代1（M1）。

而M1本身也優(yōu)于僅利用指令微調(diào)（IFT）數(shù)據(jù)訓(xùn)練的標(biāo)準(zhǔn)SFT基準(zhǔn)模型。迭代3（模型 M3）比迭代2有了進(jìn)一步提高。

在這個框架之中，研究人員發(fā)現(xiàn)，獎勵模型的性能也能隨著迭代不斷提高。

模型M2使用來自M1的獎勵模型進(jìn)行訓(xùn)練，與M1相比，在所有五個指標(biāo)上都體現(xiàn)出了更好的性能。

例如，成對準(zhǔn)確（pairwise accuracy）率從78.7%提高到 80.4%。M3繼續(xù)進(jìn)一步改進(jìn)了其中幾個指標(biāo)。

研究人員猜測，是由于模型在指令遵循方面變得更好，因此它在LLM-as-a-Judge的任務(wù)方面也有所改進(jìn)。

網(wǎng)友：讓開源再次偉大

Meta和NYU的最新研究讓許多人驚呼「讓開源再次偉大」。

俄亥俄州立大學(xué)計(jì)算機(jī)工程助理教授Yu Su表示，2024年才剛剛開始，我們已經(jīng)從合成數(shù)據(jù)中看到了許多重要成果。我個人認(rèn)為，這不僅僅是「數(shù)據(jù)增強(qiáng)」的改頭換面。以前的數(shù)據(jù)增強(qiáng)工作在很大程度上依賴于「人類工程」，而現(xiàn)在更像是LLM的「想象力」...

越來越多的研究表明，「人工訓(xùn)練數(shù)據(jù)耗盡」不會阻止LLM的發(fā)展。

這是DPO的「Attention Is All You Need」的時刻。

還有人表示「令人驚訝的是，每次迭代的改進(jìn)幾乎保持線性，僅在3次迭代之后，就已經(jīng)接近GPT-4級別」。

責(zé)任編輯：張燕妮來源：新智元

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<legend id="do1rj"><track id="do1rj"></track></legend>

<sub id="do1rj"><p id="do1rj"></p></sub>

<style id="do1rj"></style>