自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

UCLA華人提出全新自我對(duì)弈機(jī)制!LLM自己訓(xùn)自己,效果碾壓GPT-4專(zhuān)家指導(dǎo)

人工智能
來(lái)自UCLA的華人團(tuán)隊(duì)提出一種全新的LLM自我對(duì)弈系統(tǒng),能夠讓LLM自我合成數(shù)據(jù),自我微調(diào)提升性能,甚至超過(guò)了用GPT-4作為專(zhuān)家模型指導(dǎo)的效果。

合成數(shù)據(jù)已經(jīng)成為了大語(yǔ)言模型進(jìn)化之路上最重要的一塊基石了。

在去年底,有網(wǎng)友扒出前OpenAI首席科學(xué)家Ilya曾經(jīng)在很多場(chǎng)合表示過(guò),LLM的發(fā)展不存在數(shù)據(jù)瓶頸,合成數(shù)據(jù)可以解決大部分的問(wèn)題。

圖片圖片

英偉達(dá)高級(jí)科學(xué)家Jim Fan在看了最近的一批論文后也認(rèn)為,使用合成數(shù)據(jù),再加上傳統(tǒng)用于游戲和圖像生成的技術(shù)思路,可以讓LLM完成大幅度的自我進(jìn)化。

圖片圖片

而正式提出這個(gè)方法的論文,是由來(lái)自UCLA的華人團(tuán)隊(duì)。

圖片圖片

論文地址:https://arxiv.org/abs/2401.01335v1

他們通過(guò)自我對(duì)弈機(jī)制(SPIN)生成合成數(shù)據(jù),再通過(guò)自我微調(diào)的方法,不使用新的數(shù)據(jù)集,讓性能較弱的LLM在Open LLM Leaderboard Benchmark上將平均分從58.14提升至63.16。

圖片

研究人員提出了一種名為SPIN的自我微調(diào)的方法,通過(guò)自我對(duì)弈的方式——LLM與其前一輪迭代版本進(jìn)行對(duì)抗,從而逐步提升語(yǔ)言模型的性能。

圖片圖片

這樣就無(wú)需額外的人類(lèi)標(biāo)注數(shù)據(jù)或更高級(jí)語(yǔ)言模型的反饋,也能完成模型的自我進(jìn)化。

主模型和對(duì)手模型的參數(shù)完全一致。用兩個(gè)不同的版本進(jìn)行自我對(duì)弈。

對(duì)弈過(guò)程用公式可以概括為:

圖片圖片

自我對(duì)弈的訓(xùn)練方式,總結(jié)起來(lái)思路大概是這樣:

通過(guò)訓(xùn)練主模型來(lái)區(qū)分對(duì)手模型生成的響應(yīng)和人類(lèi)目標(biāo)響應(yīng),對(duì)手模型是輪迭代獲得的語(yǔ)言模型,目標(biāo)是生成盡可能難以區(qū)分的響應(yīng)。

假設(shè)第t輪迭代得到的語(yǔ)言模型參數(shù)為θt,則在第t+1輪迭代中,使用θt作為對(duì)手玩家,針對(duì)監(jiān)督微調(diào)數(shù)據(jù)集中每個(gè)prompt x,使用θt生成響應(yīng)y'。

然后優(yōu)化新語(yǔ)言模型參數(shù)θt+1,使其可以區(qū)分y'和監(jiān)督微調(diào)數(shù)據(jù)集中人類(lèi)響應(yīng)y。如此可以形成一個(gè)漸進(jìn)的過(guò)程,逐步逼近目標(biāo)響應(yīng)分布。

這里,主模型的損失函數(shù)采用對(duì)數(shù)損失,考慮y和y'的函數(shù)值差。

對(duì)手模型加入KL散度正則化,防止模型參數(shù)偏離太多。

具體的對(duì)抗博弈訓(xùn)練目標(biāo)如公式4.7所示。從理論分析可以看出,當(dāng)語(yǔ)言模型的響應(yīng)分布等于目標(biāo)響應(yīng)分布時(shí),優(yōu)化過(guò)程收斂。

如果使用對(duì)弈之后生成的合成數(shù)據(jù)進(jìn)行訓(xùn)練,再使用SPIN進(jìn)行自我微調(diào),能有效提高LLM的性能。

圖片圖片

但之后在初始的微調(diào)數(shù)據(jù)上再次簡(jiǎn)單地微調(diào)卻又會(huì)導(dǎo)致性能下降。

而SPIN僅需要初始模型本身和現(xiàn)有的微調(diào)數(shù)據(jù)集,就能使得LLM通過(guò)SPIN獲得自我提升。

特別是,SPIN甚至超越了通過(guò)DPO使用額外的GPT-4偏好數(shù)據(jù)訓(xùn)練的模型。

圖片圖片

而且實(shí)驗(yàn)還表明,迭代訓(xùn)練比更多epoch的訓(xùn)練能更加有效地提升模型性能。

圖片圖片

延長(zhǎng)單次迭代的訓(xùn)練持續(xù)時(shí)間不會(huì)降低SPIN的性能,但會(huì)達(dá)到極限。

迭代次數(shù)越多,SPIN的效果的就越明顯。

網(wǎng)友在看完這篇論文之后感嘆:

合成數(shù)據(jù)將主宰大語(yǔ)言模型的發(fā)展,對(duì)于大語(yǔ)言模型的研究者來(lái)說(shuō)將會(huì)是非常好的消息!

圖片圖片

自我對(duì)弈讓LLM能不斷提高

具體來(lái)說(shuō),研究人員開(kāi)發(fā)的SPIN系統(tǒng),是由兩個(gè)相互影響的模型相互促進(jìn)的系統(tǒng)。

圖片表示的前一次迭代t的LLM,研究人員使用它來(lái)生成對(duì)人工注釋的SFT數(shù)據(jù)集中的提示x的響應(yīng)y。

接下來(lái)的目標(biāo)是找到一個(gè)新的LLM圖片,能夠區(qū)分圖片生成的響應(yīng)y和人類(lèi)生成的響應(yīng)y'。

這個(gè)過(guò)程可以看作是一個(gè)兩人游戲:

主要玩家或新的LLM圖片試圖辨別對(duì)手玩家的響應(yīng)和人類(lèi)生成的響應(yīng),而對(duì)手或舊的LLM圖片生成響應(yīng)與人工注釋的SFT數(shù)據(jù)集中的數(shù)據(jù)盡可能相似。

通過(guò)對(duì)舊的圖片進(jìn)行微調(diào)而獲得的新LLM圖片更喜歡圖片的響應(yīng),從而產(chǎn)生與圖片更一致的分布圖片。

在下一次迭代中,新獲得的LLM圖片成為響應(yīng)生成的對(duì)手,自我對(duì)弈過(guò)程的目標(biāo)是LLM最終收斂到圖片,使得最強(qiáng)的LLM不再能夠區(qū)分其先前生成的響應(yīng)版本和人類(lèi)生成的版本。

如何使用SPIN提升模型性能

研究人員設(shè)計(jì)了個(gè)兩人游戲,其中主要模型的目標(biāo)是區(qū)分LLM生成的響應(yīng)和人類(lèi)生成的響應(yīng)。與此同時(shí),對(duì)手的作用是產(chǎn)生與人類(lèi)的反應(yīng)無(wú)法區(qū)分的反應(yīng)。研究人員的方法的核心是訓(xùn)練主要模型。

首先說(shuō)明如何訓(xùn)練主要模型來(lái)區(qū)分LLM的回復(fù)和人類(lèi)的回復(fù)。

研究人員方法的核心是自我博弈機(jī)制,其中主玩家和對(duì)手都是相同的LLM,但來(lái)自不同的迭代。

更具體地說(shuō),對(duì)手是上一次迭代中的舊LLM,而主玩家是當(dāng)前迭代中要學(xué)習(xí)的新LLM。在迭代t+1時(shí)包括以下兩個(gè)步驟:(1)訓(xùn)練主模型,(2)更新對(duì)手模型。

訓(xùn)練主模型

首先,研究人員將說(shuō)明如何訓(xùn)練主玩家區(qū)分LLM反應(yīng)和人類(lèi)反應(yīng)。受積分概率度量(IPM)的啟發(fā),研究人員制定了目標(biāo)函數(shù):

圖片圖片

更新對(duì)手模型

對(duì)手模型的目標(biāo)是找到更好的LLM,使其產(chǎn)生的響應(yīng)與主模型的p數(shù)據(jù)無(wú)異。

實(shí)驗(yàn)

SPIN有效提升基準(zhǔn)性能

研究人員使用HuggingFace Open LLM Leaderboard作為廣泛的評(píng)估來(lái)證明 SPIN的有效性。

在下圖中,研究人員將經(jīng)過(guò)0到3次迭代后通過(guò)SPIN微調(diào)的模型與基本模型zephyr-7b-sft-full的性能進(jìn)行了比較。

研究人員可以觀察到,SPIN通過(guò)進(jìn)一步利用SFT數(shù)據(jù)集,在提高模型性能方面表現(xiàn)出了顯著的效果,而基礎(chǔ)模型已經(jīng)在該數(shù)據(jù)集上進(jìn)行了充分的微調(diào)。

在第0次迭代中,模型響應(yīng)是從zephyr-7b-sft-full生成的,研究人員觀察到平均得分總體提高了2.66%。

在TruthfulQA和GSM8k基準(zhǔn)測(cè)試中,這一改進(jìn)尤其顯著,分別提高了超過(guò)5%和10%。

在迭代1中,研究人員采用迭代0中的LLM模型來(lái)生成SPIN的新響應(yīng),遵循算法1中概述的過(guò)程。

此迭代平均產(chǎn)生1.32%的進(jìn)一步增強(qiáng),在Arc Challenge和TruthfulQA基準(zhǔn)測(cè)試中尤其顯著。

隨后的迭代延續(xù)了各種任務(wù)增量改進(jìn)的趨勢(shì)。同時(shí),迭代t+1時(shí)的改進(jìn)自然更小

圖片圖片

zephyr-7b-beta是從zephyr-7b-sft-full衍生出來(lái)的模型,使用DPO在大約62k個(gè)偏好數(shù)據(jù)上訓(xùn)練而成。

研究人員注意到,DPO需要人工輸入或高級(jí)語(yǔ)言模型反饋來(lái)確定偏好,因此數(shù)據(jù)生成是一個(gè)相當(dāng)昂貴的過(guò)程。

相比之下,研究人員的SPIN只需要初始模型本身就可以。

此外,與需要新數(shù)據(jù)源的DPO不同,研究人員的方法完全利用現(xiàn)有的SFT數(shù)據(jù)集。

下圖顯示了SPIN在迭代0和1(采用50k SFT數(shù)據(jù))與DPO訓(xùn)練的性能比較。

圖片圖片

研究人員可以觀察到,雖然DPO利用了更多新來(lái)源的數(shù)據(jù),但基于現(xiàn)有SFT數(shù)據(jù)的SPIN從迭代1開(kāi)始,SPIN甚至超過(guò)了DPO的性能、SPIN在排行榜基準(zhǔn)測(cè)試中的表現(xiàn)甚至超過(guò)了DPO。

參考資料:

https://arxiv.org/abs/2401.01335v1

責(zé)任編輯:武曉燕 來(lái)源: 新智元
相關(guān)推薦

2024-01-23 13:15:27

2023-06-05 12:32:48

模型論文

2024-07-09 12:54:57

2023-05-22 15:17:02

谷歌AI

2023-05-05 09:42:12

2023-11-26 17:14:05

2023-04-12 16:23:00

GPT-4代碼

2023-05-31 14:23:44

人工智能

2023-06-19 08:19:50

2023-10-13 13:12:44

2024-10-15 09:20:38

2023-03-27 18:18:47

GPT-4AI

2025-04-16 09:35:03

2024-06-28 13:40:03

2024-04-02 11:38:31

模型訓(xùn)練

2024-07-02 01:09:02

2023-04-04 11:20:40

GPT-4OpenAI

2023-11-18 09:37:49

2023-05-22 08:30:35

GPT-4智能編程助手

2023-03-15 10:35:16

GPTAI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)