自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="isv5n"><track id="isv5n"></track></cite>

<strike id="isv5n"></strike>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

SPAR：融合自對(duì)弈與樹搜索的高性能指令優(yōu)化框架

作者：SACHIN KUMAR 2024-12-26 15:35:33

大語(yǔ)言模型的指令遵循能力需要模型能夠準(zhǔn)確識(shí)別指令中的細(xì)微要求，并在輸出中精確體現(xiàn)這些要求?，F(xiàn)有方法通常采用偏好學(xué)習(xí)進(jìn)行優(yōu)化，在創(chuàng)建偏好對(duì)時(shí)直接從模型中采樣多個(gè)獨(dú)立響應(yīng)。

大語(yǔ)言模型的指令遵循能力需要模型能夠準(zhǔn)確識(shí)別指令中的細(xì)微要求，并在輸出中精確體現(xiàn)這些要求?，F(xiàn)有方法通常采用偏好學(xué)習(xí)進(jìn)行優(yōu)化，在創(chuàng)建偏好對(duì)時(shí)直接從模型中采樣多個(gè)獨(dú)立響應(yīng)。但是這種方法可能會(huì)引入與指令精確遵循無(wú)關(guān)的內(nèi)容變化（例如，同一語(yǔ)義的不同表達(dá)方式），這干擾了模型學(xué)習(xí)識(shí)別能夠改進(jìn)指令遵循的關(guān)鍵差異。

針對(duì)這一問(wèn)題，這篇論文提出了SPAR框架，這是一個(gè)集成樹搜索自我改進(jìn)的自對(duì)弈框架，用于生成有效且具有可比性的偏好對(duì)，同時(shí)避免干擾因素。通過(guò)自對(duì)弈機(jī)制，大語(yǔ)言模型采用樹搜索策略，基于指令對(duì)先前的響應(yīng)進(jìn)行改進(jìn)，同時(shí)將不必要的變化降至最低。

主要?jiǎng)?chuàng)新點(diǎn)：

發(fā)現(xiàn)從獨(dú)立采樣響應(yīng)中獲得的偏好對(duì)通常包含干擾因素，這些因素阻礙了通過(guò)偏好學(xué)習(xí)提升指令遵循能力
提出SPAR，一個(gè)創(chuàng)新的自對(duì)弈框架，能夠在指令遵循任務(wù)中實(shí)現(xiàn)持續(xù)性自我優(yōu)化
構(gòu)建了包含43K個(gè)復(fù)雜指令遵循提示的高質(zhì)量數(shù)據(jù)集，以及一個(gè)能夠提升大語(yǔ)言模型指令遵循能力的監(jiān)督微調(diào)數(shù)據(jù)集

方法論

整體框架

SPAR迭代訓(xùn)練框架如圖所示：

在形式化定義中，每次迭代時(shí)，給定提示集中的指令x，執(zhí)行模型生成響應(yīng)y
改進(jìn)模型負(fù)責(zé)識(shí)別未能準(zhǔn)確遵循指令的響應(yīng)，將其標(biāo)記為負(fù)面響應(yīng)
框架的核心目標(biāo)是將負(fù)面響應(yīng)優(yōu)化為符合要求的正確響應(yīng)
收集生成的改進(jìn)對(duì)，通過(guò)直接偏好優(yōu)化(DPO)來(lái)優(yōu)化執(zhí)行模型
同時(shí)，應(yīng)用拒絕采樣微調(diào)(RFT)提升改進(jìn)模型性能，為下一輪自我優(yōu)化做好準(zhǔn)備

數(shù)據(jù)構(gòu)建方法

提示構(gòu)建

種子提示：基于Infinity-Instruct數(shù)據(jù)集構(gòu)建初始種子提示集，該數(shù)據(jù)集包含一千萬(wàn)條高質(zhì)量對(duì)話。經(jīng)過(guò)基于長(zhǎng)度、關(guān)鍵詞和自我-BLEU的規(guī)則過(guò)濾，最終獲得約50k條種子提示
分類法驅(qū)動(dòng)的提示構(gòu)建：采用基于分類法的機(jī)制確保約束類型的全面性和平衡性。在建立約束分類體系后，基于種子提示構(gòu)建復(fù)雜指令遵循任務(wù)，最終生成約43k條提示

模型初始化

執(zhí)行模型數(shù)據(jù)構(gòu)建： 首先收集高性能語(yǔ)言模型對(duì)復(fù)雜提示的響應(yīng)，生成用于執(zhí)行模型的監(jiān)督微調(diào)(SFT)數(shù)據(jù)(x, y) ∈ DActor，其中x表示復(fù)雜指令，y表示高性能模型的響應(yīng)。隨后對(duì)基礎(chǔ)模型進(jìn)行微調(diào)，得到初始執(zhí)行模型M0
改進(jìn)模型數(shù)據(jù)構(gòu)建： 為使改進(jìn)模型具備高質(zhì)量的判斷和改進(jìn)能力，從初始執(zhí)行模型M0中采樣響應(yīng)。收集高性能語(yǔ)言模型的判斷結(jié)果，形成數(shù)據(jù)集(x, y, j) ∈ DJSFT。識(shí)別并收集被判定為未能準(zhǔn)確遵循指令的響應(yīng)作為負(fù)面樣本。對(duì)這些負(fù)面響應(yīng)，使用高性能語(yǔ)言模型進(jìn)行最小化修正，避免引入無(wú)關(guān)變化
訓(xùn)練策略： 執(zhí)行模型和改進(jìn)模型均采用標(biāo)準(zhǔn)監(jiān)督微調(diào)，損失函數(shù)定義如下：

其中q代表輸入，r代表目標(biāo)響應(yīng)，N代表r的長(zhǎng)度。執(zhí)行模型訓(xùn)練中，輸入q = x，目標(biāo)r = y。改進(jìn)模型訓(xùn)練中，對(duì)于DJSFT，輸入q = (x, y)，目標(biāo)r = j；對(duì)于DRSFT，輸入q = (x, ynegative, j)，目標(biāo)r = yrefined。

集成樹搜索的自對(duì)弈訓(xùn)練機(jī)制

a) 負(fù)面數(shù)據(jù)采集流程

對(duì)每個(gè)提示x，首先從執(zhí)行模型中采樣K個(gè)響應(yīng){y1, y2, . . . , yK}
對(duì)每組提示-響應(yīng)對(duì)，利用改進(jìn)模型生成判斷結(jié)果，包含兩個(gè)核心要素：指令遵循程度的標(biāo)簽判定和詳細(xì)的評(píng)估說(shuō)明
為提高判斷準(zhǔn)確性，引入自一致性機(jī)制，通過(guò)從改進(jìn)模型獲取多個(gè)判斷結(jié)果并采用多數(shù)投票確定最終標(biāo)簽
在完成多數(shù)投票后，隨機(jī)選取一個(gè)與投票標(biāo)簽一致的判斷作為最終結(jié)果，這使論文提出的方法能夠識(shí)別出那些會(huì)導(dǎo)致指令遵循失敗的高難度提示，形成(x, ynegative, j)格式的數(shù)據(jù)元組，其中ynegative表示不合格響應(yīng)，j為對(duì)應(yīng)判斷結(jié)果

b) 樹搜索優(yōu)化方法

考慮到直接改進(jìn)往往導(dǎo)致較低的成功率，本研究采用樹搜索方法，實(shí)現(xiàn)了廣度優(yōu)先搜索(BFS)和深度優(yōu)先搜索(DFS)策略
以BFS為例，從不合格的指令-響應(yīng)對(duì)及其判斷結(jié)果作為根節(jié)點(diǎn)出發(fā)，逐層擴(kuò)展搜索樹，直至找到符合要求的響應(yīng)
在每個(gè)中間節(jié)點(diǎn)，為當(dāng)前響應(yīng)生成潛在的改進(jìn)方案，并由改進(jìn)模型評(píng)估其正確性。生成的改進(jìn)方案數(shù)量即為分支數(shù)
在樹的每一層，改進(jìn)模型執(zhí)行以下操作：1). 為當(dāng)前層的所有節(jié)點(diǎn)生成潛在的改進(jìn)方案；2). 評(píng)估這些改進(jìn)方案的正確性。由此生成包含新響應(yīng)及其對(duì)應(yīng)判斷的子節(jié)點(diǎn)集合
搜索過(guò)程持續(xù)進(jìn)行，直到獲得數(shù)據(jù)元組(x, ynegative, yrefined)，其中yrefined為經(jīng)過(guò)改進(jìn)的合格響應(yīng)

c) 執(zhí)行模型訓(xùn)練方法

利用改進(jìn)對(duì)數(shù)據(jù)進(jìn)行偏好學(xué)習(xí)，采用DPO方法優(yōu)化執(zhí)行模型
在第t次迭代中，使用改進(jìn)對(duì)(ynegative, yrefined)訓(xùn)練執(zhí)行模型Mt，將ynegative作為被拒絕樣本(yl)，yrefined作為被選擇樣本(yw)
訓(xùn)練數(shù)據(jù)集記為Dtdpo，DPO損失函數(shù)定義如下：

其中π tθ表示執(zhí)行模型Mt，參考模型π ref使用Mt初始化并在訓(xùn)練過(guò)程中保持不變。這一過(guò)程產(chǎn)生新的執(zhí)行模型Mt+1，用于下一輪迭代

d) 改進(jìn)模型訓(xùn)練方法

鑒于改進(jìn)模型的輸入具有模板化特征，論文采用拒絕采樣微調(diào)(RFT)方法獲取新的改進(jìn)模型Rt+1。RFT訓(xùn)練數(shù)據(jù)包含兩個(gè)主要組成部分：

(1) 改進(jìn)訓(xùn)練數(shù)據(jù)集

改進(jìn)訓(xùn)練數(shù)據(jù)集由記錄不合格響應(yīng)改進(jìn)過(guò)程的數(shù)據(jù)元組構(gòu)成
對(duì)于樹搜索改進(jìn)過(guò)程中的每個(gè)不合格響應(yīng)，收集(x, yp, jp, yrefined)格式的數(shù)據(jù)元組，其中(x, yp, jp)代表改進(jìn)樹中最終合格響應(yīng)的父節(jié)點(diǎn)，yrefined為經(jīng)過(guò)改進(jìn)的合格響應(yīng)

(2) 判斷訓(xùn)練數(shù)據(jù)集

判斷訓(xùn)練數(shù)據(jù)來(lái)源于負(fù)面數(shù)據(jù)采集過(guò)程和樹搜索過(guò)程中的節(jié)點(diǎn)
該數(shù)據(jù)集由(x, yi, ji)格式的元組組成，其中x為提示，yi為對(duì)應(yīng)響應(yīng)，ji為與多數(shù)投票結(jié)果一致的判斷
隨后，基于構(gòu)建的訓(xùn)練數(shù)據(jù)進(jìn)行監(jiān)督微調(diào)
對(duì)于改進(jìn)數(shù)據(jù)集Dtrefine，采用數(shù)據(jù)元組(x, yp, jp, yrefined)，輸入q = (x, yp, jp)，目標(biāo)r = yrefined。對(duì)于判斷數(shù)據(jù)集Dtjudge，采用數(shù)據(jù)元組(x, yi, ji)，輸入q = (x, yi)，目標(biāo)r = ji。

實(shí)驗(yàn)研究

執(zhí)行模型評(píng)估結(jié)果

SPAR在指令遵循能力方面的顯著提升

下表展示了經(jīng)過(guò)迭代訓(xùn)練的大語(yǔ)言模型在指令遵循基準(zhǔn)測(cè)試上的核心性能指標(biāo)

經(jīng)過(guò)三輪迭代訓(xùn)練后，SPAR-8B-DPO-iter3模型在IFEval評(píng)測(cè)中的表現(xiàn)超越了GPT-4-Turbo（后者的平均準(zhǔn)確率為81.3%）。此外，在推理階段引入樹搜索優(yōu)化技術(shù)后，模型性能獲得顯著提升

值得注意的是，SPAR在模型規(guī)模擴(kuò)展方面表現(xiàn)出優(yōu)異的特性，這極大地增強(qiáng)了LLaMA3-70B-Instruct模型的指令遵循能力

SPAR對(duì)模型通用能力的影響分析

下表呈現(xiàn)了在通用基準(zhǔn)測(cè)試上的性能數(shù)據(jù)

實(shí)驗(yàn)數(shù)據(jù)表明，SPAR不僅保持了模型的通用能力，在某些場(chǎng)景下還帶來(lái)了性能提升，尤其是在GSM8k和HumanEval基準(zhǔn)測(cè)試中。這證實(shí)了增強(qiáng)的指令遵循能力有助于提升大語(yǔ)言模型的整體對(duì)齊效果

SPAR相較于基線方法的優(yōu)勢(shì)

下圖展示了各輪訓(xùn)練迭代在IFEval評(píng)測(cè)中的進(jìn)步情況

在每輪迭代中，SPAR都展現(xiàn)出明顯的優(yōu)勢(shì)。特別值得注意的是，其他方法即使經(jīng)過(guò)三輪迭代，其性能仍未能達(dá)到SPAR首輪迭代的水平

改進(jìn)模型評(píng)估結(jié)果

SPAR在判斷能力方面的迭代提升

下表展示了經(jīng)過(guò)迭代訓(xùn)練的大語(yǔ)言模型在LLMBar評(píng)測(cè)中的判斷能力表現(xiàn)

實(shí)驗(yàn)結(jié)果顯示，SPAR迭代訓(xùn)練顯著提升了模型評(píng)估指令遵循任務(wù)的能力

在第三輪迭代后，改進(jìn)模型SPAR-8B-RFT-iter3的性能超越了用于構(gòu)建判斷SFT數(shù)據(jù)集的GPT-4o-Mini模型

SPAR在改進(jìn)能力方面的持續(xù)優(yōu)化

下表呈現(xiàn)了改進(jìn)能力的評(píng)估結(jié)果。其中Acc-GPT采用GPT-4o作為評(píng)判標(biāo)準(zhǔn)；Acc-SPAR則使用SPAR-8B-RFT-iter3進(jìn)行評(píng)估

數(shù)據(jù)顯示，LLaMA3-8B-Instruct模型的改進(jìn)準(zhǔn)確率在每輪訓(xùn)練迭代中均呈現(xiàn)穩(wěn)定提升趨勢(shì)，最終達(dá)到了與用于SFT數(shù)據(jù)構(gòu)建的高性能模型GPT-4o-Mini相當(dāng)?shù)乃?/span>

總結(jié)

本研究提出了創(chuàng)新性的自對(duì)弈框架SPAR，通過(guò)改進(jìn)對(duì)訓(xùn)練提升大語(yǔ)言模型的指令遵循能力。研究發(fā)現(xiàn)，與傳統(tǒng)方法采用獨(dú)立采樣響應(yīng)構(gòu)建偏好對(duì)相比，通過(guò)最小化外部因素并突出關(guān)鍵差異的改進(jìn)對(duì)方法，能在指令遵循任務(wù)上實(shí)現(xiàn)顯著性能提升。采用本框架進(jìn)行迭代訓(xùn)練的LLaMA3-8B-Instruct模型在IFEval評(píng)測(cè)中展現(xiàn)出超越GPT-4-Turbo的性能。通過(guò)推理計(jì)算能力的擴(kuò)展，模型性能還有進(jìn)一步提升的空間

責(zé)任編輯：華軒來(lái)源： GoUpSec

大語(yǔ)言模型 SPAR 數(shù)據(jù)構(gòu)建

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<p id="vwg0f"></p>

<style id="vwg0f"></style>