自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

SPAR:融合自對(duì)弈與樹搜索的高性能指令優(yōu)化框架

人工智能
大語(yǔ)言模型的指令遵循能力需要模型能夠準(zhǔn)確識(shí)別指令中的細(xì)微要求,并在輸出中精確體現(xiàn)這些要求?,F(xiàn)有方法通常采用偏好學(xué)習(xí)進(jìn)行優(yōu)化,在創(chuàng)建偏好對(duì)時(shí)直接從模型中采樣多個(gè)獨(dú)立響應(yīng)。

大語(yǔ)言模型的指令遵循能力需要模型能夠準(zhǔn)確識(shí)別指令中的細(xì)微要求,并在輸出中精確體現(xiàn)這些要求?,F(xiàn)有方法通常采用偏好學(xué)習(xí)進(jìn)行優(yōu)化,在創(chuàng)建偏好對(duì)時(shí)直接從模型中采樣多個(gè)獨(dú)立響應(yīng)。但是這種方法可能會(huì)引入與指令精確遵循無(wú)關(guān)的內(nèi)容變化(例如,同一語(yǔ)義的不同表達(dá)方式),這干擾了模型學(xué)習(xí)識(shí)別能夠改進(jìn)指令遵循的關(guān)鍵差異。

針對(duì)這一問(wèn)題,這篇論文提出了SPAR框架,這是一個(gè)集成樹搜索自我改進(jìn)的自對(duì)弈框架,用于生成有效且具有可比性的偏好對(duì),同時(shí)避免干擾因素。通過(guò)自對(duì)弈機(jī)制,大語(yǔ)言模型采用樹搜索策略,基于指令對(duì)先前的響應(yīng)進(jìn)行改進(jìn),同時(shí)將不必要的變化降至最低。

主要?jiǎng)?chuàng)新點(diǎn):

  • 發(fā)現(xiàn)從獨(dú)立采樣響應(yīng)中獲得的偏好對(duì)通常包含干擾因素,這些因素阻礙了通過(guò)偏好學(xué)習(xí)提升指令遵循能力
  • 提出SPAR,一個(gè)創(chuàng)新的自對(duì)弈框架,能夠在指令遵循任務(wù)中實(shí)現(xiàn)持續(xù)性自我優(yōu)化
  • 構(gòu)建了包含43K個(gè)復(fù)雜指令遵循提示的高質(zhì)量數(shù)據(jù)集,以及一個(gè)能夠提升大語(yǔ)言模型指令遵循能力的監(jiān)督微調(diào)數(shù)據(jù)集

方法論

整體框架

SPAR迭代訓(xùn)練框架如圖所示:

  • 在形式化定義中,每次迭代時(shí),給定提示集中的指令x,執(zhí)行模型生成響應(yīng)y
  • 改進(jìn)模型負(fù)責(zé)識(shí)別未能準(zhǔn)確遵循指令的響應(yīng),將其標(biāo)記為負(fù)面響應(yīng)
  • 框架的核心目標(biāo)是將負(fù)面響應(yīng)優(yōu)化為符合要求的正確響應(yīng)
  • 收集生成的改進(jìn)對(duì),通過(guò)直接偏好優(yōu)化(DPO)來(lái)優(yōu)化執(zhí)行模型
  • 同時(shí),應(yīng)用拒絕采樣微調(diào)(RFT)提升改進(jìn)模型性能,為下一輪自我優(yōu)化做好準(zhǔn)備

數(shù)據(jù)構(gòu)建方法

提示構(gòu)建

  • 種子提示:基于Infinity-Instruct數(shù)據(jù)集構(gòu)建初始種子提示集,該數(shù)據(jù)集包含一千萬(wàn)條高質(zhì)量對(duì)話。經(jīng)過(guò)基于長(zhǎng)度、關(guān)鍵詞和自我-BLEU的規(guī)則過(guò)濾,最終獲得約50k條種子提示
  • 分類法驅(qū)動(dòng)的提示構(gòu)建:采用基于分類法的機(jī)制確保約束類型的全面性和平衡性。在建立約束分類體系后,基于種子提示構(gòu)建復(fù)雜指令遵循任務(wù),最終生成約43k條提示

模型初始化

  • 執(zhí)行模型數(shù)據(jù)構(gòu)建: 首先收集高性能語(yǔ)言模型對(duì)復(fù)雜提示的響應(yīng),生成用于執(zhí)行模型的監(jiān)督微調(diào)(SFT)數(shù)據(jù)(x, y) ∈ DActor,其中x表示復(fù)雜指令,y表示高性能模型的響應(yīng)。隨后對(duì)基礎(chǔ)模型進(jìn)行微調(diào),得到初始執(zhí)行模型M0
  • 改進(jìn)模型數(shù)據(jù)構(gòu)建: 為使改進(jìn)模型具備高質(zhì)量的判斷和改進(jìn)能力,從初始執(zhí)行模型M0中采樣響應(yīng)。收集高性能語(yǔ)言模型的判斷結(jié)果,形成數(shù)據(jù)集(x, y, j) ∈ DJSFT。識(shí)別并收集被判定為未能準(zhǔn)確遵循指令的響應(yīng)作為負(fù)面樣本。對(duì)這些負(fù)面響應(yīng),使用高性能語(yǔ)言模型進(jìn)行最小化修正,避免引入無(wú)關(guān)變化
  • 訓(xùn)練策略: 執(zhí)行模型和改進(jìn)模型均采用標(biāo)準(zhǔn)監(jiān)督微調(diào),損失函數(shù)定義如下:

其中q代表輸入,r代表目標(biāo)響應(yīng),N代表r的長(zhǎng)度。執(zhí)行模型訓(xùn)練中,輸入q = x,目標(biāo)r = y。改進(jìn)模型訓(xùn)練中,對(duì)于DJSFT,輸入q = (x, y),目標(biāo)r = j;對(duì)于DRSFT,輸入q = (x, ynegative, j),目標(biāo)r = yrefined。

集成樹搜索的自對(duì)弈訓(xùn)練機(jī)制

a) 負(fù)面數(shù)據(jù)采集流程

  • 對(duì)每個(gè)提示x,首先從執(zhí)行模型中采樣K個(gè)響應(yīng){y1, y2, . . . , yK}
  • 對(duì)每組提示-響應(yīng)對(duì),利用改進(jìn)模型生成判斷結(jié)果,包含兩個(gè)核心要素:指令遵循程度的標(biāo)簽判定和詳細(xì)的評(píng)估說(shuō)明
  • 為提高判斷準(zhǔn)確性,引入自一致性機(jī)制,通過(guò)從改進(jìn)模型獲取多個(gè)判斷結(jié)果并采用多數(shù)投票確定最終標(biāo)簽
  • 在完成多數(shù)投票后,隨機(jī)選取一個(gè)與投票標(biāo)簽一致的判斷作為最終結(jié)果,這使論文提出的方法能夠識(shí)別出那些會(huì)導(dǎo)致指令遵循失敗的高難度提示,形成(x, ynegative, j)格式的數(shù)據(jù)元組,其中ynegative表示不合格響應(yīng),j為對(duì)應(yīng)判斷結(jié)果

b) 樹搜索優(yōu)化方法

  • 考慮到直接改進(jìn)往往導(dǎo)致較低的成功率,本研究采用樹搜索方法,實(shí)現(xiàn)了廣度優(yōu)先搜索(BFS)和深度優(yōu)先搜索(DFS)策略
  • 以BFS為例,從不合格的指令-響應(yīng)對(duì)及其判斷結(jié)果作為根節(jié)點(diǎn)出發(fā),逐層擴(kuò)展搜索樹,直至找到符合要求的響應(yīng)
  • 在每個(gè)中間節(jié)點(diǎn),為當(dāng)前響應(yīng)生成潛在的改進(jìn)方案,并由改進(jìn)模型評(píng)估其正確性。生成的改進(jìn)方案數(shù)量即為分支數(shù)
  • 在樹的每一層,改進(jìn)模型執(zhí)行以下操作:1). 為當(dāng)前層的所有節(jié)點(diǎn)生成潛在的改進(jìn)方案;2). 評(píng)估這些改進(jìn)方案的正確性。由此生成包含新響應(yīng)及其對(duì)應(yīng)判斷的子節(jié)點(diǎn)集合
  • 搜索過(guò)程持續(xù)進(jìn)行,直到獲得數(shù)據(jù)元組(x, ynegative, yrefined),其中yrefined為經(jīng)過(guò)改進(jìn)的合格響應(yīng)

c) 執(zhí)行模型訓(xùn)練方法

  • 利用改進(jìn)對(duì)數(shù)據(jù)進(jìn)行偏好學(xué)習(xí),采用DPO方法優(yōu)化執(zhí)行模型
  • 在第t次迭代中,使用改進(jìn)對(duì)(ynegative, yrefined)訓(xùn)練執(zhí)行模型Mt,將ynegative作為被拒絕樣本(yl),yrefined作為被選擇樣本(yw)
  • 訓(xùn)練數(shù)據(jù)集記為Dtdpo,DPO損失函數(shù)定義如下:

其中π tθ表示執(zhí)行模型Mt,參考模型π ref使用Mt初始化并在訓(xùn)練過(guò)程中保持不變。這一過(guò)程產(chǎn)生新的執(zhí)行模型Mt+1,用于下一輪迭代

d) 改進(jìn)模型訓(xùn)練方法

鑒于改進(jìn)模型的輸入具有模板化特征,論文采用拒絕采樣微調(diào)(RFT)方法獲取新的改進(jìn)模型Rt+1。RFT訓(xùn)練數(shù)據(jù)包含兩個(gè)主要組成部分:

(1) 改進(jìn)訓(xùn)練數(shù)據(jù)集

  • 改進(jìn)訓(xùn)練數(shù)據(jù)集由記錄不合格響應(yīng)改進(jìn)過(guò)程的數(shù)據(jù)元組構(gòu)成
  • 對(duì)于樹搜索改進(jìn)過(guò)程中的每個(gè)不合格響應(yīng),收集(x, yp, jp, yrefined)格式的數(shù)據(jù)元組,其中(x, yp, jp)代表改進(jìn)樹中最終合格響應(yīng)的父節(jié)點(diǎn),yrefined為經(jīng)過(guò)改進(jìn)的合格響應(yīng)

(2) 判斷訓(xùn)練數(shù)據(jù)集

  • 判斷訓(xùn)練數(shù)據(jù)來(lái)源于負(fù)面數(shù)據(jù)采集過(guò)程和樹搜索過(guò)程中的節(jié)點(diǎn)
  • 該數(shù)據(jù)集由(x, yi, ji)格式的元組組成,其中x為提示,yi為對(duì)應(yīng)響應(yīng),ji為與多數(shù)投票結(jié)果一致的判斷
  • 隨后,基于構(gòu)建的訓(xùn)練數(shù)據(jù)進(jìn)行監(jiān)督微調(diào)
  • 對(duì)于改進(jìn)數(shù)據(jù)集Dtrefine,采用數(shù)據(jù)元組(x, yp, jp, yrefined),輸入q = (x, yp, jp),目標(biāo)r = yrefined。對(duì)于判斷數(shù)據(jù)集Dtjudge,采用數(shù)據(jù)元組(x, yi, ji),輸入q = (x, yi),目標(biāo)r = ji。

實(shí)驗(yàn)研究

執(zhí)行模型評(píng)估結(jié)果

SPAR在指令遵循能力方面的顯著提升

下表展示了經(jīng)過(guò)迭代訓(xùn)練的大語(yǔ)言模型在指令遵循基準(zhǔn)測(cè)試上的核心性能指標(biāo)

經(jīng)過(guò)三輪迭代訓(xùn)練后,SPAR-8B-DPO-iter3模型在IFEval評(píng)測(cè)中的表現(xiàn)超越了GPT-4-Turbo(后者的平均準(zhǔn)確率為81.3%)。此外,在推理階段引入樹搜索優(yōu)化技術(shù)后,模型性能獲得顯著提升

值得注意的是,SPAR在模型規(guī)模擴(kuò)展方面表現(xiàn)出優(yōu)異的特性,這極大地增強(qiáng)了LLaMA3-70B-Instruct模型的指令遵循能力

SPAR對(duì)模型通用能力的影響分析

下表呈現(xiàn)了在通用基準(zhǔn)測(cè)試上的性能數(shù)據(jù)

實(shí)驗(yàn)數(shù)據(jù)表明,SPAR不僅保持了模型的通用能力,在某些場(chǎng)景下還帶來(lái)了性能提升,尤其是在GSM8k和HumanEval基準(zhǔn)測(cè)試中。這證實(shí)了增強(qiáng)的指令遵循能力有助于提升大語(yǔ)言模型的整體對(duì)齊效果

SPAR相較于基線方法的優(yōu)勢(shì)

下圖展示了各輪訓(xùn)練迭代在IFEval評(píng)測(cè)中的進(jìn)步情況

在每輪迭代中,SPAR都展現(xiàn)出明顯的優(yōu)勢(shì)。特別值得注意的是,其他方法即使經(jīng)過(guò)三輪迭代,其性能仍未能達(dá)到SPAR首輪迭代的水平

改進(jìn)模型評(píng)估結(jié)果

SPAR在判斷能力方面的迭代提升

下表展示了經(jīng)過(guò)迭代訓(xùn)練的大語(yǔ)言模型在LLMBar評(píng)測(cè)中的判斷能力表現(xiàn)

實(shí)驗(yàn)結(jié)果顯示,SPAR迭代訓(xùn)練顯著提升了模型評(píng)估指令遵循任務(wù)的能力

在第三輪迭代后,改進(jìn)模型SPAR-8B-RFT-iter3的性能超越了用于構(gòu)建判斷SFT數(shù)據(jù)集的GPT-4o-Mini模型

SPAR在改進(jìn)能力方面的持續(xù)優(yōu)化

下表呈現(xiàn)了改進(jìn)能力的評(píng)估結(jié)果。其中Acc-GPT采用GPT-4o作為評(píng)判標(biāo)準(zhǔn);Acc-SPAR則使用SPAR-8B-RFT-iter3進(jìn)行評(píng)估

數(shù)據(jù)顯示,LLaMA3-8B-Instruct模型的改進(jìn)準(zhǔn)確率在每輪訓(xùn)練迭代中均呈現(xiàn)穩(wěn)定提升趨勢(shì),最終達(dá)到了與用于SFT數(shù)據(jù)構(gòu)建的高性能模型GPT-4o-Mini相當(dāng)?shù)乃?/span>

總結(jié)

本研究提出了創(chuàng)新性的自對(duì)弈框架SPAR,通過(guò)改進(jìn)對(duì)訓(xùn)練提升大語(yǔ)言模型的指令遵循能力。研究發(fā)現(xiàn),與傳統(tǒng)方法采用獨(dú)立采樣響應(yīng)構(gòu)建偏好對(duì)相比,通過(guò)最小化外部因素并突出關(guān)鍵差異的改進(jìn)對(duì)方法,能在指令遵循任務(wù)上實(shí)現(xiàn)顯著性能提升。采用本框架進(jìn)行迭代訓(xùn)練的LLaMA3-8B-Instruct模型在IFEval評(píng)測(cè)中展現(xiàn)出超越GPT-4-Turbo的性能。通過(guò)推理計(jì)算能力的擴(kuò)展,模型性能還有進(jìn)一步提升的空間

責(zé)任編輯:華軒 來(lái)源: GoUpSec
相關(guān)推薦

2023-09-08 15:37:29

軟件開(kāi)發(fā)性能

2024-02-26 07:43:10

大語(yǔ)言模型LLM推理框架

2021-08-13 09:06:52

Go高性能優(yōu)化

2022-05-17 17:18:40

Kite字節(jié)跳動(dòng)微服務(wù)框架

2019-03-01 11:03:22

Lustre高性能計(jì)算

2021-07-04 14:20:16

Redis中間件高性能

2025-01-26 00:00:15

PHP協(xié)程控制權(quán)

2022-08-15 08:01:35

微服務(wù)框架RPC

2019-05-21 09:40:47

Elasticsear高性能 API

2009-01-05 10:00:11

JSP優(yōu)化Servlet性能優(yōu)化

2023-08-29 15:10:04

持續(xù)性能優(yōu)化開(kāi)發(fā)

2014-03-19 14:34:06

JQuery高性能

2018-03-30 18:17:10

MySQLLinux

2023-10-31 18:52:29

網(wǎng)絡(luò)框架XDP技術(shù)

2020-06-17 16:43:40

網(wǎng)絡(luò)IO框架

2025-03-21 13:25:14

2018-09-18 17:20:14

MySQL優(yōu)化數(shù)據(jù)庫(kù)

2024-04-28 10:17:30

gnetGo語(yǔ)言

2016-01-12 12:47:42

戴爾云計(jì)算

2022-01-21 15:33:56

架構(gòu)模型AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)