SPAR:融合自對(duì)弈與樹搜索的高性能指令優(yōu)化框架
大語(yǔ)言模型的指令遵循能力需要模型能夠準(zhǔn)確識(shí)別指令中的細(xì)微要求,并在輸出中精確體現(xiàn)這些要求?,F(xiàn)有方法通常采用偏好學(xué)習(xí)進(jìn)行優(yōu)化,在創(chuàng)建偏好對(duì)時(shí)直接從模型中采樣多個(gè)獨(dú)立響應(yīng)。但是這種方法可能會(huì)引入與指令精確遵循無(wú)關(guān)的內(nèi)容變化(例如,同一語(yǔ)義的不同表達(dá)方式),這干擾了模型學(xué)習(xí)識(shí)別能夠改進(jìn)指令遵循的關(guān)鍵差異。
針對(duì)這一問(wèn)題,這篇論文提出了SPAR框架,這是一個(gè)集成樹搜索自我改進(jìn)的自對(duì)弈框架,用于生成有效且具有可比性的偏好對(duì),同時(shí)避免干擾因素。通過(guò)自對(duì)弈機(jī)制,大語(yǔ)言模型采用樹搜索策略,基于指令對(duì)先前的響應(yīng)進(jìn)行改進(jìn),同時(shí)將不必要的變化降至最低。
主要?jiǎng)?chuàng)新點(diǎn):
- 發(fā)現(xiàn)從獨(dú)立采樣響應(yīng)中獲得的偏好對(duì)通常包含干擾因素,這些因素阻礙了通過(guò)偏好學(xué)習(xí)提升指令遵循能力
- 提出SPAR,一個(gè)創(chuàng)新的自對(duì)弈框架,能夠在指令遵循任務(wù)中實(shí)現(xiàn)持續(xù)性自我優(yōu)化
- 構(gòu)建了包含43K個(gè)復(fù)雜指令遵循提示的高質(zhì)量數(shù)據(jù)集,以及一個(gè)能夠提升大語(yǔ)言模型指令遵循能力的監(jiān)督微調(diào)數(shù)據(jù)集
方法論
整體框架
SPAR迭代訓(xùn)練框架如圖所示:
- 在形式化定義中,每次迭代時(shí),給定提示集中的指令x,執(zhí)行模型生成響應(yīng)y
- 改進(jìn)模型負(fù)責(zé)識(shí)別未能準(zhǔn)確遵循指令的響應(yīng),將其標(biāo)記為負(fù)面響應(yīng)
- 框架的核心目標(biāo)是將負(fù)面響應(yīng)優(yōu)化為符合要求的正確響應(yīng)
- 收集生成的改進(jìn)對(duì),通過(guò)直接偏好優(yōu)化(DPO)來(lái)優(yōu)化執(zhí)行模型
- 同時(shí),應(yīng)用拒絕采樣微調(diào)(RFT)提升改進(jìn)模型性能,為下一輪自我優(yōu)化做好準(zhǔn)備
數(shù)據(jù)構(gòu)建方法
提示構(gòu)建
- 種子提示:基于Infinity-Instruct數(shù)據(jù)集構(gòu)建初始種子提示集,該數(shù)據(jù)集包含一千萬(wàn)條高質(zhì)量對(duì)話。經(jīng)過(guò)基于長(zhǎng)度、關(guān)鍵詞和自我-BLEU的規(guī)則過(guò)濾,最終獲得約50k條種子提示
- 分類法驅(qū)動(dòng)的提示構(gòu)建:采用基于分類法的機(jī)制確保約束類型的全面性和平衡性。在建立約束分類體系后,基于種子提示構(gòu)建復(fù)雜指令遵循任務(wù),最終生成約43k條提示
模型初始化
- 執(zhí)行模型數(shù)據(jù)構(gòu)建: 首先收集高性能語(yǔ)言模型對(duì)復(fù)雜提示的響應(yīng),生成用于執(zhí)行模型的監(jiān)督微調(diào)(SFT)數(shù)據(jù)(x, y) ∈ DActor,其中x表示復(fù)雜指令,y表示高性能模型的響應(yīng)。隨后對(duì)基礎(chǔ)模型進(jìn)行微調(diào),得到初始執(zhí)行模型M0
- 改進(jìn)模型數(shù)據(jù)構(gòu)建: 為使改進(jìn)模型具備高質(zhì)量的判斷和改進(jìn)能力,從初始執(zhí)行模型M0中采樣響應(yīng)。收集高性能語(yǔ)言模型的判斷結(jié)果,形成數(shù)據(jù)集(x, y, j) ∈ DJSFT。識(shí)別并收集被判定為未能準(zhǔn)確遵循指令的響應(yīng)作為負(fù)面樣本。對(duì)這些負(fù)面響應(yīng),使用高性能語(yǔ)言模型進(jìn)行最小化修正,避免引入無(wú)關(guān)變化
- 訓(xùn)練策略: 執(zhí)行模型和改進(jìn)模型均采用標(biāo)準(zhǔn)監(jiān)督微調(diào),損失函數(shù)定義如下:
其中q代表輸入,r代表目標(biāo)響應(yīng),N代表r的長(zhǎng)度。執(zhí)行模型訓(xùn)練中,輸入q = x,目標(biāo)r = y。改進(jìn)模型訓(xùn)練中,對(duì)于DJSFT,輸入q = (x, y),目標(biāo)r = j;對(duì)于DRSFT,輸入q = (x, ynegative, j),目標(biāo)r = yrefined。
集成樹搜索的自對(duì)弈訓(xùn)練機(jī)制
a) 負(fù)面數(shù)據(jù)采集流程
- 對(duì)每個(gè)提示x,首先從執(zhí)行模型中采樣K個(gè)響應(yīng){y1, y2, . . . , yK}
- 對(duì)每組提示-響應(yīng)對(duì),利用改進(jìn)模型生成判斷結(jié)果,包含兩個(gè)核心要素:指令遵循程度的標(biāo)簽判定和詳細(xì)的評(píng)估說(shuō)明
- 為提高判斷準(zhǔn)確性,引入自一致性機(jī)制,通過(guò)從改進(jìn)模型獲取多個(gè)判斷結(jié)果并采用多數(shù)投票確定最終標(biāo)簽
- 在完成多數(shù)投票后,隨機(jī)選取一個(gè)與投票標(biāo)簽一致的判斷作為最終結(jié)果,這使論文提出的方法能夠識(shí)別出那些會(huì)導(dǎo)致指令遵循失敗的高難度提示,形成(x, ynegative, j)格式的數(shù)據(jù)元組,其中ynegative表示不合格響應(yīng),j為對(duì)應(yīng)判斷結(jié)果
b) 樹搜索優(yōu)化方法
- 考慮到直接改進(jìn)往往導(dǎo)致較低的成功率,本研究采用樹搜索方法,實(shí)現(xiàn)了廣度優(yōu)先搜索(BFS)和深度優(yōu)先搜索(DFS)策略
- 以BFS為例,從不合格的指令-響應(yīng)對(duì)及其判斷結(jié)果作為根節(jié)點(diǎn)出發(fā),逐層擴(kuò)展搜索樹,直至找到符合要求的響應(yīng)
- 在每個(gè)中間節(jié)點(diǎn),為當(dāng)前響應(yīng)生成潛在的改進(jìn)方案,并由改進(jìn)模型評(píng)估其正確性。生成的改進(jìn)方案數(shù)量即為分支數(shù)
- 在樹的每一層,改進(jìn)模型執(zhí)行以下操作:1). 為當(dāng)前層的所有節(jié)點(diǎn)生成潛在的改進(jìn)方案;2). 評(píng)估這些改進(jìn)方案的正確性。由此生成包含新響應(yīng)及其對(duì)應(yīng)判斷的子節(jié)點(diǎn)集合
- 搜索過(guò)程持續(xù)進(jìn)行,直到獲得數(shù)據(jù)元組(x, ynegative, yrefined),其中yrefined為經(jīng)過(guò)改進(jìn)的合格響應(yīng)
c) 執(zhí)行模型訓(xùn)練方法
- 利用改進(jìn)對(duì)數(shù)據(jù)進(jìn)行偏好學(xué)習(xí),采用DPO方法優(yōu)化執(zhí)行模型
- 在第t次迭代中,使用改進(jìn)對(duì)(ynegative, yrefined)訓(xùn)練執(zhí)行模型Mt,將ynegative作為被拒絕樣本(yl),yrefined作為被選擇樣本(yw)
- 訓(xùn)練數(shù)據(jù)集記為Dtdpo,DPO損失函數(shù)定義如下:
其中π tθ表示執(zhí)行模型Mt,參考模型π ref使用Mt初始化并在訓(xùn)練過(guò)程中保持不變。這一過(guò)程產(chǎn)生新的執(zhí)行模型Mt+1,用于下一輪迭代
d) 改進(jìn)模型訓(xùn)練方法
鑒于改進(jìn)模型的輸入具有模板化特征,論文采用拒絕采樣微調(diào)(RFT)方法獲取新的改進(jìn)模型Rt+1。RFT訓(xùn)練數(shù)據(jù)包含兩個(gè)主要組成部分:
(1) 改進(jìn)訓(xùn)練數(shù)據(jù)集
- 改進(jìn)訓(xùn)練數(shù)據(jù)集由記錄不合格響應(yīng)改進(jìn)過(guò)程的數(shù)據(jù)元組構(gòu)成
- 對(duì)于樹搜索改進(jìn)過(guò)程中的每個(gè)不合格響應(yīng),收集(x, yp, jp, yrefined)格式的數(shù)據(jù)元組,其中(x, yp, jp)代表改進(jìn)樹中最終合格響應(yīng)的父節(jié)點(diǎn),yrefined為經(jīng)過(guò)改進(jìn)的合格響應(yīng)
(2) 判斷訓(xùn)練數(shù)據(jù)集
- 判斷訓(xùn)練數(shù)據(jù)來(lái)源于負(fù)面數(shù)據(jù)采集過(guò)程和樹搜索過(guò)程中的節(jié)點(diǎn)
- 該數(shù)據(jù)集由(x, yi, ji)格式的元組組成,其中x為提示,yi為對(duì)應(yīng)響應(yīng),ji為與多數(shù)投票結(jié)果一致的判斷
- 隨后,基于構(gòu)建的訓(xùn)練數(shù)據(jù)進(jìn)行監(jiān)督微調(diào)
- 對(duì)于改進(jìn)數(shù)據(jù)集Dtrefine,采用數(shù)據(jù)元組(x, yp, jp, yrefined),輸入q = (x, yp, jp),目標(biāo)r = yrefined。對(duì)于判斷數(shù)據(jù)集Dtjudge,采用數(shù)據(jù)元組(x, yi, ji),輸入q = (x, yi),目標(biāo)r = ji。
實(shí)驗(yàn)研究
執(zhí)行模型評(píng)估結(jié)果
SPAR在指令遵循能力方面的顯著提升
下表展示了經(jīng)過(guò)迭代訓(xùn)練的大語(yǔ)言模型在指令遵循基準(zhǔn)測(cè)試上的核心性能指標(biāo)
經(jīng)過(guò)三輪迭代訓(xùn)練后,SPAR-8B-DPO-iter3模型在IFEval評(píng)測(cè)中的表現(xiàn)超越了GPT-4-Turbo(后者的平均準(zhǔn)確率為81.3%)。此外,在推理階段引入樹搜索優(yōu)化技術(shù)后,模型性能獲得顯著提升
值得注意的是,SPAR在模型規(guī)模擴(kuò)展方面表現(xiàn)出優(yōu)異的特性,這極大地增強(qiáng)了LLaMA3-70B-Instruct模型的指令遵循能力
SPAR對(duì)模型通用能力的影響分析
下表呈現(xiàn)了在通用基準(zhǔn)測(cè)試上的性能數(shù)據(jù)
實(shí)驗(yàn)數(shù)據(jù)表明,SPAR不僅保持了模型的通用能力,在某些場(chǎng)景下還帶來(lái)了性能提升,尤其是在GSM8k和HumanEval基準(zhǔn)測(cè)試中。這證實(shí)了增強(qiáng)的指令遵循能力有助于提升大語(yǔ)言模型的整體對(duì)齊效果
SPAR相較于基線方法的優(yōu)勢(shì)
下圖展示了各輪訓(xùn)練迭代在IFEval評(píng)測(cè)中的進(jìn)步情況
在每輪迭代中,SPAR都展現(xiàn)出明顯的優(yōu)勢(shì)。特別值得注意的是,其他方法即使經(jīng)過(guò)三輪迭代,其性能仍未能達(dá)到SPAR首輪迭代的水平
改進(jìn)模型評(píng)估結(jié)果
SPAR在判斷能力方面的迭代提升
下表展示了經(jīng)過(guò)迭代訓(xùn)練的大語(yǔ)言模型在LLMBar評(píng)測(cè)中的判斷能力表現(xiàn)
實(shí)驗(yàn)結(jié)果顯示,SPAR迭代訓(xùn)練顯著提升了模型評(píng)估指令遵循任務(wù)的能力
在第三輪迭代后,改進(jìn)模型SPAR-8B-RFT-iter3的性能超越了用于構(gòu)建判斷SFT數(shù)據(jù)集的GPT-4o-Mini模型
SPAR在改進(jìn)能力方面的持續(xù)優(yōu)化
下表呈現(xiàn)了改進(jìn)能力的評(píng)估結(jié)果。其中Acc-GPT采用GPT-4o作為評(píng)判標(biāo)準(zhǔn);Acc-SPAR則使用SPAR-8B-RFT-iter3進(jìn)行評(píng)估
數(shù)據(jù)顯示,LLaMA3-8B-Instruct模型的改進(jìn)準(zhǔn)確率在每輪訓(xùn)練迭代中均呈現(xiàn)穩(wěn)定提升趨勢(shì),最終達(dá)到了與用于SFT數(shù)據(jù)構(gòu)建的高性能模型GPT-4o-Mini相當(dāng)?shù)乃?/span>
總結(jié)
本研究提出了創(chuàng)新性的自對(duì)弈框架SPAR,通過(guò)改進(jìn)對(duì)訓(xùn)練提升大語(yǔ)言模型的指令遵循能力。研究發(fā)現(xiàn),與傳統(tǒng)方法采用獨(dú)立采樣響應(yīng)構(gòu)建偏好對(duì)相比,通過(guò)最小化外部因素并突出關(guān)鍵差異的改進(jìn)對(duì)方法,能在指令遵循任務(wù)上實(shí)現(xiàn)顯著性能提升。采用本框架進(jìn)行迭代訓(xùn)練的LLaMA3-8B-Instruct模型在IFEval評(píng)測(cè)中展現(xiàn)出超越GPT-4-Turbo的性能。通過(guò)推理計(jì)算能力的擴(kuò)展,模型性能還有進(jìn)一步提升的空間