自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

EvalPlanner:基于“計(jì)劃-執(zhí)行”雙階段的大語言模型評估框架

人工智能
大語言模型(LLM)評估系統(tǒng)在生成思維鏈(Chain-of-Thought, CoT)序列時(shí),需要系統(tǒng)地捕捉評估過程中的推理步驟。

大語言模型(LLM)評估系統(tǒng)在生成思維鏈(Chain-of-Thought, CoT)序列時(shí),需要系統(tǒng)地捕捉評估過程中的推理步驟。但是由于缺乏人工標(biāo)注的CoT訓(xùn)練數(shù)據(jù),以及預(yù)定義評估提示在復(fù)雜任務(wù)中的局限性,構(gòu)建高質(zhì)量的LLM評估模型面臨重大挑戰(zhàn)。另外手動(dòng)調(diào)整評估指令的方法在面對多樣化和復(fù)雜任務(wù)時(shí)表現(xiàn)出明顯的局限性。

為應(yīng)對這些挑戰(zhàn),研究團(tuán)隊(duì)提出了EvalPlanner[1],這是一種創(chuàng)新的LLM評估算法。該算法采用計(jì)劃-執(zhí)行的雙階段范式,首先生成無約束的評估計(jì)劃,隨后執(zhí)行該計(jì)劃并做出最終判斷。這種方法顯著提升了評估過程的系統(tǒng)性和可靠性。

核心方法論

系統(tǒng)架構(gòu)

EvalPlanner的架構(gòu)包含三個(gè)核心組件,如下圖所示:

具體來說,系統(tǒng)包含以下關(guān)鍵要素:

a) 評估計(jì)劃(z)

  • 基于輸入指令x,系統(tǒng)制定具體的響應(yīng)評估策略
  • 計(jì)劃設(shè)計(jì)注重靈活性和通用性

b) 計(jì)劃執(zhí)行模塊

  • 依序執(zhí)行評估計(jì)劃的各個(gè)步驟
  • 分析目標(biāo)響應(yīng)a和b,生成詳細(xì)的評估結(jié)果

c) 最終判決(y)

  • 在評判LLM(參數(shù)θ)的框架下,將計(jì)劃z和執(zhí)行e作為潛變量
  • 判決生成過程可表述為:

工作流程

系統(tǒng)的整體工作流程如下圖所示:

主要步驟包括:

  1. 從分布P中采樣多個(gè)評估計(jì)劃z
  2. 對每個(gè)計(jì)劃,從分布E中采樣多個(gè)執(zhí)行路徑e
  3. 通過自訓(xùn)練循環(huán)優(yōu)化計(jì)劃和執(zhí)行過程
  4. 在測試階段,模型生成結(jié)構(gòu)化的CoT輸出:? = (z?, ?, ?)

訓(xùn)練數(shù)據(jù)生成方法

提示詞選擇與響應(yīng)對生成

系統(tǒng)采用兩類核心任務(wù)領(lǐng)域:

  • 通用指令執(zhí)行任務(wù)

a.通過對原始指令引入噪聲生成對比樣本

b.原始指令響應(yīng)作為正例,噪聲指令響應(yīng)作為負(fù)例

  • 數(shù)學(xué)推理任務(wù)
  • 采樣多個(gè)候選響應(yīng)
  • 正確解答作為正例,錯(cuò)誤解答作為負(fù)例

評估計(jì)劃生成

系統(tǒng)采用通用且無約束的計(jì)劃生成提示模板,該模板僅基于輸入指令查詢經(jīng)過指令調(diào)優(yōu)的LLM以獲取初始計(jì)劃。提示模板的核心內(nèi)容如下:

We want to evaluate the quality of the responses provided by AI assistants to
 the user question displayed below. For that, your task is to help us build an
 evaluation plan that can then be executed to assess the response quality.
 Whenever appropriate, you can choose to also include a step-by-step reference
 answer as part of the evaluation plan. Enclose your evaluation plan between
 the tags “[Start of Evaluation Plan]” and “[End of Evaluation Plan]”.
 
 [User Question]
 {instruction}

計(jì)劃執(zhí)行生成

計(jì)劃執(zhí)行階段采用種子模型,結(jié)合指令和響應(yīng)對,基于生成的計(jì)劃進(jìn)行推理并產(chǎn)生判決。

Please act as an impartial judge and evaluate the quality of the responses
 provided by two AI assistants to the user question displayed below. You
 should choose the assistant that follows the user’s instructions and answers
 the user’s question better. Your evaluation should consider factors such as
 the helpfulness, relevance, accuracy,depth, creativity, and level of detail
 of their responses. Begin your evaluation by comparing the two responses and
 provide a short explanation. Avoid any position biases and ensure that the
 order in which the responses were presented does not influence your decision.
 Do not allow the length of the responses to influence your evaluation. Do not
 favor certain names of the assistants. Be as objective as possible. After
 providing your explanation, output your final verdict by strictly following
 this format: “[[A]]” if assistant A is better, “[[B]]” if assistant B is better.
 
 [[User Question]]
 {instruction}
 
 [The Start of Assistant A’s Answer]
 {response A}
 [The End of Assistant A’s Answer]
 
 [The Start of Assistant B’s Answer]
 {response B}
 [The End of Assistant B’s Answer]

這種分離式架構(gòu)具有兩個(gè)主要優(yōu)勢:

  • 確保執(zhí)行過程嚴(yán)格遵循預(yù)定計(jì)劃
  • 通過對同一計(jì)劃采樣多個(gè)執(zhí)行路徑,增加評估數(shù)據(jù)的多樣性

構(gòu)建計(jì)劃-執(zhí)行偏好對

對于每個(gè)輸入指令:

  • 采樣|P|個(gè)計(jì)劃
  • 每個(gè)計(jì)劃采樣|E|個(gè)執(zhí)行路徑
  • 考慮響應(yīng)對的兩種順序(a,b)和(b,a),總共生成2×|P|×|E|個(gè)CoT序列

計(jì)劃與執(zhí)行的優(yōu)化策略

系統(tǒng)采用自訓(xùn)練循環(huán)進(jìn)行優(yōu)化,主要包含以下步驟:

初始監(jiān)督微調(diào)(SFT)

  • 從種子模型M?開始
  • 在正確思維子集D??上進(jìn)行微調(diào)
  • 得到模型M????

第一輪直接偏好優(yōu)化(DPO)

  • 以M????為基礎(chǔ)
  • 在包含正確與錯(cuò)誤思維的數(shù)據(jù)集D?上執(zhí)行DPO
  • 得到模型M????

第二輪直接偏好優(yōu)化(DPO)

  • 以M????為基礎(chǔ)
  • 在新的指令和響應(yīng)對子集D?上執(zhí)行DPO
  • 得到最終模型M????

實(shí)驗(yàn)設(shè)置與評估

訓(xùn)練數(shù)據(jù)構(gòu)建

  • WildChat數(shù)據(jù)集:使用自學(xué)習(xí)評估器生成綜合響應(yīng)
  • MATH數(shù)據(jù)集:通過Mixtral 22Bx8 Instruct模型生成多個(gè)候選解答

實(shí)驗(yàn)配置

訓(xùn)練數(shù)據(jù)規(guī)模:

  • WildChat: 17,588個(gè)獨(dú)特三元組
  • MATH: 4,141個(gè)獨(dú)特三元組

采樣參數(shù):

  • 每次迭代5個(gè)計(jì)劃
  • 每個(gè)計(jì)劃8個(gè)執(zhí)行路徑(每種順序4個(gè))
  • 溫度參數(shù)0.8,top_p值0.95

基準(zhǔn)比較

模型性能與多個(gè)基準(zhǔn)系統(tǒng)進(jìn)行對比:

  • 零樣本評估的開源和閉源LLM
  • 具有評論功能的獎(jiǎng)勵(lì)模型
  • RewardBench排行榜上的領(lǐng)先模型

實(shí)驗(yàn)結(jié)果與分析

性能優(yōu)勢

EvalPlanner展現(xiàn)出顯著的性能優(yōu)勢:

  • 在較少訓(xùn)練數(shù)據(jù)的情況下超越所有基準(zhǔn)系統(tǒng)
  • 為生成式獎(jiǎng)勵(lì)模型創(chuàng)造新的性能記錄
  • 在多個(gè)種子模型上展示方法的普適性

數(shù)據(jù)效率

系統(tǒng)表現(xiàn)出優(yōu)異的數(shù)據(jù)效率:

  • 僅使用5K偏好對即達(dá)到92.3的性能分?jǐn)?shù)
  • 通過迭代DPO進(jìn)一步提升至93.9
  • 相比單次DPO迭代(92.5)取得明顯進(jìn)步

泛化能力

在多個(gè)評估基準(zhǔn)上驗(yàn)證了系統(tǒng)的泛化能力:

  • FollowBenchEval:在多層次約束評估中超越基準(zhǔn)13%
  • RM-Bench:展示出對內(nèi)容變化的強(qiáng)大魯棒性
  • JudgeBench:在多類別挑戰(zhàn)性問題上保持競爭力

圖片

總結(jié)

EvalPlanner通過創(chuàng)新的計(jì)劃-執(zhí)行范式,成功解決了LLM評估模型面臨的核心挑戰(zhàn)。系統(tǒng)在多個(gè)基準(zhǔn)測試中的出色表現(xiàn),證實(shí)了該方法在構(gòu)建高效、穩(wěn)健的評估模型方面的有效性。特別是在數(shù)據(jù)效率和泛化能力方面的優(yōu)勢,為未來LLM評估系統(tǒng)的發(fā)展提供了新的研究方向。

責(zé)任編輯:華軒 來源: DeepHub IMBA
相關(guān)推薦

2024-12-30 13:13:35

2024-06-06 09:47:56

2024-06-18 14:01:17

2024-04-11 14:12:53

2024-11-13 14:37:30

2024-03-19 13:12:36

自動(dòng)駕駛模型

2024-10-22 14:20:00

AI模型

2023-10-04 09:29:58

2024-08-12 18:22:56

2025-01-20 07:58:51

2021-11-22 11:42:19

IT風(fēng)險(xiǎn)風(fēng)險(xiǎn)評估框架網(wǎng)絡(luò)安全

2024-01-03 18:53:13

語言模型LLM

2023-05-17 10:05:56

2023-05-08 15:36:50

模型AI

2023-09-25 10:19:01

模型App開源

2025-04-22 08:08:37

2024-02-20 08:17:55

2023-07-03 16:16:34

隱私數(shù)據(jù)

2024-10-09 09:38:11

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號