自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

一文讀懂 RAG-Gym:用過程監(jiān)督優(yōu)化推理與搜索智能體 精華

發(fā)布于 2025-3-4 10:43
瀏覽
0收藏

傳統(tǒng)的檢索增強生成(RAG)架構(gòu)依賴于靜態(tài)檢索,這使得它們在處理需要順序信息搜索的復(fù)雜問題時,效果大打折扣。雖然智能推理和搜索提供了一種更具適應(yīng)性的方法,但現(xiàn)有的大多數(shù)方法在很大程度上都依賴于提示工程。

為了解決這一問題,本文介紹了 RAG-Gym,這是一個統(tǒng)一的優(yōu)化框架,它通過在每個搜索步驟進行細粒度的過程監(jiān)督,來提升信息搜索智能體的性能。

核心貢獻

  • 引入 RAG-Gym,這是一個利用過程監(jiān)督優(yōu)化智能 RAG 的統(tǒng)一框架。
  • 提出 ReSearch,這是一種全新的智能體架構(gòu),它將答案推理和搜索協(xié)同起來,比現(xiàn)有的基線模型取得了更優(yōu)異的性能。
  • 證明了使用經(jīng)過訓(xùn)練的過程獎勵模型作為驗證器,可以顯著提升搜索智能體的性能。
  • 全面分析了過程監(jiān)督的來源、獎勵模型的可遷移性,以及智能 RAG 中的縮放定律。?

一文讀懂 RAG-Gym:用過程監(jiān)督優(yōu)化推理與搜索智能體-AI.x社區(qū)

RAG-Gym 框架

一、概述

RAG-Gym 將知識密集型問答任務(wù)構(gòu)建為一個嵌套的馬爾可夫決策過程(MDP)。

過程獎勵數(shù)據(jù)是通過在每個時間步隨機抽樣動作候選,并使用外部注釋器選擇最佳動作來收集的。

RAG-Gym 中實現(xiàn)了不同的過程監(jiān)督方法。

二、知識密集型問答作為嵌套 MDP

  1. 外部 MDP 的構(gòu)建:旨在歸納各種針對知識密集型問題的語言智能體設(shè)計,具體過程如下:
  • 狀態(tài)空間 S:在每個時間步 t,狀態(tài) st ∈ S 由原始問題 Q 和信息搜索歷史 Ht 組成,表示為:st = (Q,Ht) ,其中 Ht = {(q1,D1), · · · , (qt?1,Dt?1)}是信息搜索查詢 q1, · · · , qt?1 以及它們對應(yīng)的由環(huán)境返回的檢索文檔 D1, · · · , Dt?1 的歷史記錄。狀態(tài)空間 S 是所有可能狀態(tài)的集合:

一文讀懂 RAG-Gym:用過程監(jiān)督優(yōu)化推理與搜索智能體-AI.x社區(qū)

其中 I 是問題空間,Aq 是所有可能搜索查詢的空間,D 是所有文檔的空間。 - 動作空間 A:在每個時間步 t,動作 at 可以是一個搜索查詢,也可以是對原始問題的預(yù)測答案。因此,我們將動作空間 A 定義為 A = Aq ∪ Ap ,其中 Aq 是所有可能查詢的集合,Ap 表示可能答案的集合。 - IR 環(huán)境:RAG-Gym 中外部 MDP 的環(huán)境由一個信息檢索(IR)系統(tǒng)驅(qū)動,該系統(tǒng)將搜索查詢 qt 作為輸入,并返回一組相關(guān)文檔 Dt 作為輸出。IR 系統(tǒng)可以表示為從 Aq 到 P(D)的映射,其中 P(D)是 D 的冪集。檢索過程由底層文本檢索器和特定的檢索設(shè)置(例如返回文檔的數(shù)量)決定。 - MDP 工作流程:對于給定的問題 Q,MDP 從初始狀態(tài) s1 = (Q, ?)開始。在每個步驟 t,at 是從智能體的策略 πf(θ)(· | st)中采樣得到的,其中 πf(θ) : S → Δ(A)定義了給定狀態(tài)下的動作分布。智能體的策略由 θ(表示基礎(chǔ)語言模型的參數(shù))和特定于智能體的函數(shù) f(表示如何利用基礎(chǔ) LLM 策略)組成。然后,通過添加(qt,Dt)來更新歷史記錄為 Ht+1 ,狀態(tài)轉(zhuǎn)換為 st+1 = (Q,Ht+1) 。否則,如果 at ∈ Ap ,則認為當前情節(jié)完成,MDP 終止。 - 獎勵:對于外部 MDP,一個情節(jié)的獎勵由最終預(yù)測的正確性決定。狀態(tài)-動作對(st, at)的即時獎勵為:

一文讀懂 RAG-Gym:用過程監(jiān)督優(yōu)化推理與搜索智能體-AI.x社區(qū)

外部 MDP 中智能體的目標是最大化軌跡上的預(yù)期累積獎勵:

一文讀懂 RAG-Gym:用過程監(jiān)督優(yōu)化推理與搜索智能體-AI.x社區(qū)

  • 通過過程監(jiān)督改進搜索智能體:通過納入過程獎勵,RAG-Gym 能夠更有效地對大語言模型(LLM)進行微調(diào),使標記生成與高質(zhì)量的搜索行為保持一致。 -過程獎勵數(shù)據(jù)的收集:數(shù)據(jù)收集流程從軌跡采樣開始,語言智能體根據(jù)其當前策略生成一系列動作。在軌跡的每個步驟中,會提出多個候選動作,并根據(jù)預(yù)定義的評估標準選擇最佳動作。我們采用基于排名的評估框架,而不是分配數(shù)值分數(shù),以確保一致性。然后執(zhí)行選定的動作,軌跡轉(zhuǎn)移到下一個狀態(tài)。這個過程反復(fù)迭代,直到軌跡終止。為了確保質(zhì)量,只有最終答案正確的軌跡才會被保留,這由結(jié)果獎勵來判斷。 -使用過程監(jiān)督調(diào)整智能體-監(jiān)督微調(diào)(SFT):從過程獎勵中選擇的動作用于訓(xùn)練語言智能體。正式地說,SFT 的目標是最小化給定狀態(tài)下選定動作的負對數(shù)似然:

    一文讀懂 RAG-Gym:用過程監(jiān)督優(yōu)化推理與搜索智能體-AI.x社區(qū)

  • 其中 D 是帶有過程獎勵標記的狀態(tài)-動作對的數(shù)據(jù)集。 -直接偏好優(yōu)化(DPO):引入了一個對比學習框架,該框架同時考慮了選定和未選定的動作。過程獎勵數(shù)據(jù)被重新組織為偏好對(a+t , a?t ),其中 a+t 是對于 st 更偏好的動作,a?t 是較不偏好的替代動作。DPO 的目標是最小化以下?lián)p失:
  • 一文讀懂 RAG-Gym:用過程監(jiān)督優(yōu)化推理與搜索智能體-AI.x社區(qū)

  • -過程獎勵建模(PRM):訓(xùn)練一個單獨的獎勵模型 r?(st, at),以根據(jù)收集的數(shù)據(jù)預(yù)測過程獎勵。目標是最小化一個對比損失,該損失評估更偏好動作相對于較不偏好動作的質(zhì)量:
  • 一文讀懂 RAG-Gym:用過程監(jiān)督優(yōu)化推理與搜索智能體-AI.x社區(qū)

推理與搜索(ReSearch)智能體

推理與搜索(ReSearch)智能體在一個統(tǒng)一的、以答案為驅(qū)動的框架中集成了推理和搜索。

一文讀懂 RAG-Gym:用過程監(jiān)督優(yōu)化推理與搜索智能體-AI.x社區(qū)

  • 歷史知識總結(jié):給定狀態(tài) st ,其中包含原始問題 Q 和歷史 Ht = {(q1,D1), . . . , (qt?1,Dt?1)},智能體首先會將檢索到的文檔總結(jié)為對相應(yīng)查詢的結(jié)構(gòu)化響應(yīng),形成一個精煉的知識表示 H′t: H′t = {(q1,m1), . . . , (qt?1,mt?1)} 總結(jié)步驟會過濾掉不相關(guān)的信息,并減輕長上下文處理的挑戰(zhàn),使智能體在構(gòu)建答案時能夠?qū)W⒂谧钕嚓P(guān)的事實。
  • 答案推理:利用這個精煉的知識 H′t ,智能體接著進行結(jié)構(gòu)化推理,以推斷出問題的候選答案。然后,它會檢查推理步驟,并判斷所有的主張是否都在歷史記錄中有充分的依據(jù)。如果智能體確定答案推理中的所有主張都有檢索到的證據(jù)支持,它就會將答案作為最終動作輸出。否則,它會識別出未經(jīng)驗證的主張,即那些根據(jù)現(xiàn)有證據(jù)缺乏充分理由的陳述。
  • 搜索查詢生成:未經(jīng)驗證的主張作為生成下一個搜索查詢的基礎(chǔ),這個查詢專門用于檢索缺失的信息。從這個查詢中檢索到的文檔隨后會被添加到 Ht 中,推理過程會反復(fù)迭代,直到所有主張都得到驗證,或者檢索預(yù)算用盡。

實驗結(jié)果

  • 過程監(jiān)督方法的比較:下表展示了使用 Llama-3.1–8B-Instruct 實現(xiàn)的各種智能體,以及它們在 RAG-Gym 中使用不同過程監(jiān)督方法進行微調(diào)后的性能。與零樣本學習(ZSL)基線相比,過程監(jiān)督在所有智能體上都一致地提高了性能,證明了其在增強中間推理和查詢生成方面的有效性。在三種過程監(jiān)督算法中,PRM 總體上取得了最好的結(jié)果,比 ZSL 基線的平均 F1 得分高出 25.6%(ReAct)。

    一文讀懂 RAG-Gym:用過程監(jiān)督優(yōu)化推理與搜索智能體-AI.x社區(qū)

  • ReSearch 與其他智能體的比較:結(jié)果還表明,在零樣本學習設(shè)置和有過程監(jiān)督的設(shè)置中,ReSearch 始終優(yōu)于其他智能體。在未經(jīng)調(diào)優(yōu)的情況下,ReSearch 就實現(xiàn)了很強的零樣本性能,證明了明確地將答案推理與查詢生成對齊的有效性。使用過程獎勵模型后,ReSearch 達到了最先進的性能,在不同數(shù)據(jù)集上的平均 EM 得分達到 54.31%,平均 F1 得分達到 62.41%。
  • 獎勵模型的可遷移性:下圖突出顯示了使用基于 Llama-3.1–8B 的過程獎勵模型的 GPT-4o-mini 的 ReSearch 智能體的性能提升。使用獎勵模型進行動作選擇在所有任務(wù)中都帶來了一致的收益,證明了 PRM 在不同大語言模型中有效選擇高質(zhì)量動作的可遷移性。

一文讀懂 RAG-Gym:用過程監(jiān)督優(yōu)化推理與搜索智能體-AI.x社區(qū)

分析

  • 不同獎勵來源的比較:四位領(lǐng)域?qū)<覍?200 個 MedQA 問題進行了注釋。在其余 800 個用 GPT-4o 注釋的訓(xùn)練問題上訓(xùn)練了一個獎勵模型,并將其偏好與領(lǐng)域?qū)<业钠眠M行了比較。下表顯示了領(lǐng)域?qū)<移门c不同來源獎勵估計之間的一致性。使用 GPT-4o 注釋訓(xùn)練的獎勵模型與人類偏好的一致性最高(85.85%),顯著優(yōu)于 Math-Shepherd 中引入的基于滾動的方法(71.03%)。這表明在這種情況下,GPT-4o 注釋與人類推理和決策緊密對齊。

一文讀懂 RAG-Gym:用過程監(jiān)督優(yōu)化推理與搜索智能體-AI.x社區(qū)

  • 訓(xùn)練時間縮放:下圖展示了使用在不同數(shù)量訓(xùn)練樣本上微調(diào)的過程獎勵模型的 ReSearch 智能體的性能。結(jié)果表明,ReSearch 的性能隨著訓(xùn)練樣本數(shù)量的增加而提高,但隨著樣本量的增長,收益趨于收斂。

一文讀懂 RAG-Gym:用過程監(jiān)督優(yōu)化推理與搜索智能體-AI.x社區(qū)

  • 推理時間縮放:以 ReSearch 為測試智能體,下圖展示了我們的推理時間縮放研究結(jié)果。在多個基準測試中觀察到一致的趨勢,即增加采樣動作的數(shù)量通常會提高性能。

一文讀懂 RAG-Gym:用過程監(jiān)督優(yōu)化推理與搜索智能體-AI.x社區(qū)

研究結(jié)論

本文介紹了 RAG-Gym,這是一個通過過程監(jiān)督優(yōu)化推理和搜索智能體的框架,并引入了 ReSearch,這是一種將答案推理與搜索查詢生成統(tǒng)一起來的智能體架構(gòu)。實驗表明,RAG-Gym 在知識密集型任務(wù)上改進了搜索智能體,ReSearch 始終優(yōu)于基線模型。研究還證明了使用大語言模型作為過程獎勵評判的有效性、訓(xùn)練后的獎勵模型在不同大語言模型上的可遷移性,以及 ReSearch 在訓(xùn)練和推理過程中的縮放模式。

本文轉(zhuǎn)載自 ??柏企科技圈??,作者:柏企

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦