自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Search-R1:強(qiáng)化學(xué)習(xí)增強(qiáng)大語(yǔ)言模型推理+搜索能力

發(fā)布于 2025-3-19 00:17
瀏覽
0收藏

研究背景是大語(yǔ)言模型雖然厲害,但在做復(fù)雜推理和獲取最新信息時(shí)不太給力?,F(xiàn)有的和搜索引擎結(jié)合的方法,像檢索增強(qiáng)生成和把搜索引擎當(dāng)工具用,都有各自的問(wèn)題。重要意義在于提出的SEARCH - R1框架能讓大語(yǔ)言模型在推理的時(shí)候更好地利用搜索引擎,提高解決復(fù)雜問(wèn)題的能力,而且還對(duì)相關(guān)訓(xùn)練策略有新的發(fā)現(xiàn),對(duì)大語(yǔ)言模型的發(fā)展有很大幫助。

文章針對(duì)大語(yǔ)言模型(LLMs)在復(fù)雜推理和獲取外部最新信息方面的不足,提出SEARCH - R1強(qiáng)化學(xué)習(xí)框架。該框架將搜索引擎融入大語(yǔ)言模型的推理過(guò)程,通過(guò)多輪搜索交互優(yōu)化模型輸出,采用檢索令牌掩碼穩(wěn)定訓(xùn)練,并設(shè)計(jì)簡(jiǎn)單有效的結(jié)果獎(jiǎng)勵(lì)函數(shù)。在七個(gè)問(wèn)答數(shù)據(jù)集上的實(shí)驗(yàn)顯示,與基線模型相比,SEARCH - R1使用不同大語(yǔ)言模型時(shí)性能均有顯著提升。同時(shí),文章還對(duì)強(qiáng)化學(xué)習(xí)方法、模型選擇和響應(yīng)長(zhǎng)度等方面進(jìn)行了分析,為搜索增強(qiáng)推理的強(qiáng)化學(xué)習(xí)訓(xùn)練策略提供了見(jiàn)解 。

摘要&解讀

高效獲取外部知識(shí)和最新信息對(duì)于大語(yǔ)言模型(LLMs)進(jìn)行有效的推理和文本生成至關(guān)重要。將搜索引擎視為工具的檢索增強(qiáng)和工具使用訓(xùn)練方法,缺乏復(fù)雜的多輪檢索靈活性,或者需要大規(guī)模的監(jiān)督數(shù)據(jù)。在推理過(guò)程中,促使具有推理能力的先進(jìn)大語(yǔ)言模型使用搜索引擎也并非最優(yōu)選擇,因?yàn)榇笳Z(yǔ)言模型并未學(xué)會(huì)如何以最優(yōu)方式與搜索引擎進(jìn)行交互。本文介紹了SEARCH - R1,這是DeepSeek - R1模型的擴(kuò)展,其中大語(yǔ)言模型僅通過(guò)強(qiáng)化學(xué)習(xí)(RL),在逐步推理過(guò)程中自主生成(多個(gè))搜索查詢,并進(jìn)行實(shí)時(shí)檢索。SEARCH - R1通過(guò)多輪搜索交互優(yōu)化大語(yǔ)言模型的滾動(dòng)輸出,利用檢索到的令牌掩碼來(lái)穩(wěn)定強(qiáng)化學(xué)習(xí)訓(xùn)練,并使用基于簡(jiǎn)單結(jié)果的獎(jiǎng)勵(lì)函數(shù)。在七個(gè)問(wèn)答數(shù)據(jù)集上的實(shí)驗(yàn)表明,與最先進(jìn)的基線模型相比,SEARCH - R1使性能提高了26%(Qwen2.5 - 7B)、21%(Qwen2.5 - 3B)和10%(LLaMA3.2 - 3B)。本文進(jìn)一步對(duì)強(qiáng)化學(xué)習(xí)優(yōu)化方法、大語(yǔ)言模型的選擇以及檢索增強(qiáng)推理中的響應(yīng)長(zhǎng)度動(dòng)態(tài)提供了實(shí)證見(jiàn)解。代碼和模型檢查點(diǎn)可在https://github.com/PeterGriffinJin/Search - R1獲取。

?研究背景:大語(yǔ)言模型在自然語(yǔ)言處理領(lǐng)域取得顯著成果,但在復(fù)雜推理和獲取外部最新信息方面存在不足?,F(xiàn)有整合搜索引擎的方法,如檢索增強(qiáng)生成和將搜索引擎視為工具,存在檢索不準(zhǔn)確、缺乏多輪檢索靈活性或依賴大規(guī)模監(jiān)督數(shù)據(jù)等問(wèn)題。強(qiáng)化學(xué)習(xí)雖已用于提升大語(yǔ)言模型推理能力,但在搜索與推理場(chǎng)景的應(yīng)用面臨框架和穩(wěn)定性、多輪交錯(cuò)推理和搜索、獎(jiǎng)勵(lì)設(shè)計(jì)等挑戰(zhàn)。

?創(chuàng)新貢獻(xiàn):提出SEARCH - R1強(qiáng)化學(xué)習(xí)框架,將搜索引擎建模為環(huán)境一部分,支持大語(yǔ)言模型滾動(dòng)輸出和強(qiáng)化學(xué)習(xí)優(yōu)化;引入檢索令牌掩碼穩(wěn)定訓(xùn)練,實(shí)現(xiàn)多輪交錯(cuò)推理和搜索以處理復(fù)雜任務(wù);設(shè)計(jì)簡(jiǎn)單有效的基于結(jié)果的獎(jiǎng)勵(lì)函數(shù)。實(shí)驗(yàn)證明SEARCH - R1能顯著提升大語(yǔ)言模型在復(fù)雜推理任務(wù)中的性能,且在不同基礎(chǔ)大語(yǔ)言模型上具有通用性,并對(duì)強(qiáng)化學(xué)習(xí)訓(xùn)練策略提供見(jiàn)解。

?實(shí)現(xiàn)設(shè)計(jì):

結(jié)合搜索引擎的強(qiáng)化學(xué)習(xí):基于近端策略優(yōu)化(PPO)和組相對(duì)策略優(yōu)化(GRPO),通過(guò)引入檢索交錯(cuò)推理和檢索令牌掩碼,優(yōu)化大語(yǔ)言模型在搜索與推理任務(wù)中的決策。

交錯(cuò)多輪調(diào)用搜索引擎的文本生成:大語(yǔ)言模型在文本生成和搜索引擎查詢間交替,用特定令牌標(biāo)識(shí)搜索查詢、檢索結(jié)果和推理步驟,實(shí)現(xiàn)結(jié)構(gòu)化迭代決策。

訓(xùn)練模板:設(shè)計(jì)簡(jiǎn)單模板引導(dǎo)大語(yǔ)言模型按推理、搜索、回答的結(jié)構(gòu)輸出,避免內(nèi)容偏差,保證模型學(xué)習(xí)動(dòng)態(tài)的可觀察性和無(wú)偏差性。

獎(jiǎng)勵(lì)建模:采用基于規(guī)則的結(jié)果獎(jiǎng)勵(lì)系統(tǒng),以精確字符串匹配等方式評(píng)估模型響應(yīng)正確性,避免復(fù)雜格式獎(jiǎng)勵(lì)和神經(jīng)獎(jiǎng)勵(lì)模型帶來(lái)的問(wèn)題。

?實(shí)驗(yàn)結(jié)果:在七個(gè)問(wèn)答數(shù)據(jù)集上對(duì)SEARCH - R1進(jìn)行評(píng)估,與多種基線方法對(duì)比。結(jié)果顯示,SEARCH - R1在使用Qwen2.5 - 7B、Qwen2.5 - 3B和LLaMA3.2 - 3B模型時(shí),平均相對(duì)提升分別為26%、21%和10%,在域內(nèi)和域外評(píng)估中均表現(xiàn)出色。不同強(qiáng)化學(xué)習(xí)方法中,GRPO收斂快但在部分模型上不穩(wěn)定,PPO更穩(wěn)定,二者最終獎(jiǎng)勵(lì)相當(dāng)且GRPO整體性能更優(yōu)。指令調(diào)整模型收斂更快,基礎(chǔ)模型和指令調(diào)整模型最終性能相似。對(duì)響應(yīng)長(zhǎng)度和檢索令牌損失掩碼的研究也得到相應(yīng)結(jié)論,案例研究展示了SEARCH - R1在推理和自我驗(yàn)證方面的優(yōu)勢(shì)。

1.引言

近年來(lái),大語(yǔ)言模型(LLMs)在自然語(yǔ)言理解和生成方面展現(xiàn)出了卓越的能力(Hendrycks等人,2020;Clark等人,2018)。盡管取得了這些成就,但大語(yǔ)言模型在處理復(fù)雜推理(Wei等人,2022)以及從外部來(lái)源檢索最新信息(Jin等人,2024)時(shí),常常會(huì)遇到挑戰(zhàn)。為了解決這些限制,有必要整合先進(jìn)的推理能力(Huang和Chang,2022)以及與搜索引擎有效交互的能力(Schick等人,2023)。

現(xiàn)有的將大語(yǔ)言模型與搜索引擎整合的方法通常分為兩類:(1)檢索增強(qiáng)生成(RAG)(Gao等人,2023;Lewis等人,2020)和(2)將搜索引擎視為工具(Yao等人,2023;Schick等人,2023)。檢索增強(qiáng)生成(RAG)根據(jù)輸入查詢檢索相關(guān)段落,并將其整合到大語(yǔ)言模型的上下文以進(jìn)行生成(Lewis等人,2020)。這使得大語(yǔ)言模型在回答問(wèn)題時(shí)能夠利用外部知識(shí)。然而,檢索增強(qiáng)生成(RAG)受到檢索不準(zhǔn)確的限制(Jin等人,2024),并且缺乏多輪、多查詢檢索的靈活性,而這對(duì)于復(fù)雜推理任務(wù)至關(guān)重要(Yang等人,2018)。另外,大語(yǔ)言模型可以在推理過(guò)程中被促使或訓(xùn)練去使用包括搜索引擎在內(nèi)的工具(Qu等人,2025;Trivedi等人,2022a)。然而,基于提示的方法通常在泛化方面存在困難,因?yàn)槟承┤蝿?wù)可能在大語(yǔ)言模型預(yù)訓(xùn)練期間未遇到過(guò)。另一方面,基于訓(xùn)練的方法具有更強(qiáng)的適應(yīng)性,但依賴于大規(guī)模、高質(zhì)量的搜索與推理交互的帶注釋軌跡,這使得它們難以有效擴(kuò)展(Schick等人,2023)。

強(qiáng)化學(xué)習(xí)(RL)(Sutton等人,1999;Kaelbling等人,1996)已成為增強(qiáng)大語(yǔ)言模型推理能力的有力范式(Guo等人,2025;Hou等人,2025;Xie等人,2025;Kumar等人,2024)。值得注意的是,像OpenAI - o1(Jaech等人,2024)和DeepSeek - R1(Guo等人,2025)這樣的模型已經(jīng)利用強(qiáng)化學(xué)習(xí)技術(shù)(例如近端策略優(yōu)化(PPO)(Schulman等人,2017)和組相對(duì)策略優(yōu)化(GRPO)(Shao等人,2024)),通過(guò)從經(jīng)驗(yàn)和反饋中學(xué)習(xí)來(lái)提高邏輯推理和問(wèn)題解決能力。經(jīng)過(guò)強(qiáng)化學(xué)習(xí)后,即使僅在結(jié)果獎(jiǎng)勵(lì)上進(jìn)行訓(xùn)練,模型也能學(xué)習(xí)到復(fù)雜的推理能力,包括自我驗(yàn)證(Weng等人,2022)和自我修正(Kumar等人,2024)。

然而,將強(qiáng)化學(xué)習(xí)應(yīng)用于搜索與推理場(chǎng)景存在三個(gè)關(guān)鍵挑戰(zhàn):(1)強(qiáng)化學(xué)習(xí)框架和穩(wěn)定性——目前尚不清楚如何在確保穩(wěn)定優(yōu)化的同時(shí),有效地將搜索引擎整合到大語(yǔ)言模型強(qiáng)化學(xué)習(xí)框架中,特別是在整合檢索到的上下文時(shí)。(2)多輪交錯(cuò)推理和搜索——理想情況下,大語(yǔ)言模型應(yīng)該能夠進(jìn)行迭代推理和調(diào)用搜索引擎,根據(jù)問(wèn)題的復(fù)雜性動(dòng)態(tài)調(diào)整其檢索策略。(3)獎(jiǎng)勵(lì)設(shè)計(jì)——為搜索與推理任務(wù)設(shè)計(jì)一個(gè)有效的獎(jiǎng)勵(lì)函數(shù)并非易事,因?yàn)閭鹘y(tǒng)的獎(jiǎng)勵(lì)公式可能無(wú)法很好地適用于這一新范式。

為了解決這些挑戰(zhàn),我們引入了SEARCH - R1,這是一種新穎的強(qiáng)化學(xué)習(xí)框架,使大語(yǔ)言模型能夠在自身推理過(guò)程中與搜索引擎進(jìn)行交錯(cuò)交互。具體而言,SEARCH - R1引入了以下關(guān)鍵創(chuàng)新:(1)我們將搜索引擎建模為環(huán)境的一部分,實(shí)現(xiàn)了將大語(yǔ)言模型令牌生成與搜索引擎檢索交錯(cuò)進(jìn)行的滾動(dòng)輸出序列。SEARCH - R1與各種強(qiáng)化學(xué)習(xí)算法兼容,包括近端策略優(yōu)化(PPO)和組相對(duì)策略優(yōu)化(GRPO),并且我們應(yīng)用檢索到的令牌掩碼來(lái)確保穩(wěn)定的優(yōu)化。(2)SEARCH - R1支持多輪檢索和推理,其中搜索調(diào)用由??<search>???和??</search>???令牌明確觸發(fā)。檢索到的內(nèi)容包含在??<information>???和??</information>???令牌內(nèi),而大語(yǔ)言模型的推理步驟則包含在??<think>???和??</think>???令牌內(nèi)。最終答案使用??<answer>???和??</answer>??令牌進(jìn)行格式化,從而實(shí)現(xiàn)結(jié)構(gòu)化的迭代決策。(3)我們采用簡(jiǎn)單的基于結(jié)果的獎(jiǎng)勵(lì)函數(shù),避免了基于過(guò)程的獎(jiǎng)勵(lì)的復(fù)雜性。我們的結(jié)果表明,這種極簡(jiǎn)的獎(jiǎng)勵(lì)設(shè)計(jì)在搜索與推理場(chǎng)景中是有效的。SEARCH - R1可以看作是DeepSeek - R1(Guo等人,2025)的擴(kuò)展,后者主要側(cè)重于參數(shù)推理,而SEARCH - R1通過(guò)引入搜索增強(qiáng)的強(qiáng)化學(xué)習(xí)訓(xùn)練,來(lái)增強(qiáng)檢索驅(qū)動(dòng)的決策能力??傊覀兊闹饕暙I(xiàn)有三點(diǎn):

  • ? 我們明確了將強(qiáng)化學(xué)習(xí)應(yīng)用于大語(yǔ)言模型調(diào)用搜索引擎進(jìn)行推理時(shí)所面臨的挑戰(zhàn)。
  • ? 我們提出了SEARCH - R1,這是一種新穎的強(qiáng)化學(xué)習(xí)框架,支持大語(yǔ)言模型的滾動(dòng)輸出和與搜索引擎的強(qiáng)化學(xué)習(xí)優(yōu)化,包括使用檢索到的令牌掩碼來(lái)穩(wěn)定強(qiáng)化學(xué)習(xí)訓(xùn)練、多輪交錯(cuò)推理和搜索以支持復(fù)雜任務(wù)的解決,以及一個(gè)簡(jiǎn)單而有效的結(jié)果獎(jiǎng)勵(lì)函數(shù)。
  • ? 我們進(jìn)行了系統(tǒng)的實(shí)驗(yàn),證明了SEARCH - R1的有效性,在使用三種大語(yǔ)言模型時(shí),相較于最先進(jìn)的基線模型,平均相對(duì)提升分別為26%、21%和10%。此外,我們對(duì)用于推理和搜索設(shè)置的強(qiáng)化學(xué)習(xí)提供了見(jiàn)解,包括強(qiáng)化學(xué)習(xí)方法的選擇、不同大語(yǔ)言模型的選擇以及響應(yīng)長(zhǎng)度的研究。

2.相關(guān)工作

2.1 大語(yǔ)言模型與檢索

盡管大語(yǔ)言模型(LLMs)(Zhao等人,2023;團(tuán)隊(duì),2024;Achiam等人,2023)已展示出卓越的推理(Guo等人,2025)和編碼(Guo等人,2024)能力,但它們?nèi)匀蝗狈μ囟I(lǐng)域的知識(shí)(Peng等人,2023;Li等人,2023),并且容易產(chǎn)生幻覺(jué)(Zhang等人,2023)。為了解決這些限制,搜索引擎(Zhao等人,2024)被廣泛用于提供外部信息。將搜索引擎與大語(yǔ)言模型整合主要有兩種方式:(1)檢索增強(qiáng)生成(RAG)(Gao等人,2023)和(2)將搜索引擎視為工具(Schick等人,2023)。檢索增強(qiáng)生成(RAG)(Lewis等人,2020;Yue等人,2024;Xiong等人,2025)通常遵循一輪檢索和順序生成的流程,搜索引擎根據(jù)輸入查詢獲取相關(guān)信息,然后將其與查詢連接并輸入到大語(yǔ)言模型中。然而,這種流程存在諸如檢索到不相關(guān)信息(Jin等人,2024)以及無(wú)法提供足夠有用的上下文(Jiang等人,2023)等問(wèn)題。另一種方法是將搜索作為工具,即促使或微調(diào)大語(yǔ)言模型與搜索引擎進(jìn)行交互。IRCoT(Trivedi等人,2022a)和ReAct(Yao等人,2023)使用提示來(lái)指導(dǎo)迭代推理和搜索引擎調(diào)用,而Toolformer(Schick等人,2023)則利用監(jiān)督微調(diào)來(lái)增強(qiáng)搜索能力。然而,這些方法依賴于高質(zhì)量的帶標(biāo)簽軌跡,難以擴(kuò)展。最近的研究(Guo等人,2025)表明,強(qiáng)化學(xué)習(xí)可以使大語(yǔ)言模型僅使用結(jié)果獎(jiǎng)勵(lì)就開發(fā)出先進(jìn)的推理技能,但其在調(diào)用搜索引擎場(chǎng)景中的潛力仍有待探索。

2.2 大語(yǔ)言模型與強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)(RL)(Kaelbling等人,1996)是一種學(xué)習(xí)范式,智能體通過(guò)與環(huán)境交互并以獎(jiǎng)勵(lì)的形式接收反饋來(lái)學(xué)習(xí)進(jìn)行順序決策,旨在最大化隨時(shí)間累積的獎(jiǎng)勵(lì)(Sutton等人,1999)。Ouyang等人(2022)通過(guò)人類反饋強(qiáng)化學(xué)習(xí)(RLHF)(Kaufmann等人,2023)將強(qiáng)化學(xué)習(xí)引入大語(yǔ)言模型的微調(diào)。這種方法首先使用人類偏好數(shù)據(jù)訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型(Lambert等人,2024),然后通常通過(guò)近端策略優(yōu)化(PPO)算法指導(dǎo)基于強(qiáng)化學(xué)習(xí)的策略大語(yǔ)言模型的微調(diào)。然而,近端策略優(yōu)化(PPO)涉及多輪大語(yǔ)言模型優(yōu)化,實(shí)施起來(lái)具有挑戰(zhàn)性。為了簡(jiǎn)化基于強(qiáng)化學(xué)習(xí)的微調(diào),已經(jīng)提出了直接優(yōu)化方法,如直接偏好優(yōu)化(DPO)(Rafailov等人,2023)和SimPO(Meng等人,2024)。雖然這些方法提供了計(jì)算效率,但它們存在離策略問(wèn)題(Pang等人,2024),并且性能并不總是能與純強(qiáng)化學(xué)習(xí)方法相媲美。其他替代解決方案包括組相對(duì)策略優(yōu)化(GRPO)(Shao等人,2024),它通過(guò)從組分?jǐn)?shù)估計(jì)基線來(lái)消除對(duì)評(píng)論家模型的需求,以及RLOO(Ahmadian等人,2024),它引入了一種簡(jiǎn)化的REINFORCE風(fēng)格(Williams,1992)優(yōu)化框架。盡管取得了這些進(jìn)展,但強(qiáng)化學(xué)習(xí)在大語(yǔ)言模型驅(qū)動(dòng)的搜索引擎交互和推理中的應(yīng)用在很大程度上仍未得到探索。

3.Search-R1

在以下部分,我們將介紹SEARCH - R1的詳細(xì)設(shè)計(jì),包括:(1)結(jié)合搜索引擎的強(qiáng)化學(xué)習(xí);(2)交錯(cuò)多輪調(diào)用搜索引擎的文本生成;(3)訓(xùn)練模板;(4)獎(jiǎng)勵(lì)模型設(shè)計(jì)。

Search-R1:強(qiáng)化學(xué)習(xí)增強(qiáng)大語(yǔ)言模型推理+搜索能力-AI.x社區(qū)

3.1 結(jié)合搜索引擎的強(qiáng)化學(xué)習(xí)

Search-R1:強(qiáng)化學(xué)習(xí)增強(qiáng)大語(yǔ)言模型推理+搜索能力-AI.x社區(qū)

我們的方法基于兩種成熟的策略梯度強(qiáng)化學(xué)習(xí)方法:近端策略優(yōu)化(PPO)(Schulman等人,2017)和組相對(duì)策略優(yōu)化(GRPO)(Shao等人,2024;Guo等人,2025),利用它們各自的優(yōu)勢(shì)來(lái)優(yōu)化檢索增強(qiáng)推理。

檢索令牌的損失掩碼

在近端策略優(yōu)化(PPO)和組相對(duì)策略優(yōu)化(GRPO)中,令牌級(jí)損失是在整個(gè)滾動(dòng)輸出序列上計(jì)算的。在SEARCH - R1中,滾動(dòng)輸出序列既包含大語(yǔ)言模型生成的令牌,也包含從外部文本中檢索到的令牌。雖然優(yōu)化大語(yǔ)言模型生成的令牌可以增強(qiáng)模型與搜索引擎交互和進(jìn)行推理的能力,但對(duì)檢索到的令牌應(yīng)用相同的優(yōu)化可能會(huì)導(dǎo)致意外的學(xué)習(xí)動(dòng)態(tài)。為了解決這個(gè)問(wèn)題,我們引入了檢索令牌的損失掩碼,確保策略梯度目標(biāo)僅在大語(yǔ)言模型生成的令牌上計(jì)算,同時(shí)將檢索到的內(nèi)容排除在優(yōu)化過(guò)程之外。這種方法在保持搜索增強(qiáng)生成靈活性的同時(shí),穩(wěn)定了訓(xùn)練。

PPO+搜索引擎

近端策略優(yōu)化(PPO)(Schulman等人,2017)是一種流行的演員 - 評(píng)論家強(qiáng)化學(xué)習(xí)算法,通常用于在強(qiáng)化學(xué)習(xí)階段對(duì)大語(yǔ)言模型(LLMs)進(jìn)行微調(diào)(Ouyang等人,2022)。在我們的推理加搜索引擎調(diào)用場(chǎng)景中,它通過(guò)最大化以下目標(biāo)來(lái)優(yōu)化大語(yǔ)言模型:

Search-R1:強(qiáng)化學(xué)習(xí)增強(qiáng)大語(yǔ)言模型推理+搜索能力-AI.x社區(qū)

3.2 交錯(cuò)多輪調(diào)用搜索引擎的文本生成

Search-R1:強(qiáng)化學(xué)習(xí)增強(qiáng)大語(yǔ)言模型推理+搜索能力-AI.x社區(qū)

我們的方法遵循迭代框架,大語(yǔ)言模型在文本生成和外部搜索引擎查詢之間交替進(jìn)行。具體來(lái)說(shuō),每當(dāng)需要外部檢索時(shí),系統(tǒng)指令會(huì)引導(dǎo)大語(yǔ)言模型在兩個(gè)指定的搜索調(diào)用令牌??<search>???和??</search>???之間封裝其搜索查詢。系統(tǒng)在生成的序列中檢測(cè)到這些令牌后,會(huì)提取搜索查詢,查詢搜索引擎,并檢索相關(guān)結(jié)果。檢索到的信息隨后被封裝在特殊的檢索令牌??<information>???和??</information>???內(nèi),并附加到正在進(jìn)行的展開序列中,作為下一個(gè)生成步驟的額外上下文。這個(gè)過(guò)程會(huì)迭代繼續(xù),直到滿足以下條件之一:(1)搜索引擎調(diào)用預(yù)算耗盡;(2)模型生成最終響應(yīng),該響應(yīng)被封裝在指定的答案令牌??<answer>???和??</answer>??之間。完整的工作流程如算法1所示。

Search-R1:強(qiáng)化學(xué)習(xí)增強(qiáng)大語(yǔ)言模型推理+搜索能力-AI.x社區(qū)

3.3 訓(xùn)練模板

為了訓(xùn)練SEARCH - R1,我們首先創(chuàng)建一個(gè)簡(jiǎn)單的模板,指導(dǎo)初始大語(yǔ)言模型遵循我們預(yù)定義的指令。如表1所示,這個(gè)模板以迭代的方式將模型的輸出結(jié)構(gòu)化為三個(gè)部分:首先是推理過(guò)程,然后是搜索引擎調(diào)用函數(shù),最后是答案。我們特意將約束限制在這種結(jié)構(gòu)格式上,避免任何特定內(nèi)容的偏差,例如強(qiáng)制進(jìn)行反思性推理和搜索引擎調(diào)用,或者支持特定的問(wèn)題解決方法。這確保了在強(qiáng)化學(xué)習(xí)過(guò)程中,模型的自然學(xué)習(xí)動(dòng)態(tài)保持可觀察且無(wú)偏差。

Search-R1:強(qiáng)化學(xué)習(xí)增強(qiáng)大語(yǔ)言模型推理+搜索能力-AI.x社區(qū)

回答給定的問(wèn)題。每次獲得新信息時(shí),你必須首先在??<think>???和??</think>???內(nèi)進(jìn)行推理。推理之后,如果你發(fā)現(xiàn)自己缺少某些知識(shí),可以通過(guò)??<search>查詢</search>???調(diào)用搜索引擎,它將在??<information>???和??</information>???之間返回搜索到的頂級(jí)結(jié)果。你可以根據(jù)需要多次進(jìn)行搜索。如果你認(rèn)為不再需要外部知識(shí),可以直接在??<answer>???和??</answer>???內(nèi)給出答案,無(wú)需詳細(xì)說(shuō)明。例如,??<answer>北京</answer>??。問(wèn)題:[具體問(wèn)題]

表1:SEARCH - R1的模板。在訓(xùn)練和推理過(guò)程中,“問(wèn)題”將被具體問(wèn)題替換。

3.4 獎(jiǎng)勵(lì)建模

獎(jiǎng)勵(lì)函數(shù)是強(qiáng)化學(xué)習(xí)中指導(dǎo)優(yōu)化過(guò)程的主要訓(xùn)練信號(hào)。為了訓(xùn)練SEARCH - R1,我們采用基于規(guī)則的獎(jiǎng)勵(lì)系統(tǒng),該系統(tǒng)僅由最終結(jié)果獎(jiǎng)勵(lì)組成,用于評(píng)估模型響應(yīng)的正確性。例如,在事實(shí)推理任務(wù)中,可以使用基于規(guī)則的標(biāo)準(zhǔn)(如精確字符串匹配)來(lái)評(píng)估正確性。其中是從響應(yīng)中提取的最終答案,是真實(shí)答案。與Guo等人(2025)不同,我們不納入格式獎(jiǎng)勵(lì),因?yàn)槲覀冇?xùn)練的模型已經(jīng)表現(xiàn)出很強(qiáng)的結(jié)構(gòu)遵循性。我們將更復(fù)雜格式獎(jiǎng)勵(lì)的探索留作未來(lái)工作。此外,我們有意避免訓(xùn)練用于結(jié)果或過(guò)程評(píng)估的神經(jīng)獎(jiǎng)勵(lì)模型,這與Guo等人(2025)的做法一致。做出這一決定的原因是,在大規(guī)模強(qiáng)化學(xué)習(xí)中,神經(jīng)獎(jiǎng)勵(lì)模型容易受到獎(jiǎng)勵(lì)作弊的影響,同時(shí)重新訓(xùn)練這些模型會(huì)帶來(lái)額外的計(jì)算成本和復(fù)雜性。

4 主要結(jié)果

4.1 數(shù)據(jù)集

我們?cè)谄邆€(gè)基準(zhǔn)數(shù)據(jù)集上評(píng)估SEARCH - R1,這些數(shù)據(jù)集分類如下:

?通用問(wèn)答:自然問(wèn)題(NQ)(Kwiatkowski等人,2019)、瑣事問(wèn)答(TriviaQA)(Joshi等人,2017)和流行文化問(wèn)答(PopQA)(Mallen等人,2022)。

?多跳問(wèn)答:火鍋問(wèn)答(HotpotQA)(Yang等人,2018)、2維基多跳問(wèn)答(2WikiMultiHopQA)(Ho等人,2020)、音樂(lè)問(wèn)答(Musique)(Trivedi等人,2022b)和Bamboogle(Press等人,2022)。

這些數(shù)據(jù)集涵蓋了各種搜索與推理挑戰(zhàn),能夠在單輪和多跳檢索場(chǎng)景中全面評(píng)估SEARCH - R1。

4.2 基線

為了評(píng)估SEARCH - R1的有效性,我們將其與以下基線方法進(jìn)行比較:

?無(wú)檢索推理:直接推理和思維鏈(CoT)推理(Wei等人,2022)。

?有檢索推理:檢索增強(qiáng)生成(RAG)(Lewis等人,2020)、IRCoT(Trivedi等人,2022a)和Search - o1(Li等人,2025)。

?基于微調(diào)的方法:監(jiān)督微調(diào)(SFT)(Chung等人,2024)和基于強(qiáng)化學(xué)習(xí)但不使用搜索引擎的微調(diào)(R1)(Guo等人,2025)。

這些基線涵蓋了廣泛的檢索增強(qiáng)和微調(diào)方法,能夠在零樣本和學(xué)習(xí)檢索設(shè)置中全面評(píng)估SEARCH - R1。為了在不同方法之間進(jìn)行公平比較,我們使用相同的檢索器、知識(shí)語(yǔ)料庫(kù)、訓(xùn)練數(shù)據(jù)和大語(yǔ)言模型。更多細(xì)節(jié)見(jiàn)4.3節(jié)。

4.3 實(shí)驗(yàn)設(shè)置

我們使用三種類型的模型進(jìn)行實(shí)驗(yàn):Qwen - 2.5 - 3B(基礎(chǔ)/指令)和Qwen - 2.5 - 7B(基礎(chǔ)/指令)(Yang等人,2024),以及Llama - 3.2 - 3B(基礎(chǔ)/指令)(Dubey等人,2024)。對(duì)于檢索,我們使用2018年的維基百科轉(zhuǎn)儲(chǔ)(Karpukhin等人,2020)作為知識(shí)源,并使用E5(Wang等人,2022)作為檢索器。為確保公平比較,我們遵循Lin等人(2023)的方法,將所有基于檢索的方法中檢索到的段落數(shù)量設(shè)置為三個(gè)。

在訓(xùn)練方面,我們將自然問(wèn)題(NQ)和火鍋問(wèn)答(HotpotQA)的訓(xùn)練集合并,為SEARCH - R1和其他基于微調(diào)的基線方法形成一個(gè)統(tǒng)一的數(shù)據(jù)集。在所有七個(gè)數(shù)據(jù)集的測(cè)試集或驗(yàn)證集上進(jìn)行評(píng)估,以評(píng)估域內(nèi)和域外性能。遵循Yu等人(2024)的方法,使用精確匹配(EM)作為評(píng)估指標(biāo)。對(duì)于推理風(fēng)格的基線方法,我們使用指令模型,因?yàn)榛A(chǔ)模型無(wú)法遵循指令。對(duì)于強(qiáng)化學(xué)習(xí)微調(diào)方法,在基礎(chǔ)模型和指令模型上都進(jìn)行實(shí)驗(yàn)。

在SEARCH - R1訓(xùn)練中,近端策略優(yōu)化(PPO)訓(xùn)練時(shí),策略大語(yǔ)言模型的學(xué)習(xí)率設(shè)置為,價(jià)值大語(yǔ)言模型的學(xué)習(xí)率設(shè)置為。廣義優(yōu)勢(shì)估計(jì)(GAE)參數(shù),。在組相對(duì)策略優(yōu)化(GRPO)訓(xùn)練中,策略大語(yǔ)言模型的學(xué)習(xí)率設(shè)置為,每個(gè)提示采樣五個(gè)響應(yīng)。我們使用精確匹配(EM)計(jì)算結(jié)果獎(jiǎng)勵(lì)。除非另有說(shuō)明,近端策略優(yōu)化(PPO)作為默認(rèn)的強(qiáng)化學(xué)習(xí)方法,5.1節(jié)將提供近端策略優(yōu)化(PPO)和組相對(duì)策略優(yōu)化(GRPO)之間的詳細(xì)比較。

4.4 性能

Search-R1:強(qiáng)化學(xué)習(xí)增強(qiáng)大語(yǔ)言模型推理+搜索能力-AI.x社區(qū)

表2展示了在七個(gè)數(shù)據(jù)集上SEARCH - R1與基線方法比較的主要結(jié)果。從結(jié)果中,我們得出以下關(guān)鍵觀察:

? SEARCH - R1始終優(yōu)于強(qiáng)大的基線方法。使用Qwen2.5 - 7B、Qwen2.5 - 3B和LLaMA3.2 - 3B時(shí),我們分別實(shí)現(xiàn)了26%、21%和10%的平均相對(duì)提升。這些提升在分布內(nèi)評(píng)估(即自然問(wèn)題(NQ)和火鍋問(wèn)答(HotpotQA))和分布外評(píng)估(即瑣事問(wèn)答(TriviaQA)、流行文化問(wèn)答(PopQA)、2維基多跳問(wèn)答(2WikiMultiHopQA)、音樂(lè)問(wèn)答(Musique)和Bamboogle)中均成立。

? SEARCH - R1優(yōu)于不進(jìn)行檢索的大語(yǔ)言模型推理的強(qiáng)化學(xué)習(xí)訓(xùn)練方法(R1)(Guo等人,2025)。這符合預(yù)期,因?yàn)閷⑺阉骷{入大語(yǔ)言模型推理可以獲取相關(guān)的外部知識(shí),從而提高整體性能。

? SEARCH - R1對(duì)基礎(chǔ)模型和指令調(diào)整后的模型均有效。這表明,基于結(jié)果獎(jiǎng)勵(lì)的DeepSeek - R1 - Zero風(fēng)格強(qiáng)化學(xué)習(xí)(Guo等人,2025)可以成功應(yīng)用于結(jié)合搜索的推理,擴(kuò)展了其先前在純推理場(chǎng)景中已證實(shí)的有效性。

? SEARCH - R1在不同的基礎(chǔ)大語(yǔ)言模型(包括Qwen2.5和LLaMA3.2)上具有通用性。這與數(shù)學(xué)推理中強(qiáng)化學(xué)習(xí)的研究結(jié)果形成對(duì)比,在數(shù)學(xué)推理中,強(qiáng)化學(xué)習(xí)僅對(duì)某些基礎(chǔ)大語(yǔ)言模型有效(Zeng等人,2025)。我們的結(jié)果表明,搜索增強(qiáng)的強(qiáng)化學(xué)習(xí)在不同模型系列中具有更廣泛的適用性。

5 分析

5.1 不同的強(qiáng)化學(xué)習(xí)方法:PPO與GRPO

Search-R1:強(qiáng)化學(xué)習(xí)增強(qiáng)大語(yǔ)言模型推理+搜索能力-AI.x社區(qū)

我們使用近端策略優(yōu)化(PPO)和組相對(duì)策略優(yōu)化(GRPO)作為基礎(chǔ)強(qiáng)化學(xué)習(xí)方法對(duì)SEARCH - R1進(jìn)行評(píng)估,并在LLaMA3.2 - 3B和Qwen2.5 - 3B模型上進(jìn)行實(shí)驗(yàn)。圖2展示了訓(xùn)練動(dòng)態(tài)的比較,揭示了以下見(jiàn)解:

? GRPO在所有情況下都比PPO收斂得更快。這是因?yàn)镻PO依賴于評(píng)論家模型,該模型在有效訓(xùn)練開始前需要幾個(gè)熱身步驟。

? PPO表現(xiàn)出更高的訓(xùn)練穩(wěn)定性。如圖2(b)所示,當(dāng)應(yīng)用于LLaMA3.2 - 3B - Instruct模型時(shí),GRPO導(dǎo)致獎(jiǎng)勵(lì)崩潰,而PPO在不同的大語(yǔ)言模型架構(gòu)中保持穩(wěn)定。

? PPO和GRPO的最終訓(xùn)練獎(jiǎng)勵(lì)相當(dāng)。盡管收斂速度和穩(wěn)定性存在差異,但兩種方法都實(shí)現(xiàn)了相似的最終獎(jiǎng)勵(lì)值,表明它們都可用于優(yōu)化SEARCH - R1。

Search-R1:強(qiáng)化學(xué)習(xí)增強(qiáng)大語(yǔ)言模型推理+搜索能力-AI.x社區(qū)

評(píng)估結(jié)果如表3所示,揭示了以下關(guān)鍵發(fā)現(xiàn):

? GRPO通常優(yōu)于PPO。在Qwen2.5 - 3B和LLaMA3.2 - 3B上,GRPO均取得了更高的平均性能,證明了其在優(yōu)化檢索增強(qiáng)推理方面的有效性。

? 指令變體的表現(xiàn)優(yōu)于基礎(chǔ)變體。對(duì)于Qwen2.5 - 3B,SEARCH - R1 - Instruct(GRPO)實(shí)現(xiàn)了最高的總體平均得分(0.365),優(yōu)于所有其他配置。對(duì)于LLaMA3.2 - 3B,表現(xiàn)最佳的變體是SEARCH - R1 - Base(GRPO),平均得分0.324,緊隨其后的是SEARCH - R1 - Instruct(PPO),平均得分0.322。

5.2 基礎(chǔ)大語(yǔ)言模型與指令調(diào)整后的大語(yǔ)言模型

我們分析了SEARCH - R1在基礎(chǔ)大語(yǔ)言模型和指令調(diào)整后的大語(yǔ)言模型上的訓(xùn)練動(dòng)態(tài)。在三個(gè)模型變體(LLaMA3.2 - 3B、Qwen2.5 - 3B和Qwen2.5 - 7B)上進(jìn)行實(shí)驗(yàn)。如圖3所示,我們觀察到指令調(diào)整后的模型比基礎(chǔ)模型收斂得更快,并且初始性能更高。然而,經(jīng)過(guò)訓(xùn)練后,兩種模型類型的最終性能仍然非常相似。這一發(fā)現(xiàn)表明,雖然一般的訓(xùn)練后調(diào)整在推理加搜索場(chǎng)景中加速了學(xué)習(xí),但隨著時(shí)間的推移,強(qiáng)化學(xué)習(xí)可以有效地彌合差距,使基礎(chǔ)模型能夠達(dá)到可比的性能。

Search-R1:強(qiáng)化學(xué)習(xí)增強(qiáng)大語(yǔ)言模型推理+搜索能力-AI.x社區(qū)

5.3 響應(yīng)長(zhǎng)度研究

我們使用帶有LLaMA3.2 - 3b - base模型的SEARCH - R1進(jìn)行實(shí)驗(yàn),在自然問(wèn)題(NQ)上進(jìn)行訓(xùn)練,以分析訓(xùn)練過(guò)程中訓(xùn)練獎(jiǎng)勵(lì)和響應(yīng)長(zhǎng)度的動(dòng)態(tài)變化。結(jié)果如圖4(a)所示,揭示了以下關(guān)鍵趨勢(shì):

Search-R1:強(qiáng)化學(xué)習(xí)增強(qiáng)大語(yǔ)言模型推理+搜索能力-AI.x社區(qū)

?早期階段(前100步):響應(yīng)長(zhǎng)度急劇下降,而訓(xùn)練獎(jiǎng)勵(lì)略有增加。在此階段,基礎(chǔ)模型學(xué)習(xí)消除過(guò)多的填充詞,并開始適應(yīng)任務(wù)要求。

?中期階段(100 - 130步):響應(yīng)長(zhǎng)度和訓(xùn)練獎(jiǎng)勵(lì)都顯著增加。此時(shí),大語(yǔ)言模型學(xué)會(huì)調(diào)用搜索引擎,由于檢索到的段落,響應(yīng)變長(zhǎng)。隨著模型更有效地利用搜索結(jié)果,訓(xùn)練獎(jiǎng)勵(lì)大幅提高。

?后期階段(130步之后):響應(yīng)長(zhǎng)度穩(wěn)定下來(lái),訓(xùn)練獎(jiǎng)勵(lì)繼續(xù)略有增加。在此階段,模型已經(jīng)學(xué)會(huì)有效地使用搜索引擎,并專注于優(yōu)化其搜索查詢。鑒于自然問(wèn)題(NQ)是一個(gè)相對(duì)簡(jiǎn)單的任務(wù),響應(yīng)長(zhǎng)度穩(wěn)定在大約500個(gè)令牌左右,表明模型收斂。

5.4 檢索令牌損失掩碼的研究

在3.1節(jié)中,我們引入了檢索令牌的令牌級(jí)損失掩碼,以防止意外的優(yōu)化行為。在這里,我們通過(guò)分析其對(duì)訓(xùn)練穩(wěn)定性和模型性能的影響,實(shí)證評(píng)估其有效性。

我們?cè)贚LaMA3.2 - 3b - base模型上進(jìn)行實(shí)驗(yàn),比較有無(wú)檢索令牌損失掩碼的訓(xùn)練動(dòng)態(tài)。如圖4(b)所示,應(yīng)用檢索令牌掩碼使大語(yǔ)言模型有更大的改進(jìn),減輕了意外的優(yōu)化影響,并確保了更穩(wěn)定的訓(xùn)練動(dòng)態(tài)。

Search-R1:強(qiáng)化學(xué)習(xí)增強(qiáng)大語(yǔ)言模型推理+搜索能力-AI.x社區(qū)

表4提供了性能比較,表明使用檢索令牌損失掩碼訓(xùn)練的SEARCH - R1始終優(yōu)于未使用掩碼的變體。

5.5 案例研究

為了更深入地了解SEARCH - R1,我們使用Qwen2.5 - 7B - Base進(jìn)行案例研究,將其行為與不使用搜索引擎的強(qiáng)化學(xué)習(xí)(Guo等人,2025)進(jìn)行比較。結(jié)果如表5所示,揭示了以下關(guān)鍵觀察:

Search-R1:強(qiáng)化學(xué)習(xí)增強(qiáng)大語(yǔ)言模型推理+搜索能力-AI.x社區(qū)

?交錯(cuò)推理和檢索增強(qiáng)問(wèn)題分析:SEARCH - R1使大語(yǔ)言模型能夠通過(guò)多輪檢索進(jìn)行深入推理,而不使用搜索的強(qiáng)化學(xué)習(xí)僅依賴模型的內(nèi)部知識(shí)。通過(guò)整合檢索到的段落,SEARCH - R1允許大語(yǔ)言模型迭代優(yōu)化其推理,從而得出更明智、更準(zhǔn)確的響應(yīng)。

?通過(guò)迭代檢索進(jìn)行自我驗(yàn)證:我們觀察到,在第二輪檢索后,大語(yǔ)言模型已經(jīng)收集了足夠的信息來(lái)回答問(wèn)題。然而,SEARCH - R1執(zhí)行了額外的檢索步驟來(lái)自我驗(yàn)證其結(jié)論,進(jìn)一步增強(qiáng)了其對(duì)最終響應(yīng)的信心。這一現(xiàn)象與不使用檢索的大語(yǔ)言模型推理強(qiáng)化學(xué)習(xí)的發(fā)現(xiàn)一致(Guo等人,2025),突出了即使在搜索增強(qiáng)的設(shè)置中,強(qiáng)化學(xué)習(xí)也可以鼓勵(lì)基于驗(yàn)證的推理。

6 結(jié)論

在這項(xiàng)工作中,我們引入了SEARCH - R1,這是一種新穎的強(qiáng)化學(xué)習(xí)框架,使大語(yǔ)言模型(LLMs)能夠?qū)⒆晕彝评砼c實(shí)時(shí)搜索引擎交互交錯(cuò)進(jìn)行。與現(xiàn)有的檢索增強(qiáng)生成(RAG)方法不同,SEARCH - R1通過(guò)強(qiáng)化學(xué)習(xí)優(yōu)化大語(yǔ)言模型的滾動(dòng)輸出,允許自主查詢生成和對(duì)檢索信息的策略性利用,而檢索增強(qiáng)生成(RAG)方法缺乏多輪檢索的靈活性,工具使用方法則需要大規(guī)模的監(jiān)督訓(xùn)練數(shù)據(jù)。通過(guò)在七個(gè)數(shù)據(jù)集上的廣泛實(shí)驗(yàn),我們證明了SEARCH - R1顯著增強(qiáng)了大語(yǔ)言模型處理需要實(shí)時(shí)外部知識(shí)的復(fù)雜推理任務(wù)的能力。我們的分析還為搜索增強(qiáng)推理的強(qiáng)化學(xué)習(xí)訓(xùn)練策略提供了關(guān)鍵見(jiàn)解。展望未來(lái),未來(lái)的工作可以探索擴(kuò)展SEARCH - R1以支持更廣泛的搜索策略,包括更復(fù)雜的獎(jiǎng)勵(lì)機(jī)制、基于不確定性的動(dòng)態(tài)檢索調(diào)整,以及與網(wǎng)絡(luò)搜索之外的各種信息源的集成。研究其在多模態(tài)推理任務(wù)中的適用性也很有前景。

本文轉(zhuǎn)載自旺知識(shí),作者:旺知識(shí)

已于2025-3-19 09:51:29修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦