Search-R1:讓大模型學會“檢索+推理”的新范式
今天分享一篇伊利諾伊大學的文章,標題為:Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning(Search-R1:利用強化學習訓練LLM進行推理并利用搜索引擎)。
這篇文章是關于如何訓練大型語言模型(LLMs)有效地利用搜索引擎來增強其推理和文本生成能力。論文提出了一個名為SEARCH-R1的框架,該框架僅僅通過強化學習(RL)讓LLM學習如何在逐步推理過程中自主生成搜索查詢并與實時檢索交互。
該方法特點總結如下:1)使用檢索token mask技術穩(wěn)定RL訓練,2)支持多輪交錯推理和搜索,以支持復雜的任務解決,3)設計了一個簡單而有效的基于結果的獎勵函數。通過在七個問答數據集上的實驗,SEARCH-R1在三個LLM上實現了相對于SOTA基線的顯著性能提升。
主要特點:
1.將搜索引擎建模為環(huán)境的一部分: SEARCH-R1將搜索引擎建模為環(huán)境的一部分,實現了LLM token生成與搜索引擎檢索的交錯序列。
2.支持多輪檢索和推理: SEARCH-R1 支持由 ??<search>?
?? 和 ??</search>?
?? 標簽觸發(fā)的顯示搜索,檢索到的內容位于 ??<information>?
?? 和 ??</information>?
? 標簽內。
3.簡單的獎勵函數: 采用直接的基于結果的獎勵函數,避免了復雜的基于過程的獎勵。
一、概述
?Title:Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning
?URL:?? https://arxiv.org/abs/2503.09516v1??
?Authors:Bowen Jin, Hansi Zeng, Zhenrui Yue, Dong Wang, Hamed Zamani, Jiawei Han
?Institutions:University of Illinois at Urbana-Champaign, University of Massachusetts Amherst
?Code:?? https://github.com/PeterGriffinJin/Search-R1??
1.Motivation
? 大型語言模型(LLMs)在復雜推理和從外部來源檢索最新信息方面面臨挑戰(zhàn)(LLM非常吃外部的檢索知識)。
? 現有的LLM與搜索引擎集成方法缺乏復雜的多輪檢索靈活性或需要大規(guī)模的監(jiān)督數據。
? 提示工程方法在推理時利用LLM來使用搜索引擎并不理想,因為LLM沒有學會如何以最佳方式與搜索引擎交互。
? 總結:?(將DeepSeek R1的強化學習方法用于Search鏈路還沒人做過!!!)
2.Methods
SEARCH-R1通過強化學習讓LLM在推理時與搜索進行交互。 將搜索作為環(huán)境的一部分,采用 multi-turn 檢索,并用簡單的 outcome-based reward。 在多個問答數據集上效果顯著。
詳細方法和步驟:
論文提出了一種新的強化學習框架SEARCH-R1,使LLM能夠以交錯的方式與搜索引擎進行交互。具體步驟如下:
- 將搜索引擎建模為環(huán)境的一部分:SEARCH-R1將搜索引起作為環(huán)境的一部分, 讓模型與環(huán)境交互,從而得到 reward。
- 支持多輪檢索和推理:SEARCH-R1通過特定的標簽(?
?<search>?
??,??</search>?
??,??<information>?
??,??</information>?
??,??<think>?
??,??</think>?
??,??<answer>?
??,??</answer>?
?)來支持多輪檢索和推理。 - 采用 retrieved token masking:為了穩(wěn)定優(yōu)化,SEARCH-R1采用 retrieved token masking, 只對LLM生成的 token 進行優(yōu)化,檢索的內容不參與優(yōu)化。
- 優(yōu)化算法兼容性:SEARCH-R1 與各種 RL 算法兼容,包括 PPO 和 GRPO。
- 簡單結果獎勵函數:避免復雜的基于過程的獎勵, 采用簡單的基于結果的獎勵函數(字符串匹配作為reward!!!)。
3.Conclusion
? SEARCH-R1在七個問答數據集上實現了顯著的性能提升,平均相對提升達到26%(Qwen2.5-7B)、21%(Qwen2.5-3B)和10%(LLaMA3.2-3B)。
? SEARCH-R1可以成功應用于基礎模型和指令調整模型,并且在不同的LLM架構中具有通用性。
? 論文還深入分析了RL訓練策略,包括RL方法選擇、LLM選擇和響應長度動態(tài),為未來研究提供了有價值的見解。
4.Limitation
?獎勵機制的設計相對簡單,僅依賴于最終結果的評估,可能無法充分捕捉到中間推理步驟的質量。
? 動態(tài)檢索調整,基于不確定性的動態(tài)檢索調整,需要進一步探索。
二、詳細內容
1.SEARCH-R1 在多個數據集上始終優(yōu)于baseline,包括 Qwen2.5-7B、Qwen2.5-3B 和 LLaMA3.2-3B
2.不同RL方法在不同基座模型上的影響
說明:展示了在四個 LLM 上使用 PPO 和 GRPO 作為基礎 RL 方法訓練 SEARCH-R1 的動態(tài)過程。
總結1:GRPO 通常收斂速度更快,但在某些情況下可能表現出不穩(wěn)定性,而 PPO 提供了更穩(wěn)定的優(yōu)化,但收斂速度較慢。
總結2:GRPO 在訓練 LLAMA3.2-3B-Instruct 模型時出現了獎勵崩潰現象,而 PPO 在不同的 LLM 架構中保持穩(wěn)定。
3.SEARCH-R1 在base model和instruct model的表現對比
總結1:指令模型收斂速度更快,并且初始性能更好,但兩種模型的最終性能非常相似。
總結2:Instruction Tuning 加速了學習過程,但最終性能與基礎模型相當。
4.檢索token損失mask對效果提升非常大
image-20250318151512229
總結1:(a) 響應長度在整個訓練過程中呈現先減少、后增加、再穩(wěn)定的趨勢,與 LLM 的整體性能軌跡一致。
總結2:(b) 展示了檢索到的 token 損失遮蔽研究,檢索 token 損失遮蔽可以帶來更大的 LLM 效果提升,減輕發(fā)生意外的優(yōu)化效果,并確保更穩(wěn)定的訓練動態(tài)。
5.在七個不同數據集上使用 PPO 和 GRPO 的 SEARCH-R1 的性能對比
總結1:GRPO 通常優(yōu)于 PPO,并且指令model優(yōu)于base model。
總結2:Qwen2.5-3B 的最佳配置是 SEARCH-R1-Instruct (GRPO),平均得分為 0.365。LLaMA3.2-3B 的最佳配置是 SEARCH-R1-Base (GRPO),平均得分為 0.324。
6.Case Study: Search-R1能持續(xù)與真實數據進行交互
三、總結
結論1: SEARCH-R1 顯著提升了LLM在需要實時外部知識的復雜推理任務中的能力。 通過強化學習,LLM可以自主生成查詢并有效利用檢索到的信息,優(yōu)于傳統(tǒng)的RAG方法。
結論2: SEARCH-R1在不同LLM架構和訓練方法上具有廣泛的適用性。 實驗結果表明,無論使用基礎模型還是指令調整模型,SEARCH-R1都能帶來顯著的性能提升,且對不同的RL算法(如PPO和GRPO)具有兼容性。
結論3: SEARCH-R1有很強的實用價值。 SEARCH-R1能夠顯著提高LLM在需要實時外部知識的復雜推理任務中的能力。 可以用于智能問答,智能助手等領域。
本文轉載自??NLP PaperWeekly??,作者:NLP PaperWeekly
