ReSearch: 突破性強(qiáng)化學(xué)習(xí)框架實現(xiàn)大模型推理搜索能力無縫整合
引言:大模型推理與搜索的融合挑戰(zhàn)
隨著OpenAI-o1和DeepSeek-R1等模型的出現(xiàn),大型語言模型(LLMs)在推理能力上取得了顯著突破。然而,將復(fù)雜推理與外部搜索過程有效整合仍然面臨重大挑戰(zhàn),尤其是在處理需要多步檢索的復(fù)雜多跳問題時。傳統(tǒng)方法往往依賴手動設(shè)計的提示或啟發(fā)式規(guī)則,這在可擴(kuò)展性和靈活性方面存在明顯局限。更重要的是,為多步推理場景生成監(jiān)督數(shù)據(jù)通常成本高昂且在實踐中難以實現(xiàn)。
百川科技、同濟(jì)大學(xué)、愛丁堡大學(xué)和浙江大學(xué)的研究團(tuán)隊近期提出了一種突破性解決方案——ReSearch框架。這一創(chuàng)新框架通過強(qiáng)化學(xué)習(xí)訓(xùn)練大語言模型將推理與搜索無縫整合,其獨特之處在于完全不依賴推理步驟的監(jiān)督數(shù)據(jù)。本文將深入探討ReSearch的核心原理、技術(shù)實現(xiàn)以及其在多跳問答任務(wù)中的卓越表現(xiàn)。
ReSearch的核心方法論
ReSearch的核心創(chuàng)新在于將搜索操作視為推理鏈的有機(jī)組成部分。在這一框架中,何時以及如何執(zhí)行搜索由模型基于文本的思考過程自主決定,而搜索結(jié)果又會反過來影響后續(xù)的推理過程。這種雙向互動機(jī)制使模型能夠在處理復(fù)雜問題時靈活地利用外部知識。
從技術(shù)角度看,ReSearch采用了結(jié)構(gòu)化的輸出格式,通過在推理鏈中嵌入特定標(biāo)簽(如<think>、<search>、<result>和<answer>)來實現(xiàn)模型與外部檢索環(huán)境之間的清晰通信。這些標(biāo)簽不僅系統(tǒng)地組織了生成的輸出,還為模型提供了明確的行動框架。
群體相對策略優(yōu)化(GRPO)
ReSearch采用了群體相對策略優(yōu)化(Group Relative Policy Optimization, GRPO)作為其強(qiáng)化學(xué)習(xí)的核心技術(shù)。這一技術(shù)使模型能夠自主識別執(zhí)行搜索操作的最佳時機(jī)和策略,從而優(yōu)化整體推理過程。值得注意的是,在訓(xùn)練過程中,ReSearch有意將檢索結(jié)果排除在損失計算之外,以防止模型產(chǎn)生偏差。
指導(dǎo)強(qiáng)化學(xué)習(xí)過程的獎勵信號基于兩個簡單而有效的標(biāo)準(zhǔn):
- 通過F1分?jǐn)?shù)評估的準(zhǔn)確度
- 對預(yù)定義結(jié)構(gòu)化輸出格式的遵守程度
這種設(shè)計巧妙地鼓勵模型自主發(fā)展復(fù)雜的推理模式,同時避免了對手動注釋推理數(shù)據(jù)集的依賴。
技術(shù)實現(xiàn)細(xì)節(jié)
ReSearch的實現(xiàn)基于多個開源框架和工具,包括:
- verl作為強(qiáng)化學(xué)習(xí)的基礎(chǔ)框架
- FlashRAG用于評估和檢索
- FastAPI用于檢索器服務(wù)
- SGLang用于模型服務(wù)
- Qwen2.5作為基礎(chǔ)模型
檢索器服務(wù)架構(gòu)
在模型訓(xùn)練和評估過程中,搜索操作被設(shè)計為在部署和推理過程中執(zhí)行。實際上,研究團(tuán)隊通過FlashRAG和FastAPI托管檢索器服務(wù),將搜索操作標(biāo)準(zhǔn)化為API調(diào)用。這種設(shè)計將搜索操作與強(qiáng)化學(xué)習(xí)過程解耦,使訓(xùn)練和評估更加清晰靈活。
數(shù)據(jù)準(zhǔn)備與訓(xùn)練流程
ReSearch在MuSiQue的訓(xùn)練集上進(jìn)行訓(xùn)練,并在HotpotQA、2WikiMultiHopQA、MuSiQue和Bamboogle的開發(fā)集上進(jìn)行評估。訓(xùn)練流程包括以下關(guān)鍵步驟:
- 數(shù)據(jù)準(zhǔn)備將MuSiQue數(shù)據(jù)集解析為parquet格式
- 檢索器服務(wù)啟動配置并啟動基于FlashRAG的檢索服務(wù)
- 模型訓(xùn)練使用定制版的verl框架進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練
- 評估通過SGLang服務(wù)部署模型并使用FlashRAG進(jìn)行標(biāo)準(zhǔn)評測
對于不同類型的基礎(chǔ)模型,ReSearch提供了靈活的配置選項:
- 對于預(yù)訓(xùn)練模型:使用--apply_chat False和--prompt_template_name re_search_template
- 對于指令調(diào)整模型:使用--apply_chat True和--prompt_template_name re_search_template_sys
實驗評估與性能表現(xiàn)
實驗評估充分證明了ReSearch的穩(wěn)健性和有效性。在多跳問答基準(zhǔn)測試中,包括HotpotQA、2WikiMultiHopQA、MuSiQue和Bamboogle,ReSearch始終優(yōu)于基線方法。具體而言,ReSearch-Qwen-32B-Instruct相比既定基線實現(xiàn)了8.9%至22.4%的性能提升。
值得注意的是,這些顯著進(jìn)步是在模型僅在單一數(shù)據(jù)集上訓(xùn)練的情況下實現(xiàn)的,這凸顯了ReSearch框架強(qiáng)大的泛化能力。進(jìn)一步分析表明,模型在整個訓(xùn)練過程中逐漸增加了對迭代搜索操作的依賴,這表明其推理能力得到了持續(xù)提升。
案例研究:自我反思與糾正能力
詳細(xì)的案例研究展示了ReSearch模型令人印象深刻的能力:
- 識別次優(yōu)搜索查詢
- 反思其推理步驟
- 自主實施糾正措施
這種自我反思和糾正能力使ReSearch在復(fù)雜、現(xiàn)實的應(yīng)用場景中表現(xiàn)出色,為解決實際問題提供了強(qiáng)大工具。
技術(shù)實現(xiàn)與代碼示例
ReSearch的開源實現(xiàn)提供了完整的訓(xùn)練和評估流程。以下是啟動檢索服務(wù)的示例代碼::
cd scripts/serving
python retriever_serving.py \
--config retriever_config.yaml \
--num_retriever {num_retriever} \
--port {port}
對于模型訓(xùn)練,可以使用以下命令:
cd scripts/train
bash train.sh \
--train_batch_size 8 \
--ppo_mini_batch_size 8 \
--apply_chat True \
--prompt_template_name re_search_template_sys \
--actor_model_path {model/path/to/qwen2.5-7b-instruct} \
--search_url {your-hosted-retriever-url} \
--project_name {wandb-project-name} \
--experiment_name {wandb-experiment-name} \
--nnodes 1 \
--n_gpus_per_node 4 \
--save_freq 5 \
--test_freq 5 \
--total_epochs 2 \
--wandb_api_key {your-wandb-api-key} \
--save_path {path/to/save} \
--train_files {path/to/train/parquet/data} \
--test_files {path/to/test/parquet/data}
評估模型性能的示例代碼:
cd scripts/evaluation
python run_eval.py \
--config_path eval_config.yaml \
--method_name research \
--data_dir {root/path/to/evaluation/data} \
--dataset_name bamboogle \
--split test \
--save_dir {your-save-dir} \
--save_note research_qwen7b_ins
--sgl_remote_url {your-launched-sgl-url} \
--remote_retriever_url {your-hosted-retriever-url} \
--generator_model {your-local-model-path} \
--apply_chat True
完整的代碼實現(xiàn)和詳細(xì)文檔可在GitHub上找到:https://github.com/Agent-RL/ReSearch
ReSearch的理論意義與實踐價值
ReSearch框架在理論和實踐層面都具有重要意義。從理論角度看,它提供了一種新穎的方法,通過強(qiáng)化學(xué)習(xí)將推理與外部搜索機(jī)制無縫整合,而無需依賴監(jiān)督推理數(shù)據(jù)。這一突破性方法有效解決了多跳推理場景中固有的可擴(kuò)展性和適應(yīng)性問題。
從實踐角度看,ReSearch的自我反思和糾正能力大大增強(qiáng)了其在復(fù)雜、現(xiàn)實環(huán)境中的適用性。這使得它成為解決需要多步推理和外部知識檢索的實際問題的強(qiáng)大工具。
與現(xiàn)有方法的比較
與依賴手動設(shè)計提示或啟發(fā)式規(guī)則的傳統(tǒng)方法相比,ReSearch提供了以下顯著優(yōu)勢:
- 自主學(xué)習(xí)能力模型能夠自主學(xué)習(xí)何時以及如何執(zhí)行搜索操作,無需人工干預(yù)
- 靈活性能夠適應(yīng)各種復(fù)雜的多跳問題,不受預(yù)定義規(guī)則的限制
- 可擴(kuò)展性無需為每個新任務(wù)或領(lǐng)域創(chuàng)建專門的監(jiān)督數(shù)據(jù)
- 反思與糾正具備識別錯誤并自主糾正的能力
這些優(yōu)勢使ReSearch在處理復(fù)雜推理任務(wù)時表現(xiàn)出明顯的優(yōu)越性,特別是在需要多步檢索和推理的場景中。
未來研究方向
盡管ReSearch已經(jīng)取得了顯著成果,但仍有多個值得探索的未來研究方向:
- 擴(kuò)展應(yīng)用領(lǐng)域?qū)eSearch框架應(yīng)用于更廣泛的任務(wù),如科學(xué)研究、醫(yī)療診斷和法律分析等
- 整合多樣化知識源探索將更多類型的外部知識資源整合到推理過程中
- 優(yōu)化強(qiáng)化學(xué)習(xí)策略進(jìn)一步改進(jìn)獎勵機(jī)制和訓(xùn)練策略,提高模型性能
- 多模態(tài)擴(kuò)展將ReSearch的原理擴(kuò)展到處理圖像、視頻等多模態(tài)數(shù)據(jù)
- 效率優(yōu)化提高搜索和推理過程的計算效率,使其更適合實時應(yīng)用
結(jié)論
ReSearch代表了大語言模型推理能力發(fā)展的重要里程碑。通過創(chuàng)新性地將強(qiáng)化學(xué)習(xí)應(yīng)用于訓(xùn)練模型整合推理與搜索能力,而無需監(jiān)督推理數(shù)據(jù),ReSearch為解決復(fù)雜多跳問題提供了一種高效、靈活的方法。實驗結(jié)果表明,這一方法在多個基準(zhǔn)測試中均優(yōu)于現(xiàn)有方法,展示了其強(qiáng)大的泛化能力和實用價值。
隨著研究的深入和技術(shù)的進(jìn)一步發(fā)展,ReSearch有望在更廣泛的應(yīng)用領(lǐng)域發(fā)揮重要作用,為人工智能系統(tǒng)處理復(fù)雜推理任務(wù)提供新的可能性。這一框架不僅推動了大語言模型技術(shù)的進(jìn)步,也為未來的研究提供了寶貴的啟示和方向。
論文:??https://arxiv.org/abs/2503.19470??
GitHub:https://github.com/Agent-RL/ReSearch
本文轉(zhuǎn)載自??頓數(shù)AI??,作者:小頓
