RAG圈的DeepSeek,中科院DeepRAG讓大模型帶著“思考”檢索,性能提升21.99%
將推理與RAG相結(jié)合仍面臨挑戰(zhàn),例如復(fù)雜查詢需要多步分解,且LLMs難以生成精確的子查詢,導(dǎo)致檢索效率低下。
人類思維過程與 DeepRAG 的對應(yīng)關(guān)系。具體來說,檢索敘事確保了結(jié)構(gòu)化和自適應(yīng)的檢索流程,根據(jù)之前檢索到的信息生成子查詢,并且原子決策動態(tài)地決定是否檢索外部知識,或者僅依賴于每個子查詢的參數(shù)知識。
中科院&中科大&騰訊微信AI部聯(lián)合推出最新(2025.02)DeepRAG,讓大型語言模型逐步推理檢索:
DeepRAG框架將檢索增強推理建模為馬爾可夫決策過程(MDP),通過迭代分解查詢,動態(tài)決定是否檢索外部知識或依賴參數(shù)推理。
DeepRAG 框架的概述,包括三個步驟:(1)二叉樹搜索,(2)模仿學(xué)習(xí),以及(3)校準(zhǔn)鏈。給定一個數(shù)據(jù)集,首先使用二叉樹搜索來合成模仿學(xué)習(xí)的數(shù)據(jù),使模型能夠?qū)W習(xí)檢索模式。隨后,利用二叉樹搜索構(gòu)建偏好數(shù)據(jù),以進一步校準(zhǔn) LLM 對其知識邊界的認知。
框架包含三個關(guān)鍵步驟:
- 二叉樹搜索(Binary Tree Search):為每個子查詢構(gòu)建二叉樹,探索基于參數(shù)知識或外部知識庫的不同回答策略。通過這種方式,模型不僅分解問題,還徹底檢查檢索選擇對最終答案的影響。
- 模仿學(xué)習(xí)(Imitation Learning):使用優(yōu)先隊列高效探索潛在推理軌跡,優(yōu)先考慮檢索成本較低的路徑。通過二叉樹搜索合成數(shù)據(jù),讓模型學(xué)習(xí)有效的檢索模式,并通過模仿學(xué)習(xí)提取到達正確最終答案的推理過程。
- 校準(zhǔn)鏈(Chain of Calibration):通過合成偏好數(shù)據(jù)確定何時需要檢索,并使用這些數(shù)據(jù)微調(diào)LLMs,增強其基于內(nèi)部知識邊界的原子決策能力。
MDP建模
- 狀態(tài)(States):表示對原始問題的部分解決方案。
- 動作(Actions):包括終止決策(是否繼續(xù)生成子查詢)和原子決策(是否檢索外部知識)。
- 轉(zhuǎn)移(Transitions):根據(jù)動作更新狀態(tài)。
- 獎勵(Rewards):基于答案正確性和檢索成本評估狀態(tài)。
數(shù)據(jù)集:使用五個開放域問答數(shù)據(jù)集,包括HotpotQA、2WikiMultihopQA、CAG、PopQA和WebQuestions。
基線:與多種現(xiàn)有方法進行比較,包括CoT、CoT-Retrieve、IterDRAG、UAR、FLARE、DRAGIN、TAARE和AutoRAG。
DeepRAG在所有數(shù)據(jù)集上均優(yōu)于現(xiàn)有方法,平均答案準(zhǔn)確率提高了21.99%,同時提高了檢索效率。
案例研究:Auto-RAG 與 DeepRAG 的對比。DeepRAG 通過原子級查詢分解、可靠的中間答案以及自適應(yīng)地使用內(nèi)部知識實現(xiàn)了成功。
https://arxiv.org/abs/2502.01142
DeepRAG: Thinking to Retrieval Step by Step for Large Language Models
本文轉(zhuǎn)載自??PaperAgent??
