RARE:通過檢索增強推理增強打造一個媲美GPT4的RAG系統(tǒng) 精華
1. 為什么要提出 RARE?
問答(QA,Question Answering)系統(tǒng)的目的以自然語言提出的問題生成答案,其涵蓋的領(lǐng)域和類型極為廣泛,從開放領(lǐng)域的 QA到更為專業(yè)的領(lǐng)域,比如醫(yī)療QA。
醫(yī)療 QA 要求模型能夠掌握復雜的醫(yī)學知識、解讀臨床場景,并選出正確且符合上下文的選項。
和多數(shù)專業(yè)領(lǐng)域的 QA 類似,醫(yī)療 QA 也需要結(jié)構(gòu)化的多步驟推理,從一系列連續(xù)的步驟中推理出答案。比如,依據(jù)患者信息給出恰當?shù)某跏贾委煼桨?,模型首先要識別患者的狀況,接著分析相關(guān)因素并診斷疾病,最后確定合適的基于證據(jù)的干預措施。如果沒有這種結(jié)構(gòu)化的多步驟推理,面對如此復雜的醫(yī)療場景,很難得出準確且與上下文緊密相關(guān)的答案。
此外,醫(yī)療 QA 存在一些顯著區(qū)別于其他領(lǐng)域 QA 的問題:
?高度依賴特定領(lǐng)域的知識,而這些知識并非總能在預訓練模型中獲取,因此需要從外部來源依據(jù)事實進行檢索。比如涉及特定醫(yī)學術(shù)語,像射血分數(shù)降低的心力衰竭(HFrEF)這類問題。而且,醫(yī)學知識更新迅速,新的治療方法或最新的指南可能未被納入模型的預訓練語料庫。例如,較新的藥物(如用于 HFrEF 的 SGLT2 抑制劑)可能在近期的指南中被推薦,卻在較舊的預訓練模型中缺失。
?包含各式各樣的問題類型,不僅有前面提及的多步驟推理和基于事實的檢索,還包括需要迭代證據(jù)檢索的問題,在整個過程中都要求在每個推理步驟檢索相關(guān)知識以確保準確性和相關(guān)性。
2. 什么是RARE框架?
2.1 RARE 框架概覽
針對上述問題,作者提出了檢索增強推理增強(RARE,Retrieval-Augmented Reasoning Enhancement)。
RARE基于現(xiàn)有的 rStar,其中語言模型生成推理步驟,另一個進行驗證,在無需微調(diào)或使用高級模型的情況下提升準確性。為生成有效的多步驟推理路徑,RARE 涵蓋了五種類型的動作來提示語言模型生成下一個推理步驟。
圖片
什么是rStar?
Self-play muTuAl Reasoning (rStar) 是一種自我博弈的相互推理方法,顯著提高了小型語言模型(SLMs)的推理能力,而無需微調(diào)或依賴更高級的模型。rStar將推理過程分解為自我博弈的生成-鑒別過程(如上圖)。
?自我生成(Self-play Mutual Generation):首先,目標SLM(小型語言模型)通過蒙特卡洛樹搜索(Monte Carlo Tree Search,MCTS)增強,并引入一系列類似人類的推理行為來構(gòu)建更高質(zhì)量的推理軌跡。
?相互鑒別(Mutual Discrimination):然后,另一個能力與目標SLM相似的SLM作為鑒別器,對目標SLM生成的每個推理軌跡進行驗證。相互同意的推理軌跡被認為是相互一致的,因此更有可能是正確的。
RARE的五種類型的動作包括提出一步思考、提出剩余的思考步驟、提問和回答子問題、重新回答子問題以及重新表述問題。
這些動作有助于模型探索不同的推理路徑:
? 為回答基于事實的問題,RARE 還設(shè)計了新動作:根據(jù)問題生成多個搜索查詢并檢索相關(guān)文檔。
? 為回答復合問題,添加了新動作,用于細化子問題、檢索目標信息并更新下一步。
受 rStar 的生成器-判別器結(jié)構(gòu)啟發(fā),引入了檢索增強生成器和真實性評分器,提升大型語言模型的推理準確性與事實完整性。
圖片
如上圖所示,RARE 分兩個主要階段運作。
?檢索增強生成器生成候選:檢索增強生成器基于 rStar 自生成器,融入了兩個新的檢索增強動作,能動態(tài)獲取相關(guān)外部信息。將豐富的上下文知識整合進中間推理步驟,尤其是對于復雜問題,提升了候選推理軌跡的相關(guān)性和準確性。
?檢索增強評分器進行真實性評估:取代 rStar 中的判別器,檢索增強真實性評分器會評估每個候選軌跡的事實可靠性。評分器會核實中間推理步驟與檢索到的證據(jù)是否一致,并給出反映軌跡與外部知識一致性的真實性分數(shù)。具有最高真實性分數(shù)的軌跡會被選為最終答案,優(yōu)先考慮最有事實依據(jù)的推理路徑。這種選擇確保了一致性和事實一致性,增強了響應(yīng)的可靠性。
2.2 檢索增強生成器(Retrieval-Augmented Generator)
為了借助外部知識優(yōu)化推理流程,在原本的 rStar 生成器中引入了兩個新動作,將其轉(zhuǎn)化為檢索增強型生成器,如上面兩個圖所示。
這些檢索增強動作使得生成器能夠動態(tài)融合外部信息,提升生成的推理軌跡的相關(guān)性與準確性:
圖片
? A6:搜索查詢生成與信息檢索(Search Query Generation and Information Retrieval.)。使 LLM 依據(jù)初始問題構(gòu)建搜索查詢并進行信息檢索。檢索到的文檔提供了額外的背景信息,豐富了推理軌跡,助力生成器形成更全面且與上下文相關(guān)的最終答案。
圖片
? A7:子問題檢索與重新回答(Sub-question Retrieval and Reanswering)。對通過動作 A3 生成的子問題的答案進行細化。對于每個子問題,生成器檢索特定的相關(guān)信息并用其重新回答子問題。這種方式提高了中間推理步驟的準確性,進而增強了整個推理軌跡的連貫性和事實可靠性。
憑借這些檢索增強動作,生成器能夠探索更廣闊的解決方案空間,形成既邏輯連貫又富含外部知識的推理路徑。這種向檢索增強型生成器的轉(zhuǎn)變使 RARE 能夠更出色地處理復雜、知識密集型的推理任務(wù)。
2.3 檢索增強評分器(RAFS,Retrieval-Augmented Factuality Scorer)
受搜索增強事實性評估器(SAFE)的啟發(fā):將 LLM(GPT-3.5-turbo)與谷歌搜索相結(jié)合來評估響應(yīng)的事實性,RARE 推出了檢索增強事實性評分器(RAFS)。
RAFS 對其方法進行了調(diào)整,用 LLaMA 3.1 70B 取代 GPT-3.5-turbo,用包含通用領(lǐng)域知識(維基百科)和醫(yī)學領(lǐng)域資源(PubMed、StatPearls 及醫(yī)學教科書)的語料庫索引檢索系統(tǒng)取代谷歌搜索。
圖片
為評估生成的推理路徑的事實準確性,RAFS 按照上圖所示的四個系統(tǒng)性步驟來評估每個候選軌跡。
? 拆分(Split into sentences):把每個推理軌跡分割為單獨的語句,讓 RAFS 能夠獨立核實離散推理步驟的事實準確性,增強整體評估的可靠性。
? 生成檢索查詢(Generate retrieval queries):針對每個語句,RAFS 運用 LLM 生成多個檢索查詢,旨在檢索上下文相關(guān)的證據(jù)。
? 檢索信息(Retrieve information):檢索系統(tǒng)收集與每個生成的查詢相對應(yīng)的文檔或信息。為評估每個推理步驟與外部來源的一致性提供了事實依據(jù)。
? 使用檢索到的信息進行評分(Rate using retrieved information):將每個語句與檢索到的證據(jù)進行對比,并標記為“支持”或“不支持”,依據(jù)與信息的一致性。推理路徑的總體事實性得分計算為支持陳述的比例,表明軌跡的事實可靠性。
3. 效果如何?
3.1 推理任務(wù)的性能
圖片
上圖展示了 RARE 與其他方法在三個醫(yī)療推理基準(MedQA、MedMCQA 以及 MMLU-Medical)上的表現(xiàn)。這些數(shù)據(jù)集既要求復雜的推理,又需要高度的事實準確性,因而適合用來評估 RARE 的檢索增強推理方法的成效。
結(jié)果表面,相較于基線方法(如思維鏈(CoT)、檢索增強生成(RAG)、自一致性和 rStar),RARE 能有效提升 LLaMA 模型的推理能力。
在所有模型規(guī)模(LLaMA3.2 3B、LLaMA3.1 8B 以及 LLaMA3.1 70B)中,RARE 始終優(yōu)于基線方法。
隨著模型規(guī)模的增大,性能提升愈發(fā)顯著,RARE 增強的 LLaMA3.1 70B 在多個數(shù)據(jù)集上的表現(xiàn)優(yōu)于 GPT-4。
此外,RARE 在所有基準測試中均顯著優(yōu)于其他大型模型,如 GPT-3.5、Mixtral 和 Meditron。
3.2 常識推理的表現(xiàn)
圖片
上圖展示了 RARE 與其他推理方法以及更大的語言模型在常識推理基準測試中的性能,涵蓋 StrategyQA、Commonsense QA、Social IQA 和 Physical IQA 等。
這些數(shù)據(jù)集對一系列常識推理技能進行了測試,其中 StrategyQA 所需的推理更為復雜和隱性,而其他數(shù)據(jù)集即便沒有嚴格要求,也能從先進的推理方法中獲益。
RARE 在 LLaMA3.1 8B 和 LLaMA3.1 70B 模型中始終優(yōu)于基線方法,如思維鏈、檢索增強生成、自我一致性和 rStar 等。
在 LLaMA3.1 70B 上,RARE 進一步縮小了與最先進專有模型的差距,在 StrategyQA 和 PIQA 上超越 GPT-4o Mini,表現(xiàn)與 GPT-4o 接近。
RARE 在所有基準測試中也一直優(yōu)于 Claude-3 Haiku 和 Claude-3.5 Sonnet,展現(xiàn)出其競爭優(yōu)勢。結(jié)果彰顯了 RARE 在增強常識推理方面的可擴展性和有效性,
3.3 消融研究
為評估 RARE 框架中各組件的貢獻,運用 LLaMA 3.1 8B 模型,針對來自 MedQA 數(shù)據(jù)集的 250 個樣本展開了消融研究。
圖片
上圖展示了不同配置下的準確率結(jié)果,單獨考量了檢索增強的真實性評分器以及兩個檢索增強動作(A6 和 A7)所產(chǎn)生的影響。
以準確率為 70.0%的基線(rStar)為起點,發(fā)現(xiàn)僅添加檢索增強的真實性評分器,準確率會適度提升至 70.6%,這表明真實性評分組件增強了推理的可靠性。
添加動作 A6(生成搜索查詢并檢索相關(guān)信息),準確率提升至 72.4%。
添加動作 A7(檢索子問題的信息并重新作答),準確率提高到 71.2%。
將 A6 和 A7 相結(jié)合,準確率達到 73.2%,表明這兩個檢索增強動作協(xié)同運作,通過在多個階段提供相關(guān)背景信息來強化推理過程。
最終,完整的 RARE 配置,涵蓋 rStar、兩個檢索增強動作(A6 和 A7)以及真實性評分器,準確率達到最高的 74.8%。
3. 局限性
RARE 在推理準確性和事實可靠性方面有顯著提升,但也存在一些局限,為后續(xù)研究指明了方向。
? RARE僅在諸如 LLaMA 3.1 這類開源模型上做了測試,尚未在 GPT-4 等大型專有模型上開展。原因在于 RARE 的迭代檢索與推理過程需要大量 API 調(diào)用,導致在閉源模型上評估成本過高。不過,此框架與模型無關(guān),若資源允許,可直接用于專有模型。
? RARE 旨在找出能得出正確答案的單一推理路徑,卻未必能優(yōu)化出能使魯棒性最大化的最佳或最短路徑(比如實現(xiàn)最高的模型置信度)。未來的工作可以探索設(shè)計更優(yōu)的獎勵函數(shù),以防獎勵作弊,并改進最可靠推理路徑的選取。
? 另外,盡管檢索增強的事實性評分器是依據(jù)事實準確性來評估推理路徑的,但RAFS 與人類評估之間的一致性尚未得到深入分析。而且,在醫(yī)學問答中評估推理步驟目前還沒有既定的評估指標,這對研究界來說仍是一個開放的挑戰(zhàn)。
? 最后,RARE 當下僅限于使用蒙特卡羅樹搜索來探索行動路徑。雖然有效,但這種方式未利用經(jīng)過訓練的獎勵模型來動態(tài)引導搜索過程。未來的拓展可以融入獎勵模型或其他優(yōu)化策略,進一步提升推理質(zhì)量和效率。
本文轉(zhuǎn)載自 ??大語言模型論文跟蹤??,作者:HuggingAGI
