阿里RAG新框架R4:增強檢索器-重排序-響應(yīng)器,5個知識密集任務(wù)上都超過Self-RAG等!
大型語言模型(LLMs)在生成文本時可能會產(chǎn)生錯誤信息,即“幻覺”問題。盡管檢索增強的LLMs通過檢索外部數(shù)據(jù)來減少這種幻覺,但現(xiàn)有的方法通常不考慮檢索文檔與LLMs之間的細(xì)粒度結(jié)構(gòu)語義交互,這在處理長文檔時尤其影響回答的準(zhǔn)確性。
不同的檢索增強方法范式,包括傳統(tǒng)的檢索器-響應(yīng)器方法和增強檢索器-重排序-響應(yīng)器框架。強調(diào)了學(xué)習(xí)關(guān)鍵檢索文檔的排序結(jié)構(gòu)的重要性,以幫助LLMs更好地處理與事實知識相關(guān)的用戶查詢。
為了解決這一問題,提出了一個新的大模型RAG框架R4:Reinforced Retriever-Reorder-Responder(增強檢索器-重排序-響應(yīng)器),它包含三個主要模塊:
- 檢索器(Retriever):使用Dense Passage Retriever(DPR)檢索相關(guān)文檔。
- 重排序器(Reorder):通過圖注意力學(xué)習(xí)和強化學(xué)習(xí)機制動態(tài)調(diào)整檢索文檔的順序。
- 響應(yīng)器(Responder):將查詢和調(diào)整后的文檔作為輸入,生成回答。
R4概覽。文檔順序調(diào)整:根據(jù)反饋,文檔在簇中的位置會動態(tài)調(diào)整。文檔表示增強:文檔表示會根據(jù)訓(xùn)練損失的權(quán)重梯度進(jìn)行更新(彩色查看效果最佳)。
具體過程包括:
- 文檔順序調(diào)整:利用圖注意力學(xué)習(xí)將檢索文檔動態(tài)調(diào)整到開始、中間和結(jié)束位置,以最大化回答質(zhì)量的強化獎勵。?
在R4框架內(nèi),查詢和檢索到的文檔之間異構(gòu)圖構(gòu)建過程的示意圖。
- 文檔表示增強:對于生成質(zhì)量較差的回答,通過文檔級別的梯度對抗學(xué)習(xí)來細(xì)化檢索文檔的表示。
實驗使用了3類任務(wù)5個數(shù)據(jù)集,包括生成式問答(Generative QA)、多項選擇問答(Multi-choice QA)和對話(Dialogue)任務(wù)。
- R4框架在知識密集型任務(wù)上的表現(xiàn)超過了多個強基線模型,包括REALM、ICR、REPLUG、Selfmem、SELF-RAG、FILCO和LongLLMLingua。
R4模型在公共數(shù)據(jù)集上的總體結(jié)果。T檢驗表明,R4工作改進(jìn)在統(tǒng)計上是顯著的,p值<0.05。
- R4框架對于不同的檢索器和LLMs表現(xiàn)出良好的適應(yīng)性,證明了其在不同文檔數(shù)量下的魯棒性。
- 增加檢索文檔的數(shù)量(10->15->20)可以提高模型性能,但性能提升隨著檢索文檔數(shù)量的增加而減少。
- 基線(Self-RAG、REALM等)也表現(xiàn)出對位置敏感的現(xiàn)象,即開始和結(jié)束位置比中間位置更有效。
- R4無論關(guān)鍵文檔的初始位置如何,都能展現(xiàn)出穩(wěn)定且強健的輸出。這證實了文檔的排序和優(yōu)化在本質(zhì)上增強了LLMs在RAG系統(tǒng)中處理用戶查詢的能力的觀點。
https://arxiv.org/pdf/2405.02659
R4: Reinforced Retriever-Reorder-Responder for Retrieval-Augmented Large Language Models
code:paper錄用后會發(fā)布
本文轉(zhuǎn)載自 ??PaperAgent??,作者: PaperAgent
