DyPRAG:即插即用動(dòng)態(tài)將上下文轉(zhuǎn)化為參數(shù)知識(shí),有效緩解RAG幻覺(jué) 原創(chuàng)
來(lái)自fans投稿,提出動(dòng)態(tài)參數(shù)化RAG,即插即用無(wú)縫和RAG結(jié)合,減少RAG幻覺(jué)的發(fā)生,來(lái)看看具體思路。
檢索增強(qiáng)生成(RAG)通過(guò)從外部源檢索相關(guān)文檔并將其合并到上下文中來(lái)增強(qiáng)大語(yǔ)言模型(LLMs)。雖然它通過(guò)提供事實(shí)文本提高了可靠性,但隨著上下文長(zhǎng)度的增長(zhǎng),顯著增加了推理成本,并引入了具有挑戰(zhàn)性的RAG幻覺(jué)問(wèn)題,這主要是由于LLM中缺乏相應(yīng)的參數(shù)知識(shí)造成的。
參數(shù)化RAG (PRAG)通過(guò)離線訓(xùn)練將文檔嵌入大模型參數(shù)有效地降低推理成本。然而其高昂的訓(xùn)練和存儲(chǔ)成本以及有限的泛化能力,極大地限制了其實(shí)際應(yīng)用。
我們提出動(dòng)態(tài)參數(shù)化RAG,在推理時(shí)將文檔知識(shí)動(dòng)態(tài)轉(zhuǎn)化為模型參數(shù)知識(shí),能有效補(bǔ)充相應(yīng)知識(shí)。并且能即插即用無(wú)縫和RAG結(jié)合,提升模型知識(shí)內(nèi)化水平同時(shí)減少RAG幻覺(jué)的發(fā)生。
論文:Better wit than wealth: Dynamic Parametric Retrieval Augmented Generation for Test-time Knowledge Enhancement
鏈接:https://arxiv.org/pdf/2503.23895
項(xiàng)目:https://github.com/Trae1ounG/DyPRAG
方法
檢索增強(qiáng)生成(RAG)
參數(shù)化RAG(PRAG)
然而,PRAG的訓(xùn)練成本較高,且難以適應(yīng)新文檔。因此,我們提出動(dòng)態(tài)參數(shù)化RAG(DyPRAG),實(shí)現(xiàn)更高效的參數(shù)注入。
動(dòng)態(tài)參數(shù)化RAG(DyPRAG)
DyPRAG的核心思路在于訓(xùn)練一個(gè)輕量的參數(shù)轉(zhuǎn)換器來(lái)建模從文檔->參數(shù)的潛在映射,僅需要少量的訓(xùn)練數(shù)據(jù)就能有效學(xué)習(xí)到泛化性極強(qiáng)的轉(zhuǎn)換器,在推理時(shí)幾乎不會(huì)引入額外的計(jì)算開(kāi)銷且能提升模型性能,最少只需要2MB存儲(chǔ)開(kāi)銷。
DyPRAG對(duì)比RAG和PRAG
1. 文檔-參數(shù)對(duì)收集(離線)
2. 訓(xùn)練動(dòng)態(tài)參數(shù)翻譯器(離線)
MLP超網(wǎng)絡(luò)工作流程
3. 高效推理(在線)
DyPRAG整體框架圖
實(shí)驗(yàn)
分布內(nèi)QA實(shí)驗(yàn)
在多個(gè)問(wèn)答數(shù)據(jù)集上訓(xùn)練參數(shù)轉(zhuǎn)換器并進(jìn)行實(shí)驗(yàn),DyPRAG表現(xiàn)出極優(yōu)的性能:
- DyPRAG能有效注入?yún)?shù)知識(shí):對(duì)比RAG,在沒(méi)有提供任何文檔拼接到上下文的情況下,DyPRAG表現(xiàn)出明顯優(yōu)于RAG的性能同時(shí)減少了推理開(kāi)銷。
- 上下文知識(shí)+動(dòng)態(tài)生成參數(shù)知識(shí)有效促進(jìn)知識(shí)融合:DyPRAG-Combine將文檔加入上下文結(jié)合動(dòng)態(tài)生成參數(shù)知識(shí),在所有情況下取得最好效果,有效促進(jìn)了模型知識(shí)和上下文知識(shí)的融合。
分布內(nèi)主實(shí)驗(yàn)
分布外QA實(shí)驗(yàn)
DyPRAG能有效轉(zhuǎn)換分布外的文檔到參數(shù)知識(shí),在補(bǔ)充參數(shù)知識(shí)后始終可以作為相比RAG更強(qiáng)更魯棒的基線。
分布外數(shù)據(jù)集實(shí)現(xiàn)
為什么DyPRAG能減少RAG幻覺(jué)?
- RAG幻覺(jué)(或叫知識(shí)沖突)經(jīng)常由于模型內(nèi)部知識(shí)和外部提供上下文知識(shí)發(fā)生沖突導(dǎo)致發(fā)生??赡?strong>模型包含正確的參數(shù)知識(shí)但結(jié)合上下文知識(shí)報(bào)錯(cuò),也可能上下文知識(shí)正確但模型包含錯(cuò)誤參數(shù)知識(shí)導(dǎo)致模型回答錯(cuò)誤。
- DyPRAG首先動(dòng)態(tài)將檢索文檔轉(zhuǎn)換為模型參數(shù)知識(shí),提前讓模型“做足了功課”,在遇到相對(duì)應(yīng)的上下文內(nèi)容時(shí)就能極大程度避免知識(shí)沖突發(fā)生,這也是DyPRAG-Combine性能提升的直接來(lái)源,極低的開(kāi)銷使得DyPRAG有希望成為RAG幻覺(jué)的有效解決方式。
RAG幻覺(jué)示例分析
知識(shí)內(nèi)化實(shí)驗(yàn)
基于RAGTruth幻覺(jué)數(shù)據(jù)集衡量DyPRAG-Combine對(duì)知識(shí)的內(nèi)化程度(使用GPT-4o打分)。
RAGTruth中的文檔來(lái)源和訓(xùn)練時(shí)完全不同并且大模型訓(xùn)練時(shí)完全沒(méi)有見(jiàn)過(guò)——DyPRAG能有效將沒(méi)有見(jiàn)過(guò)知識(shí)進(jìn)行內(nèi)化,內(nèi)化程度顯著優(yōu)于RAG方法。
RAGTruth數(shù)據(jù)集驗(yàn)證
計(jì)算/存儲(chǔ)開(kāi)銷
通過(guò)詳細(xì)的時(shí)間復(fù)雜度計(jì)算和實(shí)際運(yùn)行時(shí)間對(duì)比,我們提出的DyPRAG能有效提升模型性能,同時(shí)減少RAG帶來(lái)的高推理開(kāi)銷以及PRAG帶來(lái)的極高訓(xùn)練和存儲(chǔ)開(kāi)銷(僅1%),更證明方法即插即用提升性能的高可用性!
實(shí)際存儲(chǔ)和訓(xùn)練開(kāi)銷
理論分析推理、存儲(chǔ)、訓(xùn)練開(kāi)銷
結(jié)論
- 我們提出動(dòng)態(tài)參數(shù)化RAG (Dynamic Parametric RAG),一個(gè)輕量級(jí)框架可以以即插即用的方式以最小的成本有效地將文檔轉(zhuǎn)換為參數(shù)。
- 我們提出了一個(gè)強(qiáng)大而實(shí)用的RAG范式:有效地將上下文知識(shí)與測(cè)試時(shí)動(dòng)態(tài)生成的參數(shù)知識(shí)結(jié)合起來(lái),實(shí)現(xiàn)更強(qiáng)大的知識(shí)融合。
- 實(shí)驗(yàn)結(jié)果表明,DyPRAG具有極優(yōu)的泛化能力,能夠有效地注入?yún)?shù)并無(wú)縫地融合上下文知識(shí),在減少RAG幻覺(jué)的同時(shí)提高了模型性能。
公眾號(hào)大模型自然語(yǔ)言處理 作者:余俊暉
