PathRAG:通過(guò)圖剪枝的方法優(yōu)化Graph-based RAG的性能方法淺析 原創(chuàng)
PathRAG 也是一種新型 Graph-based RAG 方法,通過(guò)檢索索引圖中的關(guān)鍵關(guān)系路徑,減少噪聲并優(yōu)化 LLM 提示。其核心創(chuàng)新在于基于流的剪枝算法和路徑為基礎(chǔ)的提示策略,特別適用于捕捉復(fù)雜數(shù)據(jù)集中的關(guān)系。(其實(shí)可以看做相比GraphRAG假如剪枝算法和路徑提示策略,減少噪聲并提升性能)
三種Graph-based RAG對(duì)比總結(jié)(PathRAG、GraphRAG、LightRAG):
? PathRAG:通過(guò)從索引圖中檢索關(guān)鍵的關(guān)系路徑來(lái)減少冗余信息。PathRAG使用基于流的剪枝算法來(lái)識(shí)別和提取最相關(guān)的路徑,從而減少噪聲并提高生成答案的質(zhì)量。(專注于關(guān)系路徑的檢索,通過(guò)流式剪枝算法識(shí)別最可靠的關(guān)系路徑,并將這些路徑轉(zhuǎn)換為文本形式用于提示生成模型。這種方法能夠更好地捕捉節(jié)點(diǎn)之間的關(guān)系。)
? GraphRAG:通常通過(guò)社區(qū)檢測(cè)算法對(duì)圖進(jìn)行分割,并從子社區(qū)中逐步聚合信息。這種方法可能會(huì)包含大量冗余信息,因?yàn)槠涫褂昧怂邢嚓P(guān)社區(qū)的信息。(主要依賴于社區(qū)檢測(cè)和信息聚合,可能無(wú)法有效利用復(fù)雜的關(guān)系路徑。)
? LightRAG:采用雙階段檢索框架,從局部和全局級(jí)別檢索相關(guān)信息。雖然這種方法提高了檢索效率,但仍然可能包含不必要的信息。(雖然也使用圖結(jié)構(gòu),但其檢索過(guò)程更側(cè)重于快速檢索,可能沒(méi)有深入探索關(guān)系路徑的潛力。)
下面再來(lái)看看PathRAG的方法,供參考。
PathRAG方法
包含三個(gè)主要階段。1)節(jié)點(diǎn)檢索階段:根據(jù)查詢中的關(guān)鍵詞,從索引圖中檢索相關(guān)節(jié)點(diǎn);2)路徑檢索階段:我們?cè)O(shè)計(jì)了一種基于流程的剪枝算法,提取每對(duì)檢索節(jié)點(diǎn)之間的關(guān)鍵關(guān)系路徑,然后檢索可靠性得分最高的路徑;3)答案生成階段:檢索到的路徑按照可靠性得分升序排列放入提示中,最后輸入到大型語(yǔ)言模型中進(jìn)行答案生成。
PathRAG 的方法論分為三個(gè)階段,具體如下:
- 節(jié)點(diǎn)檢索
- 路徑檢索
- 答案生成
這種排序策略解決了“中間丟失”問(wèn)題,確保 LLM 關(guān)注最相關(guān)信息(LLM使用 “GPT-4o-mini” 作為所有 LLM 組件,索引圖與 GraphRAG相同。)。
實(shí)驗(yàn)結(jié)果
參考文獻(xiàn):PathRAG: Pruning Graph-based Retrieval Augmented Generation with Relational Paths,https://arXiv.org/abs/2502.14902)
code:https://github.com/BUPT-GAMMA/PathRAG
公眾號(hào)大模型自然語(yǔ)言處理 作者:余俊暉
原文鏈接:??https://mp.weixin.qq.com/s/AuYQB-gofBpN7D_jS32efQ??
