自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

開源:9個(gè)GraphRAG框架大一統(tǒng) 精華

發(fā)布于 2025-3-27 07:24
瀏覽
0收藏

構(gòu)建了一個(gè)涵蓋所有基于圖的 RAG 方法的統(tǒng)一框架,并從宏觀角度進(jìn)行了總結(jié)。接著,在不同類型的問(wèn)答(QA)數(shù)據(jù)集上對(duì)具有代表性的基于圖的 RAG 方法進(jìn)行了全面比較,從具體問(wèn)題到抽象問(wèn)題,深入分析了各種方法的表現(xiàn)。通過(guò)實(shí)驗(yàn)分析,不僅揭示了基于圖的 RAG 方法的有效性,還通過(guò)結(jié)合現(xiàn)有技術(shù),在具體問(wèn)答和抽象問(wèn)答任務(wù)中發(fā)現(xiàn)了優(yōu)于現(xiàn)有最優(yōu)方法的新變體。

??https://arxiv.org/pdf/2503.04338??

一、為什么需要圖檢索增強(qiáng)生成(Graph-based RAG)技術(shù)?

1.1 大語(yǔ)言模型(LLM)的局限性

盡管大語(yǔ)言模型(LLM)如 GPT-4、Qwen2.5 等在理解和生成文本方面表現(xiàn)出色,但它們?nèi)匀淮嬖凇盎糜X(jué)”問(wèn)題,即生成的內(nèi)容可能缺乏事實(shí)依據(jù)或準(zhǔn)確性。這是因?yàn)?LLM 的訓(xùn)練數(shù)據(jù)通常是靜態(tài)的,無(wú)法涵蓋所有領(lǐng)域知識(shí)或?qū)崟r(shí)更新的信息。例如,當(dāng)用戶詢問(wèn)“2024 年美國(guó)總統(tǒng)大選的結(jié)果是什么?”時(shí),LLM 可能會(huì)生成一個(gè)看似合理的答案,但該答案可能并不準(zhǔn)確,因?yàn)樗鼰o(wú)法訪問(wèn)最新的選舉數(shù)據(jù)。

1.2 檢索增強(qiáng)生成(RAG)的興起

為了彌補(bǔ)這一缺陷,檢索增強(qiáng)生成(RAG)技術(shù)應(yīng)運(yùn)而生。RAG 通過(guò)從外部知識(shí)庫(kù)中檢索相關(guān)信息,并將其與用戶查詢結(jié)合,生成更準(zhǔn)確、可靠的回答。這種方法在醫(yī)療、金融、教育等領(lǐng)域得到了廣泛應(yīng)用。例如,在醫(yī)療領(lǐng)域,RAG 可以從醫(yī)學(xué)文獻(xiàn)中檢索最新的研究結(jié)果,幫助醫(yī)生做出更準(zhǔn)確的診斷。

1.3 圖檢索增強(qiáng)生成(Graph-based RAG)的優(yōu)勢(shì)

開源:9個(gè)GraphRAG框架大一統(tǒng)-AI.x社區(qū)圖片

與傳統(tǒng)的 RAG 相比,圖檢索增強(qiáng)生成(Graph-based RAG)利用圖結(jié)構(gòu)來(lái)組織外部知識(shí),能夠更好地捕捉實(shí)體之間的語(yǔ)義關(guān)系和鏈接信息。這種基于圖的檢索方式不僅提高了檢索效率,還能生成更具上下文關(guān)聯(lián)的回答。例如,當(dāng)用戶詢問(wèn)“人工智能如何影響現(xiàn)代教育?”時(shí),Graph-based RAG 可以從知識(shí)圖中檢索出與人工智能和教育相關(guān)的實(shí)體及其關(guān)系,生成一個(gè)全面且邏輯連貫的答案。

開源:9個(gè)GraphRAG框架大一統(tǒng)-AI.x社區(qū)圖片

二、統(tǒng)一GraphRAG技術(shù)框架

2.1 圖檢索增強(qiáng)生成的核心原理

開源:9個(gè)GraphRAG框架大一統(tǒng)-AI.x社區(qū)圖片

圖檢索增強(qiáng)生成(Graph-based RAG)的核心思想是將外部知識(shí)庫(kù)構(gòu)建成圖結(jié)構(gòu),通過(guò)檢索圖中的節(jié)點(diǎn)、邊或子圖來(lái)增強(qiáng)大語(yǔ)言模型(LLM)的生成能力。與傳統(tǒng)的檢索增強(qiáng)生成(RAG)不同,圖檢索增強(qiáng)生成方法利用圖結(jié)構(gòu)來(lái)捕捉實(shí)體之間的語(yǔ)義關(guān)系和鏈接信息,從而生成更準(zhǔn)確、更可信的回答。

本篇論文中,作者提出了一種新的統(tǒng)一框架,包含四個(gè)階段:

? 圖構(gòu)建(Graph building)

? 索引構(gòu)建(Index construction)

? 算子配置(Operator configuration)

? 檢索與生成(Retrieval & generation)

該框架可覆蓋所有現(xiàn)有基于圖的RAG方法,如下圖所示。

開源:9個(gè)GraphRAG框架大一統(tǒng)-AI.x社區(qū)圖片

2.2 圖構(gòu)建:從文本到圖結(jié)構(gòu)

開源:9個(gè)GraphRAG框架大一統(tǒng)-AI.x社區(qū)圖片

在圖構(gòu)建階段,外部知識(shí)庫(kù)被分割成多個(gè)文本塊,然后通過(guò) LLM 或其他工具提取實(shí)體和關(guān)系,構(gòu)建成圖。常見的圖類型包括段落圖(Passage Graph)、樹結(jié)構(gòu)(Tree)、知識(shí)圖譜(Knowledge Graph)等。

開源:9個(gè)GraphRAG框架大一統(tǒng)-AI.x社區(qū)圖片

以段落圖為例,每個(gè)文本塊代表一個(gè)節(jié)點(diǎn),如果兩個(gè)文本塊包含相同的實(shí)體且數(shù)量超過(guò)某個(gè)閾值,則在這兩個(gè)節(jié)點(diǎn)之間建立邊。而知識(shí)圖譜則通過(guò)從每個(gè)文本塊中提取實(shí)體和關(guān)系來(lái)構(gòu)建,每個(gè)實(shí)體代表一個(gè)對(duì)象,關(guān)系則表示兩個(gè)實(shí)體之間的語(yǔ)義聯(lián)系。

例如,在構(gòu)建一個(gè)關(guān)于美國(guó)總統(tǒng)選舉的知識(shí)圖譜時(shí),節(jié)點(diǎn)可能包括“拜登”、“特朗普”等候選人,邊則可能表示“競(jìng)選對(duì)手”或“獲勝者”等關(guān)系。

2.3 索引構(gòu)建:高效檢索的基礎(chǔ)

為了支持高效的在線查詢,圖檢索增強(qiáng)生成方法通常包括索引構(gòu)建階段。索引可以存儲(chǔ)節(jié)點(diǎn)、關(guān)系或社區(qū)信息,并通過(guò)向量數(shù)據(jù)庫(kù)進(jìn)行快速檢索。常見的索引類型包括節(jié)點(diǎn)索引、關(guān)系索引和社區(qū)索引。

以節(jié)點(diǎn)索引為例,它存儲(chǔ)圖中的節(jié)點(diǎn),并通過(guò)文本編碼模型(如 BERT 或 BGE-M3)生成節(jié)點(diǎn)的嵌入向量。這些嵌入向量存儲(chǔ)在向量數(shù)據(jù)庫(kù)中,以便在查詢時(shí)快速檢索與問(wèn)題相關(guān)的節(jié)點(diǎn)。

例如,當(dāng)用戶查詢“拜登的競(jìng)選對(duì)手是誰(shuí)?”時(shí),系統(tǒng)可以通過(guò)節(jié)點(diǎn)索引快速檢索到“拜登”和“特朗普”這兩個(gè)節(jié)點(diǎn),并返回它們之間的關(guān)系。

2.4 算子配置:靈活組合檢索策略

在檢索階段,圖檢索增強(qiáng)生成方法通過(guò)一系列操作符來(lái)檢索與用戶查詢相關(guān)的信息。這些操作符可以根據(jù)不同的檢索粒度(如節(jié)點(diǎn)、關(guān)系、子圖等)進(jìn)行靈活組合,從而適應(yīng)不同的任務(wù)需求。

常見的操作符包括節(jié)點(diǎn)類型操作符、關(guān)系類型操作符、塊類型操作符和子圖類型操作符。例如,節(jié)點(diǎn)類型操作符可以通過(guò)向量數(shù)據(jù)庫(kù)檢索與問(wèn)題相關(guān)的節(jié)點(diǎn),而子圖類型操作符則可以檢索與問(wèn)題相關(guān)的子圖。

舉個(gè)例子,當(dāng)用戶查詢“拜登和特朗普的競(jìng)選關(guān)系”時(shí),系統(tǒng)可以通過(guò)節(jié)點(diǎn)類型操作符檢索到“拜登”和“特朗普”這兩個(gè)節(jié)點(diǎn),然后通過(guò)關(guān)系類型操作符檢索到它們之間的“競(jìng)選對(duì)手”關(guān)系。

2.5 檢索與生成

開源:9個(gè)GraphRAG框架大一統(tǒng)-AI.x社區(qū)圖片

在基于圖的檢索增強(qiáng)生成(Graph-based RAG)方法中,檢索與生成階段是實(shí)現(xiàn)知識(shí)整合與答案生成的核心環(huán)節(jié)。該階段分為兩個(gè)關(guān)鍵步驟:問(wèn)題轉(zhuǎn)換信息檢索與生成。  

2.5.1 問(wèn)題轉(zhuǎn)換

   用戶輸入的問(wèn)題(Query)首先被轉(zhuǎn)化為檢索系統(tǒng)可理解的“檢索原語(yǔ)”(Primitive)。不同方法采用不同的轉(zhuǎn)換策略: 

?實(shí)體提取:如DALK、HippoRAG等方法直接從問(wèn)題中抽取出實(shí)體或關(guān)鍵詞,作為檢索的錨點(diǎn)。

?向量編碼:多數(shù)方法(如RAPTOR、LGraphRAG)將問(wèn)題編碼為向量,通過(guò)語(yǔ)義相似度匹配圖中的節(jié)點(diǎn)或子圖。

?原始問(wèn)題直接使用:例如KGP直接將問(wèn)題文本作為檢索輸入,依賴后續(xù)操作符處理。

2.5.2. 信息檢索與生成

根據(jù)轉(zhuǎn)換后的檢索原語(yǔ),系統(tǒng)從構(gòu)建的圖中提取相關(guān)信息(如節(jié)點(diǎn)、關(guān)系、子圖或社區(qū)),并組合成提示(Prompt)輸入大語(yǔ)言模型(LLM)生成答案。生成方式分為兩類: 

?直接生成:將檢索到的信息與問(wèn)題拼接,直接由LLM生成最終答案。

?分步聚合(Map-Reduce):例如GGraphRAG先對(duì)每個(gè)檢索到的社區(qū)獨(dú)立生成部分答案,再匯總成最終結(jié)果,適用于復(fù)雜抽象問(wèn)題。

2.5 開源項(xiàng)目:GraphRAG

作者將統(tǒng)一框架和代碼實(shí)現(xiàn)開源,開源地址:https://github.com/JayLZhou/GraphRAG。

項(xiàng)目包含了圖構(gòu)建、索引構(gòu)建和檢索與生成的完整實(shí)現(xiàn),還提供了多種操作符的配置示例,幫助用戶快速上手并定制自己的圖檢索增強(qiáng)生成系統(tǒng)。

三、圖檢索增強(qiáng)生成(Graph-based RAG)的應(yīng)用與評(píng)估

3.1 在特定問(wèn)答任務(wù)中的效果

開源:9個(gè)GraphRAG框架大一統(tǒng)-AI.x社區(qū)圖片

基于圖的檢索增強(qiáng)生成(Graph-based RAG)方法在特定問(wèn)答(Specific QA)任務(wù)中展現(xiàn)出顯著優(yōu)勢(shì),這類任務(wù)通常涉及對(duì)具體事實(shí)或細(xì)節(jié)的查詢(如“2024年美國(guó)總統(tǒng)是誰(shuí)?”)。本節(jié)通過(guò)實(shí)驗(yàn)分析不同方法在簡(jiǎn)單與復(fù)雜問(wèn)題上的表現(xiàn),并總結(jié)關(guān)鍵發(fā)現(xiàn)。  

3.1.1. 整體性能對(duì)比

開源:9個(gè)GraphRAG框架大一統(tǒng)-AI.x社區(qū)圖片

實(shí)驗(yàn)覆蓋6個(gè)數(shù)據(jù)集(如HotpotQA、MultihopQA等),評(píng)估指標(biāo)包括準(zhǔn)確率(Accuracy)和召回率(Recall)。

?RAG技術(shù)的必要性:相比直接使用大模型(ZeroShot),所有RAG方法均顯著提升效果。例如,在MultihopQA數(shù)據(jù)集上,VanillaRAG的準(zhǔn)確率比ZeroShot提高3.2%,而基于圖的方法(如RAPTOR)進(jìn)一步提升至56.06%。

?簡(jiǎn)單問(wèn)題:保留原始文本塊的方法(如HippoRAG)表現(xiàn)更優(yōu),因其直接匹配問(wèn)題與文本片段。

?復(fù)雜問(wèn)題:需多跳推理的任務(wù)(如MultihopQA)中,基于子圖或路徑檢索的方法(如DALK)準(zhǔn)確率比VanillaRAG高6.57%。

?最佳方法RAPTOR在多數(shù)數(shù)據(jù)集上領(lǐng)先,因其分層樹結(jié)構(gòu)能同時(shí)利用底層細(xì)節(jié)和高層摘要。例如,在HotpotQA中,其準(zhǔn)確率達(dá)55.32%,比VanillaRAG高4.5%。

3.1.2. 效率與成本分析

?圖構(gòu)建成本:知識(shí)圖譜(KG)類方法(如TKG)的Token消耗比樹結(jié)構(gòu)(RAPTOR)高40倍,因其需為實(shí)體和關(guān)系生成詳細(xì)描述。

?檢索效率:VanillaRAG響應(yīng)最快(平均2.35秒/查詢),而基于代理的方法(如ToG)因需多次調(diào)用LLM,耗時(shí)高達(dá)69.74秒/查詢。

?性價(jià)比選擇:RAPTOR和HippoRAG在效果與效率間平衡較好,適合實(shí)際部署。

3.2 在抽象問(wèn)答任務(wù)中的評(píng)估

1)圖結(jié)構(gòu)對(duì)抽象任務(wù)的有效性

? 所有圖增強(qiáng)方法(RA、GS、LR、FG)均顯著優(yōu)于VanillaRAG(平均勝率提升15%-30%),表明圖結(jié)構(gòu)能有效捕捉文本塊間的語(yǔ)義關(guān)聯(lián),提升抽象推理能力。

? 例如,在Legal數(shù)據(jù)集上,GGraphRAG的全面性勝率達(dá)78%,遠(yuǎn)超VanillaRAG的42%。

2)高層摘要的關(guān)鍵作用

?GGraphRAGRAPTOR表現(xiàn)最優(yōu),因其整合了社區(qū)報(bào)告或樹節(jié)點(diǎn)摘要等高層次信息。  

? 在CS數(shù)據(jù)集中,GGraphRAG的Overall勝率為72%,而依賴低層結(jié)構(gòu)的HLightRAG僅為55%。這表明抽象問(wèn)題需要高層語(yǔ)義歸納而非細(xì)粒度實(shí)體關(guān)系。

3)社區(qū)報(bào)告與Map-Reduce策略的優(yōu)勢(shì)

? GGraphRAG通過(guò)Leiden算法生成的社區(qū)報(bào)告能覆蓋更廣的主題范圍,結(jié)合Map-Reduce策略過(guò)濾無(wú)關(guān)內(nèi)容,使其在Mix和Agriculture數(shù)據(jù)集上勝率穩(wěn)定領(lǐng)先(平均勝率65% vs. 其他方法50%-58%)。

4)文本保留的必要性

? RAPTOR在部分?jǐn)?shù)據(jù)集(如MultihopSum)上偶爾優(yōu)于GGraphRAG,因其保留了原始文本塊的高層摘要,而社區(qū)報(bào)告可能丟失細(xì)節(jié)。這提示高層抽象與原始文本的平衡至關(guān)重要。

5)局限性

開源:9個(gè)GraphRAG框架大一統(tǒng)-AI.x社區(qū)圖片

計(jì)算成本:GGraphRAG需離線生成大量社區(qū)報(bào)告,在HotpotQA等大規(guī)模數(shù)據(jù)集中 token 消耗顯著高于其他方法(見圖5)。

領(lǐng)域適應(yīng)性:在專業(yè)領(lǐng)域(如Legal),社區(qū)報(bào)告的生成質(zhì)量依賴預(yù)訓(xùn)練LLM的領(lǐng)域知識(shí),可能需進(jìn)一步微調(diào)。  

本文轉(zhuǎn)載自??大語(yǔ)言模型論文跟蹤??,作者:HuggingAGI


收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦