自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

比GraphRAG還好的LightRAG到底是何方神圣?

發(fā)布于 2024-10-30 14:02
瀏覽
0收藏

1. 為什么要提出 LightRAG?

檢索增強生成(Retrieval-Augmented Generation,RAG)通過整合外部知識源來增強大型語言模型,這種整合使 LLM 能夠生成更準確和與上下文相關(guān)的響應,顯著提高實際應用中的效用。

? 通過適應特定領(lǐng)域知識,RAG 系統(tǒng)確保所提供的信息不僅相關(guān),而且符合用戶的需求。

? 提供獲取最新信息的途徑,這種途徑在一些快速發(fā)展的領(lǐng)域非常重要。

? 分塊在促進檢索增強生成過程中起著至關(guān)重要的作用。通過將大型外部文本語料庫分解為更小、更易于管理的段,提高了信息檢索的準確性。允許進行更有針對性的相似性搜索,確保檢索到的內(nèi)容與用戶查詢直接相關(guān)。

然而,現(xiàn)有的 RAG 系統(tǒng)存在關(guān)鍵的局限性,阻礙了它們的性能:

? 首先,許多方法依賴于簡單的數(shù)據(jù)結(jié)構(gòu),限制了它們理解并檢索基于實體間復雜關(guān)系的信息的能力。

? 其次,這些系統(tǒng)往往缺乏必要的上下文意識,無法在不同實體及其相互關(guān)系之間保持連貫性,導致它們給出的回答可能無法全面回應用戶的查詢。

例如,當用戶問及“電動汽車的增長如何影響城市空氣質(zhì)量和公共交通設(shè)施?
”時,現(xiàn)有的RAG方法可能會分別檢索到關(guān)于電動汽車、空氣污染和公共交通挑戰(zhàn)的文檔,但在將這些信息整合成一個連貫的回答上卻顯得力不從心。
它們可能無法解釋電動汽車的普及如何改善空氣質(zhì)量,進而影響公共交通規(guī)劃。

為了解決這些局限性,作者準備將圖結(jié)構(gòu)(知識圖譜)納入文本索引和相關(guān)信息檢索。圖特別有效地表示不同實體之間的相互依賴關(guān)系,這能夠更細致地理解關(guān)系。基于圖的知識結(jié)構(gòu)的整合有助于將來自多個來源的信息綜合成連貫且上下文豐富的響應。

因此,作者提出了LightRAG:一個基于圖的文本索引范式與雙層檢索框架無縫集成的RAG系統(tǒng)。

2. LightRAG架構(gòu)

比GraphRAG還好的LightRAG到底是何方神圣?-AI.x社區(qū)圖片

上圖展示了LightRAG的架構(gòu),分為兩個主要部分:

? 第一部分:基于圖的索引階段。使用大型語言模型從每個文本塊中提取實體和關(guān)系。

? 第二部分:基于圖的檢索階段。首先利用大型語言模型(LLM)生成相關(guān)關(guān)鍵字。

與當前的檢索增強生成(RAG)系統(tǒng)類似,LightRAG的檢索機制依賴于基于向量的搜索。

與傳統(tǒng)的 RAG 中檢索塊不同,LightRAG專注于檢索實體和關(guān)系。

與 GraphRAG 中使用的基于社區(qū)的遍歷方法相比,LightRAG顯著降低了檢索開銷。

2.1 基于圖的文本索引

圖增強的實體和關(guān)系提?。篖ightRAG 通過將文檔分割成更小、更易于管理的部分來增強檢索系統(tǒng)。允許在不分析整個文檔的情況下快速識別和訪問相關(guān)信息。利用大型語言模型(LLM)來識別和提取各種實體(例如,名稱、日期、地點和事件)以及它們之間的關(guān)系,然后創(chuàng)建一個知識圖。

比GraphRAG還好的LightRAG到底是何方神圣?-AI.x社區(qū)圖片

?提取實體和關(guān)系:利用 LLM 在文本數(shù)據(jù)中識別實體(節(jié)點)及其關(guān)系(邊)。例如,從文本“心臟病專家評估癥狀以識別潛在的心臟問題”中提取實體如“心臟病專家”和“心臟病”,以及關(guān)系如“心臟病專家診斷心臟病”。為了提高效率,原始文本被分割成多個塊后再進行實體和關(guān)系的提取。上圖展示了用于構(gòu)建知識圖譜的提示詞。

?LLM生成鍵值對:采用 LLM 為每個實體節(jié)點和系邊生成文本鍵值對(K,V)。每個索引鍵是一個單詞或短語,能夠?qū)崿F(xiàn)高效檢索,而相應的值是一個文本段落,總結(jié)來自外部數(shù)據(jù)的相關(guān)片段以輔助文本生成。實體使用其名稱作為唯一的索引鍵,而關(guān)系可能具有從 LLM 增強中派生的多個索引鍵,包括來自連接實體的全局主題。

?圖譜去重:從原始文本的不同段中識別并合并相同的實體和關(guān)系。此過程通過最小化圖的大小減少圖操作相關(guān)的開銷,從而導致更高效的數(shù)據(jù)處理。

這樣的設(shè)計有以下幾個優(yōu)點:

? 首先,全局化理解信息。構(gòu)建的圖結(jié)構(gòu)能夠從多跳子圖中提取全局信息,增強了 LightRAG 處理跨越多個文檔塊的復雜查詢的能力。

? 其次,增強的檢索性能。從圖中派生的鍵值數(shù)據(jù)結(jié)構(gòu)針對快速和精確檢索進行了優(yōu)化。為現(xiàn)有方法中常用的不太準確的嵌入匹配方法和低效的塊遍歷技術(shù)提供了一種優(yōu)越的替代方案。

增量更新知識庫*

對增量知識庫的快速更新方法有兩個關(guān)鍵目標:

? 新數(shù)據(jù)的無縫集成。通過對新信息應用一致的方法,增量更新模塊允許 LightRAG 集成新的外部數(shù)據(jù)庫,而不會破壞現(xiàn)有的圖結(jié)構(gòu)。保持了已建立連接的完整性,確保歷史數(shù)據(jù)仍然可訪問,同時豐富了圖而沒有沖突或冗余。

? 減少計算開銷。通過消除重建整個索引圖的需要,這種方法減少了計算開銷,并促進了新數(shù)據(jù)的快速吸收。

2.2 雙層檢索范式

LightRAG 在微觀和宏觀兩個維度生成查詢鍵,從而實現(xiàn)在特定文檔塊和復雜的依賴關(guān)系里檢索相關(guān)信息。

?微觀查詢(Specific Queries):面向具體細節(jié)的,引用圖中的特定實體,需要精確檢索與特定節(jié)點或邊相關(guān)的信息。例如,一個特定的查詢可能是,“誰寫了《傲慢與偏見》?”

?抽象查詢(Abstract Queries):抽象查詢更具概念性,涵蓋更廣泛的主題、摘要或總體主題,不直接與特定實體相關(guān)。抽象查詢的一個示例是,“人工智能如何影響現(xiàn)代教育?”

為了適應不同的查詢類型,LightRAG 在雙層檢索范式中采用了兩種不同的檢索策略。確保了特定和抽象的查詢都得到有效處理,使系統(tǒng)能夠根據(jù)用戶需求提供相關(guān)響應。

?低級檢索:側(cè)重于檢索特定實體及其相關(guān)屬性或關(guān)系。此級別的查詢是面向細節(jié)的,提取關(guān)于圖中特定節(jié)點或邊的精確信息。

?高級檢索:處理更廣泛的主題和總體主題。聚合跨多個相關(guān)實體和關(guān)系的信息,提供對更高級概念和摘要的洞察,而不是特定細節(jié)。

圖與向量檢索相結(jié)合的檢索

通過將圖結(jié)構(gòu)與向量表示相結(jié)合,使檢索算法能夠有效地利用本地和全局關(guān)鍵字,簡化搜索過程并提高結(jié)果的相關(guān)性。

1.查詢關(guān)鍵字提取。對于給定的查詢,LightRAG 首先提取本地查詢關(guān)鍵字和全局查詢關(guān)鍵字。

2.關(guān)鍵字匹配。使用向量數(shù)據(jù)庫將本地查詢關(guān)鍵字與候選實體進行匹配,并將全局查詢關(guān)鍵字與鏈接到全局鍵的關(guān)系進行匹配。

3.整合高階關(guān)聯(lián)性(Incorporating High-Order Relatedness)。為了提升查詢的高階關(guān)聯(lián)性,LightRAG不僅檢索圖元素,還擴展至這些元素所在局部子圖的鄰近節(jié)點。

這種雙層檢索范式不僅通過關(guān)鍵字匹配促進了相關(guān)實體和關(guān)系的高效檢索,而且通過整合來自構(gòu)建的知識圖的相關(guān)結(jié)構(gòu)信息增強了結(jié)果的全面性。

2.3 答案生成

檢索信息的利用:利用檢索到的信息通過LLM 根據(jù)收集的數(shù)據(jù)生成答案。收集到的數(shù)據(jù)包括由相關(guān)實體和關(guān)系,包括名稱、實體和關(guān)系的描述以及原始文本的摘錄。

上下文整合和答案生成:將查詢與這個多源文本統(tǒng)一,LLM 生成根據(jù)用戶需求定制的信息豐富的答案,確保與查詢的意圖一致。這種方法通過將上下文和查詢都整合到 LLM 模型中簡化了答案生成過程(下圖是提示詞)。

3. 效果評估

? RQ1:LightRAG在生成性能上與現(xiàn)有RAG基線方法相比有何優(yōu)勢?

? RQ2:雙層檢索和基于圖的索引如何提升LightRAG的生成質(zhì)量?

? RQ3:LightRAG在多種場景的案例中展現(xiàn)了哪些獨特優(yōu)勢?

? RQ4:LightRAG的成本及其對數(shù)據(jù)變化的適應能力如何?

3.1 RQ1:LightRAG在生成性能上與現(xiàn)有RAG基線方法相比有何優(yōu)勢?

比GraphRAG還好的LightRAG到底是何方神圣?-AI.x社區(qū)圖片

圖增強型RAG系統(tǒng)在處理大規(guī)模語料庫時的優(yōu)勢:面對需要大量token和復雜查詢時,LightRAG和GraphRAG等基于圖的RAG系統(tǒng),始終優(yōu)于NaiveRAG、HyDE和RQRAG等純基于塊的檢索方法。隨著數(shù)據(jù)集規(guī)模的增長,這一性能差異尤為顯著。例如,在最大的法律數(shù)據(jù)集中,基線方法的勝率僅約20%,而LightRAG則明顯占優(yōu)。這一趨勢凸顯了圖增強型RAG系統(tǒng)在捕捉大規(guī)模語料庫內(nèi)復雜語義依賴方面的優(yōu)勢,有助于更全面地理解知識,從而提升泛化性能。

LightRAG在提升響應多樣性上的優(yōu)勢:與各基線方法相比,LightRAG在多樣性(回答問題的角度等是否具備多樣性)指標上尤為突出,特別是在大型法律數(shù)據(jù)集中。這一優(yōu)勢源于LightRAG的雙層檢索模式,能夠從低級和高級兩個維度全面檢索信息。這種方法有效地利用基于圖的文本索引,始終把握查詢的完整上下文。

LightRAG超越GraphRAG:盡管LightRAG和GraphRAG都采用基于圖的檢索機制,但LightRAG尤其在處理大型數(shù)據(jù)集和復雜語言環(huán)境時,始終優(yōu)于GraphRAG。在包含數(shù)百萬令牌的農(nóng)業(yè)、計算機科學和法律數(shù)據(jù)集中,LightRAG展現(xiàn)出明顯優(yōu)勢,大幅超越GraphRAG,凸顯了其在多樣化環(huán)境中全面理解信息的能力。

3.2 RQ2:雙層檢索和基于圖的索引如何提升LightRAG的生成質(zhì)量?

比GraphRAG還好的LightRAG到底是何方神圣?-AI.x社區(qū)圖片

?僅低層次檢索:去掉了高級檢索,導致幾乎所有數(shù)據(jù)集和評價指標上的性能顯著下降。主要是因為它過分強調(diào)具體信息,集中于實體及其直接關(guān)聯(lián)。雖然這種方法能夠深入挖掘直接相關(guān)的實體,但在收集需要綜合洞察的復雜查詢信息時顯得力不從心。

?僅高層次檢索:只有低級檢索的LightRAG通過利用實體間關(guān)系而非專注于具體實體,優(yōu)先獲取更廣泛的內(nèi)容。這種方法在全面性上具有顯著優(yōu)勢,能夠收集到更廣泛和多樣化的信息。然而,在深入挖掘特定實體時略顯不足,可能限制了其提供詳盡見解的能力。因此,這種僅高層次檢索的方法在需要精確、細致答案的任務中可能表現(xiàn)不佳。

?混合模式:在檢索更廣泛關(guān)系的同時,也對特定實體進行了深入挖掘。這種雙層次方法既保證了檢索的廣度,也確保了分析的深度,從而提供了數(shù)據(jù)的全面視角。因此,LightRAG在多個維度上實現(xiàn)了均衡的表現(xiàn)。

?語義圖在 RAG 中表現(xiàn)出色:在檢索過程中不再使用原始文本(-Origin)在所有四個數(shù)據(jù)集中都沒有表現(xiàn)出顯著的性能下降。在某些情況下,這個變體甚至有所改進(例如在農(nóng)業(yè)和混合方面)。主要原因可能是基于圖的索引過程中對關(guān)鍵信息的有效提取,這為回答查詢提供了足夠的上下文。此外,原始文本通常包含不相關(guān)的信息,可能會在響應中引入噪聲。

3.3 RQ3:LightRAG在多種場景的案例中展現(xiàn)了哪些獨特優(yōu)勢?

比GraphRAG還好的LightRAG到底是何方神圣?-AI.x社區(qū)圖片

比GraphRAG還好的LightRAG到底是何方神圣?-AI.x社區(qū)圖片

?全面性:在精確的實體和關(guān)系提取以及 LLM 分析方面表現(xiàn)出色。

?多樣性和賦能:LightRAG 不僅提供了更多樣化的信息,而且提供了更具賦能性的內(nèi)容。主要是因為 LightRAG 的分層檢索范式,結(jié)合了通過低級檢索對相關(guān)實體的深入探索,通過高級檢索進行更廣泛的探索以增強賦能和提高答案的多樣性。

3.4 RQ4:LightRAG的成本及其對數(shù)據(jù)變化的適應能力如何?

從兩個關(guān)鍵角度將我們的 LightRAG 的成本與表現(xiàn)最佳的基線 GraphRAG 進行比較。

? 首先,檢查索引和檢索過程中的令牌數(shù)量和 API 調(diào)用次數(shù)。

? 其次,這些指標與動態(tài)環(huán)境中處理數(shù)據(jù)變化的關(guān)系。

比GraphRAG還好的LightRAG到底是何方神圣?-AI.x社區(qū)圖片

3.4.1 檢索階段

GraphRAG 生成了 1399 個communities,有 610 個二級communities被積極用于檢索。每個communities報告平均 1000 個tokens,導致總標記消耗為 610000 個tokens(610 個communities×每個communities 1000 個tokens)。

此外,GraphRAG 需要單獨遍歷每個communities,導致數(shù)百次 API 調(diào)用,顯著增加了檢索開銷。相比之下,LightRAG 通過使用少于 100 個tokens進行關(guān)鍵字生成和檢索,整個過程僅需要一次 API 調(diào)用。這種效率是通過LightRAG檢索機制實現(xiàn)的,該機制無縫集成了圖形結(jié)構(gòu)和矢量化表示以進行信息檢索,從而消除了預先處理大量信息的需要。

3.4.2 增量數(shù)據(jù)更新階段

兩個方案在實體和關(guān)系提取方面表現(xiàn)出相似的開銷。

然而,GraphRAG 在管理新添加的數(shù)據(jù)方面顯示出顯著的低效率。當引入與法律數(shù)據(jù)集相同大小的新數(shù)據(jù)集時,GraphRAG 必須拆除其現(xiàn)有的社區(qū)結(jié)構(gòu)以納入新的實體和關(guān)系,然后完全重新生成。

這個過程每個社區(qū)報告產(chǎn)生大約 5000 個token的大量標記成本。鑒于有 1399 個communities,GraphRAG 將需要大約 1399×2×5000 個標記來重建原始和新的社區(qū)報告——這是一個過高的費用,突顯了其低效率。

相比之下,LightRAG 將新提取的實體和關(guān)系無縫集成到現(xiàn)有圖形中,無需完全重建。這種方法在增量更新期間導致顯著較低的開銷,展示了其優(yōu)越的效率和成本效益。

本文轉(zhuǎn)載自 ??大語言模型論文跟蹤??,作者:HuggingAGI

收藏
回復
舉報
回復
相關(guān)推薦