自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

微軟即將推出超強(qiáng)RAG: LazyGraphRAG 效果更好,且成本能降低近1000倍! 原創(chuàng) 精華

發(fā)布于 2024-12-2 15:34
瀏覽
0收藏

1、什么是LazyGraphRAG

GraphRAG[1]旨在通過利用非結(jié)構(gòu)化文本中的隱式關(guān)系來擴(kuò)展AI系統(tǒng)可以在私有數(shù)據(jù)集上回答的問題類別,相對于傳統(tǒng)矢量RAG(或“語義搜索”)的一個(gè)關(guān)鍵優(yōu)勢是它能夠回答解決整個(gè)數(shù)據(jù)集的全局查詢,例如“數(shù)據(jù)中的主要主題是什么?",或者“X最重要的含義是什么"。相反,向量RAG擅長于本地查詢,其中答案類似于查詢并且可以在特定文本區(qū)域內(nèi)找到,如通常針對“who”、“what”、“when”和“where”問題的情況。

最近微軟提出了一種完全不同的支持圖形的RAG方法,該方法不需要對源數(shù)據(jù)進(jìn)行事先匯總,從而避免了對某些用戶和用例可能過高的前期索引成本。我們稱這種方法為“LazyGraphRAG”。

LazyGraphRAG的一個(gè)關(guān)鍵優(yōu)勢是其在成本和質(zhì)量方面的固有可擴(kuò)展性。在一系列相互競爭的方法中(標(biāo)準(zhǔn)矢量RAG,RAPTOR[2]和GraphRAG本地[3],全局[4]和DRIFT[5]搜索機(jī)制),LazyGraphRAG在成本質(zhì)量范圍內(nèi)表現(xiàn)出強(qiáng)大的性能,如下所示:

  • LazyGraphRAG的數(shù)據(jù)索引成本與矢量RAG相同,是完整GraphRAG成本的0.1%。
  • 對于與向量RAG相當(dāng)?shù)牟樵兂杀?,LazyGraphRAG在本地查詢上優(yōu)于所有競爭方法,包括長上下文向量RAG和GraphRAGDRIFT[6]搜索(我們最近引入的RAG方法表現(xiàn)出優(yōu)于向量RAG)以及GraphRAG本地搜索。
  • 同樣的LazyGraphRAG配置也顯示出與GraphRAG Global Search相似的全局查詢答案質(zhì)量,但查詢成本低700倍以上。
  • 對于GraphRAG全局搜索的4%的查詢成本,LazyGraphRAG在本地和全局查詢類型上都顯著優(yōu)于所有競爭方法,包括C2級別的GraphRAG全局搜索(大多數(shù)應(yīng)用程序推薦的社區(qū)層次結(jié)構(gòu)的第三級)。

LazyGraphRAG即將加入開源GraphRAG庫[7],為本地和全局查詢提供統(tǒng)一的查詢接口,其輕量級數(shù)據(jù)索引的成本與標(biāo)準(zhǔn)矢量RAG相當(dāng)。

2、融合vector RAG和Graph RAG的優(yōu)勢

LazyGraphRAG旨在融合vector RAG和Graph RAG的優(yōu)勢,同時(shí)克服各自的局限性:

  • vector RAG是一種最佳優(yōu)先搜索的形式,它使用與查詢的相似性來選擇最佳匹配的源文本塊。但是,它沒有考慮全局查詢的數(shù)據(jù)集的廣度。
  • GraphRAG全局搜索是廣度優(yōu)先搜索的一種形式,它使用源文本實(shí)體的社區(qū)結(jié)構(gòu),以確保在考慮數(shù)據(jù)集的全部廣度的情況下回答查詢。然而,它沒有意識到本地查詢要考慮的最佳社區(qū)。

LazyGraphRAG以迭代深化的方式結(jié)合了最佳優(yōu)先和廣度優(yōu)先搜索。與全GraphRAG的全局搜索機(jī)制相比,這種方法在延遲LLM使用和顯著提高答案生成效率方面是“懶惰”的。

3、技術(shù)特點(diǎn)

微軟已經(jīng)開源了名為GraphRAG的項(xiàng)目,在數(shù)據(jù)索引部分,其主要借助大型模型對實(shí)體及其聯(lián)系進(jìn)行抽取和描繪,并為每個(gè)實(shí)體與關(guān)系產(chǎn)生摘要。

此過程中涉及圖形統(tǒng)計(jì)學(xué)來精進(jìn)實(shí)體圖并抽出分級的社區(qū)構(gòu)造。但這種方式的投入巨大,由于依賴眾多的語言模型處理,GraphRAG的數(shù)據(jù)索引費(fèi)用極為昂貴。

然而,LazyGraphRAG與前者有所不同,它無需預(yù)先進(jìn)行任何概括或生成嵌入,在數(shù)據(jù)索引階段,它利用自然語言處理的名詞短語抽取技術(shù)來識別觀念及其共現(xiàn)關(guān)系,在此基礎(chǔ)上運(yùn)用圖形統(tǒng)計(jì)學(xué)方法優(yōu)化觀念圖并抽取分層社區(qū)結(jié)構(gòu)。這使得LazyGraphRAG的索引成本極低,只有GraphRAG的0.1%,也就是說,降低了1000倍的成本。

在查詢處理方面,GraphRAG采用廣度優(yōu)先搜索以確保在響應(yīng)查詢時(shí)考慮到了全部數(shù)據(jù)集的廣度。然而,LazyGraphRAG則融合了最優(yōu)先搜索與廣度優(yōu)先搜索的動(dòng)態(tài)性,采取了逐步深化的策略。首先對文本片段進(jìn)行相似度排名,然后動(dòng)態(tài)選擇相關(guān)的社區(qū)以逐漸精煉查詢結(jié)果。

此種方式使得LazyGraphRAG能夠同時(shí)支持局部與全局查詢,而且在考慮整個(gè)數(shù)據(jù)集的廣度的同時(shí),也能有效地找到最匹配的文本部分。

4、驗(yàn)證結(jié)果

為了衡量LazyGraphRAG的性能表現(xiàn),微軟設(shè)置了三個(gè)不同的預(yù)算檔次,以觀察其在各種環(huán)境下的運(yùn)行狀態(tài)。

在最低預(yù)算等級下,進(jìn)行100次相關(guān)性測試,并利用低成本大模型時(shí),LazyGraphRAG顯現(xiàn)出了顯著的優(yōu)勢。無論是在局部查詢還是全局查詢中,其表現(xiàn)都超過了其他所有的方法。

在局部查詢場景中,LazyGraphRAG的性能明顯超越了C1、C2、C3_Dynamic、LS、DRIFT、SS_8K、SS_64K和RAPTOR等方法。雖然在全局查找方面,GraphRAG的全球搜索有時(shí)會顯現(xiàn)出更好的表現(xiàn),但從成本效益角度考慮,LazyGraphRAG依舊占據(jù)上風(fēng)。

當(dāng)預(yù)算等級提高至500次,并使用更高級別的大模型時(shí),LazyGraphRAG的優(yōu)勢進(jìn)一步放大。其成本僅為C2級別的4%,但性能卻遠(yuǎn)超過所有其他條件,包括C2級別的GraphRAG全球搜索。

這說明LazyGraphRAG不僅在成本方面表現(xiàn)優(yōu)秀,查詢質(zhì)量也同樣出色,不論是在局部查詢或全局查詢中,都能給出更高質(zhì)量的答案。

最終,在1500次的高預(yù)算環(huán)境下,LazyGraphRAG的優(yōu)勢繼續(xù)擴(kuò)大。無論是在局部查詢還是全局查詢中,其表現(xiàn)都繼續(xù)上升,特別是在全球查詢中,其勝出頻率明顯超過其他方法。

即使在高預(yù)算環(huán)境下,LazyGraphRAG依然保持著其成本效益和查詢質(zhì)量的雙重優(yōu)勢。

微軟即將推出超強(qiáng)RAG: LazyGraphRAG 效果更好,且成本能降低近1000倍!-AI.x社區(qū)

Figure 1. Clustered bar charts showing win rates of LazyGraphRAG with relevance test budgets of (100, 500, 1,500) over competing conditions for each combination of (local, global) queries and (comprehensiveness, diversity, empowerment) metrics.

5、展望未來

LazyGraphRAG證明了,一個(gè)靈活的查詢機(jī)制能夠顯著優(yōu)于在本地-全局查詢范圍內(nèi)的多種專用查詢機(jī)制,且無需預(yù)先進(jìn)行大型語言模型數(shù)據(jù)總結(jié)的成本。其非??焖偾?guī)缀趺赓M(fèi)的索引使LazyGraphRAG成為一次性查詢、探索性分析和流數(shù)據(jù)使用案例的理想選擇,而其隨著相關(guān)性測試預(yù)算增加而平滑提高答案質(zhì)量的能力,使其成為一般性基準(zhǔn)測試RAG方法(例如,“RAG方法X以Y預(yù)算打敗LazyGraphRAG以完成任務(wù)Z”)的有價(jià)值工具。

那么這是否意味著全面使用LazyGraphRAG呢?microsoft認(rèn)為答案是否定的,原因有三:

  1. 對于實(shí)體、關(guān)系和社區(qū)摘要的GraphRAG數(shù)據(jù)索引,除了回答問題外,還有其他用途(例如,閱讀和分享報(bào)告)。
  2. 將實(shí)體、關(guān)系和社區(qū)摘要的GraphRAG數(shù)據(jù)索引與類似LazyGraphRAG的搜索機(jī)制相結(jié)合,可能會比單獨(dú)使用LazyGraphRAG獲得更好的結(jié)果。
  3. 設(shè)計(jì)新型的GraphRAG數(shù)據(jù)索引以支持類似LazyGraphRAG的搜索機(jī)制(例如,通過預(yù)先聲明和主題提?。┛赡軙@得最佳可能的結(jié)果。

Microsoft將在接下來的時(shí)期探索這些方向,所有的進(jìn)步(包括LazyGraphRAG本身)都會通過GraphRAG GitHub倉庫發(fā)布,讓我們敬請期待!

參考資料

[1]GraphRAG: ??https://aka.ms/graphrag??

[2]RAPTOR: ??https://github.com/profintegra/raptor-rag??

[3]本地: ??https://microsoft.github.io/graphrag/query/local_search/??

[4]全局: ??https://microsoft.github.io/graphrag/query/global_search/??

[5]DRIFT: ??https://microsoft.github.io/graphrag/query/drift_search/??

[6]DRIFT: ??https://www.microsoft.com/en-us/research/blog/introducing-drift-search-combining-global-and-local-search-methods-to-improve-quality-and-efficiency/??

[7]GraphRAG庫: ???https://github.com/microsoft/graphrag??


本文轉(zhuǎn)載自公眾號AI 博物院 作者:longyunfeigu

原文鏈接:??https://mp.weixin.qq.com/s/MWfDS92ITfspLij_LZCKDQ??


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦