自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<meter id="d8cbp"><p id="d8cbp"><strong id="d8cbp"></strong></p></meter>

<pre id="d8cbp"></pre>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

一文徹底搞懂GraphRAG

發(fā)布于 2024-9-3 11:34

瀏覽

0收藏

自ChatGPT引領(lǐng)人工智能的新潮流以來，我們見證了大型語言模型（LLM）與私有數(shù)據(jù)結(jié)合的巨大潛力。這種結(jié)合不僅催生了功能強(qiáng)大的AI應(yīng)用，也標(biāo)志著AI專業(yè)能力的提升。

然而，隨著深入探究，我們發(fā)現(xiàn)傳統(tǒng)的文本嵌入檢索技術(shù)（Text2Vec RAG）在處理知識(shí)庫問答時(shí)仍存在局限。本文闡述如何通過圖形RAG技術(shù)，有效填補(bǔ)這一空白，實(shí)現(xiàn)對(duì)知識(shí)庫的深入挖掘和全面理解。

1 局部和全局問題

文本嵌入檢索技術(shù)讓LLM應(yīng)用能夠穩(wěn)定地根據(jù)知識(shí)庫內(nèi)容回答問題。Text2Vec的優(yōu)勢(shì)在于能夠從知識(shí)庫中提取關(guān)鍵事實(shí)，直接回答用戶的問題。但這種方法也有局限，它依賴于查詢的具體性，且難以處理跨文檔的抽象問題。

想象一下，有一個(gè)詳盡的諾貝爾和平獎(jiǎng)得主知識(shí)庫。問系統(tǒng)“2023年的諾貝爾和平獎(jiǎng)得主是誰？”這種問題，系統(tǒng)能迅速給出答案，因?yàn)檫@些信息在知識(shí)庫中清晰可查。但若問“過去十年最杰出的諾貝爾和平獎(jiǎng)得主有哪些？”系統(tǒng)就可能束手無策，尤其是當(dāng)問題需要跨文檔整合信息時(shí)。例如，用戶可能好奇“最近幾屆諾貝爾和平獎(jiǎng)得主主要關(guān)注哪些議題？”如果這些議題在知識(shí)庫中沒有直接提及，傳統(tǒng)的文本嵌入檢索就難以給出滿意的答案。

因此，引入圖形RAG，這不僅能夠解決具體的局部問題，還能應(yīng)對(duì)需要全局視角的復(fù)雜問題。

知識(shí)圖譜通過半結(jié)構(gòu)化的層次方法組織信息，允許我們?cè)跀?shù)據(jù)集的全局層面上進(jìn)行推理，識(shí)別節(jié)點(diǎn)間的復(fù)雜關(guān)系。圖形RAG利用這種結(jié)構(gòu)，通過識(shí)別緊密相連的節(jié)點(diǎn)群體——即社區(qū)，來構(gòu)建對(duì)用戶查詢的深入理解。

圖形RAG的流程簡化為：

圖形提取：從數(shù)據(jù)中抓取節(jié)點(diǎn)和邊，形成知識(shí)圖譜。
圖形存儲(chǔ)：將圖譜存儲(chǔ)于數(shù)據(jù)庫，保證信息的管理和檢索。
社區(qū)檢測：發(fā)現(xiàn)圖中的社區(qū)，每個(gè)社區(qū)代表一個(gè)主題。
社區(qū)報(bào)告：為每個(gè)社區(qū)制作報(bào)告，梳理節(jié)點(diǎn)和邊的關(guān)系。
上下文構(gòu)建：通過Map Reduce技術(shù)整合社區(qū)信息，為用戶查詢提供精準(zhǔn)上下文。

這一流程優(yōu)化了信息檢索，對(duì)用戶復(fù)雜查詢的響應(yīng)更加精準(zhǔn)和全面。

一文徹底搞懂GraphRAG-AI.x社區(qū)

2 構(gòu)建知識(shí)圖譜：圖形提取

構(gòu)建對(duì)非結(jié)構(gòu)化知識(shí)庫的抽象理解，首先需要提取構(gòu)建知識(shí)圖譜的關(guān)鍵節(jié)點(diǎn)和邊，這一過程可以通過大型語言模型（LLM）自動(dòng)化實(shí)現(xiàn)。挑戰(zhàn)在于甄別哪些概念和關(guān)系是有價(jià)值的。

例如，從一篇關(guān)于沃倫·巴菲特的文章中提取信息，他的持股和出生地等信息顯然是關(guān)鍵實(shí)體和邊，而他上次董事會(huì)會(huì)議上領(lǐng)帶的顏色則可能無關(guān)緊要。關(guān)鍵在于根據(jù)應(yīng)用場景和領(lǐng)域定制提取提示，這將直接影響從數(shù)據(jù)中提取的信息類型。

設(shè)定提取提示可以通過兩種方式：一是多輪提示，即提供一系列輸入輸出樣例讓LLM學(xué)習(xí)；二是LLM微調(diào)，即在特定數(shù)據(jù)集上訓(xùn)練模型以提高性能。雖然微調(diào)可能更有效，但也更耗費(fèi)時(shí)間。

3 圖譜數(shù)據(jù)的存儲(chǔ)與管理

已經(jīng)成功設(shè)置LLM的提取流程。面對(duì)存儲(chǔ)問題，雖然Neo4j和Arango DB是圖形數(shù)據(jù)庫的首選，但學(xué)習(xí)新的查詢語言可能耗時(shí)。

為了簡化，可以使用graph2nosql，這是一個(gè)Python接口，支持在NoSQL數(shù)據(jù)庫中存儲(chǔ)圖形數(shù)據(jù)，并支持基本的圖形操作，如節(jié)點(diǎn)管理、圖形可視化和社區(qū)檢測。這樣，可以避免復(fù)雜的數(shù)據(jù)庫技術(shù)棧，同時(shí)保持?jǐn)?shù)據(jù)的靈活性和易用性。

一文徹底搞懂GraphRAG-AI.x社區(qū)

graph2nosql 數(shù)據(jù)模型

4 社區(qū)檢測

完成圖形數(shù)據(jù)的提取與存儲(chǔ)后，緊接著的任務(wù)便是識(shí)別圖中的社區(qū)結(jié)構(gòu)。社區(qū)由緊密相連的節(jié)點(diǎn)群組成，其內(nèi)部聯(lián)系遠(yuǎn)比與圖外節(jié)點(diǎn)更為頻繁。這一識(shí)別過程可以通過多種社區(qū)檢測算法實(shí)現(xiàn)。

Louvain算法是其中一種廣泛應(yīng)用的方法，它通過不斷迭代合并節(jié)點(diǎn)，形成社區(qū)，直至達(dá)到優(yōu)化的模塊度標(biāo)準(zhǔn)——模塊度是評(píng)價(jià)社區(qū)劃分優(yōu)劣的一個(gè)重要指標(biāo)。

除此之外，還有幾種知名的社區(qū)檢測算法，包括：

Girvan-Newman算法
Fast Unfolding算法
Infomap算法

這些算法各有優(yōu)勢(shì)，適用于不同的場景和需求。

5 社區(qū)報(bào)告生成

社區(qū)報(bào)告基于已識(shí)別的社區(qū)，提煉出節(jié)點(diǎn)和邊的關(guān)鍵信息，幫助我們把握知識(shí)庫的核心主題。每個(gè)社區(qū)都代表一個(gè)主題，為解答相關(guān)問題提供具體上下文。社區(qū)報(bào)告是跨文檔信息整合的起點(diǎn)，有助于構(gòu)建對(duì)知識(shí)庫的整體理解。

例如，諾貝爾和平獎(jiǎng)得主的社區(qū)報(bào)告可能會(huì)突出顯示與獲獎(jiǎng)?wù)呦嚓P(guān)的主要議題。而"發(fā)現(xiàn)"功能則進(jìn)一步深化了這些報(bào)告，提供了更細(xì)致的洞察。

為了確保社區(qū)報(bào)告的相關(guān)性和準(zhǔn)確性，應(yīng)根據(jù)具體應(yīng)用場景進(jìn)行細(xì)致的提示設(shè)計(jì)或模型微調(diào)。

6 上下文構(gòu)建：Map Reduce的應(yīng)用

在處理查詢時(shí)，采用map-reduce模式來構(gòu)建從中間到最終的響應(yīng)。

Map階段：這里，我們將每個(gè)社區(qū)與用戶查詢配對(duì)，利用社區(qū)報(bào)告來生成對(duì)查詢的初步答案。同時(shí)，還會(huì)讓LLM評(píng)估社區(qū)報(bào)告對(duì)用戶查詢的相關(guān)性。

Reduce階段：隨后，根據(jù)生成的中間響應(yīng)的相關(guān)性得分進(jìn)行排序，篩選出最相關(guān)的前k個(gè)社區(qū)。這些社區(qū)的報(bào)告，連同節(jié)點(diǎn)和邊的信息，將作為最終LLM提示的上下文，確保答案的準(zhǔn)確性和深度。

7 結(jié)語

Text2vec RAG在知識(shí)庫問答方面存在局限，而圖形RAG則能巧妙地補(bǔ)上這一短板。它通過社區(qū)報(bào)告為知識(shí)庫提供了更深層次的理解，幫助團(tuán)隊(duì)快速定位關(guān)鍵信息，提升效率。然而，這種方法在調(diào)用LLM時(shí)成本較高，可能帶來延遲。

未來，RAG系統(tǒng)可能會(huì)采用混合策略，根據(jù)查詢類型選擇最合適的工具，如利用社區(qū)報(bào)告作為上下文候選。這一領(lǐng)域的探索仍在進(jìn)行中。

本文轉(zhuǎn)載自 ??AI科技論談??，作者： AI科技論談

標(biāo)簽

知識(shí)庫

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

一文帶你了解OpenAI Sora

381972426 ? 2426瀏覽 ? 0回復(fù)
俯視LLM的靈魂：一文搞懂稀疏自動(dòng)編碼器

魯班模錘1 ? 5215瀏覽 ? 0回復(fù)
一文徹底理解大模型 Agent 智能體原理和案例

玄姐聊AGI ? 3819瀏覽 ? 0回復(fù)
一文搞懂大模型、RAG、函數(shù)調(diào)用、Agent、知識(shí)庫、向量數(shù)據(jù)庫、知識(shí)圖譜、AGI的區(qū)別和聯(lián)系?。?/a>

玄姐聊AGI ? 3269瀏覽 ? 0回復(fù)
一文徹底理解大模型 Agent 智能體原理和案例

玄姐聊AGI ? 3768瀏覽 ? 0回復(fù)
一文讀懂GraphRAG大模型知識(shí)圖譜

數(shù)字化助推器 ? 3558瀏覽 ? 0回復(fù)
一文詳解MHA、GQA、MQA原理

大模型自然語言處理 ? 3508瀏覽 ? 0回復(fù)
GraphRAG新增文件對(duì)已有知識(shí)庫影響有多大？緩存又是何時(shí)失效？一文帶你探究到底

AI博物院 ? 2277瀏覽 ? 0回復(fù)
一文搞懂AI大模型的四個(gè)核心技術(shù)

數(shù)字化助推器 ? 2575瀏覽 ? 0回復(fù)
一文教你如何永久使用Cursor技巧！

唐克 ? 3.2w瀏覽 ? 1回復(fù)
一文讀懂 DeepSeek-V3 技術(shù)報(bào)告

xuxiangda ? 4323瀏覽 ? 0回復(fù)
帶你一文讀懂爆火的 DeepSeek-R1 新模型技術(shù)，為何震動(dòng)了全球 AI 圈

玄姐聊AGI ? 6527瀏覽 ? 1回復(fù)
一文搞懂 DeepSeek - 強(qiáng)化學(xué)習(xí)和蒸餾

玄姐聊AGI ? 2768瀏覽 ? 0回復(fù)
一文搞懂 DeepSeek 的蒸餾技術(shù)和案例實(shí)踐

玄姐聊AGI ? 5732瀏覽 ? 0回復(fù)
一文讀懂AI智能體的原理類型、功能優(yōu)勢(shì)和最常見使用場景

數(shù)字化助推器 ? 4523瀏覽 ? 0回復(fù)
一文揭秘GPT：AI是如何徹底改變我們的？

唐克 ? 1760瀏覽 ? 0回復(fù)
一文吃透自注意力機(jī)制

人工智能訓(xùn)練營 ? 2962瀏覽 ? 0回復(fù)
一文讀懂AI智能體融合與數(shù)據(jù)隱私安全問題

數(shù)字化助推器 ? 1084瀏覽 ? 0回復(fù)
一文輕松搞懂 MHA、MQA、GQA 和 MLA

智駐未來 ? 985瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

Qwen3震撼發(fā)布，問鼎開源寶座，教你快速上手 11h前發(fā)布
Agent2Agent對(duì)比MCP，高效實(shí)現(xiàn)協(xié)作式AI 8天前發(fā)布

熱門推薦

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

上一篇：基于GPT-4o-mini，使用LangChain打造AI搜索智能體

下一篇： 10款殺手級(jí)AI編程助手，Python開發(fā)更輕松

社區(qū)精華內(nèi)容

目錄

<sub id="ip8rn"><p id="ip8rn"></p></sub>

<u id="ip8rn"></u><samp id="ip8rn"><option id="ip8rn"></option></samp>