自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

在大模型RAG系統(tǒng)中應(yīng)用知識圖譜

原創(chuàng) 精選
開發(fā) 前端
使用知識圖譜而非向量數(shù)據(jù)庫進(jìn)行查詢增強(qiáng)的一個(gè)優(yōu)點(diǎn)是,知識圖可以對已知關(guān)系的某些關(guān)鍵主題和概念進(jìn)行一致性檢索。我們把個(gè)性化定義為用戶和矢量數(shù)據(jù)庫之間信息流的控制,但是個(gè)性化也可以理解為用戶特征的封裝。

關(guān)于大模型及其應(yīng)用方面的文章層出不窮,聚焦于自己面對的問題,有針對性的閱讀會有很多的啟發(fā),本文源自Whyhow.ai 上的一些文字和示例。對于在大模型應(yīng)用過程中如何使用知識圖譜比較有參考價(jià)值,特匯總分享給大家。

在基于大模型的RAG應(yīng)用中,可能會出現(xiàn)不同類型的問題,通過知識圖譜的輔助可以在不同階段增強(qiáng)RAG的效果,并具體說明在每個(gè)階段如何改進(jìn)答案和查詢。知識圖譜更類似于結(jié)構(gòu)化數(shù)據(jù)存儲,而不是僅僅是一個(gè)用于各種目的的結(jié)構(gòu)化數(shù)據(jù)的一般存儲,可以利用它在 RAG 系統(tǒng)中戰(zhàn)略性地注入人類推理。

1. RAG簡介

對于復(fù)雜的 RAG 和多跳數(shù)據(jù)檢索的一般場景,如下圖所示, 關(guān)于RAG的更多信息可以參考《大模型系列——解讀RAG》。

圖片圖片

使用上圖所示的階段來介紹知識圖譜支持的 RAG 過程中不同的步驟:

  • 階段1——預(yù)處理: 這指的是在查詢被用于幫助從向量數(shù)據(jù)庫中提取數(shù)據(jù)塊之前對其進(jìn)行處理
  • 階段2/D——數(shù)據(jù)塊提取: 這是指從數(shù)據(jù)庫中檢索最相關(guān)的信息塊
  • 階段3-5——后處理: 這指的是為準(zhǔn)備檢索到的信息以生成答案而執(zhí)行的過程

在不同階段應(yīng)該使用哪些知識圖譜技術(shù)呢?

2.知識圖譜在RAG各階段的應(yīng)用

2.1 階段一:查詢增強(qiáng)

查詢增強(qiáng)是 在從向量數(shù)據(jù)庫中進(jìn)行檢索之前,向查詢添加上下文。此策略用于在缺少上下文的情況下增加查詢并修復(fù)錯(cuò)誤查詢。這也可以用來注入一個(gè)我們的世界觀,明確如何定義或看待某些共同或基礎(chǔ)術(shù)語。

在許多情況下,我們可能對特定術(shù)語有自己的世界觀。例如,一家旅游科技公司可能希望確保開箱即用 LLM 能夠理解“海濱”住宅和“靠近海灘”住宅代表非常不同類型的房產(chǎn),不能互換使用。在預(yù)處理階段注入這個(gè)上下文有助于確保 RAG系統(tǒng)中的這種區(qū)別能夠提供準(zhǔn)確的響應(yīng)。

從歷史上看,知識圖譜在企業(yè)搜索系統(tǒng)中的一個(gè)常見應(yīng)用是幫助建立首字母縮略詞詞典,以便搜索引擎能夠有效地識別提出的問題或文檔/數(shù)據(jù)存儲中的首字母縮略詞。這在第一階段可以用于多跳推理。

2.2 階段二:數(shù)據(jù)塊提取

文檔層次結(jié)構(gòu)是指創(chuàng)建文檔層次結(jié)構(gòu)和在向量數(shù)據(jù)庫中導(dǎo)航塊的規(guī)則。這用于快速識別文檔層次結(jié)構(gòu)中的相關(guān)塊,并使我們能夠使用自然語言創(chuàng)建規(guī)則,規(guī)定查詢在生成響應(yīng)之前必須引用哪些文檔/塊。

此階段我們可以使用多個(gè)知識圖譜。一個(gè)知識圖譜可以是文檔描述的層次結(jié)構(gòu),引用存儲在向量數(shù)據(jù)庫中的塊。第二個(gè)知識圖可以用于規(guī)則導(dǎo)航文檔層次結(jié)構(gòu)。例如,考慮一個(gè)風(fēng)險(xiǎn)基金的 RAG 系統(tǒng)。我們可以寫一個(gè)自然語言規(guī)則,確定性地應(yīng)用于查詢規(guī)劃代理“回答一個(gè)關(guān)于投資者義務(wù)的問題,首先檢查投資者在投資組合清單中投資了什么,然后檢查該投資組合的法律文件?!?/span>

上下文字典創(chuàng)建用于在向量數(shù)據(jù)庫中導(dǎo)航塊的概念結(jié)構(gòu)和規(guī)則,有助于理解哪些文檔塊包含重要主題。這類似于書后的索引。上下文詞典本質(zhì)上是元數(shù)據(jù)的知識圖譜。此字典可用于維護(hù)塊導(dǎo)航規(guī)則,可以包括一個(gè)自然語言規(guī)則,例如“任何與快樂概念相關(guān)的問題,你必須詳盡地搜索所有相關(guān)的數(shù)據(jù)塊,由上下文字典定義。由 Query Planning Agent 中的 LLM 代理將其轉(zhuǎn)換為知識圖譜的查詢,以增加要提取的塊。這種規(guī)則的建立還可以確保塊提取的一致性。

這與簡單的元數(shù)據(jù)搜索有何不同?除了提高速度之外,如果文檔是簡單的,可能意義不大。但是,在某些情況下,我們可能希望確保將特定的信息塊標(biāo)記為與某個(gè)概念相關(guān),即使該概念可能未在該塊中提及或暗示。這可能發(fā)生在討論正交信息(即與特定概念有爭議或不一致的信息)的情況。上下文詞典使得與不明顯的信息塊建立明確的關(guān)聯(lián)變得容易。

2.3 階段三:遞歸知識圖譜查詢

這是用來結(jié)合信息提取和存儲連貫的答案。LLM 向知識圖譜查詢答案。這在功能上類似于CoT過程,其中外部信息存儲在知識圖譜中,以幫助確定下一步的調(diào)查。

基本上是一次又一次的運(yùn)行數(shù)據(jù)塊提取,檢索提取的信息,并存儲在一個(gè)知識圖譜中,以強(qiáng)制連接來揭示關(guān)系。建立關(guān)系并將信息保存在知識圖譜中之后,再次使用從知識圖譜中提取的完整上下文運(yùn)行查詢。如果上下文不足,請?jiān)俅螌⑻崛〉拇鸢副4嬖谙嗤闹R圖譜中,以強(qiáng)制執(zhí)行更多的連接并清洗。

如果數(shù)據(jù)不斷地流入系統(tǒng),并且希望確保隨著時(shí)間的推移使用新的上下文更新答案,那么這一點(diǎn)尤其有用。

2.4 階段四之一:響應(yīng)增強(qiáng)

響應(yīng)增強(qiáng)是根據(jù)最初從矢量數(shù)據(jù)庫生成的查詢添加上下文。這用于添加必須存在于任何答案中的附加信息,這些附加信息涉及一個(gè)未能檢索到或在矢量數(shù)據(jù)庫中不存在的特定概念。這對于在基于提到或觸發(fā)的某些概念的回答中包含免責(zé)聲明或警告特別有用。

一個(gè)有趣的推測途徑也可以包括使用答案增強(qiáng)作為一種方式,對于面向消費(fèi)者的 RAG 系統(tǒng),當(dāng)某些答案提到某些產(chǎn)品時(shí),可以包含個(gè)性化廣告的答案。

2.5 階段四之二:響應(yīng)規(guī)則

響應(yīng)規(guī)則是根據(jù)知識圖譜設(shè)置的規(guī)則重新排序。這是用來強(qiáng)制執(zhí)行關(guān)于可以生成的答案的一致規(guī)則。這對信任和安全有影響,我們可能希望消除已知的錯(cuò)誤或危險(xiǎn)的答案。

Llamaindex 有一個(gè)有趣的例子,它使用維基百科的知識圖譜來復(fù)核一個(gè) LLM 的基本真理。盡管 Wikipedia 不能作為內(nèi)部 RAG 系統(tǒng)的基本事實(shí)的來源,但是您可以使用客觀的行業(yè)或常識知識圖譜來防止 LLM 的幻覺。

2.6 階段五:數(shù)據(jù)塊訪問控制和個(gè)性化

知識圖譜可以強(qiáng)制執(zhí)行關(guān)于用戶可以根據(jù)其權(quán)限檢索哪些塊的規(guī)則。例如,假設(shè)一家醫(yī)療保健公司正在構(gòu)建一個(gè) RAG 系統(tǒng),該系統(tǒng)包含對敏感臨床試驗(yàn)數(shù)據(jù)的訪問。他們只希望擁有特權(quán)的員工能夠從向量存儲中檢索敏感數(shù)據(jù)。通過將這些訪問規(guī)則作為屬性存儲在知識圖譜的數(shù)據(jù)上,它們可以告訴 RAG 系統(tǒng)只檢索特權(quán)塊(如果允許用戶這樣做的話)。

知識圖譜可用于為用戶的每個(gè)響應(yīng)實(shí)現(xiàn)個(gè)性化。例如,考慮一個(gè)企業(yè) RAG 系統(tǒng),如果希望為每個(gè)辦公室的每個(gè)員工、團(tuán)隊(duì)或部門定制響應(yīng)。當(dāng)生成一個(gè)答案時(shí),RAG 系統(tǒng)可以咨詢 知識圖譜,以了解哪些塊包含基于用戶角色和位置的最相關(guān)信息。

我們需要同時(shí)包含上下文,以及上下文對于每個(gè)答案意味著什么。然后,可能希望將該上下文作為提示或答案增強(qiáng)包括在內(nèi)。該策略可以建立在塊訪問控制的基礎(chǔ)上。一旦 RAG 系統(tǒng)確定了與該特定用戶最相關(guān)的數(shù)據(jù),它還可以確保該用戶確實(shí)擁有訪問該數(shù)據(jù)的權(quán)限。

3.一個(gè)用例

用醫(yī)學(xué)領(lǐng)域的一個(gè)例子來進(jìn)一步闡述RAG系統(tǒng)中如何應(yīng)用知識圖譜。示例問題如下: “阿爾茨海默病治療的最新研究是什么?” 然后可以采取以下步驟,以知識圖譜增強(qiáng)RAG 系統(tǒng)。我們不認(rèn)為每個(gè) RAG 系統(tǒng)都必須需要以下所有步驟,但這些用例在復(fù)雜的 RAG 用例中相對常見。

圖片圖片

在這里,描述知識圖譜在所有技術(shù)(查詢增強(qiáng)、數(shù)據(jù)塊提取規(guī)則、遞歸知識圖譜查詢、響應(yīng)增強(qiáng)、響應(yīng)控制、塊訪問控制)環(huán)節(jié)的應(yīng)用示例。

3.1 查詢增強(qiáng)

對于“阿爾茨海默氏癥治療的最新研究是什么?” 這個(gè)query,通過訪問知識圖譜,LLM 代理可以持續(xù)檢索關(guān)于最新的阿爾茨海默病治療的結(jié)構(gòu)化數(shù)據(jù),如“膽堿酯酶抑制劑”和“鹽酸美金胺”,RAG 系統(tǒng)將進(jìn)一步提出更具體的問題: “關(guān)于膽堿酯酶抑制劑和鹽酸美金胺治療阿爾茨海默病的最新研究是什么?”

3.2 文件層次和矢量數(shù)據(jù)庫檢索

使用文檔層次結(jié)構(gòu),識別哪些文檔和數(shù)據(jù)塊與“膽堿酯酶抑制劑”和“鹽酸美金胺”最相關(guān),并返回相關(guān)的答案。

關(guān)于“膽堿酯酶抑制劑”的相關(guān)塊提取規(guī)則有助于指導(dǎo)查詢引擎提取最有用的塊。文檔層次結(jié)構(gòu)幫助查詢引擎快速識別與副作用相關(guān)的文檔,并開始提取文檔中的塊。上下文字典幫助查詢引擎快速識別與“膽堿酯酶抑制劑”相關(guān)的塊,并開始提取與此主題相關(guān)的塊。一條關(guān)于“膽堿酯酶抑制劑”的既定規(guī)則指出,查詢膽堿酯酶抑制劑的副作用也應(yīng)檢查與 X 酶相關(guān)的塊。這是因?yàn)?X 酶是一個(gè)眾所周知的副作用,不能被忽略,并相應(yīng)地包括相關(guān)的塊。

3.3 遞歸知識圖譜查詢

使用遞歸知識圖譜查詢,初始查詢返回稱為“ XYZ 效應(yīng)”的“記憶時(shí)間”的副作用?!?XYZ 效應(yīng)”作為上下文存儲在一個(gè)單獨(dú)的知識圖中,用于遞歸上下文。LLM 被要求使用 XYZ 效果的附加上下文檢查新增加的查詢。根據(jù)過去格式化的答案來衡量結(jié)果,它確定需要更多關(guān)于 XYZ 效應(yīng)的信息來構(gòu)成一個(gè)令人滿意的答案。然后,它在知識圖譜中的 XYZ 效應(yīng)節(jié)點(diǎn)內(nèi)執(zhí)行更深入的搜索,從而執(zhí)行多跳查詢。

在 XYZ 效應(yīng)節(jié)點(diǎn)中,它發(fā)現(xiàn)關(guān)于臨床試驗(yàn) A 和臨床試驗(yàn) B 的信息,它可以包括在答案中。

3.4 數(shù)據(jù)塊控制訪問

盡管臨床試驗(yàn) A & B 都包含有益的上下文,但是與臨床試驗(yàn) B 節(jié)點(diǎn)相關(guān)的元數(shù)據(jù)標(biāo)簽指出,用戶對該節(jié)點(diǎn)的訪問受到限制。因此,一個(gè)常設(shè)的控制訪問規(guī)則可以防止臨床試驗(yàn) B 節(jié)點(diǎn)被包含在對用戶的響應(yīng)中。

只有關(guān)于臨床試驗(yàn) A 的信息才會返回給 LLM,以幫助其制定返回的答案。

3.5 響應(yīng)增強(qiáng)

作為后處理步驟,還可以選擇使用特定于醫(yī)療行業(yè)的知識圖譜來增強(qiáng)后處理輸出。例如,您可以包括特定于鹽酸美金胺治療的默認(rèn)健康警告,或包括與臨床試驗(yàn) A 相關(guān)的任何其他信息。

3.6 數(shù)據(jù)塊個(gè)性化

由于用戶是研發(fā)部門的初級員工,臨床試驗(yàn) B 的信息不對用戶開放,所以附加了一個(gè)說明,禁止用戶訪問臨床試驗(yàn) B 的信息,并要求向高級經(jīng)理詢問更多信息。

4. 一點(diǎn)思考

使用知識圖譜而非向量數(shù)據(jù)庫進(jìn)行查詢增強(qiáng)的一個(gè)優(yōu)點(diǎn)是,知識圖可以對已知關(guān)系的某些關(guān)鍵主題和概念進(jìn)行一致性檢索。我們把個(gè)性化定義為用戶和矢量數(shù)據(jù)庫之間信息流的控制,但是個(gè)性化也可以理解為用戶特征的封裝。

知識圖譜可以反映更廣泛的用戶特征集合的存儲,可以用于一系列的個(gè)性化工作。在某種程度上,一個(gè)知識圖譜是一個(gè)外部數(shù)據(jù)存儲(即外部 LLM 模型) ,它更容易以一致的形式提取(即知識圖譜數(shù)據(jù)能夠以一種更模塊化的方式插入,播放和刪除)。如果實(shí)現(xiàn)了物聯(lián)網(wǎng)中的數(shù)字孿生,知識圖譜很可能成為代表這種系統(tǒng)和模型之間的模型個(gè)性化的最佳手段。

責(zé)任編輯:武曉燕 來源: 喔家ArchiSelf
相關(guān)推薦

2024-01-09 14:05:15

大型語言模型RAG向量數(shù)據(jù)庫

2023-09-27 09:00:00

大型語言模型自然語言處理

2024-06-17 07:49:53

2024-10-07 08:49:25

2024-01-29 00:25:59

人工智能結(jié)構(gòu)化編碼

2024-05-16 08:23:26

大語言模型知識圖譜人工智能

2024-08-06 08:43:17

2025-03-06 10:41:32

2021-01-18 10:50:29

知識圖譜人工智能深度學(xué)習(xí)

2017-03-06 16:48:56

知識圖譜構(gòu)建存儲

2021-01-19 10:52:15

知識圖譜

2025-04-27 00:10:00

AI人工智能知識圖譜

2025-01-09 10:52:23

RAG知識圖譜人工智能

2023-08-22 15:34:01

Python開發(fā)

2021-01-25 10:36:32

知識圖譜人工智能

2023-03-17 06:14:20

2023-03-17 07:13:43

2024-10-12 08:03:25

2018-01-09 08:43:14

圖譜存儲系統(tǒng)

2024-06-03 07:28:43

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號