自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

“RAG界的DeepSeek”開源-企業(yè)復(fù)雜私域知識理解與推理框架PIKE-RAG

人工智能
PIKE-RAG框架主要由幾個基本模塊組成,包括文檔解析、知識抽取、知識存儲、知識檢索、知識組織、以知識為中心的推理以及任務(wù)分解與協(xié)調(diào)。

PIKE-RAG框架的設(shè)計目標(biāo)是提供一個靈活且可擴展的RAG系統(tǒng),應(yīng)對工業(yè)應(yīng)用中復(fù)雜多樣的任務(wù)需求??蚣艿暮诵氖峭ㄟ^有效的知識提取、理解和組織,以及構(gòu)建連貫的推理邏輯,解決了RAG系統(tǒng)在工業(yè)應(yīng)用中的局限性。下面來看下PIKE-RAG框架及其實現(xiàn)過程,供參考。

PIKE-RAG框架

PIKE-RAG框架主要由幾個基本模塊組成,包括文檔解析、知識抽取、知識存儲、知識檢索、知識組織、以知識為中心的推理以及任務(wù)分解與協(xié)調(diào)。

PIKE-RAG框架PIKE-RAG框架

從上圖可以看到,相比傳統(tǒng)的RAG框架,PIKE-RAG框架的核心是構(gòu)建一個多層次的異質(zhì)圖作為知識庫,涵蓋信息資源層、語料庫層和蒸餾知識層。每一層代表不同的信息抽象和粒度級別,支持在不同尺度上探索和檢索相關(guān)知識。

實現(xiàn)過程

1.Level-0: 知識庫構(gòu)建

圖片圖片

1.1 文件解析

文件解析模塊負(fù)責(zé)處理各種類型的文件,這包括處理掃描文檔、圖像和復(fù)雜的表格等。為了保留多模態(tài)元素(如圖表),框架采用布局分析技術(shù),并使用視覺語言模型來描述圖表內(nèi)容,以確保信息的完整性。

關(guān)于PDF相關(guān)文檔解析,筆者在前面系列中有許多詳細的技術(shù)鏈路可以參考《文檔智能記錄鏈路合集

文檔解析流程文檔解析流程

1.2 知識組織

知識庫被構(gòu)建為一個多層次的異質(zhì)圖,包括信息資源層、語料庫層和蒸餾知識層。每個層次代表不同的信息粒度和抽象級別。

多層次的異質(zhì)圖多層次的異質(zhì)圖

  • 信息資源層:捕獲多樣化的信息源,建立跨源的引用關(guān)系。
  • 語料庫層:將解析的信息組織成段落和塊,保留文檔的原始層次結(jié)構(gòu),并集成多模態(tài)內(nèi)容。
  • 蒸餾知識層:將語料庫進一步提煉為結(jié)構(gòu)化的知識形式(如知識圖、原子知識和表格知識),以支持高級推理。

2.Level-1: 事實性問題回答

可以在知識提取過程中使用上下文感知切分技術(shù)、自動術(shù)語標(biāo)簽對齊技術(shù)和多粒度知識提取方法來提高知識提取和檢索的準(zhǔn)確率,從而增強事實信息檢索能力,如下面的流程所示:

方塊表示知識提取模塊中增強的分塊和自動標(biāo)注子模塊方塊表示知識提取模塊中增強的分塊和自動標(biāo)注子模塊

  • 增強的分塊:分塊是將大文本分割成小塊的過程,以提高檢索效率和準(zhǔn)確性。PIKE-RAG采用一種文本分割算法,迭代地將文本分割成小塊,同時保持上下文的連貫性。圖片
  • 自動標(biāo)注:自動標(biāo)注模塊用于最小化源文檔和查詢之間的域差距。通過提取和映射領(lǐng)域特定的標(biāo)簽,提高檢索的召回率和精確率。圖片
  • 多粒度檢索:在多層次的異質(zhì)圖上進行多粒度檢索,允許系統(tǒng)在不同層次上探索和檢索相關(guān)信息。通過計算查詢和圖節(jié)點之間的相似性得分,并進行傳播和聚合,優(yōu)化檢索過程。圖片

3.Level-2: 可鏈接推理問題回答

基于上一層L1,增加一個任務(wù)分解與協(xié)調(diào)模塊,將復(fù)雜任務(wù)拆分為更小、可管理的子任務(wù)

深綠色(■)表示知識提取模塊中的原子知識生成,而深橙色(■)代表知識起源模塊中的知識重排和聚合子模塊。此外,淺藍色(■)表示以知識為中心推理模塊中的多跳推理、比較推理、總結(jié)子模塊。深綠色(■)表示知識提取模塊中的原子知識生成,而深橙色(■)代表知識起源模塊中的知識重排和聚合子模塊。此外,淺藍色(■)表示以知識為中心推理模塊中的多跳推理、比較推理、總結(jié)子模塊。

  • 知識原子化:知識原子化是將文檔中的知識分割成小的原子單元,以便更精細地檢索和使用。通過生成相關(guān)的問題作為知識索引,增強知識與查詢之間的匹配度。
  • 知識感知的任務(wù)分解:任務(wù)分解模塊將復(fù)雜任務(wù)分解為更小的子任務(wù),以提高系統(tǒng)的處理效率。通過生成和評估原子問題提案,動態(tài)調(diào)整檢索和推理過程。圖片
  • 知識感知任務(wù)分解器的訓(xùn)練:通過收集和訓(xùn)練數(shù)據(jù),使任務(wù)分解器能夠更好地理解和處理領(lǐng)域特定的知識。通過強化學(xué)習(xí)等方法,優(yōu)化任務(wù)分解和結(jié)果尋找過程。圖片

4.Level-3: 預(yù)測性問題回答

Level-3專注于處理預(yù)測性問題,強調(diào)基于知識的預(yù)測能力。

深紅色(■)表示知識組織模塊中的知識構(gòu)建和知識歸納,而深藍色(■)代表以知識為中心的推理模塊中的預(yù)測子模塊。深紅色(■)表示知識組織模塊中的知識構(gòu)建和知識歸納,而深藍色(■)代表以知識為中心的推理模塊中的預(yù)測子模塊。

  • 知識結(jié)構(gòu)和歸納:在知識組織模塊中,通過結(jié)構(gòu)化和歸納知識,支持高級分析和預(yù)測任務(wù)。通過分類和時間序列分析,優(yōu)化知識的使用。
  • 預(yù)測子模塊:在知識中心推理模塊中,引入預(yù)測子模塊,以支持基于知識的預(yù)測。通過歷史數(shù)據(jù)和邏輯推理,生成未來的預(yù)測。

5.Level-4: 創(chuàng)造性問題回答

L4系統(tǒng)實現(xiàn)的特點是整合多智能體系統(tǒng),支持多視角思考。通過并行處理和集成不同的推理路徑,生成綜合和連貫的解決方案。這種思維依賴于事實信息和對基本原理及規(guī)則的理解。

圖片

實驗

圖片圖片

參考文獻

責(zé)任編輯:武曉燕 來源: 大模型自然語言處理
相關(guān)推薦

2025-02-06 11:20:00

開發(fā)工具AI

2024-04-30 16:17:34

RAGLLM

2024-10-17 09:09:04

2025-02-06 13:50:06

2025-04-24 01:10:00

RAGAI人工智能

2024-10-09 11:14:37

2025-03-03 11:41:11

2025-03-06 10:41:32

2025-02-14 00:00:35

2024-06-24 14:32:33

2024-11-26 08:50:20

2024-10-25 11:56:33

OCRVisRAGRAG

2025-01-02 11:54:01

2025-03-06 08:20:00

RAG嵌入模型

2024-10-22 18:44:48

2024-08-12 09:34:53

GenAIRAGAI

2024-10-07 08:49:25

2025-01-22 10:24:27

2025-04-21 06:25:00

點贊
收藏

51CTO技術(shù)棧公眾號