自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

“RAG界的DeepSeek”開源-企業(yè)復(fù)雜私域知識(shí)理解與推理框架PIKE-RAG 原創(chuàng)

發(fā)布于 2025-2-17 09:55
瀏覽
0收藏



本文轉(zhuǎn)載自PIKE-RAG框架的設(shè)計(jì)目標(biāo)是提供一個(gè)靈活且可擴(kuò)展的RAG系統(tǒng),應(yīng)對(duì)工業(yè)應(yīng)用中復(fù)雜多樣的任務(wù)需求??蚣艿暮诵氖峭ㄟ^有效的知識(shí)提取、理解和組織,以及構(gòu)建連貫的推理邏輯,解決了RAG系統(tǒng)在工業(yè)應(yīng)用中的局限性。下面來看下微軟開源的PIKE-RAG框架及其實(shí)現(xiàn)過程,供參考。

PIKE-RAG框架

PIKE-RAG框架主要由幾個(gè)基本模塊組成,包括文檔解析、知識(shí)抽取、知識(shí)存儲(chǔ)、知識(shí)檢索、知識(shí)組織、以知識(shí)為中心的推理以及任務(wù)分解與協(xié)調(diào)。

“RAG界的DeepSeek”開源-企業(yè)復(fù)雜私域知識(shí)理解與推理框架PIKE-RAG-AI.x社區(qū)

PIKE-RAG框架

從上圖可以看到,相比傳統(tǒng)的RAG框架,PIKE-RAG框架的核心是構(gòu)建一個(gè)多層次的異質(zhì)圖作為知識(shí)庫,涵蓋信息資源層、語料庫層和蒸餾知識(shí)層。每一層代表不同的信息抽象和粒度級(jí)別,支持在不同尺度上探索和檢索相關(guān)知識(shí)。

實(shí)現(xiàn)過程

1、Level-0: 知識(shí)庫構(gòu)建

“RAG界的DeepSeek”開源-企業(yè)復(fù)雜私域知識(shí)理解與推理框架PIKE-RAG-AI.x社區(qū)

1.1 文件解析

文件解析模塊負(fù)責(zé)處理各種類型的文件,這包括處理掃描文檔、圖像和復(fù)雜的表格等。為了保留多模態(tài)元素(如圖表),框架采用布局分析技術(shù),并使用視覺語言模型來描述圖表內(nèi)容,以確保信息的完整性。

關(guān)于PDF相關(guān)文檔解析,筆者在前面系列中有許多詳細(xì)的技術(shù)鏈路可以參考《??文檔智能記錄鏈路合集??》

“RAG界的DeepSeek”開源-企業(yè)復(fù)雜私域知識(shí)理解與推理框架PIKE-RAG-AI.x社區(qū)

文檔解析流程

1.2 知識(shí)組織

知識(shí)庫被構(gòu)建為一個(gè)多層次的異質(zhì)圖,包括信息資源層、語料庫層和蒸餾知識(shí)層。每個(gè)層次代表不同的信息粒度和抽象級(jí)別。

“RAG界的DeepSeek”開源-企業(yè)復(fù)雜私域知識(shí)理解與推理框架PIKE-RAG-AI.x社區(qū)

多層次的異質(zhì)圖

  • 信息資源層:捕獲多樣化的信息源,建立跨源的引用關(guān)系。
  • 語料庫層:將解析的信息組織成段落和塊,保留文檔的原始層次結(jié)構(gòu),并集成多模態(tài)內(nèi)容。
  • 蒸餾知識(shí)層:將語料庫進(jìn)一步提煉為結(jié)構(gòu)化的知識(shí)形式(如知識(shí)圖、原子知識(shí)和表格知識(shí)),以支持高級(jí)推理。

2、Level-1: 事實(shí)性問題回答

可以在知識(shí)提取過程中使用上下文感知切分技術(shù)、自動(dòng)術(shù)語標(biāo)簽對(duì)齊技術(shù)和多粒度知識(shí)提取方法來提高知識(shí)提取和檢索的準(zhǔn)確率,從而增強(qiáng)事實(shí)信息檢索能力,如下面的流程所示:

“RAG界的DeepSeek”開源-企業(yè)復(fù)雜私域知識(shí)理解與推理框架PIKE-RAG-AI.x社區(qū)

方塊表示知識(shí)提取模塊中增強(qiáng)的分塊和自動(dòng)標(biāo)注子模塊

增強(qiáng)的分塊:分塊是將大文本分割成小塊的過程,以提高檢索效率和準(zhǔn)確性。PIKE-RAG采用一種文本分割算法,迭代地將文本分割成小塊,同時(shí)保持上下文的連貫性。

“RAG界的DeepSeek”開源-企業(yè)復(fù)雜私域知識(shí)理解與推理框架PIKE-RAG-AI.x社區(qū)

自動(dòng)標(biāo)注:自動(dòng)標(biāo)注模塊用于最小化源文檔和查詢之間的域差距。通過提取和映射領(lǐng)域特定的標(biāo)簽,提高檢索的召回率和精確率。

“RAG界的DeepSeek”開源-企業(yè)復(fù)雜私域知識(shí)理解與推理框架PIKE-RAG-AI.x社區(qū)

多粒度檢索:在多層次的異質(zhì)圖上進(jìn)行多粒度檢索,允許系統(tǒng)在不同層次上探索和檢索相關(guān)信息。通過計(jì)算查詢和圖節(jié)點(diǎn)之間的相似性得分,并進(jìn)行傳播和聚合,優(yōu)化檢索過程。

“RAG界的DeepSeek”開源-企業(yè)復(fù)雜私域知識(shí)理解與推理框架PIKE-RAG-AI.x社區(qū)

3、Level-2: 可鏈接推理問題回答

基于上一層L1,增加一個(gè)任務(wù)分解與協(xié)調(diào)模塊,將復(fù)雜任務(wù)拆分為更小、可管理的子任務(wù)

“RAG界的DeepSeek”開源-企業(yè)復(fù)雜私域知識(shí)理解與推理框架PIKE-RAG-AI.x社區(qū)

深綠色(■)表示知識(shí)提取模塊中的原子知識(shí)生成,而深橙色(■)代表知識(shí)起源模塊中的知識(shí)重排和聚合子模塊。此外,淺藍(lán)色(■)表示以知識(shí)為中心推理模塊中的多跳推理、比較推理、總結(jié)子模塊。

  • 知識(shí)原子化:知識(shí)原子化是將文檔中的知識(shí)分割成小的原子單元,以便更精細(xì)地檢索和使用。通過生成相關(guān)的問題作為知識(shí)索引,增強(qiáng)知識(shí)與查詢之間的匹配度。
  • 知識(shí)感知的任務(wù)分解:任務(wù)分解模塊將復(fù)雜任務(wù)分解為更小的子任務(wù),以提高系統(tǒng)的處理效率。通過生成和評(píng)估原子問題提案,動(dòng)態(tài)調(diào)整檢索和推理過程。

“RAG界的DeepSeek”開源-企業(yè)復(fù)雜私域知識(shí)理解與推理框架PIKE-RAG-AI.x社區(qū)

  • 知識(shí)感知任務(wù)分解器的訓(xùn)練:通過收集和訓(xùn)練數(shù)據(jù),使任務(wù)分解器能夠更好地理解和處理領(lǐng)域特定的知識(shí)。通過強(qiáng)化學(xué)習(xí)等方法,優(yōu)化任務(wù)分解和結(jié)果尋找過程。

“RAG界的DeepSeek”開源-企業(yè)復(fù)雜私域知識(shí)理解與推理框架PIKE-RAG-AI.x社區(qū)

4、Level-3: 預(yù)測(cè)性問題回答

Level-3專注于處理預(yù)測(cè)性問題,強(qiáng)調(diào)基于知識(shí)的預(yù)測(cè)能力。

“RAG界的DeepSeek”開源-企業(yè)復(fù)雜私域知識(shí)理解與推理框架PIKE-RAG-AI.x社區(qū)

深紅色(■)表示知識(shí)組織模塊中的知識(shí)構(gòu)建和知識(shí)歸納,而深藍(lán)色(■)代表以知識(shí)為中心的推理模塊中的預(yù)測(cè)子模塊。

  • 知識(shí)結(jié)構(gòu)和歸納:在知識(shí)組織模塊中,通過結(jié)構(gòu)化和歸納知識(shí),支持高級(jí)分析和預(yù)測(cè)任務(wù)。通過分類和時(shí)間序列分析,優(yōu)化知識(shí)的使用。
  • 預(yù)測(cè)子模塊:在知識(shí)中心推理模塊中,引入預(yù)測(cè)子模塊,以支持基于知識(shí)的預(yù)測(cè)。通過歷史數(shù)據(jù)和邏輯推理,生成未來的預(yù)測(cè)。

5、Level-4: 創(chuàng)造性問題回答

L4系統(tǒng)實(shí)現(xiàn)的特點(diǎn)是整合多智能體系統(tǒng),支持多視角思考。通過并行處理和集成不同的推理路徑,生成綜合和連貫的解決方案。這種思維依賴于事實(shí)信息和對(duì)基本原理及規(guī)則的理解。

“RAG界的DeepSeek”開源-企業(yè)復(fù)雜私域知識(shí)理解與推理框架PIKE-RAG-AI.x社區(qū)

實(shí)驗(yàn)

“RAG界的DeepSeek”開源-企業(yè)復(fù)雜私域知識(shí)理解與推理框架PIKE-RAG-AI.x社區(qū)

“RAG界的DeepSeek”開源-企業(yè)復(fù)雜私域知識(shí)理解與推理框架PIKE-RAG-AI.x社區(qū)

參考文獻(xiàn)

  • PIKE-RAG: sPecIalized KnowledgE and Rationale Augmented Generation,https://arxiv.org/pdf/2501.11551
  • 開源地址:https://github.com/microsoft/PIKE-RAG

公眾號(hào)大模型自然語言處理  作者:余俊暉

原文鏈接:??https://mp.weixin.qq.com/s/z5KQQMyprxMiR1CX8xGzUw??


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
已于2025-2-17 10:09:12修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦