自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="d8iu8"></style>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

“RAG界的DeepSeek”開源-企業(yè)復(fù)雜私域知識(shí)理解與推理框架PIKE-RAG 原創(chuàng)

大模型自然語言處理

發(fā)布于 2025-2-17 09:55

瀏覽

0收藏

本文轉(zhuǎn)載自PIKE-RAG框架的設(shè)計(jì)目標(biāo)是提供一個(gè)靈活且可擴(kuò)展的RAG系統(tǒng)，應(yīng)對(duì)工業(yè)應(yīng)用中復(fù)雜多樣的任務(wù)需求?？蚣艿暮诵氖峭ㄟ^有效的知識(shí)提取、理解和組織，以及構(gòu)建連貫的推理邏輯，解決了RAG系統(tǒng)在工業(yè)應(yīng)用中的局限性。下面來看下微軟開源的PIKE-RAG框架及其實(shí)現(xiàn)過程，供參考。

PIKE-RAG框架

PIKE-RAG框架主要由幾個(gè)基本模塊組成，包括文檔解析、知識(shí)抽取、知識(shí)存儲(chǔ)、知識(shí)檢索、知識(shí)組織、以知識(shí)為中心的推理以及任務(wù)分解與協(xié)調(diào)。

“RAG界的DeepSeek”開源-企業(yè)復(fù)雜私域知識(shí)理解與推理框架PIKE-RAG-AI.x社區(qū)

PIKE-RAG框架

從上圖可以看到，相比傳統(tǒng)的RAG框架，PIKE-RAG框架的核心是構(gòu)建一個(gè)多層次的異質(zhì)圖作為知識(shí)庫，涵蓋信息資源層、語料庫層和蒸餾知識(shí)層。每一層代表不同的信息抽象和粒度級(jí)別，支持在不同尺度上探索和檢索相關(guān)知識(shí)。

實(shí)現(xiàn)過程

1、Level-0: 知識(shí)庫構(gòu)建

“RAG界的DeepSeek”開源-企業(yè)復(fù)雜私域知識(shí)理解與推理框架PIKE-RAG-AI.x社區(qū)

1.1 文件解析

文件解析模塊負(fù)責(zé)處理各種類型的文件，這包括處理掃描文檔、圖像和復(fù)雜的表格等。為了保留多模態(tài)元素（如圖表），框架采用布局分析技術(shù)，并使用視覺語言模型來描述圖表內(nèi)容，以確保信息的完整性。

關(guān)于PDF相關(guān)文檔解析，筆者在前面系列中有許多詳細(xì)的技術(shù)鏈路可以參考《??文檔智能記錄鏈路合集??》

“RAG界的DeepSeek”開源-企業(yè)復(fù)雜私域知識(shí)理解與推理框架PIKE-RAG-AI.x社區(qū)

文檔解析流程

1.2 知識(shí)組織

知識(shí)庫被構(gòu)建為一個(gè)多層次的異質(zhì)圖，包括信息資源層、語料庫層和蒸餾知識(shí)層。每個(gè)層次代表不同的信息粒度和抽象級(jí)別。

“RAG界的DeepSeek”開源-企業(yè)復(fù)雜私域知識(shí)理解與推理框架PIKE-RAG-AI.x社區(qū)

多層次的異質(zhì)圖

信息資源層：捕獲多樣化的信息源，建立跨源的引用關(guān)系。
語料庫層：將解析的信息組織成段落和塊，保留文檔的原始層次結(jié)構(gòu)，并集成多模態(tài)內(nèi)容。
蒸餾知識(shí)層：將語料庫進(jìn)一步提煉為結(jié)構(gòu)化的知識(shí)形式（如知識(shí)圖、原子知識(shí)和表格知識(shí)），以支持高級(jí)推理。

2、Level-1: 事實(shí)性問題回答

可以在知識(shí)提取過程中使用上下文感知切分技術(shù)、自動(dòng)術(shù)語標(biāo)簽對(duì)齊技術(shù)和多粒度知識(shí)提取方法來提高知識(shí)提取和檢索的準(zhǔn)確率，從而增強(qiáng)事實(shí)信息檢索能力，如下面的流程所示：

“RAG界的DeepSeek”開源-企業(yè)復(fù)雜私域知識(shí)理解與推理框架PIKE-RAG-AI.x社區(qū)

方塊表示知識(shí)提取模塊中增強(qiáng)的分塊和自動(dòng)標(biāo)注子模塊

增強(qiáng)的分塊：分塊是將大文本分割成小塊的過程，以提高檢索效率和準(zhǔn)確性。PIKE-RAG采用一種文本分割算法，迭代地將文本分割成小塊，同時(shí)保持上下文的連貫性。

“RAG界的DeepSeek”開源-企業(yè)復(fù)雜私域知識(shí)理解與推理框架PIKE-RAG-AI.x社區(qū)

自動(dòng)標(biāo)注：自動(dòng)標(biāo)注模塊用于最小化源文檔和查詢之間的域差距。通過提取和映射領(lǐng)域特定的標(biāo)簽，提高檢索的召回率和精確率。

“RAG界的DeepSeek”開源-企業(yè)復(fù)雜私域知識(shí)理解與推理框架PIKE-RAG-AI.x社區(qū)

多粒度檢索：在多層次的異質(zhì)圖上進(jìn)行多粒度檢索，允許系統(tǒng)在不同層次上探索和檢索相關(guān)信息。通過計(jì)算查詢和圖節(jié)點(diǎn)之間的相似性得分，并進(jìn)行傳播和聚合，優(yōu)化檢索過程。

“RAG界的DeepSeek”開源-企業(yè)復(fù)雜私域知識(shí)理解與推理框架PIKE-RAG-AI.x社區(qū)

3、Level-2: 可鏈接推理問題回答

基于上一層L1，增加一個(gè)任務(wù)分解與協(xié)調(diào)模塊，將復(fù)雜任務(wù)拆分為更小、可管理的子任務(wù)

“RAG界的DeepSeek”開源-企業(yè)復(fù)雜私域知識(shí)理解與推理框架PIKE-RAG-AI.x社區(qū)

深綠色（■）表示知識(shí)提取模塊中的原子知識(shí)生成，而深橙色（■）代表知識(shí)起源模塊中的知識(shí)重排和聚合子模塊。此外，淺藍(lán)色（■）表示以知識(shí)為中心推理模塊中的多跳推理、比較推理、總結(jié)子模塊。

知識(shí)原子化：知識(shí)原子化是將文檔中的知識(shí)分割成小的原子單元，以便更精細(xì)地檢索和使用。通過生成相關(guān)的問題作為知識(shí)索引，增強(qiáng)知識(shí)與查詢之間的匹配度。
知識(shí)感知的任務(wù)分解：任務(wù)分解模塊將復(fù)雜任務(wù)分解為更小的子任務(wù)，以提高系統(tǒng)的處理效率。通過生成和評(píng)估原子問題提案，動(dòng)態(tài)調(diào)整檢索和推理過程。

“RAG界的DeepSeek”開源-企業(yè)復(fù)雜私域知識(shí)理解與推理框架PIKE-RAG-AI.x社區(qū)

知識(shí)感知任務(wù)分解器的訓(xùn)練：通過收集和訓(xùn)練數(shù)據(jù)，使任務(wù)分解器能夠更好地理解和處理領(lǐng)域特定的知識(shí)。通過強(qiáng)化學(xué)習(xí)等方法，優(yōu)化任務(wù)分解和結(jié)果尋找過程。

“RAG界的DeepSeek”開源-企業(yè)復(fù)雜私域知識(shí)理解與推理框架PIKE-RAG-AI.x社區(qū)

4、Level-3: 預(yù)測(cè)性問題回答

Level-3專注于處理預(yù)測(cè)性問題，強(qiáng)調(diào)基于知識(shí)的預(yù)測(cè)能力。

“RAG界的DeepSeek”開源-企業(yè)復(fù)雜私域知識(shí)理解與推理框架PIKE-RAG-AI.x社區(qū)

深紅色（■）表示知識(shí)組織模塊中的知識(shí)構(gòu)建和知識(shí)歸納，而深藍(lán)色（■）代表以知識(shí)為中心的推理模塊中的預(yù)測(cè)子模塊。

知識(shí)結(jié)構(gòu)和歸納：在知識(shí)組織模塊中，通過結(jié)構(gòu)化和歸納知識(shí)，支持高級(jí)分析和預(yù)測(cè)任務(wù)。通過分類和時(shí)間序列分析，優(yōu)化知識(shí)的使用。
預(yù)測(cè)子模塊：在知識(shí)中心推理模塊中，引入預(yù)測(cè)子模塊，以支持基于知識(shí)的預(yù)測(cè)。通過歷史數(shù)據(jù)和邏輯推理，生成未來的預(yù)測(cè)。

5、Level-4: 創(chuàng)造性問題回答

L4系統(tǒng)實(shí)現(xiàn)的特點(diǎn)是整合多智能體系統(tǒng)，支持多視角思考。通過并行處理和集成不同的推理路徑，生成綜合和連貫的解決方案。這種思維依賴于事實(shí)信息和對(duì)基本原理及規(guī)則的理解。

“RAG界的DeepSeek”開源-企業(yè)復(fù)雜私域知識(shí)理解與推理框架PIKE-RAG-AI.x社區(qū)

實(shí)驗(yàn)

“RAG界的DeepSeek”開源-企業(yè)復(fù)雜私域知識(shí)理解與推理框架PIKE-RAG-AI.x社區(qū)

“RAG界的DeepSeek”開源-企業(yè)復(fù)雜私域知識(shí)理解與推理框架PIKE-RAG-AI.x社區(qū)

參考文獻(xiàn)

PIKE-RAG: sPecIalized KnowledgE and Rationale Augmented Generation，https://arxiv.org/pdf/2501.11551
開源地址：https://github.com/microsoft/PIKE-RAG

公眾號(hào)大模型自然語言處理作者：余俊暉

原文鏈接：??https://mp.weixin.qq.com/s/z5KQQMyprxMiR1CX8xGzUw??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

已于2025-2-17 10:09:12修改

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

爆火的本地知識(shí)庫項(xiàng)目是什么？什么是RAG？本地知識(shí)庫與大模型的關(guān)系

AI探索時(shí)代 ? 4355瀏覽 ? 0回復(fù)
打造智能私有知識(shí)庫：開源工具AnythingLLM全解析及實(shí)操指南，RAG企業(yè)級(jí)解決方案

AIGC觀察者 ? 2.1w瀏覽 ? 1回復(fù)
RAG 企業(yè)級(jí)應(yīng)用落地框架細(xì)節(jié)差異對(duì)比

玄姐聊AGI ? 5171瀏覽 ? 0回復(fù)
用于復(fù)雜RAG任務(wù)的先進(jìn)可控Agent

PaperAgent ? 2340瀏覽 ? 0回復(fù)
如何利用RAG+Agent輕松解決企業(yè)復(fù)雜問題？

玄姐聊AGI ? 2487瀏覽 ? 0回復(fù)
KAG開源了，知識(shí)增強(qiáng)掀翻RAG，性能翻倍

PaperAgent ? 4817瀏覽 ? 0回復(fù)
先進(jìn)的多文檔問答（MDQA）框架HiQA：大幅降低區(qū)分度低的復(fù)雜多文檔RAG的幻覺問題

AI博物院 ? 2301瀏覽 ? 0回復(fù)
五大主流開源大模型RAG評(píng)估框架詳解

玄姐聊AGI ? 5437瀏覽 ? 0回復(fù)
混合RAG系統(tǒng)，提升復(fù)雜推理任務(wù)表現(xiàn)

大模型自然語言處理 ? 2024瀏覽 ? 0回復(fù)
RAG與本地知識(shí)庫，向量數(shù)據(jù)庫，以及知識(shí)圖譜的聯(lián)系與區(qū)別

AI探索時(shí)代 ? 4795瀏覽 ? 0回復(fù)
Auto-RAG開源，復(fù)雜多跳問題就這么解決了！

PaperAgent ? 2699瀏覽 ? 0回復(fù)
WebWalker：通過Multi Agent提升RAG在開放域QA的性能

大語言模型論文跟蹤 ? 1547瀏覽 ? 0回復(fù)
簡(jiǎn)單有效的企業(yè)多模態(tài)RAG問答框架-MuRAR

大模型自然語言處理 ? 1767瀏覽 ? 0回復(fù)
比GraphRAG更懂“思考”，微軟又開源PIKE-RAG：主打復(fù)雜私域知識(shí)理解和推理

PaperAgent ? 4584瀏覽 ? 0回復(fù)
從GraphRAG到PIKE-RAG，微軟發(fā)布復(fù)雜企業(yè)場(chǎng)景下的私域知識(shí)提取與推理新突破

AI博物院 ? 3194瀏覽 ? 0回復(fù)
RAG 與 CAG：知識(shí)處理的新時(shí)代

Halo咯咯 ? 2009瀏覽 ? 0回復(fù)
【萬字長(zhǎng)文】深度剖析：RAG、AI Agent與Agentic RAG的融合發(fā)展|值得收藏

Halo咯咯 ? 3743瀏覽 ? 0回復(fù)
大模型時(shí)代的知識(shí)工程：企業(yè)級(jí)智能知識(shí)庫構(gòu)建與增強(qiáng)指南

九歌AI大模型 ? 2132瀏覽 ? 0回復(fù)
IBM Granite 3.3：語音識(shí)別、推理增強(qiáng)與RAG的完美融合

Halo咯咯 ? 597瀏覽 ? 0回復(fù)

大模型自然語言處理

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

Kimi-VL開源多模態(tài)大模型結(jié)構(gòu)、訓(xùn)練方法、訓(xùn)練數(shù)據(jù)淺析 2025-04-16 07:08:19發(fā)布
十大PDF解析工具在不同文檔類別中的比較研究 2025-04-07 06:31:37發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇： HtmlRAG：RAG系統(tǒng)中，HTML比純文本效果更好

下一篇： DeepSeek的多頭潛在注意力（MLA）和及其11種KV-Cache技巧演進(jìn)大總結(jié)

社區(qū)精華內(nèi)容

目錄