自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sup id="glpok"></sup>

<thead id="glpok"><b id="glpok"><pre id="glpok"></pre></b></thead>

<sub id="glpok"></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術網(wǎng)站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

Adobe首發(fā)多Agent、跨模態(tài)框架MDocAgent：復雜文檔理解性能爆炸12%，錯誤率直降21%

發(fā)布于 2025-4-14 23:56

瀏覽

0收藏

文檔問答太難了

含有豐富文本和視覺元素（如圖表、圖像等）的長文檔，在進行文檔問答時，現(xiàn)有的方案有其局限性：

傳統(tǒng)的大型語言模型（LLMs）僅能處理文本信息
大型視覺語言模型（LVLMs）雖然能夠處理視覺內(nèi)容，但在處理長文檔時往往效率低下，并且難以對文本和視覺信息進行有效的融合與推理。
現(xiàn)有的檢索增強生成（RAG）方法雖然能夠從長文檔中提取關鍵信息，但它們通常僅依賴于單一模態(tài)（文本或圖像）進行檢索，缺乏跨模態(tài)的信息整合能力。

Adobe首發(fā)多Agent、跨模態(tài)框架MDocAgent：復雜文檔理解性能爆炸12%，錯誤率直降21%-AI.x社區(qū)

MDocAgent

5個智能體

MDocAgent通過引入多個專門的智能體（agents），協(xié)同處理文本和圖像信息，以實現(xiàn)對文檔內(nèi)容的深入理解。具體而言，MDocAgent 包含以下五個智能體：

通用智能體（General Agent）：負責初步的多模態(tài)信息整合，為后續(xù)的分析提供基礎。
關鍵信息提取智能體（Critical Agent）：識別并提取對回答問題至關重要的文本和視覺信息，為其他智能體提供指導。
文本智能體（Text Agent）：專注于文本信息的分析，從文本中提取與問題相關的細節(jié)。
圖像智能體（Image Agent）：專注于圖像信息的分析，從圖像中提取與問題相關的視覺細節(jié)。
總結智能體（Summarizing Agent）：綜合所有智能體的輸出，生成最終的答案。

MDocAgent架構

MDocAgent 通過多模態(tài)多智能體的協(xié)同工作，實現(xiàn)對文檔內(nèi)容的全面理解。
該框架不僅關注文本和圖像信息的獨立分析，還強調(diào)跨模態(tài)信息的融合與推理。
通過將文檔預處理、多模態(tài)上下文檢索、關鍵信息提取、專門智能體處理以及答案合成等步驟有機結合，MDocAgent 能夠在復雜的文檔環(huán)境中，精準地定位和整合關鍵信息，從而生成準確的答案。

Adobe首發(fā)多Agent、跨模態(tài)框架MDocAgent：復雜文檔理解性能爆炸12%，錯誤率直降21%-AI.x社區(qū)

文檔預處理：

a.文檔預處理的目的是，將文檔轉換為適合后續(xù)分析的格式。

b.對于文檔中的每一頁，使用 OCR 技術識別圖像中的文本內(nèi)容，同時通過 PDF 解析技術提取數(shù)字化文本。

c.將提取的文本表示為文本段落序列，每個段落包含一頁中的部分或全部文本。

d.同時，將每一頁的原始圖像保留下來，以便后續(xù)的視覺分析。

多模態(tài)上下文檢索：

a.多模態(tài)上下文檢索階段的目標是，從文檔中檢索與問題最相關的文本和圖像信息。

b.使用 ColBERT 對文檔中的文本段落進行索引，并根據(jù)問題檢索出最相關的文本段落。

c.使用 ColPali 對文檔中的圖像頁面進行處理，生成視覺嵌入向量，并根據(jù)問題檢索出最相關的圖像頁面。

d.通過比較文本和圖像的相關性得分，選擇最相關的文本段落和圖像頁面作為后續(xù)分析的上下文。

e.這一階段通過結合文本和圖像檢索，為后續(xù)的智能體分析提供了豐富的上下文信息。

Adobe首發(fā)多Agent、跨模態(tài)框架MDocAgent：復雜文檔理解性能爆炸12%，錯誤率直降21%-AI.x社區(qū)

關鍵信息提?。?/li>

a.關鍵信息提取階段目的是，從檢索到的上下文中提取對回答問題至關重要的信息。

b.通用智能體對檢索到的文本和圖像信息進行初步分析，生成初步答案。

c.關鍵信息提取智能體則進一步分析這些信息，提取出對回答問題至關重要的文本和視覺信息。

d.提取的關鍵信息將作為后續(xù)專門智能體處理的輸入，指導它們的分析過程。

e.這一階段通過提取關鍵信息，為后續(xù)的專門智能體處理提供明確的指導，提高系統(tǒng)的效率和準確性。

專門智能體處理：

a.專門智能體處理的目的是，對提取的關鍵信息進行深入分析。

b.文本智能體接收提取的關鍵文本信息和相關的文本上下文，通過分析文本內(nèi)容，生成詳細的文本答案。

c.圖像智能體接收提取的關鍵視覺信息和相關的圖像上下文，通過分析圖像內(nèi)容，生成詳細的視覺答案。

d.文本智能體和圖像智能體分別從文本和圖像的角度對問題進行分析，生成的答案將作為后續(xù)答案合成階段的輸入。

e.這一階段通過專門智能體的協(xié)同工作，實現(xiàn)對文本和圖像信息的深入分析，為最終答案的生成提供了豐富的依據(jù)。

Adobe首發(fā)多Agent、跨模態(tài)框架MDocAgent：復雜文檔理解性能爆炸12%，錯誤率直降21%-AI.x社區(qū)

答案合成：

a.答案合成階段目的是，綜合所有智能體的輸出，生成最終的答案。

b.總結智能體接收來自通用智能體、文本智能體和圖像智能體的答案。

c.總結智能體分析這些答案，識別其中的共同點、差異和互補信息。

d.總結智能體根據(jù)這些分析結果，生成一個綜合性的答案，該答案不僅考慮了文本和圖像信息，還考慮了它們之間的關系。

e.這一階段通過綜合分析所有智能體的輸出，生成了一個全面且準確的答案。

MDocAgent方案VS M3DocRAG & ColBERT+Llama3.1

案例1

要求比較文檔中兩個不同拉丁裔群體的人口數(shù)量：外國出生的拉丁裔和通過手機采訪的拉丁裔。
文檔中包含了相關的文本描述和表格數(shù)據(jù)，但這些信息分散在不同的位置，需要同時從文本和圖像中提取并整合。

Adobe首發(fā)多Agent、跨模態(tài)框架MDocAgent：復雜文檔理解性能爆炸12%，錯誤率直降21%-AI.x社區(qū)

檢索階段：

a.ColBERT 和 ColPali 成功檢索到了包含相關信息的頁面，但僅檢索到頁面是不夠的，還需要進一步分析頁面中的具體內(nèi)容。

b.ColBERT：僅依賴文本信息，未能準確解析文本中的數(shù)值數(shù)據(jù)，錯誤地得出“外國出生的拉丁裔人口更多”的結論。

c.M3DocRAG：雖然結合了文本和圖像信息，但由于缺乏對關鍵信息的細致提取和跨模態(tài)整合能力，未能正確回答問題。

d.MDocAgent 通過多模態(tài)上下文檢索，同時利用文本和圖像信息，避免了單一模態(tài)方法的局限性。

初步分析與關鍵信息提取：

a.通用智能體（General Agent）生成了一個初步但較為模糊的答案，指出“通過手機采訪的拉丁裔人口更多”。

關鍵信息提取智能體（Critical Agent）識別出關鍵信息，包括文本中的“外國出生（排除波多黎各）”和圖像中的“手機抽樣框架”表格。
專門智能體處理：

a.文本智能體（Text Agent）根據(jù)關鍵信息提取智能體提供的線索，從文本中提取到“外國出生（排除波多黎各）的人數(shù)為 795”。

b.圖像智能體（Image Agent）從表格中提取到“通過手機采訪的人數(shù)為 1051”。

答案合成：

a.總結智能體（Summarizing Agent）整合所有智能體的輸出，生成最終答案：“通過手機采訪的拉丁裔人數(shù)（1051）大于外國出生的拉丁裔人數(shù)（795）”。

案例2：

要求從一個列表中識別出唯一一個沒有包含人員的相應圖像的原因。
文檔中包含了一個關于 NTU 智慧校園的列表，但列表沒有明確編號，且每個原因旁邊都有相應的圖像。

檢索階段：

a.ColBERT 未能檢索到正確的證據(jù)頁面，導致 ColBERT + Llama-3.1-8B 無法回答問題。

b.ColPali 成功檢索到了包含證據(jù)的頁面，但由于缺乏對關鍵信息的細致提取和跨模態(tài)整合能力，未能正確回答問題。

c.MDocAgent 通過多模態(tài)檢索，成功定位到包含關鍵信息的頁面。

初步分析與關鍵信息提?。?/li>

a.通用智能體（General Agent）生成了一個初步答案，但未能準確識別。

b.關鍵信息提取智能體（Critical Agent）識別出關鍵文本線索“Most Beautiful Campus”和相應的視覺元素（NTU 校園的圖像）。

專門智能體處理：

a.文本智能體（Text Agent）根據(jù)關鍵信息提取智能體提供的線索，嘗試從文本中找到相關信息，但由于文本中沒有明確的列表編號，未能直接找到答案。

b.圖像智能體（Image Agent）利用關鍵信息，正確識別出“NTU campus without people”作為答案。

答案合成：

a.總結智能體（Summarizing Agent）綜合所有智能體的輸出，最終確定答案為“Most Beautiful Campus”，并指出該原因的圖像中沒有人員

案例3：

要求從文檔中識別出 Professor Lebour 的學位。
文檔中包含相關文本描述和圖像，但信息分散在不同的位置，需要同時從文本和圖像中提取并整合。

Adobe首發(fā)多Agent、跨模態(tài)框架MDocAgent：復雜文檔理解性能爆炸12%，錯誤率直降21%-AI.x社區(qū)

檢索階段：

a.ColBERT 成功檢索到了包含相關信息的頁面，但 ColBERT + Llama-3.1-8B 在生成答案時錯誤地將 “F.G.S.” 識別為一個學位，導致答案不準確。

b.ColPali 未能檢索到正確的頁面，導致 M3DocRAG 無法回答問題。

c.MDocAgent 通過多模態(tài)檢索，成功定位到包含關鍵信息的頁面。

初步分析與關鍵信息提取：

a.通用智能體（General Agent）生成了一個初步答案，但未能準確識別所有信息，錯誤地將 “F.G.S.” 識別為一個學位。

b.關鍵信息提取智能體（Critical Agent）識別出關鍵文本線索 “M.A.”，并從圖像中提取了相關的視覺線索。

專門智能體處理：

a.文本智能體（Text Agent）根據(jù)關鍵信息提取智能體提供的線索，從文本中提取到 “G. A. Lebour, M.A., F.G.S.”，并確認 “M.A.” 是一個學位。

b.圖像智能體（Image Agent）利用關鍵信息，確認圖像中沒有提供額外的學位信息，但支持文本中的 “M.A.”。

答案合成：

a.總結智能體（Summarizing Agent）綜合所有智能體的輸出，最終確定答案為 “Prof. Lebour holds a Master of Arts (M.A.) degree.”。

??https://arxiv.org/pdf/2503.13964??
??https://github.com/aiming-lab/MDocAgent??

本文轉載自??CourseAI??，作者：CourseAI

標簽

已于2025-4-15 09:43:43修改

贊

收藏

回復

舉報

社區(qū)頭條

回復

相關推薦

mPLUG-DocOwl2:新模型無需OCR，多頁文檔理解邁入新紀元

AI論文解讀 ? 3043瀏覽 ? 0回復
Mistral開源首個多模態(tài)大模型—Pixtral 12B

Aceryt ? 2416瀏覽 ? 0回復
VideoLLaMB：創(chuàng)新開源框架，引領多模態(tài)長視頻理解

穿越時空111 ? 2233瀏覽 ? 0回復
多模態(tài)RAG-ColPali：使用視覺語言模型實現(xiàn)高效的文檔檢索

大模型自然語言處理 ? 2377瀏覽 ? 0回復
多模態(tài)RAG-VisRAG：基于視覺的檢索增強生成在多模態(tài)文檔上的應用

大模型自然語言處理 ? 2419瀏覽 ? 0回復
先進的多文檔問答（MDQA）框架HiQA：大幅降低區(qū)分度低的復雜多文檔RAG的幻覺問題

AI博物院 ? 2296瀏覽 ? 0回復
再看多模態(tài)RAG進行文檔問答的方案

大模型自然語言處理 ? 2073瀏覽 ? 0回復
M3DocRAG：文檔問答用哪個多模態(tài)大模型效果最好？

大語言模型論文跟蹤 ? 2466瀏覽 ? 0回復
文檔截圖嵌入統(tǒng)一多模態(tài)檢索方法原理

大模型自然語言處理 ? 1861瀏覽 ? 0回復
基于谷歌Gemini多模態(tài)模型實現(xiàn)PDF文檔自動化處理

51CTO內(nèi)容精選 ? 2288瀏覽 ? 0回復
簡單有效的企業(yè)多模態(tài)RAG問答框架-MuRAR

大模型自然語言處理 ? 1761瀏覽 ? 0回復
“RAG界的DeepSeek”開源-企業(yè)復雜私域知識理解與推理框架PIKE-RAG

大模型自然語言處理 ? 2253瀏覽 ? 0回復
allenai開源多模態(tài)的文檔智能解析大模型（OLMOCR）方法、效果淺析

大模型自然語言處理 ? 2453瀏覽 ? 0回復
文檔解析神器MinerU：2.5萬星標！支持GPU加速，輕松應對復雜文檔

AI博物院 ? 4303瀏覽 ? 0回復
9.6K Star防翻車指南：Instructor讓AI輸出錯誤率歸零！

CourseAI ? 1498瀏覽 ? 0回復
Mistral發(fā)布最強多模態(tài)文檔理解模型Mistral OCR！可免費試用！

51CTO技術棧 ? 1841瀏覽 ? 0回復
多模態(tài)理解和生成：多模態(tài)理解與生成統(tǒng)一獎勵模型；將獎勵模型多模態(tài)情緒識別上

AI研究前瞻 ? 1629瀏覽 ? 0回復
大模型數(shù)據(jù)預處理——關于復雜文檔在大模型應用中的解決方案

AI探索時代 ? 536瀏覽 ? 0回復
CMTF：用于金融市場預測的跨模態(tài)時間融合框架

靈度智能 ? 441瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

騰訊屠榜MTEB，嵌入模型告別BERT，擁抱LLM 5天前發(fā)布
3.4K Star 港大開源AutoAgent登頂GAIA全球評測，成本直降50%碾壓商業(yè)巨頭 2025-04-02 00:11:16發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復

王炸！MCP 架構設計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

只需5分鐘，教你用Python搭建MCP Server 0回復

上一篇： 3.4K Star 港大開源AutoAgent登頂GAIA全球評測，成本直降50%碾壓商業(yè)巨頭

下一篇：騰訊屠榜MTEB，嵌入模型告別BERT，擁抱LLM

社區(qū)精華內(nèi)容

目錄

<sub id="iel1i"><p id="iel1i"></p></sub>