自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Adobe首發(fā)多Agent、跨模態(tài)框架MDocAgent:復雜文檔理解性能爆炸12%,錯誤率直降21%

發(fā)布于 2025-4-14 23:56
瀏覽
0收藏

文檔問答太難了 

含有豐富文本和視覺元素(如圖表、圖像等)的長文檔,在進行文檔問答時,現(xiàn)有的方案有其局限性:

  • 傳統(tǒng)的大型語言模型(LLMs)僅能處理文本信息
  • 大型視覺語言模型(LVLMs)雖然能夠處理視覺內(nèi)容,但在處理長文檔時往往效率低下,并且難以對文本和視覺信息進行有效的融合與推理。
  • 現(xiàn)有的檢索增強生成(RAG)方法雖然能夠從長文檔中提取關鍵信息,但它們通常僅依賴于單一模態(tài)(文本或圖像)進行檢索,缺乏跨模態(tài)的信息整合能力。

Adobe首發(fā)多Agent、跨模態(tài)框架MDocAgent:復雜文檔理解性能爆炸12%,錯誤率直降21%-AI.x社區(qū)

MDocAgent 

5個智能體

MDocAgent通過引入多個專門的智能體(agents),協(xié)同處理文本和圖像信息,以實現(xiàn)對文檔內(nèi)容的深入理解。 具體而言,MDocAgent 包含以下五個智能體:

  • 通用智能體(General Agent):負責初步的多模態(tài)信息整合,為后續(xù)的分析提供基礎。
  • 關鍵信息提取智能體(Critical Agent):識別并提取對回答問題至關重要的文本和視覺信息,為其他智能體提供指導。
  • 文本智能體(Text Agent):專注于文本信息的分析,從文本中提取與問題相關的細節(jié)。
  • 圖像智能體(Image Agent):專注于圖像信息的分析,從圖像中提取與問題相關的視覺細節(jié)。
  • 總結智能體(Summarizing Agent):綜合所有智能體的輸出,生成最終的答案。

MDocAgent架構

  • MDocAgent 通過多模態(tài)多智能體的協(xié)同工作,實現(xiàn)對文檔內(nèi)容的全面理解。
  • 該框架不僅關注文本和圖像信息的獨立分析,還強調(diào)跨模態(tài)信息的融合與推理。
  • 通過將文檔預處理、多模態(tài)上下文檢索、關鍵信息提取、專門智能體處理以及答案合成等步驟有機結合,MDocAgent 能夠在復雜的文檔環(huán)境中,精準地定位和整合關鍵信息,從而生成準確的答案。

Adobe首發(fā)多Agent、跨模態(tài)框架MDocAgent:復雜文檔理解性能爆炸12%,錯誤率直降21%-AI.x社區(qū)

  • 文檔預處理:

a.文檔預處理的目的是,將文檔轉換為適合后續(xù)分析的格式。

b.對于文檔中的每一頁,使用 OCR 技術識別圖像中的文本內(nèi)容,同時通過 PDF 解析技術提取數(shù)字化文本。

c.將提取的文本表示為文本段落序列,每個段落包含一頁中的部分或全部文本。

d.同時,將每一頁的原始圖像保留下來,以便后續(xù)的視覺分析。

  • 多模態(tài)上下文檢索:

a.多模態(tài)上下文檢索階段的目標是,從文檔中檢索與問題最相關的文本和圖像信息。

b.使用 ColBERT 對文檔中的文本段落進行索引,并根據(jù)問題檢索出最相關的文本段落。

c.使用 ColPali 對文檔中的圖像頁面進行處理,生成視覺嵌入向量,并根據(jù)問題檢索出最相關的圖像頁面。

d.通過比較文本和圖像的相關性得分,選擇最相關的文本段落和圖像頁面作為后續(xù)分析的上下文。

e.這一階段通過結合文本和圖像檢索,為后續(xù)的智能體分析提供了豐富的上下文信息。

Adobe首發(fā)多Agent、跨模態(tài)框架MDocAgent:復雜文檔理解性能爆炸12%,錯誤率直降21%-AI.x社區(qū)

  • 關鍵信息提?。?/li>

a.關鍵信息提取階段目的是,從檢索到的上下文中提取對回答問題至關重要的信息。

b.通用智能體對檢索到的文本和圖像信息進行初步分析,生成初步答案。

c.關鍵信息提取智能體則進一步分析這些信息,提取出對回答問題至關重要的文本和視覺信息。

d.提取的關鍵信息將作為后續(xù)專門智能體處理的輸入,指導它們的分析過程。

e.這一階段通過提取關鍵信息,為后續(xù)的專門智能體處理提供明確的指導,提高系統(tǒng)的效率和準確性。

  • 專門智能體處理:

a.專門智能體處理的目的是,對提取的關鍵信息進行深入分析。

b.文本智能體接收提取的關鍵文本信息和相關的文本上下文,通過分析文本內(nèi)容,生成詳細的文本答案。

c.圖像智能體接收提取的關鍵視覺信息和相關的圖像上下文,通過分析圖像內(nèi)容,生成詳細的視覺答案。

d.文本智能體和圖像智能體分別從文本和圖像的角度對問題進行分析,生成的答案將作為后續(xù)答案合成階段的輸入。

e.這一階段通過專門智能體的協(xié)同工作,實現(xiàn)對文本和圖像信息的深入分析,為最終答案的生成提供了豐富的依據(jù)。

Adobe首發(fā)多Agent、跨模態(tài)框架MDocAgent:復雜文檔理解性能爆炸12%,錯誤率直降21%-AI.x社區(qū)

  • 答案合成:

a.答案合成階段目的是,綜合所有智能體的輸出,生成最終的答案。

b.總結智能體接收來自通用智能體、文本智能體和圖像智能體的答案。

c.總結智能體分析這些答案,識別其中的共同點、差異和互補信息。

d.總結智能體根據(jù)這些分析結果,生成一個綜合性的答案,該答案不僅考慮了文本和圖像信息,還考慮了它們之間的關系。

e.這一階段通過綜合分析所有智能體的輸出,生成了一個全面且準確的答案。

MDocAgent方案VS M3DocRAG & ColBERT+Llama3.1 

案例1

  • 要求比較文檔中兩個不同拉丁裔群體的人口數(shù)量:外國出生的拉丁裔和通過手機采訪的拉丁裔。
  • 文檔中包含了相關的文本描述和表格數(shù)據(jù),但這些信息分散在不同的位置,需要同時從文本和圖像中提取并整合。

Adobe首發(fā)多Agent、跨模態(tài)框架MDocAgent:復雜文檔理解性能爆炸12%,錯誤率直降21%-AI.x社區(qū)

  • 檢索階段:

a.ColBERT 和 ColPali 成功檢索到了包含相關信息的頁面,但僅檢索到頁面是不夠的,還需要進一步分析頁面中的具體內(nèi)容。

b.ColBERT:僅依賴文本信息,未能準確解析文本中的數(shù)值數(shù)據(jù),錯誤地得出“外國出生的拉丁裔人口更多”的結論。

c.M3DocRAG:雖然結合了文本和圖像信息,但由于缺乏對關鍵信息的細致提取和跨模態(tài)整合能力,未能正確回答問題。

d.MDocAgent 通過多模態(tài)上下文檢索,同時利用文本和圖像信息,避免了單一模態(tài)方法的局限性。

  • 初步分析與關鍵信息提取:

a.通用智能體(General Agent)生成了一個初步但較為模糊的答案,指出“通過手機采訪的拉丁裔人口更多”。

  • 關鍵信息提取智能體(Critical Agent)識別出關鍵信息,包括文本中的“外國出生(排除波多黎各)”和圖像中的“手機抽樣框架”表格。
  • 專門智能體處理:

a.文本智能體(Text Agent)根據(jù)關鍵信息提取智能體提供的線索,從文本中提取到“外國出生(排除波多黎各)的人數(shù)為 795”。

b.圖像智能體(Image Agent)從表格中提取到“通過手機采訪的人數(shù)為 1051”。

  • 答案合成:

a.總結智能體(Summarizing Agent)整合所有智能體的輸出,生成最終答案:“通過手機采訪的拉丁裔人數(shù)(1051)大于外國出生的拉丁裔人數(shù)(795)”。

案例2:

  • 要求從一個列表中識別出唯一一個沒有包含人員的相應圖像的原因。
  • 文檔中包含了一個關于 NTU 智慧校園的列表,但列表沒有明確編號,且每個原因旁邊都有相應的圖像。
  • 檢索階段:

a.ColBERT 未能檢索到正確的證據(jù)頁面,導致 ColBERT + Llama-3.1-8B 無法回答問題。

b.ColPali 成功檢索到了包含證據(jù)的頁面,但由于缺乏對關鍵信息的細致提取和跨模態(tài)整合能力,未能正確回答問題。

c.MDocAgent 通過多模態(tài)檢索,成功定位到包含關鍵信息的頁面。

  • 初步分析與關鍵信息提?。?/li>

a.通用智能體(General Agent)生成了一個初步答案,但未能準確識別。

b.關鍵信息提取智能體(Critical Agent)識別出關鍵文本線索“Most Beautiful Campus”和相應的視覺元素(NTU 校園的圖像)。

  • 專門智能體處理:

a.文本智能體(Text Agent)根據(jù)關鍵信息提取智能體提供的線索,嘗試從文本中找到相關信息,但由于文本中沒有明確的列表編號,未能直接找到答案。

b.圖像智能體(Image Agent)利用關鍵信息,正確識別出“NTU campus without people”作為答案。

  • 答案合成:

a.總結智能體(Summarizing Agent)綜合所有智能體的輸出,最終確定答案為“Most Beautiful Campus”,并指出該原因的圖像中沒有人員

案例3:

  • 要求從文檔中識別出 Professor Lebour 的學位。
  • 文檔中包含相關文本描述和圖像,但信息分散在不同的位置,需要同時從文本和圖像中提取并整合。

Adobe首發(fā)多Agent、跨模態(tài)框架MDocAgent:復雜文檔理解性能爆炸12%,錯誤率直降21%-AI.x社區(qū)

  • 檢索階段:

a.ColBERT 成功檢索到了包含相關信息的頁面,但 ColBERT + Llama-3.1-8B 在生成答案時錯誤地將 “F.G.S.” 識別為一個學位,導致答案不準確。

b.ColPali 未能檢索到正確的頁面,導致 M3DocRAG 無法回答問題。

c.MDocAgent 通過多模態(tài)檢索,成功定位到包含關鍵信息的頁面。

  • 初步分析與關鍵信息提取:

a.通用智能體(General Agent)生成了一個初步答案,但未能準確識別所有信息,錯誤地將 “F.G.S.” 識別為一個學位。

b.關鍵信息提取智能體(Critical Agent)識別出關鍵文本線索 “M.A.”,并從圖像中提取了相關的視覺線索。

  • 專門智能體處理:

a.文本智能體(Text Agent)根據(jù)關鍵信息提取智能體提供的線索,從文本中提取到 “G. A. Lebour, M.A., F.G.S.”,并確認 “M.A.” 是一個學位。

b.圖像智能體(Image Agent)利用關鍵信息,確認圖像中沒有提供額外的學位信息,但支持文本中的 “M.A.”。

  • 答案合成:

a.總結智能體(Summarizing Agent)綜合所有智能體的輸出,最終確定答案為 “Prof. Lebour holds a Master of Arts (M.A.) degree.”。

??https://arxiv.org/pdf/2503.13964??

??https://github.com/aiming-lab/MDocAgent??

本文轉載自??CourseAI??,作者:CourseAI

已于2025-4-15 09:43:43修改
收藏
回復
舉報
回復
相關推薦