Adobe首發(fā)多Agent、跨模態(tài)框架MDocAgent:復雜文檔理解性能爆炸12%,錯誤率直降21%
文檔問答太難了
含有豐富文本和視覺元素(如圖表、圖像等)的長文檔,在進行文檔問答時,現(xiàn)有的方案有其局限性:
- 傳統(tǒng)的大型語言模型(LLMs)僅能處理文本信息
- 大型視覺語言模型(LVLMs)雖然能夠處理視覺內(nèi)容,但在處理長文檔時往往效率低下,并且難以對文本和視覺信息進行有效的融合與推理。
- 現(xiàn)有的檢索增強生成(RAG)方法雖然能夠從長文檔中提取關鍵信息,但它們通常僅依賴于單一模態(tài)(文本或圖像)進行檢索,缺乏跨模態(tài)的信息整合能力。
MDocAgent
5個智能體
MDocAgent通過引入多個專門的智能體(agents),協(xié)同處理文本和圖像信息,以實現(xiàn)對文檔內(nèi)容的深入理解。 具體而言,MDocAgent 包含以下五個智能體:
- 通用智能體(General Agent):負責初步的多模態(tài)信息整合,為后續(xù)的分析提供基礎。
- 關鍵信息提取智能體(Critical Agent):識別并提取對回答問題至關重要的文本和視覺信息,為其他智能體提供指導。
- 文本智能體(Text Agent):專注于文本信息的分析,從文本中提取與問題相關的細節(jié)。
- 圖像智能體(Image Agent):專注于圖像信息的分析,從圖像中提取與問題相關的視覺細節(jié)。
- 總結智能體(Summarizing Agent):綜合所有智能體的輸出,生成最終的答案。
MDocAgent架構
- MDocAgent 通過多模態(tài)多智能體的協(xié)同工作,實現(xiàn)對文檔內(nèi)容的全面理解。
- 該框架不僅關注文本和圖像信息的獨立分析,還強調(diào)跨模態(tài)信息的融合與推理。
- 通過將文檔預處理、多模態(tài)上下文檢索、關鍵信息提取、專門智能體處理以及答案合成等步驟有機結合,MDocAgent 能夠在復雜的文檔環(huán)境中,精準地定位和整合關鍵信息,從而生成準確的答案。
- 文檔預處理:
a.文檔預處理的目的是,將文檔轉換為適合后續(xù)分析的格式。
b.對于文檔中的每一頁,使用 OCR 技術識別圖像中的文本內(nèi)容,同時通過 PDF 解析技術提取數(shù)字化文本。
c.將提取的文本表示為文本段落序列,每個段落包含一頁中的部分或全部文本。
d.同時,將每一頁的原始圖像保留下來,以便后續(xù)的視覺分析。
- 多模態(tài)上下文檢索:
a.多模態(tài)上下文檢索階段的目標是,從文檔中檢索與問題最相關的文本和圖像信息。
b.使用 ColBERT 對文檔中的文本段落進行索引,并根據(jù)問題檢索出最相關的文本段落。
c.使用 ColPali 對文檔中的圖像頁面進行處理,生成視覺嵌入向量,并根據(jù)問題檢索出最相關的圖像頁面。
d.通過比較文本和圖像的相關性得分,選擇最相關的文本段落和圖像頁面作為后續(xù)分析的上下文。
e.這一階段通過結合文本和圖像檢索,為后續(xù)的智能體分析提供了豐富的上下文信息。
- 關鍵信息提?。?/li>
a.關鍵信息提取階段目的是,從檢索到的上下文中提取對回答問題至關重要的信息。
b.通用智能體對檢索到的文本和圖像信息進行初步分析,生成初步答案。
c.關鍵信息提取智能體則進一步分析這些信息,提取出對回答問題至關重要的文本和視覺信息。
d.提取的關鍵信息將作為后續(xù)專門智能體處理的輸入,指導它們的分析過程。
e.這一階段通過提取關鍵信息,為后續(xù)的專門智能體處理提供明確的指導,提高系統(tǒng)的效率和準確性。
- 專門智能體處理:
a.專門智能體處理的目的是,對提取的關鍵信息進行深入分析。
b.文本智能體接收提取的關鍵文本信息和相關的文本上下文,通過分析文本內(nèi)容,生成詳細的文本答案。
c.圖像智能體接收提取的關鍵視覺信息和相關的圖像上下文,通過分析圖像內(nèi)容,生成詳細的視覺答案。
d.文本智能體和圖像智能體分別從文本和圖像的角度對問題進行分析,生成的答案將作為后續(xù)答案合成階段的輸入。
e.這一階段通過專門智能體的協(xié)同工作,實現(xiàn)對文本和圖像信息的深入分析,為最終答案的生成提供了豐富的依據(jù)。
- 答案合成:
a.答案合成階段目的是,綜合所有智能體的輸出,生成最終的答案。
b.總結智能體接收來自通用智能體、文本智能體和圖像智能體的答案。
c.總結智能體分析這些答案,識別其中的共同點、差異和互補信息。
d.總結智能體根據(jù)這些分析結果,生成一個綜合性的答案,該答案不僅考慮了文本和圖像信息,還考慮了它們之間的關系。
e.這一階段通過綜合分析所有智能體的輸出,生成了一個全面且準確的答案。
MDocAgent方案VS M3DocRAG & ColBERT+Llama3.1
案例1
- 要求比較文檔中兩個不同拉丁裔群體的人口數(shù)量:外國出生的拉丁裔和通過手機采訪的拉丁裔。
- 文檔中包含了相關的文本描述和表格數(shù)據(jù),但這些信息分散在不同的位置,需要同時從文本和圖像中提取并整合。
- 檢索階段:
a.ColBERT 和 ColPali 成功檢索到了包含相關信息的頁面,但僅檢索到頁面是不夠的,還需要進一步分析頁面中的具體內(nèi)容。
b.ColBERT:僅依賴文本信息,未能準確解析文本中的數(shù)值數(shù)據(jù),錯誤地得出“外國出生的拉丁裔人口更多”的結論。
c.M3DocRAG:雖然結合了文本和圖像信息,但由于缺乏對關鍵信息的細致提取和跨模態(tài)整合能力,未能正確回答問題。
d.MDocAgent 通過多模態(tài)上下文檢索,同時利用文本和圖像信息,避免了單一模態(tài)方法的局限性。
- 初步分析與關鍵信息提取:
a.通用智能體(General Agent)生成了一個初步但較為模糊的答案,指出“通過手機采訪的拉丁裔人口更多”。
- 關鍵信息提取智能體(Critical Agent)識別出關鍵信息,包括文本中的“外國出生(排除波多黎各)”和圖像中的“手機抽樣框架”表格。
- 專門智能體處理:
a.文本智能體(Text Agent)根據(jù)關鍵信息提取智能體提供的線索,從文本中提取到“外國出生(排除波多黎各)的人數(shù)為 795”。
b.圖像智能體(Image Agent)從表格中提取到“通過手機采訪的人數(shù)為 1051”。
- 答案合成:
a.總結智能體(Summarizing Agent)整合所有智能體的輸出,生成最終答案:“通過手機采訪的拉丁裔人數(shù)(1051)大于外國出生的拉丁裔人數(shù)(795)”。
案例2:
- 要求從一個列表中識別出唯一一個沒有包含人員的相應圖像的原因。
- 文檔中包含了一個關于 NTU 智慧校園的列表,但列表沒有明確編號,且每個原因旁邊都有相應的圖像。
- 檢索階段:
a.ColBERT 未能檢索到正確的證據(jù)頁面,導致 ColBERT + Llama-3.1-8B 無法回答問題。
b.ColPali 成功檢索到了包含證據(jù)的頁面,但由于缺乏對關鍵信息的細致提取和跨模態(tài)整合能力,未能正確回答問題。
c.MDocAgent 通過多模態(tài)檢索,成功定位到包含關鍵信息的頁面。
- 初步分析與關鍵信息提?。?/li>
a.通用智能體(General Agent)生成了一個初步答案,但未能準確識別。
b.關鍵信息提取智能體(Critical Agent)識別出關鍵文本線索“Most Beautiful Campus”和相應的視覺元素(NTU 校園的圖像)。
- 專門智能體處理:
a.文本智能體(Text Agent)根據(jù)關鍵信息提取智能體提供的線索,嘗試從文本中找到相關信息,但由于文本中沒有明確的列表編號,未能直接找到答案。
b.圖像智能體(Image Agent)利用關鍵信息,正確識別出“NTU campus without people”作為答案。
- 答案合成:
a.總結智能體(Summarizing Agent)綜合所有智能體的輸出,最終確定答案為“Most Beautiful Campus”,并指出該原因的圖像中沒有人員
案例3:
- 要求從文檔中識別出 Professor Lebour 的學位。
- 文檔中包含相關文本描述和圖像,但信息分散在不同的位置,需要同時從文本和圖像中提取并整合。
- 檢索階段:
a.ColBERT 成功檢索到了包含相關信息的頁面,但 ColBERT + Llama-3.1-8B 在生成答案時錯誤地將 “F.G.S.” 識別為一個學位,導致答案不準確。
b.ColPali 未能檢索到正確的頁面,導致 M3DocRAG 無法回答問題。
c.MDocAgent 通過多模態(tài)檢索,成功定位到包含關鍵信息的頁面。
- 初步分析與關鍵信息提取:
a.通用智能體(General Agent)生成了一個初步答案,但未能準確識別所有信息,錯誤地將 “F.G.S.” 識別為一個學位。
b.關鍵信息提取智能體(Critical Agent)識別出關鍵文本線索 “M.A.”,并從圖像中提取了相關的視覺線索。
- 專門智能體處理:
a.文本智能體(Text Agent)根據(jù)關鍵信息提取智能體提供的線索,從文本中提取到 “G. A. Lebour, M.A., F.G.S.”,并確認 “M.A.” 是一個學位。
b.圖像智能體(Image Agent)利用關鍵信息,確認圖像中沒有提供額外的學位信息,但支持文本中的 “M.A.”。
- 答案合成:
a.總結智能體(Summarizing Agent)綜合所有智能體的輸出,最終確定答案為 “Prof. Lebour holds a Master of Arts (M.A.) degree.”。
本文轉載自??CourseAI??,作者:CourseAI
