自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

M3DocRAG:文檔問答用哪個多模態(tài)大模型效果最好?

發(fā)布于 2024-12-5 11:55
瀏覽
0收藏

1. 文檔視覺問答現(xiàn)狀

文檔視覺問答(DocVQA)是通過解讀文檔圖像所含信息來回答文本問題的多模態(tài)任務(wù)。精準(zhǔn)高效地回答眾多冗長且布局繁雜的文檔中的問題,會給金融、醫(yī)療保健和法律等諸多領(lǐng)域帶來極大益處,在這些領(lǐng)域,文檔AI助手能夠簡化大量文檔的日常處理,提升生產(chǎn)力,助力更快、更明智的決策。

現(xiàn)有的DocVQA任務(wù),主要有以下兩種方案:

? 1.聚焦于單頁文檔的視覺問答,如下圖。

M3DocRAG:文檔問答用哪個多模態(tài)大模型效果最好?-AI.x社區(qū)圖片

? 2.從文檔中提取文本(比如OCR或PDF文本提?。┎⑦\用檢索增強(qiáng)生成(RAG),即檢索模型找出相關(guān)段落,語言模型依據(jù)段落回答問題(如下圖)。

M3DocRAG:文檔問答用哪個多模態(tài)大模型效果最好?-AI.x社區(qū)圖片

但是,這兩類方案在真實文檔理解場景中運用存在以下兩方面問題:

? 問題往往需要跨越不同頁面或文檔的信息,現(xiàn)有的VQA方法難以處理眾多長文檔;

? 部分文檔具有復(fù)雜的視覺格式,像表格、圖表和混合布局,可諸如OCR這類的文本提取方法會忽略這些細(xì)微之處,致使文檔解讀不完整或不準(zhǔn)確。

2. 什么是M3DOCRAG?

為了突破以上DocVQA方法的局限性,作者推出了M3DOCRAG(Multi-modal Multi-page Multi-DocumentVisual Question Answering,多模態(tài)多頁多文檔檢索增強(qiáng)生成):一個新的多模態(tài)RAG框架,能夠靈活適應(yīng)各類文檔情境(封閉域和開放域)、問題跳轉(zhuǎn)(單跳和多跳)以及內(nèi)容形式(文本、圖表、圖形等)。

M3DocRAG:文檔問答用哪個多模態(tài)大模型效果最好?-AI.x社區(qū)圖片

如上圖,M3DOCRAG框架借助多模態(tài)檢索模型檢索相關(guān)文檔頁面,并利用多模態(tài)語言模型(MLM)從檢索到的頁面生成問題答案。

M3DOCRAG分三個階段運作:

? 文檔嵌入階段:把所有文檔頁面轉(zhuǎn)為RGB圖像,并從頁面圖像中提取視覺嵌入(例如 ColPali)。

? 頁面檢索階段:用文本查詢檢索相似度高的前K個頁面。對于開放域設(shè)置,創(chuàng)建近似頁面索引,比如倒排文件索引(IVF),以加快搜索速度。

? 問答階段:使用MLM進(jìn)行視覺問答以獲取最終答案。也請參考圖3了解框架的詳細(xì)情況。M3DOCRAG能夠靈活處理封閉域(單個文檔)和開放域(大量文檔的語料庫)設(shè)置中的DocVQA。

M3DocRAG:文檔問答用哪個多模態(tài)大模型效果最好?-AI.x社區(qū)圖片

2.1. 文檔嵌入(Document Embedding)

在 M3DOCRAG 中,文本查詢與頁面圖像通過 ColPali 投射至一個共享的多模態(tài)嵌入空間。將文本和圖像輸入編碼為統(tǒng)一的向量表示,并檢索出前 K 個最相關(guān)的圖像。

為提升效率,對文檔的每個頁面進(jìn)行獨立處理。使得能夠?qū)⑽臋n語料庫中的所有頁面展平為一個單頁級嵌入張量。

M3DOCRAG 能夠靈活適應(yīng)不同的檢索設(shè)置,比如單頁文檔、含多個頁面的單個文檔以及大型多頁文檔語料庫。

2.2. 頁面檢索(Page Retrieval)

查詢Q與頁面P之間的相關(guān)性通過 MaxSim 分?jǐn)?shù)來計算。

開放域頁面檢索的近似索引:在大型文檔語料庫中搜索頁面往往耗時且計算成本高。當(dāng)期望更快的搜索速度時,基于 Faiss 離線創(chuàng)建頁面索引,通過應(yīng)用近似最近鄰搜索。

封閉域頁面檢索:采用精確搜索,在開放域設(shè)置中使用倒排文件索引(IVF)(Faiss 中的 IVFFlat),在搜索 40K 個頁面時,能將頁面檢索延遲從 20 秒/查詢降低至不到 2 秒/查詢。

2.3. 問答

將文本查詢Q和檢索到的頁面圖像P提供給多模態(tài)語言模型,以實現(xiàn)視覺問答并獲取最終答案。

為此,運用多模態(tài)語言模型(比如 Qwen2-VL ),其包含視覺編碼器和語言模型 LM 。

視覺編碼器把檢索到的K個頁面圖像當(dāng)作輸入,輸出視覺嵌入(與 ColPali 編碼器的輸出有別)。語言模型把查詢Q的視覺嵌入和文本嵌入當(dāng)作輸入,以自回歸的方式輸出最終答案。

3. 效果如何?

3.1 開放領(lǐng)域文檔視覺問答

M3DocRAG:文檔問答用哪個多模態(tài)大模型效果最好?-AI.x社區(qū)圖片

上圖展示了M3DOCVQA的評估結(jié)果:多模態(tài) RAG 比文本 RAG 表現(xiàn)更出色,尤其是在非文本證據(jù)來源方面。

M3DOC RAG(ColPauli + Qven2-VL 7B)在所有不同的證據(jù)模式/問題跳轉(zhuǎn)/# 頁面上,都大幅領(lǐng)先于文本 RAG(ColBERT v2 + Llama 3.1 8B)。

當(dāng)證據(jù)包含圖像時,性能差距尤為顯著,表明 M3DOCRAG 解決了純文本管道在處理非文本內(nèi)容時的信息丟失問題。

為文本 RAG 和 M3DOC RAG 提供更多檢索到的頁面作為上下文,通常會提升其性能(使用前 4 頁比前 1 頁和 2 頁的性能更高)。

3.2. 封閉域文檔視覺問答

M3DocRAG:文檔問答用哪個多模態(tài)大模型效果最好?-AI.x社區(qū)圖片

上表展示了封閉域文檔VQA的評估結(jié)果,涵蓋五種證據(jù)源模態(tài)(文本(TXT)、布局(LAY)、圖表(CHA)、表格(TAB)和圖像(IMG))以及三種證據(jù)位置(單頁(SIN)、跨頁(MUL)和無法回答(UNA))的綜合準(zhǔn)確率(ACC)。

多模態(tài) RAG 增強(qiáng)了 MLM 對長文檔的理解能力。在 MM Long Bench-Doc 中,模型需處理每個問題所對應(yīng)的長 PDF 文檔(多達(dá) 120 頁)。鑒于許多多模態(tài) LM 的上下文長度有限,采用了一種拼接策略,將所有截圖頁面組合成 1 個或 5 個圖像,并將這些拼接后的圖像輸入到多模態(tài) LM 中。

結(jié)果表明:

? ColPali + Idefics2 超越了不含 RAG 的 Idefics2 以及之前所有的多模態(tài)條目。

? VolPauli + QWP2–VL 7B 在整體 F1 和大多數(shù)證據(jù)模態(tài)/頁面設(shè)置中斬獲最佳分?jǐn)?shù)。多模態(tài)檢索在處理多頁時相較于通過拼接低分辨率圖像更為有效。

? 為文本 RAG 和 M3DOC RAG 提供更多檢索頁面作為上下文通常會提升性能(使用前 4 頁比前 1 頁性能更優(yōu))。

M3DocRAG:文檔問答用哪個多模態(tài)大模型效果最好?-AI.x社區(qū)圖片

? M3DOC RAG 在 MP-DocVQA 中達(dá)到了頂尖水平。在 MP-DocVQA 中,模型必須針對每個問題處理多達(dá) 20 頁的 PDF 文檔。

? 雖然文本 RAG(ColBERT v2 + Llama 3.1)遜于現(xiàn)有方法,但所有多模態(tài) RAG 管道均優(yōu)于其基于文本的對應(yīng)項。

? M3DOC RAG 管道(ColPali + Qwen2-VL 7B)在 MP-DocVQA 上取得了領(lǐng)先成果。

3.3. 額外分析

3.3.1 不同頁面索引的速度與準(zhǔn)確性

M3DocRAG:文檔問答用哪個多模態(tài)大模型效果最好?-AI.x社區(qū)圖片

對 ColPali+Qwen2-VL 7B 管道采用不同文檔嵌入索引方法時的速度和準(zhǔn)確性進(jìn)行了分析。

雖說采用精確搜索的樸素索引(FlatIP)速度較慢(每個查詢 21 秒),但像倒排文件(IVFFlat)和乘積量化(IVFPQ)這類近似索引,既能保留大部分準(zhǔn)確性,又能大幅提升搜索速度(每個查詢<2 秒)。

M3DOCRAG 默認(rèn)使用 FlatIP + IVFFlat 索引,用戶可依據(jù)部署需求選擇適宜的索引方法。

3.3.2 不同的多模態(tài)語言模型

M3DocRAG:文檔問答用哪個多模態(tài)大模型效果最好?-AI.x社區(qū)圖片

對四種不同的多模態(tài)語言模型進(jìn)行了比較,分別是 Idefics2 8B、Idefics3 8B、InternVL2 8B 和 Qwen2-VL 7B 。

Qwen2-VL 7B 模型在所有三項基準(zhǔn)測試中均優(yōu)于其他多模態(tài)語言模型。所以,將其作為默認(rèn)的多模態(tài)語言模型組件。

3.3.3 不同的多模態(tài)檢索模型

M3DocRAG:文檔問答用哪個多模態(tài)大模型效果最好?-AI.x社區(qū)圖片

對兩種不同的多模態(tài)檢索模型加以比較,即 ColPali v1 和 ColQwen v0.1。這兩個模型均以相同的訓(xùn)練目標(biāo)進(jìn)行訓(xùn)練,但分別以不同的多模態(tài)語言模型架構(gòu)進(jìn)行初始化,即 PaliGemma 2B 和 Qwen2-VL 2B 。

ColPali 表現(xiàn)顯著更優(yōu),而 ColQwen 在 MPDocVQA 和 MM Long Bench-Doc 中的表現(xiàn)略好。因此,將 ColPali 作為默認(rèn)的檢索模型。

本文轉(zhuǎn)載自??大語言模型論文跟蹤??,作者:HuggingAGI 

已于2024-12-5 12:02:32修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦