多模態(tài)長文檔新基準來了!20多項任務(wù)覆蓋理解推理定位,GPT-4o也就剛及格
GPT-4o僅得分64.5,其余模型均未及格!
全面、細粒度評估模型多模態(tài)長文檔理解能力的評測集來了~
名為LongDocURL,集成了長文檔理解、數(shù)值推理和跨元素定位三個主任務(wù),并包含20個細分子任務(wù)。
LongDocURL主打多模態(tài)、長上下文,專注于篇幅在50~150頁的英文文檔,平均頁數(shù)和文檔標記數(shù)分別為85.6和43622.6。
數(shù)據(jù)質(zhì)量也很高,經(jīng)過了模型自動驗證和人工驗證,包括21位全職外包標注員和6位經(jīng)驗豐富的碩博研究生的監(jiān)督。
△圖1 新Benchmark與其它數(shù)據(jù)集在單文檔平均頁數(shù)、文本標記數(shù)上的比較
△圖2 新Benchmark與其它文檔理解基準的比較。(U) 理解任務(wù)、(R) 推理任務(wù)和 (L) 定位任務(wù)
這項工作由中科院自動化研究所劉成林課題組和淘天集團算法技術(shù)-未來生活實驗室團隊合作完成。
團隊在多模態(tài)輸入和純文本輸入共26種配置下全面評估了國內(nèi)外主流的開源和閉源大模型。
目前在評測集上GPT-4o排第一,但也僅剛過及格線,正確率64.5。
更全面細粒度的評估任務(wù)分類標準
大型視覺語言模型 (LVLMs) 顯著提高了文檔理解能力,能夠處理復(fù)雜的文檔元素、更長的上下文和更廣泛的任務(wù)。
然而,現(xiàn)有的文檔理解基準僅限于處理單頁或少頁文檔,也未提供模型對文檔布局元素定位能力的全面分析。
本文研究團隊指出了現(xiàn)有文檔理解基準的一些局限性:
- 復(fù)雜元素:大多數(shù)基準未能涵蓋段落、標題、表格和圖形等所有元素,而是僅關(guān)注部分內(nèi)容。此外,關(guān)于不同元素之間相互關(guān)系的討論很少。
- 長上下文:當(dāng)前的多頁文檔問答基準,例如 MPDocVQA 和 DUDE ,不評估超過 20 頁的文檔。雖然 MMLongBench-Doc 收集了較長的文檔,但它僅提供了大約 1k 個有效樣本,只有大約 30% 的問題涉及跨頁信息。
- 更多樣的任務(wù):現(xiàn)有工作更多側(cè)重于OCR或簡單的問答任務(wù),而忽略了跨元素定位任務(wù)等其他領(lǐng)域能力的探索。這表明,現(xiàn)有基準落后于模型的進步,可能會阻礙文檔理解的發(fā)展。
那么,LongDocURL究竟新在哪,又難在哪?
團隊首先定義了三個主任務(wù)類別:
理解 (Understanding):通過識別關(guān)鍵字、解析表格結(jié)構(gòu)等從文檔中提取信息。答案直接在文檔中找到。
- 數(shù)值推理 (Numerical Reasoning):通過計數(shù) (count)、計算 (calculate)、比較 (compare) 和總結(jié) (summarize) 來處理文檔中的數(shù)值信息。在提取信息的基礎(chǔ)上進一步推理才能得出正確答案。
- 跨元素定位 (Cross-element Locating):團隊注意到,建立一個任務(wù)來評估模型分析不同類型元素之間關(guān)系的能力本來是很重要的,但是以前的研究在這方面的關(guān)注很少。
例如,在段落標題定位任務(wù)中,模型必須總結(jié)相關(guān)章節(jié)以識別與給定摘要匹配的部分,然后確定段落與其章節(jié)標題之間的關(guān)系。此任務(wù)需要在回答過程中切換元素類型(即段落到標題)。
△圖3 三類任務(wù)問答對示意圖。
(上)文檔樣例的縮略圖。橙色框表示答案證據(jù)頁面。(下)從文檔生成的數(shù)據(jù)示例和答案證據(jù)頁面相關(guān)部分的截圖。
團隊根據(jù)不同的主任務(wù)類別和答案證據(jù),將數(shù)據(jù)集進一步細分為 20 個子任務(wù)。
首先,每個問答對都可以根據(jù)三個主任務(wù)進行分類:理解、推理和定位。其次,根據(jù)元素類型定義四種類型的答案證據(jù):
- 文本 (Text):純文本,例如段落;
- 布局 (Layout):具有特殊布局含義的文本元素(Generalized Text),例如標題、頁眉、頁腳、表名和圖名;
- 圖 (Figure):包括圖表 (Chart) 和一般圖像 (Image)。
- 表格 (Table)。
此外,每個問答對可以根據(jù)答案證據(jù)頁數(shù)分為單頁或多頁,根據(jù)證據(jù)元素類型的數(shù)量分為單元素或跨元素。
△圖4 任務(wù)分類體系。
內(nèi)環(huán):按主要任務(wù)類別(理解、推理和定位)劃分。中環(huán):按答案證據(jù)頁數(shù)(單頁、多頁)和證據(jù)元素類型數(shù)量(跨元素)劃分。外部:按證據(jù)元素類型(文本、表格、圖形、布局)劃分。
半自動化數(shù)據(jù)構(gòu)造流程
為了高效、低成本構(gòu)建LongDocURL的評估數(shù)據(jù)集,團隊設(shè)計了一個由四個模塊組成的半自動化流程。
△圖5 構(gòu)建流程概述。
該流程包含四個模塊:(a) 提取和過濾;(b) QA 生成;(c) 自動驗證;(d) 人工驗證
首先,提取和過濾模塊 (Extract&Filter module) 從不同的文檔源中挑選豐富布局且長度合適的文檔,并用Docmind工具獲得 “text-type-bbox” 三元組符號序列。
其次,問答對生成模塊 (QA Generation module) 基于三元組符號序列和強模型(如GPT-4o),多步驟迭代提示生成具有證據(jù)源的問答對。
最后,自動驗證 (Automated Verification module) 和人工驗證模塊 (Human Verification module) 確保問答對的質(zhì)量。
通過這個半自動化流程,團隊最終生成了 2,325 個問答對,涵蓋了超過 33,000 頁的文檔。
長上下文理解能力綜合評估
主實驗
△圖6 歸一準確度分數(shù)(0~1)。
任務(wù)分為 3 種類型:理解(U)、推理(R)和定位(L)。證據(jù)元素分為 4 種類型:純文本(TXT)、布局(LAY)、圖表和圖像(FIG)和表格(TAB)。證據(jù)頁數(shù)/元素分為 3 種類型:單頁(SP)、多頁(MP)和跨元素(CE)。CTi:跨標題,CTa:跨表格,PTi:副標題,F(xiàn)Ta:圖表-表格。得分最高的模型以綠色突出
關(guān)于 LVLMs,團隊得出以下結(jié)論:
(1)得分最高的模型:只有 GPT-4o 及格,獲得 64.5 分,這表明 LongDocURL 對當(dāng)前模型是一大挑戰(zhàn)。
(2)開源和閉源模型的比較:閉源模型與開源模型相比表現(xiàn)出更好的整體性能。在開源模型中,只有 Qwen2-VL(得分30.6)和 LLaVA-OneVision(得分22.0和25.0)的得分超過 20,而其他參數(shù)少于 13B 的模型都低于此閾值。
為了比較使用文本輸入和圖像輸入的模型性能,團隊加了O1-preview和Qwen2.5系列。
實驗結(jié)果表明,LLM的總體得分明顯低于LVLM,最高LLM得分落后最高LVLM得分約30分。
團隊分析,這一差距主要是因為使用PyMuPDF解析為純文本時丟失了重要的文檔結(jié)構(gòu)信息??紤]到我們的數(shù)據(jù)集包含大量與表格和圖表相關(guān)的問答對,結(jié)構(gòu)信息的丟失阻礙了LLM提取關(guān)鍵證據(jù)的能力。這些結(jié)果凸顯了 LongDocURL作為評估LVLM文檔結(jié)構(gòu)解析能力的基準的重要性。
細粒度分析結(jié)果
團隊挑選了3個閉源和開源模型,根據(jù)文檔來源、任務(wù)類別、文檔元素和證據(jù)頁對實驗結(jié)果進行了更細粒度的分析。
△圖7 細粒度分析
任務(wù)類型:
專有LVLM在推理和定位任務(wù)上的表現(xiàn)相當(dāng),但圖像到文本的轉(zhuǎn)換對推理能力的影響更大。例如,切換到文本輸入,GPT-4o的推理分數(shù)下降了31.6分,而定位分數(shù)下降了22.4分。
強模型在推理和定位方面表現(xiàn)均衡,而較弱的模型在定位方面表現(xiàn)不佳,這表明在定位任務(wù)中,訓(xùn)練的重點是理解和推理能力,而不是空間和邏輯關(guān)系。
文檔元素:
模型在文本問題上的得分最高,在表格問題上的得分最低,凸顯了文檔結(jié)構(gòu)解析方面的不足。圖形和布局問題類型的得分相似??缭厝蝿?wù)的分數(shù)介于單頁和多頁QA之間,與整體評估緊密相關(guān)。
單頁與多頁:
單頁QA準確率低于多頁QA。這表明一些問題的答案可以從多頁中收集,從而降低了難度。然而,像GPT-4o和Qwen-VL-Max這樣的模型在多頁QA上的準確率較低,表明矛盾的是,他們在多頁QA中的定位任務(wù)得分較低,從而影響了整體表現(xiàn)。
輸入方式消融實驗
為了探索長文檔問答中的最佳輸入格式,團隊在兩種圖像輸入和兩種文本輸入范式中進行了消融實驗。
圖像輸入范式包括:(1) 截斷 (cut-off),主實驗的配置,以及 (2) 合并 (merge),將文檔圖像從原始文檔長度(50~150)組合成20~30張新圖像。
團隊注意到,表格結(jié)構(gòu)信息在PyMuPDF解析時會顯著降低,而Docmind解析的markdown格式表格文本保留了更高的結(jié)構(gòu)完整性。為了評估結(jié)構(gòu)信息丟失對模型性能的影響,團隊對兩種輸入類型進行了實驗:docmind解析文本輸入、pymupdf解析文本輸入。
△圖8 輸入方式消融實驗
文本輸入vs.圖像輸入:截斷范式中的分數(shù)高于文本輸入-pymupdf范式中的分數(shù),但低于文本輸入-docmind范式中的分數(shù),表明該方法可以有效提取表格結(jié)構(gòu)信息,但可以進一步改進。
截斷vs.合并:合并方法通過連接多個圖像保留了更多的上下文標記,而截斷方法通過縮短上下文窗口成功獲取了先驗信息。實驗結(jié)果表明,截斷可能比合并產(chǎn)生更好的問題解決能力,為未來構(gòu)建多模態(tài)檢索增強生成 (RAG) 系統(tǒng)提供了見解。
結(jié)構(gòu)信息的影響:對于專有模型,使用Docmind的性能至少比使用 PyMuPDF高25分,而開源模型的差異為15分。缺乏表結(jié)構(gòu)信息會嚴重阻礙開源和專有模型的性能。
Case Study
(a)錯誤的證據(jù)源
△圖9 示例1
(b)缺失證據(jù)源
△圖10 示例2
示例樣本
Understanding
△圖11 Understanding QA示例
Reasoning
△圖12 Reasoning QA示例
Locating
△圖13 Locating QA示例
論文鏈接:https://arxiv.org/abs/2412.18424
項目主頁:https://longdocurl.github.io/
數(shù)據(jù)集:https://huggingface.co/datasets/dengchao/LongDocURL