自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="xuhia"></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

多模態(tài)長文檔新基準來了！20多項任務(wù)覆蓋理解推理定位，GPT-4o也就剛及格

2025-01-02 11:01:45

全面、細粒度評估模型多模態(tài)長文檔理解能力的評測集來了～名為LongDocURL，集成了長文檔理解、數(shù)值推理和跨元素定位三個主任務(wù)，并包含20個細分子任務(wù)。

GPT-4o僅得分64.5，其余模型均未及格！

全面、細粒度評估模型多模態(tài)長文檔理解能力的評測集來了～

名為LongDocURL，集成了長文檔理解、數(shù)值推理和跨元素定位三個主任務(wù)，并包含20個細分子任務(wù)。

LongDocURL主打多模態(tài)、長上下文，專注于篇幅在50～150頁的英文文檔，平均頁數(shù)和文檔標記數(shù)分別為85.6和43622.6。

數(shù)據(jù)質(zhì)量也很高，經(jīng)過了模型自動驗證和人工驗證，包括21位全職外包標注員和6位經(jīng)驗豐富的碩博研究生的監(jiān)督。

△圖1 新Benchmark與其它數(shù)據(jù)集在單文檔平均頁數(shù)、文本標記數(shù)上的比較

△圖2 新Benchmark與其它文檔理解基準的比較。(U) 理解任務(wù)、(R) 推理任務(wù)和 (L) 定位任務(wù)

這項工作由中科院自動化研究所劉成林課題組和淘天集團算法技術(shù)-未來生活實驗室團隊合作完成。

團隊在多模態(tài)輸入和純文本輸入共26種配置下全面評估了國內(nèi)外主流的開源和閉源大模型。

目前在評測集上GPT-4o排第一，但也僅剛過及格線，正確率64.5。

更全面細粒度的評估任務(wù)分類標準

大型視覺語言模型 (LVLMs) 顯著提高了文檔理解能力，能夠處理復(fù)雜的文檔元素、更長的上下文和更廣泛的任務(wù)。

然而，現(xiàn)有的文檔理解基準僅限于處理單頁或少頁文檔，也未提供模型對文檔布局元素定位能力的全面分析。

本文研究團隊指出了現(xiàn)有文檔理解基準的一些局限性：

復(fù)雜元素：大多數(shù)基準未能涵蓋段落、標題、表格和圖形等所有元素，而是僅關(guān)注部分內(nèi)容。此外，關(guān)于不同元素之間相互關(guān)系的討論很少。
長上下文：當(dāng)前的多頁文檔問答基準，例如 MPDocVQA 和 DUDE ，不評估超過 20 頁的文檔。雖然 MMLongBench-Doc 收集了較長的文檔，但它僅提供了大約 1k 個有效樣本，只有大約 30% 的問題涉及跨頁信息。
更多樣的任務(wù)：現(xiàn)有工作更多側(cè)重于OCR或簡單的問答任務(wù)，而忽略了跨元素定位任務(wù)等其他領(lǐng)域能力的探索。這表明，現(xiàn)有基準落后于模型的進步，可能會阻礙文檔理解的發(fā)展。

那么，LongDocURL究竟新在哪，又難在哪？

團隊首先定義了三個主任務(wù)類別：

理解 (Understanding)：通過識別關(guān)鍵字、解析表格結(jié)構(gòu)等從文檔中提取信息。答案直接在文檔中找到。

數(shù)值推理 (Numerical Reasoning)：通過計數(shù) (count)、計算 (calculate)、比較 (compare) 和總結(jié) (summarize) 來處理文檔中的數(shù)值信息。在提取信息的基礎(chǔ)上進一步推理才能得出正確答案。
跨元素定位 (Cross-element Locating)：團隊注意到，建立一個任務(wù)來評估模型分析不同類型元素之間關(guān)系的能力本來是很重要的，但是以前的研究在這方面的關(guān)注很少。

例如，在段落標題定位任務(wù)中，模型必須總結(jié)相關(guān)章節(jié)以識別與給定摘要匹配的部分，然后確定段落與其章節(jié)標題之間的關(guān)系。此任務(wù)需要在回答過程中切換元素類型（即段落到標題）。

△圖3 三類任務(wù)問答對示意圖。

（上）文檔樣例的縮略圖。橙色框表示答案證據(jù)頁面。（下）從文檔生成的數(shù)據(jù)示例和答案證據(jù)頁面相關(guān)部分的截圖。

團隊根據(jù)不同的主任務(wù)類別和答案證據(jù)，將數(shù)據(jù)集進一步細分為 20 個子任務(wù)。

首先，每個問答對都可以根據(jù)三個主任務(wù)進行分類：理解、推理和定位。其次，根據(jù)元素類型定義四種類型的答案證據(jù)：

文本 (Text)：純文本，例如段落；
布局 (Layout)：具有特殊布局含義的文本元素（Generalized Text），例如標題、頁眉、頁腳、表名和圖名；
圖 (Figure)：包括圖表 (Chart) 和一般圖像 (Image)。
表格 (Table)。

此外，每個問答對可以根據(jù)答案證據(jù)頁數(shù)分為單頁或多頁，根據(jù)證據(jù)元素類型的數(shù)量分為單元素或跨元素。

△圖4 任務(wù)分類體系。

內(nèi)環(huán)：按主要任務(wù)類別（理解、推理和定位）劃分。中環(huán)：按答案證據(jù)頁數(shù)（單頁、多頁）和證據(jù)元素類型數(shù)量（跨元素）劃分。外部：按證據(jù)元素類型（文本、表格、圖形、布局）劃分。

半自動化數(shù)據(jù)構(gòu)造流程

為了高效、低成本構(gòu)建LongDocURL的評估數(shù)據(jù)集，團隊設(shè)計了一個由四個模塊組成的半自動化流程。

△圖5 構(gòu)建流程概述。

該流程包含四個模塊：(a) 提取和過濾；(b) QA 生成；(c) 自動驗證；(d) 人工驗證

首先，提取和過濾模塊 (Extract&Filter module) 從不同的文檔源中挑選豐富布局且長度合適的文檔，并用Docmind工具獲得 “text-type-bbox” 三元組符號序列。

其次，問答對生成模塊 (QA Generation module) 基于三元組符號序列和強模型（如GPT-4o），多步驟迭代提示生成具有證據(jù)源的問答對。

最后，自動驗證 (Automated Verification module) 和人工驗證模塊 (Human Verification module) 確保問答對的質(zhì)量。

通過這個半自動化流程，團隊最終生成了 2,325 個問答對，涵蓋了超過 33,000 頁的文檔。

長上下文理解能力綜合評估

主實驗

△圖6 歸一準確度分數(shù)（0~1）。

任務(wù)分為 3 種類型：理解（U）、推理（R）和定位（L）。證據(jù)元素分為 4 種類型：純文本（TXT）、布局（LAY）、圖表和圖像（FIG）和表格（TAB）。證據(jù)頁數(shù)/元素分為 3 種類型：單頁（SP）、多頁（MP）和跨元素（CE）。CTi：跨標題，CTa：跨表格，PTi：副標題，F(xiàn)Ta：圖表-表格。得分最高的模型以綠色突出

關(guān)于 LVLMs，團隊得出以下結(jié)論：

（1）得分最高的模型：只有 GPT-4o 及格，獲得 64.5 分，這表明 LongDocURL 對當(dāng)前模型是一大挑戰(zhàn)。

（2）開源和閉源模型的比較：閉源模型與開源模型相比表現(xiàn)出更好的整體性能。在開源模型中，只有 Qwen2-VL（得分30.6）和 LLaVA-OneVision（得分22.0和25.0）的得分超過 20，而其他參數(shù)少于 13B 的模型都低于此閾值。

為了比較使用文本輸入和圖像輸入的模型性能，團隊加了O1-preview和Qwen2.5系列。

實驗結(jié)果表明，LLM的總體得分明顯低于LVLM，最高LLM得分落后最高LVLM得分約30分。

團隊分析，這一差距主要是因為使用PyMuPDF解析為純文本時丟失了重要的文檔結(jié)構(gòu)信息?？紤]到我們的數(shù)據(jù)集包含大量與表格和圖表相關(guān)的問答對，結(jié)構(gòu)信息的丟失阻礙了LLM提取關(guān)鍵證據(jù)的能力。這些結(jié)果凸顯了 LongDocURL作為評估LVLM文檔結(jié)構(gòu)解析能力的基準的重要性。

細粒度分析結(jié)果

團隊挑選了3個閉源和開源模型，根據(jù)文檔來源、任務(wù)類別、文檔元素和證據(jù)頁對實驗結(jié)果進行了更細粒度的分析。

△圖7 細粒度分析

任務(wù)類型：

專有LVLM在推理和定位任務(wù)上的表現(xiàn)相當(dāng)，但圖像到文本的轉(zhuǎn)換對推理能力的影響更大。例如，切換到文本輸入，GPT-4o的推理分數(shù)下降了31.6分，而定位分數(shù)下降了22.4分。

強模型在推理和定位方面表現(xiàn)均衡，而較弱的模型在定位方面表現(xiàn)不佳，這表明在定位任務(wù)中，訓(xùn)練的重點是理解和推理能力，而不是空間和邏輯關(guān)系。

文檔元素：

模型在文本問題上的得分最高，在表格問題上的得分最低，凸顯了文檔結(jié)構(gòu)解析方面的不足。圖形和布局問題類型的得分相似?？缭厝蝿?wù)的分數(shù)介于單頁和多頁QA之間，與整體評估緊密相關(guān)。

單頁與多頁：

單頁QA準確率低于多頁QA。這表明一些問題的答案可以從多頁中收集，從而降低了難度。然而，像GPT-4o和Qwen-VL-Max這樣的模型在多頁QA上的準確率較低，表明矛盾的是，他們在多頁QA中的定位任務(wù)得分較低，從而影響了整體表現(xiàn)。

輸入方式消融實驗

為了探索長文檔問答中的最佳輸入格式，團隊在兩種圖像輸入和兩種文本輸入范式中進行了消融實驗。

圖像輸入范式包括：(1) 截斷 (cut-off)，主實驗的配置，以及 (2) 合并 (merge)，將文檔圖像從原始文檔長度（50~150）組合成20~30張新圖像。

團隊注意到，表格結(jié)構(gòu)信息在PyMuPDF解析時會顯著降低，而Docmind解析的markdown格式表格文本保留了更高的結(jié)構(gòu)完整性。為了評估結(jié)構(gòu)信息丟失對模型性能的影響，團隊對兩種輸入類型進行了實驗：docmind解析文本輸入、pymupdf解析文本輸入。

△圖8 輸入方式消融實驗

文本輸入vs.圖像輸入：截斷范式中的分數(shù)高于文本輸入-pymupdf范式中的分數(shù)，但低于文本輸入-docmind范式中的分數(shù)，表明該方法可以有效提取表格結(jié)構(gòu)信息，但可以進一步改進。

截斷vs.合并：合并方法通過連接多個圖像保留了更多的上下文標記，而截斷方法通過縮短上下文窗口成功獲取了先驗信息。實驗結(jié)果表明，截斷可能比合并產(chǎn)生更好的問題解決能力，為未來構(gòu)建多模態(tài)檢索增強生成 (RAG) 系統(tǒng)提供了見解。

結(jié)構(gòu)信息的影響：對于專有模型，使用Docmind的性能至少比使用 PyMuPDF高25分，而開源模型的差異為15分。缺乏表結(jié)構(gòu)信息會嚴重阻礙開源和專有模型的性能。

Case Study

（a）錯誤的證據(jù)源

△圖9 示例1

（b）缺失證據(jù)源

△圖10 示例2

示例樣本

Understanding

△圖11 Understanding QA示例

Reasoning

△圖12 Reasoning QA示例

Locating

△圖13 Locating QA示例

論文鏈接：https://arxiv.org/abs/2412.18424
項目主頁：https://longdocurl.github.io/
數(shù)據(jù)集：https://huggingface.co/datasets/dengchao/LongDocURL

責(zé)任編輯：姜華來源：量子位

GPT-4o LongDocURL 人工智能

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營