自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

2025首篇關(guān)于多模態(tài)大模型在富文本圖像理解上的全面研究綜述

發(fā)布于 2025-3-4 09:50
瀏覽
0收藏

文本豐富的圖像(如文檔、圖表、場(chǎng)景圖等)在現(xiàn)實(shí)場(chǎng)景中扮演著重要角色,準(zhǔn)確理解這些圖像對(duì)于自動(dòng)化信息提取和優(yōu)化用戶交互至關(guān)重要。文本豐富圖像理解(Text-rich Image Understanding, TIU)領(lǐng)域涉及兩個(gè)核心能力:

  • 感知(如文本檢測(cè)、識(shí)別)
  • 理解(如信息抽取、視覺(jué)問(wèn)答)

多模態(tài)大語(yǔ)言模型(MLLMs)的出現(xiàn)為文本豐富的圖像理解(TIU)領(lǐng)域帶來(lái)了新的維度,系統(tǒng)地分析了該領(lǐng)域 MLLMs的時(shí)間線、架構(gòu)、訓(xùn)練流程、數(shù)據(jù)集與基準(zhǔn)測(cè)試。

TIU MLLMs時(shí)間線

2025首篇關(guān)于多模態(tài)大模型在富文本圖像理解上的全面研究綜述-AI.x社區(qū)

1、模型架構(gòu)

TIU MLLMs的框架通常包括三個(gè)核心組件:視覺(jué)編碼器、模態(tài)連接器和LLM解碼器。

2025首篇關(guān)于多模態(tài)大模型在富文本圖像理解上的全面研究綜述-AI.x社區(qū)

  • 視覺(jué)編碼器:負(fù)責(zé)將輸入圖像轉(zhuǎn)換為特征表示,分為OCR-free(如CLIP、ConvNeXt)和OCR-based(如LayoutLMv3)兩種方式?;旌暇幋a器結(jié)合了兩者的優(yōu)點(diǎn)。

現(xiàn)代LLMs的進(jìn)化樹(shù)追溯了近年來(lái)語(yǔ)言模型的發(fā)展,并突出了其中一些最知名的模型。根據(jù)編碼器的分類,藍(lán)色分支代表OCR-free(無(wú)OCR),粉色分支代表OCR-based(基于OCR),綠色分支代表混合編碼器。

2025首篇關(guān)于多模態(tài)大模型在富文本圖像理解上的全面研究綜述-AI.x社區(qū)

  • 模態(tài)連接器:用于將視覺(jué)特征與語(yǔ)言特征對(duì)齊,常見(jiàn)的方法包括線性投影、多層感知機(jī)(MLP)、交叉注意力等。
  • LLM解碼器:將對(duì)齊后的特征輸入LLM進(jìn)行推理,生成最終答案。常用的LLM包括LLaMA系列、Qwen系列、Vicuna系列和InternLM系列。

2、訓(xùn)練流程

MLLM的訓(xùn)練分為三個(gè)階段:模態(tài)對(duì)齊、指令對(duì)齊和偏好對(duì)齊。

代表性主流多模態(tài)大語(yǔ)言模型(MLLMs)的總結(jié),包括模型架構(gòu)、訓(xùn)練流程以及在TIU領(lǐng)域四個(gè)最受歡迎基準(zhǔn)測(cè)試中的得分?!癙rivate”表示該MLLM使用了專有的大型模型?!?”表示結(jié)果是通過(guò)下載官方開(kāi)源模型并在本地測(cè)試獲得的。

2025首篇關(guān)于多模態(tài)大模型在富文本圖像理解上的全面研究綜述-AI.x社區(qū)

  • 模態(tài)對(duì)齊:通過(guò)OCR數(shù)據(jù)預(yù)訓(xùn)練模型,彌合視覺(jué)和語(yǔ)言模態(tài)之間的差距。任務(wù)包括文本識(shí)別、文本定位、圖表解析等。
  • 指令對(duì)齊:通過(guò)指令微調(diào)(SFT)提升模型的多模態(tài)感知、跨模態(tài)推理能力和零樣本泛化能力。分為視覺(jué)-語(yǔ)義錨定、提示多樣化增強(qiáng)和零樣本泛化三個(gè)層次。
  • 偏好對(duì)齊:優(yōu)化模型輸出以符合人類價(jià)值觀和期望,如通過(guò)混合偏好優(yōu)化(MPO)提升模型性能。

3、 數(shù)據(jù)集與基準(zhǔn)測(cè)試

TIU任務(wù)的發(fā)展依賴于大量專門的數(shù)據(jù)集和標(biāo)準(zhǔn)化基準(zhǔn)測(cè)試。這些數(shù)據(jù)集分為領(lǐng)域特定(如文檔、圖表、場(chǎng)景、表格、GUI)和綜合場(chǎng)景兩大類。

文本豐富圖像理解領(lǐng)域的代表性數(shù)據(jù)集和基準(zhǔn)測(cè)試。每個(gè)數(shù)據(jù)集通常根據(jù)其內(nèi)容、功能和用戶需求標(biāo)記為訓(xùn)練或測(cè)試用途。

2025首篇關(guān)于多模態(tài)大模型在富文本圖像理解上的全面研究綜述-AI.x社區(qū)

例如:

  • 文檔:DocVQA、InfoVQA、DocGenome等。
  • 圖表:ChartQA、PlotQA、ChartBench等。
  • 場(chǎng)景:TextCaps、TextVQA、ICDAR系列等。
  • 表格:TableQA、WikiTableQuestions、TableVQA-Bench等。
  • 綜合:OCRbench、Seed-bench-2-plus、MMDocBench等。

https://arxiv.org/pdf/2502.16586 
Multimodal Large Language Models for Text-rich Image Understanding: AComprehensive Review

本文轉(zhuǎn)載自??PaperAgent??


收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦