自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<pre id="otxxf"><strike id="otxxf"></strike></pre>

<cite id="otxxf"></cite>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

2025首篇關(guān)于多模態(tài)大模型在富文本圖像理解上的全面研究綜述

發(fā)布于 2025-3-4 09:50

瀏覽

0收藏

文本豐富的圖像（如文檔、圖表、場(chǎng)景圖等）在現(xiàn)實(shí)場(chǎng)景中扮演著重要角色，準(zhǔn)確理解這些圖像對(duì)于自動(dòng)化信息提取和優(yōu)化用戶交互至關(guān)重要。文本豐富圖像理解（Text-rich Image Understanding, TIU）領(lǐng)域涉及兩個(gè)核心能力：

感知（如文本檢測(cè)、識(shí)別）
理解（如信息抽取、視覺(jué)問(wèn)答）

多模態(tài)大語(yǔ)言模型（MLLMs）的出現(xiàn)為文本豐富的圖像理解（TIU）領(lǐng)域帶來(lái)了新的維度，系統(tǒng)地分析了該領(lǐng)域 MLLMs的時(shí)間線、架構(gòu)、訓(xùn)練流程、數(shù)據(jù)集與基準(zhǔn)測(cè)試。

TIU MLLMs時(shí)間線

2025首篇關(guān)于多模態(tài)大模型在富文本圖像理解上的全面研究綜述-AI.x社區(qū)

1、模型架構(gòu)

TIU MLLMs的框架通常包括三個(gè)核心組件：視覺(jué)編碼器、模態(tài)連接器和LLM解碼器。

2025首篇關(guān)于多模態(tài)大模型在富文本圖像理解上的全面研究綜述-AI.x社區(qū)

視覺(jué)編碼器：負(fù)責(zé)將輸入圖像轉(zhuǎn)換為特征表示，分為OCR-free（如CLIP、ConvNeXt）和OCR-based（如LayoutLMv3）兩種方式?；旌暇幋a器結(jié)合了兩者的優(yōu)點(diǎn)。

現(xiàn)代LLMs的進(jìn)化樹(shù)追溯了近年來(lái)語(yǔ)言模型的發(fā)展，并突出了其中一些最知名的模型。根據(jù)編碼器的分類，藍(lán)色分支代表OCR-free（無(wú)OCR），粉色分支代表OCR-based（基于OCR），綠色分支代表混合編碼器。

2025首篇關(guān)于多模態(tài)大模型在富文本圖像理解上的全面研究綜述-AI.x社區(qū)

模態(tài)連接器：用于將視覺(jué)特征與語(yǔ)言特征對(duì)齊，常見(jiàn)的方法包括線性投影、多層感知機(jī)（MLP）、交叉注意力等。
LLM解碼器：將對(duì)齊后的特征輸入LLM進(jìn)行推理，生成最終答案。常用的LLM包括LLaMA系列、Qwen系列、Vicuna系列和InternLM系列。

2、訓(xùn)練流程

MLLM的訓(xùn)練分為三個(gè)階段：模態(tài)對(duì)齊、指令對(duì)齊和偏好對(duì)齊。

代表性主流多模態(tài)大語(yǔ)言模型（MLLMs）的總結(jié)，包括模型架構(gòu)、訓(xùn)練流程以及在TIU領(lǐng)域四個(gè)最受歡迎基準(zhǔn)測(cè)試中的得分?！癙rivate”表示該MLLM使用了專有的大型模型?！?”表示結(jié)果是通過(guò)下載官方開(kāi)源模型并在本地測(cè)試獲得的。

2025首篇關(guān)于多模態(tài)大模型在富文本圖像理解上的全面研究綜述-AI.x社區(qū)

模態(tài)對(duì)齊：通過(guò)OCR數(shù)據(jù)預(yù)訓(xùn)練模型，彌合視覺(jué)和語(yǔ)言模態(tài)之間的差距。任務(wù)包括文本識(shí)別、文本定位、圖表解析等。
指令對(duì)齊：通過(guò)指令微調(diào)（SFT）提升模型的多模態(tài)感知、跨模態(tài)推理能力和零樣本泛化能力。分為視覺(jué)-語(yǔ)義錨定、提示多樣化增強(qiáng)和零樣本泛化三個(gè)層次。
偏好對(duì)齊：優(yōu)化模型輸出以符合人類價(jià)值觀和期望，如通過(guò)混合偏好優(yōu)化（MPO）提升模型性能。

3、數(shù)據(jù)集與基準(zhǔn)測(cè)試

TIU任務(wù)的發(fā)展依賴于大量專門的數(shù)據(jù)集和標(biāo)準(zhǔn)化基準(zhǔn)測(cè)試。這些數(shù)據(jù)集分為領(lǐng)域特定（如文檔、圖表、場(chǎng)景、表格、GUI）和綜合場(chǎng)景兩大類。

文本豐富圖像理解領(lǐng)域的代表性數(shù)據(jù)集和基準(zhǔn)測(cè)試。每個(gè)數(shù)據(jù)集通常根據(jù)其內(nèi)容、功能和用戶需求標(biāo)記為訓(xùn)練或測(cè)試用途。

2025首篇關(guān)于多模態(tài)大模型在富文本圖像理解上的全面研究綜述-AI.x社區(qū)

例如：

文檔：DocVQA、InfoVQA、DocGenome等。
圖表：ChartQA、PlotQA、ChartBench等。
場(chǎng)景：TextCaps、TextVQA、ICDAR系列等。
表格：TableQA、WikiTableQuestions、TableVQA-Bench等。
綜合：OCRbench、Seed-bench-2-plus、MMDocBench等。

https://arxiv.org/pdf/2502.16586 
Multimodal Large Language Models for Text-rich Image Understanding: AComprehensive Review

本文轉(zhuǎn)載自??PaperAgent??

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

社區(qū)頭條

回復(fù)

相關(guān)推薦

Agent四大范式 | 綜述：全面理解Agent工作原理

大語(yǔ)言模型論文跟蹤 ? 6609瀏覽 ? 0回復(fù)
綜述：大語(yǔ)言模型在信息抽取上的應(yīng)用

xuxiangda ? 4742瀏覽 ? 0回復(fù)
TextCoT：放大增強(qiáng)型多模態(tài)富文本圖像理解

AIRoobt ? 3020瀏覽 ? 0回復(fù)
?TextCoT：放大增強(qiáng)型多模態(tài)富文本圖像理解

AIRoobt ? 2833瀏覽 ? 0回復(fù)
MUMU：用文本、圖像引導(dǎo)，多模態(tài)圖像生成模型

Aceryt ? 2311瀏覽 ? 0回復(fù)
多模態(tài)大語(yǔ)言模型的演變?nèi)仡櫍。ㄒ曈X(jué)定位、圖像生成、編輯、理解）

angel ? 3475瀏覽 ? 0回復(fù)
從秒級(jí)到小時(shí)級(jí)：TikTok等發(fā)布首篇面向長(zhǎng)視頻理解的多模態(tài)大語(yǔ)言模型全面綜述

angel ? 5330瀏覽 ? 0回復(fù)
多模態(tài)大模型最全綜述導(dǎo)讀

shizhi02 ? 2599瀏覽 ? 0回復(fù)
首篇！全面解讀高效Segment Anything模型變體：各種圖像分割加速策略和核心技術(shù)展示

angel ? 6200瀏覽 ? 0回復(fù)
一篇大模型RAG最新綜述

NLP前沿1 ? 2578瀏覽 ? 0回復(fù)
多模態(tài)RAG-VisRAG：基于視覺(jué)的檢索增強(qiáng)生成在多模態(tài)文檔上的應(yīng)用

大模型自然語(yǔ)言處理 ? 2419瀏覽 ? 0回復(fù)
多模態(tài)大模型能力評(píng)測(cè)基準(zhǔn)全面綜述：理解、推理、生成、應(yīng)用、趨勢(shì)

十一月雨_55 ? 8183瀏覽 ? 0回復(fù)
一篇大模型GraphRAG最新綜述

探索AGI ? 2344瀏覽 ? 0回復(fù)
多模態(tài)大模型在表格解析任務(wù)上效果如何？親身經(jīng)歷全是淚！

NLP工作站 ? 1551瀏覽 ? 0回復(fù)
Tiktok多模態(tài)大模型最新研究：顯示序列建模提升視頻理解能力

海因斯DK ? 1954瀏覽 ? 0回復(fù)
時(shí)序+圖像+文本，多模態(tài)增強(qiáng)的時(shí)序預(yù)測(cè)模型

海因斯DK ? 3566瀏覽 ? 0回復(fù)
多模態(tài)理解和生成：多模態(tài)理解與生成統(tǒng)一獎(jiǎng)勵(lì)模型；將獎(jiǎng)勵(lì)模型多模態(tài)情緒識(shí)別上

AI研究前瞻 ? 1629瀏覽 ? 0回復(fù)
融合語(yǔ)言模型的多模態(tài)大模型研究

zhcs333 ? 1559瀏覽 ? 0回復(fù)
2025年最值得關(guān)注的十大多模態(tài)大語(yǔ)言模型！

Halo咯咯 ? 1743瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開(kāi)發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開(kāi)源爬蟲(chóng)神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇： DeepSeek全新注意力機(jī)制NSA發(fā)布，超快速長(zhǎng)文訓(xùn)練與推理

下一篇：沖，DeepSeek-R1/V3推理系統(tǒng)架構(gòu)設(shè)計(jì)被開(kāi)源了！

社區(qū)精華內(nèi)容

目錄

<em id="8nwft"></em>

<kbd id="8nwft"></kbd>