自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<strong id="4gnl6"></strong>

<sub id="4gnl6"><p id="4gnl6"><li id="4gnl6"></li></p></sub>

<sub id="4gnl6"><input id="4gnl6"></input></sub>

<bdo id="4gnl6"></bdo>

<style id="4gnl6"></style>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

輕松拿捏4K高清圖像理解！這個(gè)多模態(tài)大模型自動(dòng)分析網(wǎng)頁海報(bào)內(nèi)容，打工人簡(jiǎn)直不要太方便

發(fā)布于 2024-4-22 10:15

瀏覽

0收藏

一個(gè)可以自動(dòng)分析PDF、網(wǎng)頁、海報(bào)、Excel圖表內(nèi)容的大模型，對(duì)于打工人來說簡(jiǎn)直不要太方便。

上海AI Lab，香港中文大學(xué)等研究機(jī)構(gòu)提出的InternLM-XComposer2-4KHD（簡(jiǎn)寫為IXC2-4KHD）模型讓這成為了現(xiàn)實(shí)。

輕松拿捏4K高清圖像理解！這個(gè)多模態(tài)大模型自動(dòng)分析網(wǎng)頁海報(bào)內(nèi)容，打工人簡(jiǎn)直不要太方便-AI.x社區(qū)

相比于其他多模態(tài)大模型不超過1500x1500的分辨率限制，該工作將多模態(tài)大模型的最大輸入圖像提升到超過4K （3840 x1600）分辨率，并支持任意長(zhǎng)寬比和336像素～4K動(dòng)態(tài)分辨率變化。

發(fā)布三天，該模型就登頂Hugging Face視覺問答模型熱度榜單第一。

輕松拿捏4K高清圖像理解！這個(gè)多模態(tài)大模型自動(dòng)分析網(wǎng)頁海報(bào)內(nèi)容，打工人簡(jiǎn)直不要太方便-AI.x社區(qū)

輕松拿捏4K圖像理解

先來看效果~

研究人員輸入論文（ShareGPT4V: Improving Large Multi-Modal Models with Better Captions）的首頁截圖（分辨率為2550x3300），并詢問論文哪個(gè)模型在MMBench上的性能最高。

需要注意的是，該信息在輸入截圖的正文文字部分并未提及，僅僅出現(xiàn)在一個(gè)相當(dāng)復(fù)雜的雷達(dá)圖中。面對(duì)這么刁鉆的問題，IXC2-4KHD成功理解了雷達(dá)圖中的信息，正確回答問題。

輕松拿捏4K高清圖像理解！這個(gè)多模態(tài)大模型自動(dòng)分析網(wǎng)頁海報(bào)內(nèi)容，打工人簡(jiǎn)直不要太方便-AI.x社區(qū)

面對(duì)更加極端分辨率的圖像輸入（816 x 5133），IXC2-4KHD輕松理解圖像包括7個(gè)部分，并準(zhǔn)確說明了每個(gè)部分包含的文字信息內(nèi)容。

輕松拿捏4K高清圖像理解！這個(gè)多模態(tài)大模型自動(dòng)分析網(wǎng)頁海報(bào)內(nèi)容，打工人簡(jiǎn)直不要太方便-AI.x社區(qū)

隨后，研究人員還在16項(xiàng)多模態(tài)大模型評(píng)測(cè)指標(biāo)上全面測(cè)試了IXC2-4KHD的能力，其中5項(xiàng)評(píng)測(cè)（DocVQA、ChartQA、InfographicVQA、TextVQA、OCRBench）關(guān)注模型的高分辨率圖像理解能力。

僅僅使用7B參數(shù)量，IXC2-4KHD在其中10項(xiàng)評(píng)測(cè)取得了媲美甚至超越GPT4V和Gemini Pro的結(jié)果，展現(xiàn)了不局限于高分辨率圖像理解，而是對(duì)各種任務(wù)和場(chǎng)景的泛用能力。

輕松拿捏4K高清圖像理解！這個(gè)多模態(tài)大模型自動(dòng)分析網(wǎng)頁海報(bào)內(nèi)容，打工人簡(jiǎn)直不要太方便-AI.x社區(qū)

△僅7B參數(shù)量的IXC2-4KHD性能媲美GPT-4V和Gemini-Pro

如何實(shí)現(xiàn)4K動(dòng)態(tài)分辨率？

為了實(shí)現(xiàn)4K動(dòng)態(tài)分辨率的目標(biāo)，IXC2-4KHD包括了三個(gè)主要設(shè)計(jì)：

（1）動(dòng)態(tài)分辨率訓(xùn)練：

輕松拿捏4K高清圖像理解！這個(gè)多模態(tài)大模型自動(dòng)分析網(wǎng)頁海報(bào)內(nèi)容，打工人簡(jiǎn)直不要太方便-AI.x社區(qū)

△4K分辨率圖像處理策略

在IXC2-4KHD的框架中，輸入圖像在保持長(zhǎng)寬比的情況下，被隨機(jī)放大到介于輸入面積和最大面積（不超過55x336x336，等價(jià)于3840 x1617分辨率）的一個(gè)中間尺寸。

隨后，圖像被自動(dòng)切塊成多個(gè)336x336的區(qū)域，分別抽取視覺特征。這種動(dòng)態(tài)分辨率的訓(xùn)練策略可以讓模型適應(yīng)任意分辨率的視覺輸入，同時(shí)也彌補(bǔ)了高分辨率訓(xùn)練數(shù)據(jù)不足的問題。

實(shí)驗(yàn)表明，隨著動(dòng)態(tài)分辨率上限的增加，模型在高分辨率圖像理解任務(wù)（InfographicVQA、DocVQA、TextVQA）上實(shí)現(xiàn)了穩(wěn)定的性能提升，并且在4K分辨率仍然未達(dá)到上界，展現(xiàn)了更高分辨率進(jìn)一步擴(kuò)展的潛力。

輕松拿捏4K高清圖像理解！這個(gè)多模態(tài)大模型自動(dòng)分析網(wǎng)頁海報(bào)內(nèi)容，打工人簡(jiǎn)直不要太方便-AI.x社區(qū)

（2）添加切塊布局信息：

?

為了使模型能夠適應(yīng)變化豐富的動(dòng)態(tài)分辨率，研究人員發(fā)現(xiàn)需要將切塊布局信息作為額外的輸入。為了實(shí)現(xiàn)這個(gè)目的，研究人員采取了一種簡(jiǎn)單的策略：一個(gè)特殊的‘換行’（’\n’）令牌被插入到每一行的切塊之后，用于告知模型切塊的布局。實(shí)驗(yàn)表明，添加切塊布局信息，對(duì)于變化幅度比較小的動(dòng)態(tài)分辨率訓(xùn)練（HD9代表切塊區(qū)域個(gè)數(shù)不超過9）影響不大，而對(duì)于動(dòng)態(tài)4K分辨率訓(xùn)練則可以帶來顯著的性能提升。

輕松拿捏4K高清圖像理解！這個(gè)多模態(tài)大模型自動(dòng)分析網(wǎng)頁海報(bào)內(nèi)容，打工人簡(jiǎn)直不要太方便-AI.x社區(qū)

（3）推理階段擴(kuò)展分辨率

?

研究人員還發(fā)現(xiàn)，使用動(dòng)態(tài)分辨率的模型，可以在推理階段通過增加最大切塊上限直接擴(kuò)展分辨率，并且?guī)眍~外的性能增益。例如將HD9（最多9塊）的訓(xùn)練模型直接使用HD16進(jìn)行測(cè)試，可以在InfographicVQA上觀察到高達(dá)8%的性能提升。

輕松拿捏4K高清圖像理解！這個(gè)多模態(tài)大模型自動(dòng)分析網(wǎng)頁海報(bào)內(nèi)容，打工人簡(jiǎn)直不要太方便-AI.x社區(qū)

IXC2-4KHD將多模態(tài)大模型支持的分辨率提升到了4K的水平，研究人員表示目前這種通過增加切塊個(gè)數(shù)支持更大圖像輸入的策略遇到了計(jì)算代價(jià)和顯存的瓶頸，因此他們計(jì)劃提出更加高效的策略在未來實(shí)現(xiàn)更高分辨率的支持。

論文鏈接：
???https://arxiv.org/pdf/2404.06512.pdf???
項(xiàng)目鏈接：
???https://github.com/InternLM/InternLM-XComposer??

本文轉(zhuǎn)自量子位，作者：量子位

原文鏈接:??https://mp.weixin.qq.com/s/OKMFNeVhgGraMEQckMwlvA??

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

谷歌推出多模態(tài)視頻模型，自動(dòng)生成豐富動(dòng)作視頻

Aceryt ? 3104瀏覽 ? 0回復(fù)
8.3K Stars!《多模態(tài)大語言模型綜述》重大升級(jí)

angel ? 3556瀏覽 ? 0回復(fù)
GPT神速分析：21個(gè)指令讓數(shù)據(jù)分析更輕松

數(shù)師兄 ? 3566瀏覽 ? 0回復(fù)
SealTool：Agent微調(diào)與評(píng)測(cè)的開源項(xiàng)目（14k樣本，4k工具），比ToolBench等更全面！

PaperAgent ? 4070瀏覽 ? 0回復(fù)
TextCoT：放大增強(qiáng)型多模態(tài)富文本圖像理解

AIRoobt ? 3012瀏覽 ? 0回復(fù)
4K4D:實(shí)時(shí)4K分辨率4D視圖合成

angel ? 2458瀏覽 ? 0回復(fù)
?TextCoT：放大增強(qiáng)型多模態(tài)富文本圖像理解

AIRoobt ? 2831瀏覽 ? 0回復(fù)
Agent Planning大揭秘：輕松拿捏多計(jì)劃選擇！

探索AGI ? 2713瀏覽 ? 0回復(fù)
終于有人將多模態(tài)重點(diǎn)內(nèi)容做成了動(dòng)畫

魚蟲子 ? 2229瀏覽 ? 0回復(fù)
MUMU：用文本、圖像引導(dǎo)，多模態(tài)圖像生成模型

Aceryt ? 2295瀏覽 ? 0回復(fù)
多模態(tài)大語言模型的演變?nèi)仡櫍。ㄒ曈X定位、圖像生成、編輯、理解）

angel ? 3469瀏覽 ? 0回復(fù)
多模態(tài)大模型數(shù)據(jù)分析與實(shí)踐

zhcs333 ? 3743瀏覽 ? 0回復(fù)
Crawl4AI：AI驅(qū)動(dòng)的網(wǎng)頁抓取神器，結(jié)合LLM實(shí)現(xiàn)自動(dòng)化數(shù)據(jù)提取與處理

老蛀蟲 ? 4485瀏覽 ? 0回復(fù)
多模態(tài)大模型能力評(píng)測(cè)基準(zhǔn)全面綜述：理解、推理、生成、應(yīng)用、趨勢(shì)

十一月雨_55 ? 8178瀏覽 ? 0回復(fù)
從低清到4K的魔法：FlashVideo突破高分辨率視頻生成計(jì)算瓶頸(港大&港中文&字節(jié))

angel ? 1647瀏覽 ? 0回復(fù)
Tiktok多模態(tài)大模型最新研究：顯示序列建模提升視頻理解能力

海因斯DK ? 1940瀏覽 ? 0回復(fù)
2025首篇關(guān)于多模態(tài)大模型在富文本圖像理解上的全面研究綜述

PaperAgent ? 2840瀏覽 ? 0回復(fù)
多模態(tài)理解和生成：多模態(tài)理解與生成統(tǒng)一獎(jiǎng)勵(lì)模型；將獎(jiǎng)勵(lì)模型多模態(tài)情緒識(shí)別上

AI研究前瞻 ? 1626瀏覽 ? 0回復(fù)
用 MCP 讓大模型自動(dòng)批量下載文獻(xiàn)，太香了！

機(jī)器學(xué)習(xí)與數(shù)學(xué) ? 3400瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

何愷明開辟分形圖像生成新范式！計(jì)算效率提高4000倍，首次實(shí)現(xiàn)高分辨率逐像素生成 2025-02-26 11:59:41發(fā)布
達(dá)摩院開源VideoLLaMA3：僅7B大小，視頻理解拿下SOTA | 在線可玩 2025-02-14 13:02:21發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：微軟炸裂級(jí)單圖生數(shù)字人，Sora同款思路，“比AI劉強(qiáng)東還真”

下一篇：新測(cè)試基準(zhǔn)發(fā)布，最強(qiáng)開源Llama 3尷尬了

社區(qū)精華內(nèi)容

目錄

<strike id="04jks"></strike>