自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

輕松拿捏4K高清圖像理解!這個(gè)多模態(tài)大模型自動(dòng)分析網(wǎng)頁海報(bào)內(nèi)容,打工人簡(jiǎn)直不要太方便

發(fā)布于 2024-4-22 10:15
瀏覽
0收藏

一個(gè)可以自動(dòng)分析PDF、網(wǎng)頁、海報(bào)、Excel圖表內(nèi)容的大模型,對(duì)于打工人來說簡(jiǎn)直不要太方便。


上海AI Lab,香港中文大學(xué)等研究機(jī)構(gòu)提出的InternLM-XComposer2-4KHD(簡(jiǎn)寫為IXC2-4KHD)模型讓這成為了現(xiàn)實(shí)。

輕松拿捏4K高清圖像理解!這個(gè)多模態(tài)大模型自動(dòng)分析網(wǎng)頁海報(bào)內(nèi)容,打工人簡(jiǎn)直不要太方便-AI.x社區(qū)

相比于其他多模態(tài)大模型不超過1500x1500的分辨率限制,該工作將多模態(tài)大模型的最大輸入圖像提升到超過4K (3840 x1600)分辨率,并支持任意長(zhǎng)寬比和336像素~4K動(dòng)態(tài)分辨率變化。


發(fā)布三天,該模型就登頂Hugging Face視覺問答模型熱度榜單第一。

輕松拿捏4K高清圖像理解!這個(gè)多模態(tài)大模型自動(dòng)分析網(wǎng)頁海報(bào)內(nèi)容,打工人簡(jiǎn)直不要太方便-AI.x社區(qū)

輕松拿捏4K圖像理解

先來看效果~


研究人員輸入論文(ShareGPT4V: Improving Large Multi-Modal Models with Better Captions)的首頁截圖(分辨率為2550x3300),并詢問論文哪個(gè)模型在MMBench上的性能最高。


需要注意的是,該信息在輸入截圖的正文文字部分并未提及,僅僅出現(xiàn)在一個(gè)相當(dāng)復(fù)雜的雷達(dá)圖中。面對(duì)這么刁鉆的問題,IXC2-4KHD成功理解了雷達(dá)圖中的信息,正確回答問題。

輕松拿捏4K高清圖像理解!這個(gè)多模態(tài)大模型自動(dòng)分析網(wǎng)頁海報(bào)內(nèi)容,打工人簡(jiǎn)直不要太方便-AI.x社區(qū)

面對(duì)更加極端分辨率的圖像輸入(816 x 5133),IXC2-4KHD輕松理解圖像包括7個(gè)部分,并準(zhǔn)確說明了每個(gè)部分包含的文字信息內(nèi)容。

輕松拿捏4K高清圖像理解!這個(gè)多模態(tài)大模型自動(dòng)分析網(wǎng)頁海報(bào)內(nèi)容,打工人簡(jiǎn)直不要太方便-AI.x社區(qū)

隨后,研究人員還在16項(xiàng)多模態(tài)大模型評(píng)測(cè)指標(biāo)上全面測(cè)試了IXC2-4KHD的能力,其中5項(xiàng)評(píng)測(cè)(DocVQA、ChartQA、InfographicVQA、TextVQA、OCRBench)關(guān)注模型的高分辨率圖像理解能力。


僅僅使用7B參數(shù)量,IXC2-4KHD在其中10項(xiàng)評(píng)測(cè)取得了媲美甚至超越GPT4V和Gemini Pro的結(jié)果,展現(xiàn)了不局限于高分辨率圖像理解,而是對(duì)各種任務(wù)和場(chǎng)景的泛用能力。

輕松拿捏4K高清圖像理解!這個(gè)多模態(tài)大模型自動(dòng)分析網(wǎng)頁海報(bào)內(nèi)容,打工人簡(jiǎn)直不要太方便-AI.x社區(qū)

△僅7B參數(shù)量的IXC2-4KHD性能媲美GPT-4V和Gemini-Pro

如何實(shí)現(xiàn)4K動(dòng)態(tài)分辨率?

為了實(shí)現(xiàn)4K動(dòng)態(tài)分辨率的目標(biāo),IXC2-4KHD包括了三個(gè)主要設(shè)計(jì):

(1)動(dòng)態(tài)分辨率訓(xùn)練:

輕松拿捏4K高清圖像理解!這個(gè)多模態(tài)大模型自動(dòng)分析網(wǎng)頁海報(bào)內(nèi)容,打工人簡(jiǎn)直不要太方便-AI.x社區(qū)

△4K分辨率圖像處理策略

在IXC2-4KHD的框架中,輸入圖像在保持長(zhǎng)寬比的情況下,被隨機(jī)放大到介于輸入面積和最大面積(不超過55x336x336,等價(jià)于3840 x1617分辨率)的一個(gè)中間尺寸。


隨后,圖像被自動(dòng)切塊成多個(gè)336x336的區(qū)域,分別抽取視覺特征。這種動(dòng)態(tài)分辨率的訓(xùn)練策略可以讓模型適應(yīng)任意分辨率的視覺輸入,同時(shí)也彌補(bǔ)了高分辨率訓(xùn)練數(shù)據(jù)不足的問題。


實(shí)驗(yàn)表明,隨著動(dòng)態(tài)分辨率上限的增加,模型在高分辨率圖像理解任務(wù)(InfographicVQA、DocVQA、TextVQA)上實(shí)現(xiàn)了穩(wěn)定的性能提升,并且在4K分辨率仍然未達(dá)到上界,展現(xiàn)了更高分辨率進(jìn)一步擴(kuò)展的潛力。

輕松拿捏4K高清圖像理解!這個(gè)多模態(tài)大模型自動(dòng)分析網(wǎng)頁海報(bào)內(nèi)容,打工人簡(jiǎn)直不要太方便-AI.x社區(qū)

(2)添加切塊布局信息:

?

為了使模型能夠適應(yīng)變化豐富的動(dòng)態(tài)分辨率,研究人員發(fā)現(xiàn)需要將切塊布局信息作為額外的輸入。為了實(shí)現(xiàn)這個(gè)目的,研究人員采取了一種簡(jiǎn)單的策略:一個(gè)特殊的‘換行’(’\n’)令牌被插入到每一行的切塊之后,用于告知模型切塊的布局。實(shí)驗(yàn)表明,添加切塊布局信息,對(duì)于變化幅度比較小的動(dòng)態(tài)分辨率訓(xùn)練(HD9代表切塊區(qū)域個(gè)數(shù)不超過9)影響不大,而對(duì)于動(dòng)態(tài)4K分辨率訓(xùn)練則可以帶來顯著的性能提升。

輕松拿捏4K高清圖像理解!這個(gè)多模態(tài)大模型自動(dòng)分析網(wǎng)頁海報(bào)內(nèi)容,打工人簡(jiǎn)直不要太方便-AI.x社區(qū)

(3)推理階段擴(kuò)展分辨率

?

研究人員還發(fā)現(xiàn),使用動(dòng)態(tài)分辨率的模型,可以在推理階段通過增加最大切塊上限直接擴(kuò)展分辨率,并且?guī)眍~外的性能增益。例如將HD9(最多9塊)的訓(xùn)練模型直接使用HD16進(jìn)行測(cè)試,可以在InfographicVQA上觀察到高達(dá)8%的性能提升。

輕松拿捏4K高清圖像理解!這個(gè)多模態(tài)大模型自動(dòng)分析網(wǎng)頁海報(bào)內(nèi)容,打工人簡(jiǎn)直不要太方便-AI.x社區(qū)

IXC2-4KHD將多模態(tài)大模型支持的分辨率提升到了4K的水平,研究人員表示目前這種通過增加切塊個(gè)數(shù)支持更大圖像輸入的策略遇到了計(jì)算代價(jià)和顯存的瓶頸,因此他們計(jì)劃提出更加高效的策略在未來實(shí)現(xiàn)更高分辨率的支持。

論文鏈接:
???https://arxiv.org/pdf/2404.06512.pdf???
項(xiàng)目鏈接:
???https://github.com/InternLM/InternLM-XComposer??


本文轉(zhuǎn)自 量子位 ,作者:量子位


原文鏈接:??https://mp.weixin.qq.com/s/OKMFNeVhgGraMEQckMwlvA??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦