自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

2B多模態(tài)新SOTA!華科、華南理工發(fā)布Mini-Monkey,專治「切分增大分辨率」后遺癥

發(fā)布于 2024-8-13 10:44
瀏覽
0收藏

最近,提升多模態(tài)大模型處理高分辨率圖像的能力越來越引起這個(gè)領(lǐng)域的關(guān)注。


絕大多數(shù)方法致力于通過對(duì)圖像進(jìn)行切分再融合的策略,來提升多模態(tài)大模型對(duì)圖像細(xì)節(jié)的理解能力。


然而,由于對(duì)圖像的切分操作,不可避免會(huì)對(duì)目標(biāo)、聯(lián)通區(qū)域帶來割裂,導(dǎo)致MLMMs對(duì)于微小或形狀不規(guī)則的目標(biāo)的辨識(shí)能力。這個(gè)現(xiàn)象在文檔理解任務(wù)中,表現(xiàn)極為明顯,由于文字端經(jīng)常被中斷。


針對(duì)這一挑戰(zhàn),華中科技大學(xué)和華南理工大學(xué)最近聯(lián)合發(fā)布一個(gè)多模態(tài)大模型Mini-Monkey,使用了可插拔的多尺度自適應(yīng)策略(MSAC)的輕量化多模態(tài)大模型。


Mini-Monkey自適應(yīng)生成多尺度表示,允許模型從各種尺度中選擇未分割的對(duì)象,其性能達(dá)到了2B多模態(tài)大模型的新SOTA。

2B多模態(tài)新SOTA!華科、華南理工發(fā)布Mini-Monkey,專治「切分增大分辨率」后遺癥-AI.x社區(qū)

論文地址:https://arxiv.org/pdf/2408.02034

項(xiàng)目地址:https://github.com/Yuliang-Liu/Monkey


為了減輕MSAC帶來的計(jì)算開銷,我們提出了一種有效壓縮圖像令牌的尺度壓縮機(jī)制(SCM)。


Mini-Monkey不僅在文檔智能的多個(gè)任務(wù)上取得了領(lǐng)先的性能,在通用多模態(tài)模型理解任務(wù)上也取得了一致的性能的提升,取得了2B的SOTA性能。


在OCRBench上,Mini-Monkey獲得了802分,優(yōu)于GLM-4v-9B等更大參數(shù)量的模型。


2B多模態(tài)新SOTA!華科、華南理工發(fā)布Mini-Monkey,專治「切分增大分辨率」后遺癥-AI.x社區(qū)

圖3 方法框圖:H-Attn代表高注意力權(quán);L-Attn代表低注意權(quán)重;注意權(quán)重較低的令牌將被過濾;共享LLM層表示在SCM中使用LLM的塊層

研究背景

多模態(tài)大型語言模型(MLMM)在近年了引起了很大的關(guān)注。研究人員正在積極探索將視覺編碼器與LLM集成的有效方法。


一些方法,如Flamingo、BLIP-2、MiniGPT4和Qwen-VL和LLaVA等已經(jīng)取得了這些成就,但由于處理分辨率有限,以前的多模態(tài)大語言模型并沒有很好地實(shí)現(xiàn)詳細(xì)的場(chǎng)景理解。

                               

2B多模態(tài)新SOTA!華科、華南理工發(fā)布Mini-Monkey,專治「切分增大分辨率」后遺癥-AI.x社區(qū)

圖1 切分在通用物體上引起的鋸齒效應(yīng):(a)輸入圖像;(b)切分?jǐn)U大分辨率策略;(c)有重疊的切分?jǐn)U大分辨率策略;(d)多尺度適應(yīng)性切分策略

 

研究者開始通過擴(kuò)大圖像的輸入分辨率來解決這個(gè)問題。切分策略是最常用的方法之一。例如,Monkey,LLaVA 1.6,InternVL 1.5和LLama3-V等。


盡管多模態(tài)大型語言模型取得了重大進(jìn)展,但由于切分策略,在詳細(xì)場(chǎng)景理解方面仍然存在挑戰(zhàn)。


對(duì)圖像的切分操作不可避免地會(huì)分割物體和連接區(qū)域,從而削弱了MLLM識(shí)別小物體或不規(guī)則形狀物體的能力,特別是在文檔理解的背景下。


這種策略將引入兩種類型的語義不連貫:


1. 如果一個(gè)對(duì)象或字符被分割,它可能無法被識(shí)別。例如,切分后的鼻子看起來非常像猴子,如圖1(b)所示;


2. 如果對(duì)一個(gè)詞或句子進(jìn)行分詞,會(huì)造成被分詞的語義損害。例如,單詞「Classrooms」可能被分為「Class」和「rooms」,這會(huì)對(duì)分割后的單詞造成語義損害。


為簡單起見,作者稱這個(gè)問題為鋸齒效應(yīng)。一個(gè)非常直接的想法是采用重疊切分策略來解決這個(gè)問題,如圖1(c)所示。


然而,作者發(fā)現(xiàn)重疊切分策略引入了某些幻覺,導(dǎo)致性能下降而不是提高。

方法思路

作者提出了Mini-Monkey,一個(gè)輕量級(jí)的多模態(tài)大型語言模型,旨在減輕切分策略引起的鋸齒效應(yīng)。方法框圖如圖2所示。


2B多模態(tài)新SOTA!華科、華南理工發(fā)布Mini-Monkey,專治「切分增大分辨率」后遺癥-AI.x社區(qū)

圖2 裁切在文字圖像上引起的鋸齒效應(yīng)。


與直接切分輸入圖像的現(xiàn)有方法不同,Mini-Monkey采用了一種即插即用的方法稱為多尺度自適應(yīng)切分策略(MSAC)。


MSAC可以在不同尺度的特征之間進(jìn)行有效的互補(bǔ),如圖1(d)所示。

多尺度自適應(yīng)切分策略(MSAC)

MSAC先對(duì)這些網(wǎng)格進(jìn)行分層操作,根據(jù)它們的縱橫比將它們分成三組。作者將為每個(gè)圖層選擇一個(gè)寬高比。不同的分層為模型提供不同的信息。


詳細(xì)層負(fù)責(zé)提供詳細(xì)信息。它既限制了最大圖像分辨率和最小圖像分辨率,使圖像盡可能大,使圖像中的物體更清晰。由于使用了切分策略來剪裁圖像,該層生成的圖像可能存在語義不一致。


因此,作者利用自適應(yīng)層與細(xì)節(jié)層協(xié)同,使模型能夠從各種尺度中選擇未分割的對(duì)象。自適應(yīng)層將根據(jù)細(xì)節(jié)層自適應(yīng)生成縱橫比,確保細(xì)節(jié)層上的切分線與自適應(yīng)層上的切分線不重疊,進(jìn)而避免了同一個(gè)物體在不同層上被切分兩次。這個(gè)過程確保了細(xì)節(jié)層和自適應(yīng)層為模型提供了不同的語義信息和視覺特征。


尺度壓縮機(jī)制

MSAC可能會(huì)引入一些額外的計(jì)算開銷。因此,作者提出了一種尺度壓縮機(jī)制(SCM),用于有計(jì)算開銷限制的情況。SCM是一個(gè)不用訓(xùn)練并且無參數(shù)的機(jī)制,以減少計(jì)算開銷。


作者選擇自適應(yīng)層的視覺Tokens、全局層的視覺Tokens和文本Tokens來關(guān)注細(xì)節(jié)層的視覺標(biāo)記,進(jìn)而生成注意力圖,然后將注意力圖Top K的視覺特征提取出來。


一個(gè)訓(xùn)練好的LLM可以根據(jù)輸入問題有效地選擇必要的視覺特征。因此,SCM利用LLM的第一層和第二層來選擇視覺Tokens,而不生成任何額外的參數(shù)。


Mini-Monkey最強(qiáng)2B多模態(tài)大模型

作者在通用多模態(tài)理解和文檔理解上測(cè)試了他們的方法,實(shí)驗(yàn)結(jié)果表明,Mini-Monkey在2B參數(shù)量的情況下,同時(shí)在通用多模態(tài)理解和文檔理解上取得了最好的性能。

2B多模態(tài)新SOTA!華科、華南理工發(fā)布Mini-Monkey,專治「切分增大分辨率」后遺癥-AI.x社區(qū)

表1 通用多模態(tài)理解上的結(jié)果

2B多模態(tài)新SOTA!華科、華南理工發(fā)布Mini-Monkey,專治「切分增大分辨率」后遺癥-AI.x社區(qū)

表2 文檔理解上的結(jié)果

作者將提出的MSAC和現(xiàn)有的方法對(duì)比,第一行是動(dòng)態(tài)切分的方法,第二行是固定分辨率切分的方法,第三行是有重疊的切分,第四行是多尺度策略S2。

2B多模態(tài)新SOTA!華科、華南理工發(fā)布Mini-Monkey,專治「切分增大分辨率」后遺癥-AI.x社區(qū)

表3 與不同的切分策略進(jìn)行對(duì)比


MSAC可以應(yīng)用到不同的多模態(tài)架構(gòu)上,穩(wěn)定提點(diǎn)

同時(shí)作者也將MSAC應(yīng)用到其他的方法進(jìn)行對(duì)比,可以看到同時(shí)在通用多模態(tài)理解和文檔理解任務(wù)上都有一致的提升。

 

2B多模態(tài)新SOTA!華科、華南理工發(fā)布Mini-Monkey,專治「切分增大分辨率」后遺癥-AI.x社區(qū)

表4 將MSAC應(yīng)用到不同的框架上

有效緩解由切分增大分辨率導(dǎo)致的「后遺癥」

同時(shí)作者也提供了一些定性的分析,如圖4所示。作者對(duì)切分到的位置進(jìn)行提問,比如被切分到的「classrooms」和「school」。


可以看到,Mini-Monkey通過MSAC可以有效的緩解由切分增大分辨率導(dǎo)致的「后遺癥」。

2B多模態(tài)新SOTA!華科、華南理工發(fā)布Mini-Monkey,專治「切分增大分辨率」后遺癥-AI.x社區(qū)

圖4 定性結(jié)果:(a)輸入圖像和Ground Truth;(b)采用重疊切分策略的結(jié)果,OSC表示重疊切分策略;(c)internv2-2b和internv2-26b的結(jié)果;(d)Mini-Monkey的結(jié)果

可視化對(duì)比

Mini-Monkey能準(zhǔn)確的提取模糊的古籍里面的文字內(nèi)容,而MiniCPM-V 2.6和InternVL2-2B都漏掉了比較多的文字,GPT4-O拒絕回答:

  

2B多模態(tài)新SOTA!華科、華南理工發(fā)布Mini-Monkey,專治「切分增大分辨率」后遺癥-AI.x社區(qū)

(a)輸入圖片

2B多模態(tài)新SOTA!華科、華南理工發(fā)布Mini-Monkey,專治「切分增大分辨率」后遺癥-AI.x社區(qū)

(b)Mimi-Monkey:準(zhǔn)確識(shí)別出所有文字

  

2B多模態(tài)新SOTA!華科、華南理工發(fā)布Mini-Monkey,專治「切分增大分辨率」后遺癥-AI.x社區(qū)

(c)MiniCPM-V 2.6:漏掉了很多文字。

2B多模態(tài)新SOTA!華科、華南理工發(fā)布Mini-Monkey,專治「切分增大分辨率」后遺癥-AI.x社區(qū)

(d)InternVL2-2B:漏掉了一整句比較模糊的文字

2B多模態(tài)新SOTA!華科、華南理工發(fā)布Mini-Monkey,專治「切分增大分辨率」后遺癥-AI.x社區(qū)

(e)GPT-4o:拒絕回答

總結(jié)

使用切分?jǐn)U大分辨率的方法經(jīng)常分割對(duì)象和連接區(qū)域,這限制了對(duì)小的或不規(guī)則形狀的對(duì)象和文本的識(shí)別,這個(gè)問題在輕量級(jí)的MLLM中尤為明顯。


在這項(xiàng)研究中,作者提出了一個(gè)取得SOTA性能的2B多模態(tài)大模型Mini-Monkey,旨在解決現(xiàn)有切分策略的局限性,以提高M(jìn)LLM處理高分辨率圖像的能力。


Mini-Monkey采用了一種多尺度自適應(yīng)切分策略(MSAC),生成多尺度表示,允許模型在不同尺度上選擇未分割的對(duì)象,進(jìn)而緩解了這個(gè)問題。


同時(shí),作者也驗(yàn)證了多尺度自適應(yīng)切分策略在別的架構(gòu)的多模態(tài)大模型上的有效性,為緩解由切分增大分辨率導(dǎo)致的「后遺癥」提供了一種簡單有效的解決方案。


本文轉(zhuǎn)自 新智元 ,作者:新智元


原文鏈接:??https://mp.weixin.qq.com/s/LaC5gwZdplqZB-PUQlNB3Q??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦