自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

適用于多圖的多模態(tài)大模型:粗粒度離散表征+細(xì)粒度連續(xù)表征提升圖像編碼準(zhǔn)確性

發(fā)布于 2024-12-11 11:46
瀏覽
0收藏

今天給大家介紹一篇北大、阿里聯(lián)合發(fā)布的多模態(tài)大模型工作。這篇文章重點(diǎn)解決多圖像輸入的多模態(tài)大模型建模方法,融合粗粒度、細(xì)粒度信息,顯著提升了多模態(tài)大模型在多圖輸入復(fù)雜場(chǎng)景中的效果。

適用于多圖的多模態(tài)大模型:粗粒度離散表征+細(xì)粒度連續(xù)表征提升圖像編碼準(zhǔn)確性-AI.x社區(qū)

論文標(biāo)題:MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model

下載地址:??https://arxiv.org/pdf/2408.12321??

1.研究背景

現(xiàn)有的多模態(tài)大模型,大多數(shù)研究的都是一個(gè)圖像輸入的場(chǎng)景。而更加復(fù)雜的多圖輸入的場(chǎng)景,卻面臨著2個(gè)核心的難點(diǎn)。多圖場(chǎng)景指的是需要同時(shí)輸入多張圖像以及相關(guān)文本,讓大模型進(jìn)行推理的場(chǎng)景。多圖場(chǎng)景的第一個(gè)難點(diǎn)在于輸入圖像的長(zhǎng)度?,F(xiàn)在的多模態(tài)大模型都利用ViT結(jié)構(gòu)將圖像處理成patch表征序列輸入,多張圖會(huì)導(dǎo)致輸入序列太長(zhǎng),導(dǎo)致計(jì)算復(fù)雜度顯著提升。另一個(gè)問題在于現(xiàn)在的多模態(tài)大模型圖像側(cè)的建模,都采用類似Q-Former中的方法,用一個(gè)固定長(zhǎng)度的query和ViT生成的patch表征序列進(jìn)行cross-attention,生成圖像的摘要信息作為L(zhǎng)LM的輸入。這種方式的雖然可以有效縮短輸入圖像的尺寸,但是對(duì)圖像表征的抽取精度會(huì)下降。

適用于多圖的多模態(tài)大模型:粗粒度離散表征+細(xì)粒度連續(xù)表征提升圖像編碼準(zhǔn)確性-AI.x社區(qū)

針對(duì)上述問題,本文提出了一種適用于多圖場(chǎng)景的多模態(tài)建模方法。核心是借助了離散化技術(shù),將圖像進(jìn)行離散化,抽取粗粒度信息;同時(shí)借助ViT等連續(xù)表征提取細(xì)粒度信息。并結(jié)合這兩種信息進(jìn)行有效patch的篩選。最后采用多階段訓(xùn)練的方式進(jìn)行圖像文本的表征對(duì)齊。

2.建模方法

本文的核心優(yōu)化主要包括3個(gè)方面,分別是離散&連續(xù)表征patch縮減、多階段訓(xùn)練。

首先在表征生成層面,文中同時(shí)采用了離散表征和連續(xù)表征。連續(xù)表征采用的是最常用的ViT,將圖像分成多個(gè)patch,過(guò)Transformer生成每個(gè)patch的圖像表征。離散表征指的是將圖像數(shù)據(jù)先進(jìn)行離散化,然后再用模型提取表征,離散化相當(dāng)于將圖像數(shù)據(jù)向文本數(shù)據(jù)的類型對(duì)齊。在離散化的過(guò)程中,將圖像轉(zhuǎn)換成token,使模型更關(guān)注粗粒度的整體信息。離散化采用了Planting a seed of vision in large language mode中提出的方法,定義一個(gè)codebook,每次將計(jì)算和當(dāng)前表征最近的codebook中的表征,實(shí)現(xiàn)圖像patch到codebook中離散化符號(hào)的映射。

為了進(jìn)一步將圖像和文本對(duì)齊,對(duì)于上述離散化生成的圖像token符號(hào),將其和語(yǔ)言模型中的文本token進(jìn)行融合,構(gòu)建一個(gè)圖像+文本統(tǒng)一的底層詞表,實(shí)現(xiàn)底層數(shù)據(jù)的跨模態(tài)統(tǒng)一。

在patch縮減階段,主要是為了有效的縮減patch序列長(zhǎng)度,減小計(jì)算性能。相比之前的query+cross attention進(jìn)行有效patch選擇,本文提出使用離散化的粗粒度表征進(jìn)行有效patch篩選,更準(zhǔn)確的對(duì)無(wú)效patch進(jìn)行過(guò)濾。具體的,將離散化粗粒度表征和每個(gè)patch的ViT連續(xù)表征拼接,每個(gè)patch映射成1維后過(guò)一個(gè)sigmoid函數(shù)獲取每個(gè)patch的打分,保留topK個(gè)patch,縮短patch輸入長(zhǎng)度。

適用于多圖的多模態(tài)大模型:粗粒度離散表征+細(xì)粒度連續(xù)表征提升圖像編碼準(zhǔn)確性-AI.x社區(qū)

在訓(xùn)練階段,主要包括4個(gè)階段。第一階段主要訓(xùn)練patch selector。這里使用 Grounding SAM構(gòu)建patch selector的偽標(biāo)簽。在第二階段,訓(xùn)練embedding層,這里的embedding包括了文本token的embedding以及之前根據(jù)圖像離散化構(gòu)建的圖像token embedding,這個(gè)訓(xùn)練過(guò)程只使用圖像的離散化粗粒度表征作為圖像表征參與訓(xùn)練。在第三階段,主要訓(xùn)練圖像表征的映射網(wǎng)絡(luò),用來(lái)實(shí)現(xiàn)圖像和文本的跨模態(tài)對(duì)齊。最后在第四階段,基于instruction tuning數(shù)據(jù)進(jìn)行端到端的多模態(tài)任務(wù)訓(xùn)練。

適用于多圖的多模態(tài)大模型:粗粒度離散表征+細(xì)粒度連續(xù)表征提升圖像編碼準(zhǔn)確性-AI.x社區(qū)

3.實(shí)驗(yàn)效果

本文的多模態(tài)模型效果如下圖,在多圖、單圖多模態(tài)任務(wù)中的zero-shot評(píng)估上取得了顯著的效果提升。

適用于多圖的多模態(tài)大模型:粗粒度離散表征+細(xì)粒度連續(xù)表征提升圖像編碼準(zhǔn)確性-AI.x社區(qū)

下圖可視化了模型中patch選擇器的生效機(jī)制,可視化了選中的patch和patch對(duì)應(yīng)的打分。

適用于多圖的多模態(tài)大模型:粗粒度離散表征+細(xì)粒度連續(xù)表征提升圖像編碼準(zhǔn)確性-AI.x社區(qū)

本文轉(zhuǎn)載自 ??圓圓的算法筆記??,作者:Fareise

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦