自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

超越CVPR 2024方法,DynRefer在區(qū)域級多模態(tài)識別任務(wù)上,多項SOTA

發(fā)布于 2024-6-20 15:19
瀏覽
0收藏

本文作者來自于中國科學院大學LAMP實驗室,其中第一作者趙毓鐘是中國科學院大學的2023級博士生,共同一作劉峰是中國科學院大學2020級直博生。他們的主要研究方向是視覺語言模型和視覺目標感知。


簡介


DynRefer 通過模擬人類視覺認知過程,顯著提升了區(qū)域級多模態(tài)識別能力。通過引入人眼的動態(tài)分辨率機制,DynRefer 能夠以單個模型同時完成區(qū)域識別、區(qū)域?qū)傩詸z測和區(qū)域字幕生成(region-level captioning)任務(wù),并在上述任務(wù)都取得 SOTA 性能。其中在 RefCOCOg 數(shù)據(jù)集的 region-level captioning 任務(wù)上取得了 115.7 CIDEr,顯著高于 RegionGPT,GlaMM,Osprey,Alpha-CLIP 等 CVPR 2024 的方法。

超越CVPR 2024方法,DynRefer在區(qū)域級多模態(tài)識別任務(wù)上,多項SOTA-AI.x社區(qū)

  • 論文標題:DynRefer: Delving into Region-level Multi-modality Tasks via Dynamic Resolution
  • 論文鏈接:https://arxiv.org/abs/2405.16071
  • 論文代碼:https://github.com/callsys/DynRefer

超越CVPR 2024方法,DynRefer在區(qū)域級多模態(tài)識別任務(wù)上,多項SOTA-AI.x社區(qū)


動機

區(qū)域級多模態(tài)任務(wù)致力于將指定的圖像區(qū)域轉(zhuǎn)換為符合人類偏好的語言描述。人類完成區(qū)域級多模態(tài)任務(wù)時具有一種分辨率自適應(yīng)能力,即關(guān)注區(qū)域是高分辨率的,非關(guān)注區(qū)域是低分辨率的。然而,目前的區(qū)域級多模態(tài)大語言模型往往采用固定分辨率編碼的方案,即對整張圖像進行編碼,然后通過 RoI Align 將區(qū)域特征提取出來。這種做法缺乏人類視覺認知系統(tǒng)中的分辨率自適應(yīng)能力,對關(guān)注區(qū)域的編碼效率和能力較低。為了實現(xiàn)高精度的區(qū)域級多模態(tài)理解,我們提出了一種動態(tài)分辨率方案來模擬人類視覺認知系統(tǒng),如下圖所示。

超越CVPR 2024方法,DynRefer在區(qū)域級多模態(tài)識別任務(wù)上,多項SOTA-AI.x社區(qū)

圖 1:傳統(tǒng)的區(qū)域級多模態(tài)方法(左)與 DynRefer 方法(右)的比較。

方法

1、模擬動態(tài)分辨率的圖像(Multi-view construction)。由于主流的預(yù)訓練視覺語言模型(CLIP)只能接收均勻分辨率的輸入,我們通過構(gòu)造多個均勻分辨率的視圖來模擬一幅動態(tài)分辨率圖像。該圖像在指代區(qū)域具有高分辨率,而在非指代區(qū)域低分辨率。具體流程如圖 2 上。原始圖像 x 被裁剪并調(diào)整大小為多個候選視圖。裁剪區(qū)域的計算方式為 

超越CVPR 2024方法,DynRefer在區(qū)域級多模態(tài)識別任務(wù)上,多項SOTA-AI.x社區(qū)

,其中

超越CVPR 2024方法,DynRefer在區(qū)域級多模態(tài)識別任務(wù)上,多項SOTA-AI.x社區(qū)

。這里的

超越CVPR 2024方法,DynRefer在區(qū)域級多模態(tài)識別任務(wù)上,多項SOTA-AI.x社區(qū)

表示參考區(qū)域的邊界框,

超越CVPR 2024方法,DynRefer在區(qū)域級多模態(tài)識別任務(wù)上,多項SOTA-AI.x社區(qū)

表示整個圖像的尺寸,t 表示插值系數(shù)。在訓練過程中,我們從候選視圖中隨機選擇 n 個視圖,以模擬由于注視和眼球快速運動而生成的圖像。這些 n 個視圖對應(yīng)于插值系數(shù) t,即

超越CVPR 2024方法,DynRefer在區(qū)域級多模態(tài)識別任務(wù)上,多項SOTA-AI.x社區(qū)

。我們固定保留僅包含參考區(qū)域的視圖(即

超越CVPR 2024方法,DynRefer在區(qū)域級多模態(tài)識別任務(wù)上,多項SOTA-AI.x社區(qū)

)。經(jīng)實驗證明該視圖有助于保留區(qū)域細節(jié),對于所有區(qū)域多模態(tài)任務(wù)都至關(guān)重要。

超越CVPR 2024方法,DynRefer在區(qū)域級多模態(tài)識別任務(wù)上,多項SOTA-AI.x社區(qū)

圖 2:DynRefer 訓練(上)與 推理(下)。

2、隨機動態(tài)視圖嵌入(Stochastic Multi-view Embedding)。具體流程如圖 3 所示。采樣的 n 個視圖通過凍結(jié)的 CLIP 編碼成空間特征,然后經(jīng)過 RoI-Align 模塊處理,以獲取區(qū)域嵌入,即

超越CVPR 2024方法,DynRefer在區(qū)域級多模態(tài)識別任務(wù)上,多項SOTA-AI.x社區(qū)

。如圖 3 左側(cè)所示。由于裁剪、調(diào)整大小和 RoI-Align 引入的空間誤差,這些區(qū)域嵌入在空間上并不對齊。受 deformable convolution 操作啟發(fā),我們提出了一個對齊模塊,通過將 

超越CVPR 2024方法,DynRefer在區(qū)域級多模態(tài)識別任務(wù)上,多項SOTA-AI.x社區(qū)

對齊到 

超越CVPR 2024方法,DynRefer在區(qū)域級多模態(tài)識別任務(wù)上,多項SOTA-AI.x社區(qū)

來減少偏差,其中 

超越CVPR 2024方法,DynRefer在區(qū)域級多模態(tài)識別任務(wù)上,多項SOTA-AI.x社區(qū)

是僅包含參考區(qū)域的視圖編碼的區(qū)域嵌入。對于每個區(qū)域嵌入

超越CVPR 2024方法,DynRefer在區(qū)域級多模態(tài)識別任務(wù)上,多項SOTA-AI.x社區(qū)

,首先將其與 

超越CVPR 2024方法,DynRefer在區(qū)域級多模態(tài)識別任務(wù)上,多項SOTA-AI.x社區(qū)

連接,然后通過卷積層計算一個二維偏移圖。

超越CVPR 2024方法,DynRefer在區(qū)域級多模態(tài)識別任務(wù)上,多項SOTA-AI.x社區(qū)

的空間特征然后根據(jù)二維偏移重新采樣。最后,對齊后的區(qū)域嵌入沿通道維度連接并通過 linear 層進行融合。輸出進一步通過視覺重采樣模塊,即 Q-former,進行壓縮,從而提取原始圖像 x 的參考區(qū)域 

超越CVPR 2024方法,DynRefer在區(qū)域級多模態(tài)識別任務(wù)上,多項SOTA-AI.x社區(qū)

的區(qū)域表示(圖 3 中的

超越CVPR 2024方法,DynRefer在區(qū)域級多模態(tài)識別任務(wù)上,多項SOTA-AI.x社區(qū)

)。


超越CVPR 2024方法,DynRefer在區(qū)域級多模態(tài)識別任務(wù)上,多項SOTA-AI.x社區(qū)

圖 3:DynRefer 網(wǎng)絡(luò)結(jié)構(gòu)


3、視覺語言對齊 (Vision-language Alignment)。通過隨機多視圖嵌入模塊計算得到的區(qū)域表示

超越CVPR 2024方法,DynRefer在區(qū)域級多模態(tài)識別任務(wù)上,多項SOTA-AI.x社區(qū)

,由三個解碼器

超越CVPR 2024方法,DynRefer在區(qū)域級多模態(tài)識別任務(wù)上,多項SOTA-AI.x社區(qū)

解碼,如圖 3(右)所示,分別受三個多模態(tài)任務(wù)的監(jiān)督:?


i) 圖像區(qū)域標簽生成。我們采用基于查詢的輕量級識別解碼器進行區(qū)域標簽生成。解碼器 

超越CVPR 2024方法,DynRefer在區(qū)域級多模態(tài)識別任務(wù)上,多項SOTA-AI.x社區(qū)

 如圖 3(右側(cè))所示。通過使用標簽作為查詢,

超越CVPR 2024方法,DynRefer在區(qū)域級多模態(tài)識別任務(wù)上,多項SOTA-AI.x社區(qū)

作為鍵和值,計算預(yù)定義標記的置信度來完成標記過程。我們從真值字幕中解析出標簽,以監(jiān)督識別解碼器。ii) 區(qū)域 - 文本對比學習。類似于區(qū)域標記解碼器,解碼器 

超越CVPR 2024方法,DynRefer在區(qū)域級多模態(tài)識別任務(wù)上,多項SOTA-AI.x社區(qū)

定義為基于查詢的識別解碼器。該解碼器計算字幕與區(qū)域特征之間的相似性分數(shù),使用 SigLIP loss 進行監(jiān)督。iii) 語言建模。我們采用預(yù)訓練的大語言模型 

超越CVPR 2024方法,DynRefer在區(qū)域級多模態(tài)識別任務(wù)上,多項SOTA-AI.x社區(qū)

將區(qū)域表示 

超越CVPR 2024方法,DynRefer在區(qū)域級多模態(tài)識別任務(wù)上,多項SOTA-AI.x社區(qū)

轉(zhuǎn)換為語言描述。


超越CVPR 2024方法,DynRefer在區(qū)域級多模態(tài)識別任務(wù)上,多項SOTA-AI.x社區(qū)


圖 4:雙視圖(n=2)DynRefer 模型在區(qū)域級多模態(tài)任務(wù)上的表現(xiàn)。在不同的插值系數(shù) t 下,

超越CVPR 2024方法,DynRefer在區(qū)域級多模態(tài)識別任務(wù)上,多項SOTA-AI.x社區(qū)

。視圖一是固定的(

超越CVPR 2024方法,DynRefer在區(qū)域級多模態(tài)識別任務(wù)上,多項SOTA-AI.x社區(qū)

),視圖二隨機選擇或固定。


4、在推理過程中,經(jīng)過訓練的 DynRefer 模型通過動態(tài)分辨率在圖像上執(zhí)行多模態(tài)任務(wù)。通過調(diào)整采樣的 n 個視圖的插值系數(shù)

超越CVPR 2024方法,DynRefer在區(qū)域級多模態(tài)識別任務(wù)上,多項SOTA-AI.x社區(qū)

,我們可以得到具有動態(tài)分辨率特性的區(qū)域表示。為了評估不同動態(tài)分辨率下的特性,我們訓練了一個雙視圖(n=2)的 DynRefer 模型,并在四個多模態(tài)任務(wù)上進行評估。從圖 4 中的曲線可以看出,對于沒有上下文信息的視圖(

超越CVPR 2024方法,DynRefer在區(qū)域級多模態(tài)識別任務(wù)上,多項SOTA-AI.x社區(qū)

),屬性檢測(Attribute detection)獲得了更好的結(jié)果。這可以解釋為這種任務(wù)通常需要詳細的區(qū)域信息。而對于區(qū)域級字幕(Region-level captioning)和密集字幕生成(Dense captioning)任務(wù),需要上下文豐富的視圖( 

超越CVPR 2024方法,DynRefer在區(qū)域級多模態(tài)識別任務(wù)上,多項SOTA-AI.x社區(qū)

),以便完整理解參考區(qū)域。需要注意的是,過多上下文的視圖(

超越CVPR 2024方法,DynRefer在區(qū)域級多模態(tài)識別任務(wù)上,多項SOTA-AI.x社區(qū)

)會降低所有任務(wù)的性能,因為它們引入了過多與區(qū)域無關(guān)的信息。當已知任務(wù)類型時,我們可以根據(jù)任務(wù)特性采樣適當?shù)囊晥D。當任務(wù)類型未知時,我們首先構(gòu)建一組在不同插值系數(shù) t 下的候選視圖集合,

超越CVPR 2024方法,DynRefer在區(qū)域級多模態(tài)識別任務(wù)上,多項SOTA-AI.x社區(qū)

。從候選集中,通過貪婪搜索算法采樣 n 個視圖。搜索的目標函數(shù)定義為:

超越CVPR 2024方法,DynRefer在區(qū)域級多模態(tài)識別任務(wù)上,多項SOTA-AI.x社區(qū)

其中

超越CVPR 2024方法,DynRefer在區(qū)域級多模態(tài)識別任務(wù)上,多項SOTA-AI.x社區(qū)

表示第 i 個視圖的插值系數(shù),

超越CVPR 2024方法,DynRefer在區(qū)域級多模態(tài)識別任務(wù)上,多項SOTA-AI.x社區(qū)

表示第 i 個視圖,pHASH (?) 表示感知圖像哈希函數(shù),

超越CVPR 2024方法,DynRefer在區(qū)域級多模態(tài)識別任務(wù)上,多項SOTA-AI.x社區(qū)

表示異或操作。為了從全局視角比較視圖的信息,我們利用 "pHASH (?)" 函數(shù)將視圖從空間域轉(zhuǎn)換到頻域,然后編碼成哈希碼。對于

超越CVPR 2024方法,DynRefer在區(qū)域級多模態(tài)識別任務(wù)上,多項SOTA-AI.x社區(qū)

這一項,我們減少上下文豐富視圖的權(quán)重,以避免引入過多冗余信息。


實驗

Region-level Captioning


超越CVPR 2024方法,DynRefer在區(qū)域級多模態(tài)識別任務(wù)上,多項SOTA-AI.x社區(qū)

在區(qū)域字幕生成任務(wù),DynRefer 以更小的模型(4.2B v.s. 7B),在 RefCOCOg 和 VG 兩個數(shù)據(jù)集上、在 METEOR 和 CIDEr 兩個指標上都顯著超過了 CVPR 2024 中的眾多方法,如 RegionGPT,GlaMM,Alpha-CLIP 和 Osprey 等,展現(xiàn)出 DynRefer 巨大的性能優(yōu)勢。


Dense Captioning


超越CVPR 2024方法,DynRefer在區(qū)域級多模態(tài)識別任務(wù)上,多項SOTA-AI.x社區(qū)




在密集字幕生成任務(wù),在 VG1.2 數(shù)據(jù)集,DynRefer 相較之前的 SOTA 方法 GRiT 提升了 7.1% mAP。


Open Vocabulary Attribute Detection


超越CVPR 2024方法,DynRefer在區(qū)域級多模態(tài)識別任務(wù)上,多項SOTA-AI.x社區(qū)

在區(qū)域?qū)傩詸z測任務(wù),DynRefer 也取得了 SOTA 的性能。


Open Vocabulary Region Recognition


超越CVPR 2024方法,DynRefer在區(qū)域級多模態(tài)識別任務(wù)上,多項SOTA-AI.x社區(qū)

在區(qū)域識別任務(wù),DynRefer 比 CVPR 24 的 RegionGPT 提升了 15% mAP 和 8.8% Accuracy,比 ICLR 24 的 ASM 高 15.7% mAP。


消融實驗


超越CVPR 2024方法,DynRefer在區(qū)域級多模態(tài)識別任務(wù)上,多項SOTA-AI.x社區(qū)

  • Line 1-6:隨機動態(tài)多視圖要優(yōu)于固定視圖。
  • Line 6-10:通過最大化信息選擇視圖優(yōu)于隨機選擇視圖。
  • Line 10-13:多任務(wù)訓練可以學習得到更好的區(qū)域表征。

可視化

下面幾張圖展示了 DynRefer 的推理結(jié)果,DynRefer 可以用一個模型同時輸出區(qū)域字幕、標簽、屬性和類別。

超越CVPR 2024方法,DynRefer在區(qū)域級多模態(tài)識別任務(wù)上,多項SOTA-AI.x社區(qū)

超越CVPR 2024方法,DynRefer在區(qū)域級多模態(tài)識別任務(wù)上,多項SOTA-AI.x社區(qū)

本文轉(zhuǎn)自 機器之心 ,作者:機器之心


原文鏈接: ??https://mp.weixin.qq.com/s/Pb89q9qTek98ifNLRxy7hQ??

標簽
已于2024-6-20 15:19:46修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦