自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

浙大李璽團隊:指代表達理解新方法,ScanFormer粗到細迭代消除視覺冗余

人工智能 新聞
基于以上分析,我們提出了 coarse-to-fine 的迭代感知框架 ScanFormer,在圖像金字塔中逐層 scan,從低分辨率的粗尺度圖像開始,逐步過濾掉指代表達無關(guān) / 背景區(qū)域來降低計算浪費,使模型更多地關(guān)注前景 / 任務(wù)相關(guān)區(qū)域。

該論文作者均來自于浙江大學(xué)李璽教授團隊,論文第一作者為博士生蘇偉同學(xué),通訊作者為李璽教授(IET Fellow,國家杰青)。李璽教授團隊近年來在國際權(quán)威期刊(如 TPAMI、IJCV 等)和國際頂級學(xué)術(shù)會議(ICCV、CVPR、ECCV 等)上發(fā)表 180 余篇 CV/AIGC 相關(guān)的研究工作,和國內(nèi)外知名高校、科研機構(gòu)廣泛開展合作。

作為基礎(chǔ)的視覺語言任務(wù),指代表達理解(referring expression comprehension, REC)根據(jù)自然語言描述來定位圖中被指代的目標。REC 模型通常由三部分組成:視覺編碼器、文本編碼器和跨模態(tài)交互,分別用于提取視覺特征、文本特征和跨模態(tài)特征特征交互與增強。

目前的研究大多集中在設(shè)計高效的跨模態(tài)交互模塊以提升任務(wù)精度,缺少對視覺編碼器探索。常見做法是利用在分類、檢測任務(wù)上預(yù)訓(xùn)練的特征提取器,如 ResNet、DarkNet、Swin Transformer 或 ViT 等。這些模型以滑動窗口或劃分 patch 的方式遍歷圖像所有的空間位置來提取特征,其計算復(fù)雜度會隨圖像分辨率快速增長,在基于 Transformer 的模型中更加明顯。

由于圖像的空間冗余特性,圖像中存在大量低信息量的背景區(qū)域以及與指代表達無關(guān)的區(qū)域,以相同的方式在這些區(qū)域提取特征會增加計算量但對有效特征提取沒有任何幫助。更加高效的方式是提前預(yù)測圖像區(qū)域的文本相關(guān)性和內(nèi)容的豐富程度,對文本相關(guān)的前景區(qū)域充分提取特征,對背景區(qū)域粗略提取特征。對于區(qū)域預(yù)測,一個較為直觀的方式是通過圖像金字塔來實現(xiàn),在金字塔頂層的粗粒度圖像中提前辨識背景區(qū)域,之后逐步加入高分辨率的細粒度前景區(qū)域。

基于以上分析,我們提出了 coarse-to-fine 的迭代感知框架 ScanFormer,在圖像金字塔中逐層 scan,從低分辨率的粗尺度圖像開始,逐步過濾掉指代表達無關(guān) / 背景區(qū)域來降低計算浪費,使模型更多地關(guān)注前景 / 任務(wù)相關(guān)區(qū)域。

圖片

  • 論文標題:ScanFormer: Referring Expression Comprehension by Iteratively Scanning
  • 論文鏈接:https://arxiv.org/pdf/2406.18048

方法介紹

一、Coarse-to-fine 迭代感知框架

為簡化結(jié)構(gòu),我們采用統(tǒng)一文本和視覺模態(tài)的 ViLT [1] 模型,并將其沿深度維度分為 Encoder1 和 Encoder2 兩部分以用于不同的任務(wù)。

首先,提取文本特征并將其存入 KV Cache;然后構(gòu)造圖像金字塔并從金字塔頂層依次往下迭代,在每次迭代中,輸入當(dāng)前尺度被選擇的 patch,Encoder1 用于預(yù)測每個 patch 對應(yīng)的下一個尺度的細粒度 patch 的選擇情況,特別地,頂層圖像的 patch 全部被選上,以保證模型能獲得粗粒度的全圖信息。Encoder2 進一步提取特征并基于當(dāng)前尺度的 [cls] token 來預(yù)測該尺度的 bounding box。

與此同時,Encoder1 和 Encoder2 的中間特征會被存入 KV Cache 以方便被后續(xù)的尺度利用。隨著尺度的增加,細粒度特征被引入,位置預(yù)測會更加準確,同時大部分無關(guān)的 patch 被丟棄以節(jié)省大量計算。

此外,每個尺度內(nèi)部的 patch 具有雙向注意力,同時會關(guān)注前序尺度所有的 patch 和文本特征。這種尺度間的因果注意力可以進一步降低計算需求。

圖片

二、動態(tài) patch 選擇

每個 patch 的選擇情況由前一尺度生成的選擇因子決定,對于應(yīng)用的位置有兩種方案,其一是用于 Encoder 每層 MHSA 的所有 head 中,然而,對于 N 層 H 頭的 Encoder,很難獲得有效的的梯度信息來更新,因此學(xué)到的選擇因子不太理想;其二是直接用于 Encoder 的輸入,即 patch embedding 上,由于只用在這一個位置,因此更容易學(xué)習(xí),本文最終也采用了此方案。

另外,需要注意的是,即使輸入 patch embedding 被置 0,由于 MHSA 和 FFN 的存在,該 patch 在后續(xù)層的特征仍然會變?yōu)榉?0 并影響其余 patch 的特征。幸運的是,當(dāng) token 序列中存在許多相同 token 時,可以簡化 MHSA 的計算,實現(xiàn)實際的推理加速。此外,為了增強模型的靈活性,本文并沒有直接將 patch embedding 置 0,而是將其替換為一個可學(xué)習(xí)的常量 token。

因此,patch 的選擇問題被轉(zhuǎn)換成 patch 的替換問題。patch 選擇的過程可以分解為常量 token 替換和 token 合并兩步。未被選擇的 patch 會被替換為同一個常量 token。由于這些未被選擇的 token 是相同的,根據(jù) scaled dot product attention 的計算方式,這些 token 可以被合并為一個 token 并乘上總數(shù),等價于將加到維度上,因此點積注意力的計算方式不變,常見的加速方法依舊可用。

圖片

實驗結(jié)果

本文方法在 RefCOCO、RefCOCO+、RefCOCOg 和 ReferItGame 四個數(shù)據(jù)集上取得了和 state-of-the-art 相近的性能。通過在大規(guī)模數(shù)據(jù)集上預(yù)訓(xùn)練并在具體數(shù)據(jù)集上微調(diào),模型的性能可以進一步大幅提升,并達到和預(yù)訓(xùn)練模型如 MDETR [2] 和 OFA [3] 等相近的結(jié)果。

圖片

圖片

在推理速度上,提出的方法達到了實時的推理速度,同時能保證較高的任務(wù)精度。

圖片

此外,實驗部分也對模型的 patch 選擇情況以及每個尺度(scale1 和 scale2)定位精度的分布做了統(tǒng)計。

如左圖所示,隨著尺度的增加,細粒度的圖像特征被加入,模型精度逐步提升。因此可以嘗試加入早退機制,在定位精度滿足要求時及時退出,避免進一步在高分辨率圖像上計算,實現(xiàn)根據(jù)樣本自適應(yīng)選擇合適的分辨率的效果。本文也進行了一些初步的嘗試,包括加入 IoU、GIoU 和不確定性等預(yù)測分支,回歸 early exit 的指標,但發(fā)現(xiàn)效果不太理想,如何設(shè)計合適且準確的 early exit 指標有待繼續(xù)探索。

右圖展示了不同尺度的 patch 選擇情況,在所有的尺度上,被選擇的 patch 占均比較小,大部分的 patch 都可以被剔除,因此可以有效地節(jié)省計算資源。對于每個樣本(圖像 + 指代表達),實際選擇的 patch 數(shù)量相對較少,大概占總數(shù)的 65%。

圖片

最后,實驗部分展示了一些可視化結(jié)果,隨著尺度的增加(紅→綠→藍),模型的定位精度逐步提高。另外,根據(jù)由被選擇的 patch 重建的圖像,可以看出模型對于背景區(qū)域只關(guān)注了粗尺度的信息,對于相關(guān)的前景區(qū)域,模型能夠關(guān)注細粒度的細節(jié)信息。

圖片

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2021-09-27 10:12:42

欺騙防御rMTD網(wǎng)絡(luò)攻擊

2022-07-25 15:34:01

量化仿真數(shù)據(jù)誤差內(nèi)存占用

2022-12-08 13:00:10

AI性別偏見

2022-11-28 07:32:46

迭代器remove數(shù)據(jù)庫

2024-09-03 14:10:00

模型測試

2010-04-01 09:30:57

2015-08-21 09:14:40

大數(shù)據(jù)

2019-07-12 13:50:36

物聯(lián)網(wǎng)大數(shù)據(jù)安全

2022-07-07 10:47:16

IngressKubernetes

2018-10-07 07:00:59

2023-07-06 15:29:52

數(shù)據(jù)中心能源回收

2024-01-23 17:33:36

2024-10-23 19:47:54

2009-07-31 08:56:59

ASP.NET頁面刷新

2023-07-27 13:12:55

自動駕駛RGB機器

2010-06-18 09:48:22

2011-03-14 10:10:01

2011-12-01 14:15:19

信息優(yōu)化惠普

2014-03-11 09:42:42

網(wǎng)絡(luò)可視化網(wǎng)絡(luò)監(jiān)控

2021-02-20 16:07:27

神經(jīng)網(wǎng)絡(luò)AI算法
點贊
收藏

51CTO技術(shù)棧公眾號