首個通用雙向Adapter多模態(tài)目標追蹤方法BAT,入選AAAI 2024
目標跟蹤是計算機視覺的一項基礎視覺任務,由于計算機視覺的快速發(fā)展,單模態(tài) (RGB) 目標跟蹤近年來取得了重大進展??紤]到單一成像傳感器的局限性,我們需要引入多模態(tài)圖像 (RGB、紅外等) 來彌補這一缺陷,以實現復雜環(huán)境下全天候目標跟蹤。
然而,現有的多模態(tài)跟蹤任務也面臨兩個主要問題:
- 由于多模態(tài)目標跟蹤的數據標注成本高,大多數現有數據集規(guī)模有限,不足以支持構建有效的多模態(tài)跟蹤器;
- 因為不同的成像方式在變化的環(huán)境中對物體的敏感度不同,開放世界中主導模態(tài)是動態(tài)變化的,多模態(tài)數據之間的主導相關性并不固定。
在 RGB 序列上進行預訓練,然后以完全微調的方式轉移到多模態(tài)場景的許多多模態(tài)跟蹤工作存在時間昂貴和效率低下的問題,同時表現出有限的性能。
除了完全微調方法之外,受自然語言處理 (NLP) 領域參數高效微調方法成功的啟發(fā),一些最近的方法通過凍結骨干網絡參數并附加一組額外可學習的參數,將參數高效 prompt 微調引入到多模態(tài)跟蹤中。
這些方法通常以一種模態(tài) (通常是 RGB) 為主導模態(tài),另一種模態(tài)作為輔助模態(tài)。然而,這些方法忽略了多模態(tài)數據的動態(tài)主導相關性,難以在如圖 1 所示的復雜場景中充分利用互補的多模態(tài)信息,從而限制了跟蹤性能。
圖 1:復雜場景下不同的主導模態(tài)。
為了解決上述問題,來自天津大學的研究人員設計出了一種雙向 adapter 用于多模態(tài)跟蹤 (BAT)。與在主導模態(tài)中添加輔助模態(tài)信息作為提示以增強基礎模型在下游任務中的表示能力的方法 (通常使用 RGB 作為主要模態(tài)) 不同,該方法沒有預設固定的主導模態(tài) - 輔助模態(tài),而是在輔助模態(tài)向主導模態(tài)變化的過程中動態(tài)提取有效信息。
BAT 由兩個共享參數的特定于模態(tài)分支的基礎模型編碼器和一個通用的雙向 adapter 組成。在訓練過程中,BAT 沒有對基礎模型進行完全的微調,每個特定的模態(tài)分支由具有固定參數的基礎模型初始化,僅訓練新增的雙向 adapter。每個模態(tài)分支從其他模態(tài)中學習提示信息,與當前模態(tài)的特征信息相結合,增強表征能力。兩個特定模態(tài)的分支通過通用雙向 adapter 執(zhí)行交互,在多模態(tài)非固定關聯范式中動態(tài)地相互融合主導輔助信息。
通用雙向 adapter 具有輕量級沙漏結構,它可以嵌入到基礎模型的每一層 transformer 編碼器中,而不需要引入大量的可學習參數。通過添加少量的訓練參數 (0.32M),BAT 與全微調方法和基于提示學習的方法相比具有更低的訓練成本,獲得了更好的跟蹤性能。
論文《Bi-directional Adapter for Multi-modal Tracking》:
論文鏈接:https://arxiv.org/abs/2312.10611
代碼鏈接:https://github.com/SparkTempest/BAT
主要貢獻
- 我們首先提出了一個基于 adapter 的多模態(tài)跟蹤視覺提示框架。我們的模型能夠感知開放場景中主導模態(tài)的動態(tài)變化,以自適應的方式有效融合多模態(tài)信息。
- 據我們所知,我們首次為基礎模型提出了一個通用的雙向 adapter。它結構簡單、高效,能有效地實現多模態(tài)交叉提示跟蹤。通過僅添加 0.32M 可學習參數,我們的模型可以魯棒應對開放場景下的多模態(tài)跟蹤。
- 我們深入分析了我們的通用 adapter 在不同層深的影響。我們還在實驗中探索了更高效的 adapter 架構,并驗證了我們在多個 RGBT 跟蹤相關數據集上的優(yōu)勢。
核心方法
如圖 2 所示,我們提出了一個基于雙向 Adapter 的多模態(tài)追蹤視覺提示框架 (BAT),框架具有 RGB 模態(tài)和熱紅外模態(tài)的雙流編碼器結構,每個流使用相同的基礎模型參數。雙向 Adapter 與雙流編碼器層并行設置,從兩個模態(tài)相互交叉提示多模態(tài)數據。
方法沒有對基礎模型進行完全的微調,僅通過學習輕量級雙向 Adapter,將預先訓練好的 RGB 追蹤器高效地轉移到多模態(tài)場景中,實現了出色的多模態(tài)互補性和卓越的追蹤精度。
圖 2:BAT 的總體架構。
首先將每種模態(tài)的模板幀(第一幀中目標物體的初始框
)和
搜索幀(后續(xù)追蹤圖像)轉換為
,將它們拼接在一起分別傳遞給 N 層雙流 transformer 編碼器。
雙向 adapter 與雙流編碼器層并行設置,可以學習從一種模態(tài)到另一種模態(tài)的特征提示。為此,將兩個分支的輸出特征相加并輸入到預測頭 H 中,得到最終的跟蹤結果框 B。
雙向 adapter 采用模塊化設計,分別嵌入到多頭自注意力階段和 MLP 階段,如圖 1 右側所示雙向 adapter 的詳細結構,其設計用于將特征提示從一種模態(tài)轉移到另一種模態(tài)。它由三個線性投影層組成,tn 表示每個模態(tài)的 token 個數,輸入 token 首先通過下投影被降維為 de 并通過一個線性投影層,然后向上投影到原始維度 dt 并作為特征提示反饋到其他模態(tài)的 transformer 編碼器層。
通過這種簡單的結構,雙向 adapter 可以有效地在 模態(tài)之間進行特征提示,實現多模態(tài)跟蹤。
由于凍結了 transformer 編碼器和預測頭,因此只需要優(yōu)化新增 adapter 的參數。值得注意的是,與大多數傳統 adapter 不同,我們的雙向 adapter 是作為動態(tài)變化的主導模態(tài)的跨模態(tài)特征提示而發(fā)揮作用的,確保了開放世界中良好的跟蹤性能。
實驗效果
如表 1 所示,在 RGBT234 和 LasHeR 兩個數據集上的對比表明我們在的方法在準確率和成功率上均優(yōu)于最先進的方法。如圖 3 所示,在 LasHeR 數據集的不同場景屬性下,與最先進方法的性能比較也證明了所提出方法的優(yōu)越性。
這些實驗充分證明了我們的雙流追蹤框架與雙向 Adapter 成功地追蹤了大多數復雜環(huán)境中的目標,并自適應地從動態(tài)變化的主導 - 輔助模態(tài)中提取有效信息,達到了最先進的性能。
表 1 RGBT234 和 LasHeR 數據集上的整體性能。
圖 3 LasHeR 數據集中不同屬性下 BAT 和競爭方法的比較。
實驗證明我們在復雜場景中從不斷變化的主導 - 輔助模式中動態(tài)提示有效信息的有效性。如圖 4 所示,與固定主導模態(tài)的相關方法相比,我們的方法即使在 RGB 完全不可用的情況下也能有效地追蹤目標,當 RGB 和 TIR 在后續(xù)場景中都能提供有效的信息時,追蹤效果要好得多。我們的雙向 Adapter 從 RGB 和 IR 模態(tài)中動態(tài)提取目標的有效特征,捕獲更準確的目標響應位置,并消除 RGB 模態(tài)的干擾。
圖 4 跟蹤結果的可視化。
我們同樣在 RGBE 追蹤數據集上評估了我們的方法。如圖 5 所示,在 VisEvent 測試集上與其他方法相比,我們的方法在不同復雜場景下的追蹤結果最為準確,證明了我們的 BAT 模型的有效性和泛化性。
圖 5 VisEvent 數據集下追蹤結果。
圖 6 attention 權重可視化。
我們在圖 6 中可視化了不同層跟蹤目標的注意力權重。與 baseline-dual (基礎模型參數初始化的雙流框架) 方法相比,我們的 BAT 有效地驅動輔助模態(tài)向主導模態(tài)學習更多的互補信息,同時隨著網絡深度的增加保持主導模態(tài)的有效性,從而提高了整體跟蹤性能。
實驗表明,BAT 成功地捕獲了多模態(tài)互補信息,實現了樣本自適應動態(tài)跟蹤。