行人、車輛、動物等ReID最新綜述!武大等全面總結Transformer方法
目標重識別(Object Re-identification,簡稱Re-ID)旨在跨不同時間和場景識別特定對象。
近年來,基于Transformer的Re-ID改變了該領域長期由卷積神經網絡(CNN)主導的格局,不斷刷新性能記錄,取得重大突破。
與以往基于CNN與有限目標類型的Re-ID綜述不同,來自武漢大學、中山大學以及印第安納大學的研究人員全面回顧了近年來關于Transformer在Re-ID中日益增長的應用研究,深入分析Transformer的優(yōu)勢所在,總結了Transformer在四個廣泛研究的Re-ID方向上的應用,同時將動物加入Re-ID目標類型,揭示Transformer架構在動物Re-ID應用的巨大潛力。
圖片
論文地址:http://arxiv.org/abs/2401.06960
項目地址:https://github.com/mangye16/ReID-Survey
Transformer架構方法打破CNN架構性能記錄
研究背景
Transformer以優(yōu)異性能滿足各種Re-ID任務的需求,提供一種強大、靈活且統(tǒng)一的解決方案。
研究人員將現(xiàn)有工作分類為基于圖像/視頻的Re-ID、數(shù)據/標注受限的Re-ID、跨模態(tài)Re-ID及特殊Re-ID場景,詳細闡述Transformer在應對這些領域中各種挑戰(zhàn)時所展現(xiàn)的優(yōu)勢。
考慮到無監(jiān)督Re-ID的流行趨勢,研究人員提出了新的Transformer基線——UntransReID,在單模態(tài)/跨模態(tài)任務實現(xiàn)最先進性能。
一般的Re-ID流程
針對尚未被充分探索的動物Re-ID領域,研究人員還設計了標準化的基準測試,進行廣泛的實驗以探討Transformer在這一任務中的適用性,促進未來研究。
最后,討論了一些在大模型時代中重要但尚未深入研究的開放性問題。
Transformer在圖片/視頻Re-ID的應用
Transformer在backbone層依靠注意力機制,具有全局、局部和時空關系的通用建模能力,有助于在圖像/視頻Re-ID任務中輕松提取全局、細粒度和時空信息。
Transformer在圖像Re-ID的應用
1. 架構優(yōu)化:設計特殊的Transformer架構,如金字塔結構、層次聚合等,或改進注意力機制。
2. Re-ID特定設計:利用視覺Transformer具備注意力機制和圖像塊嵌入的特性,捕捉局部區(qū)分性信息。通過Transformer中的編碼器-解碼器結構實現(xiàn)某些關鍵信息的解耦。根據不同目標類型的結構先驗和任務特性進行Transformer架構設計。
圖像Re-ID方法設計的不同Transformer架構
Transformer在視頻Re-ID的應用
1. 應用Transformer進行后處理:許多應用Transformer的視頻Re-ID方法為混合架構,先利用CNN模型提取特征,再使用Transformer模型進一步處理。通過Transformer的自注意力機制,捕捉序列中的長期依賴關系和上下文信息。
2. 純Transformer架構:為克服混合架構中CNN導致的長距離信息獲取受限,一些研究嘗試探索純Transformer架構在視頻Re-ID中的應用。
數(shù)據/標注受限的Re-ID
Transformer為無監(jiān)督學習提供更多可能。Transformer能夠對更強大、更通用的模型進行廣泛自監(jiān)督預訓練,以應對數(shù)據或標注受限的Re-ID任務。標注受限場景通常采取無監(jiān)督Re-ID,而數(shù)據受限則主要通過領域泛化Re-ID解決。
Transformer在無監(jiān)督Re-ID的應用
1. 自監(jiān)督預訓練:一類針對無監(jiān)督Re-ID中Transformer應用的研究關注自監(jiān)督預訓練。Transformer模型對大規(guī)模無標簽數(shù)據具有強大可擴展性,其結構的靈活性提供了更多樣化的自監(jiān)督范式。
2. 無監(jiān)督領域自適應:Transformer在無監(jiān)督領域自適應(UDA)問題中受到的關注有限。對于行人Re-ID,Wang等人借助Transformer實現(xiàn)不同身體部位之間的細粒度領域對齊。對于車輛Re-ID,一項工作通過聯(lián)合訓練策略,令Transformer自適應地關注每個域中車輛的判別部分。
Transformer在跨模態(tài)Re-ID的應用
Transformer提供了統(tǒng)一的架構,有效處理不同模態(tài)的數(shù)據。多頭注意力機制可在各種特征空間和全局語境中聚合特征。高度適應性的編碼器-解碼器結構可容納不同類型的輸入和輸出。因此Transformer特別適合在跨模態(tài)Re-ID中建立模態(tài)間關聯(lián),促進多模態(tài)信息的融合。
可見光-紅外Re-ID旨在匹配白天的可見光圖像與夜間的紅外圖像。因紅外圖像缺乏顏色與光照條件,視覺Transformer可更好地捕捉模態(tài)不變特征并具備更強的魯棒性。視覺Transformer的結構及其注意力機制可在patch級別輕松建立局部跨模態(tài)關聯(lián)?,F(xiàn)有可見光-紅外Re-ID方法聚焦于學習模態(tài)共享特征,將特征分解為模態(tài)特定特征和共享模態(tài)特征,在特征層面進行模態(tài)對齊。
文本-圖像Re-ID為跨模態(tài)檢索任務,根據文本描述在圖像庫中識別目標。作為Transformer架構在多模態(tài)應用中的里程碑,對比語言-圖像預訓練(CLIP)等大型多模態(tài)預訓練模型使該領域取得顯著進展。近期,CLIP已成為下游文本-圖像Re-ID任務中的有力工具。
素描-圖像Re-ID與骨架Re-ID均屬于跨模態(tài)匹配任務,前者基于藝術家或業(yè)余者繪制的素描,后者則基于姿態(tài)估計生成的骨架圖。Transformer擅長提取全局特征,在素描-圖像Re-ID中表現(xiàn)突出。對于骨架Re-ID,可利用Transformer對骨架點構成的圖結構進行全關系建模。
Transformer在特殊Re-ID的應用
在實際應用需求的推動下,Re-ID領域出現(xiàn)一系列特殊應用場景。Transformer被初步應用于這些復雜挑戰(zhàn),體現(xiàn)了卓越的可擴展性和適應性。
遮擋Re-ID:遮擋Re-ID場景下,圖片中的識別目標被部分遮擋,導致身份信息難以完整提取。近年來基于Transformer的方法在這一場景取得顯著成效,其核心策略包括提取局部區(qū)域特征。
換衣Re-ID:在長期Re-ID場景中,行人可能會以未知方式更換衣物,以服裝外觀為主導的判別性特征表示將失效。Lee等人在換裝Re-ID場景下對不同的特征提取主干網絡進行評估,Transformer架構相較于CNN表現(xiàn)出顯著性能優(yōu)勢。
以人為中心的任務:以人為中心的通用模型旨在將包括行人檢測、姿態(tài)估計、屬性識別和人體解析在內的多個人體相關任務整合到同一框架中,從而相互促進,提升如Re-ID這類下游任務的性能。
行人檢索:行人檢索是一種端到端方法,通過多任務學習同時解決行人檢測與Re-ID這兩個目標沖突的問題。將多尺度Transformer架構引入行人檢索方案可實現(xiàn)查詢層面的實例級匹配。
群體Re-ID:群體Re-ID利用群體中的上下文信息來匹配在同一個群體中的個體,面臨群體成員變動與布局變化等挑戰(zhàn)。傳統(tǒng)方法在位置建模方面存在不足,利用Transformer的位置嵌入機制可更好地處理群體級別的布局特性。
無人機Re-ID:與固定攝像頭相比,無人機在高度與視角上快速變化,導致圖像更為復雜。在鳥瞰圖像中分析車輛與行人時,顯著的邊界框尺寸差異與物體方向不確定性是關鍵挑戰(zhàn)。除了純無人機視角Re-ID外,還有研究重點關注空中與地面視角的跨域匹配。
特殊Re-ID場景
新基線UntransReID
研究人員提出了一個單模態(tài)/跨模態(tài)的常規(guī)無監(jiān)督Re-ID基線UntransReID。
圖片
無監(jiān)督Re-ID基線UntransReID
單模態(tài)無監(jiān)督Re-ID:研究人員在無監(jiān)督訓練過程中設計了一種面向patch級別的mask增強策略。在數(shù)據增強過程中采用一系列l(wèi)earnable tokens來mask部分圖像patch,并在訓練過程中建立原始特征與掩碼特征之間的對應關系,將此作為監(jiān)督信號來引導模型學習。
跨模態(tài)無監(jiān)督Re-ID:針對可見光-紅外跨模態(tài)行人Re-ID,研究人員設計了一種雙流Transformer結構,包含兩個面向特定模態(tài)的patch嵌入層以及一個模態(tài)共享的Transformer。為進一步提升模態(tài)的泛化能力,在可見光通道中引入隨機通道增強作為額外的輸入,實現(xiàn)聯(lián)合訓練。
實驗結果分析:對于單模態(tài)無監(jiān)督Re-ID,UntransReID取得了與當前最先進方法相當?shù)男阅?。跨模態(tài)Re-ID現(xiàn)有先進方法大多基于CNN且需要復雜的跨模態(tài)關聯(lián)設計,UntransReID在多個可見光-紅外Re-ID數(shù)據集上憑借簡潔的設計實現(xiàn)了最先進的性能。
圖片
表1 基于CNN/Transformer的有監(jiān)督/無監(jiān)督方法的實驗結果
表2 可見光-紅外跨模態(tài)基線在RegDB和SYSU-MM01上的實驗結果
動物Re-ID
研究人員特別探討了動物Re-ID領域研究現(xiàn)狀,總結近年來的動物Re-ID數(shù)據集和基于深度學習的動物Re-ID方法,為動物Re-ID制定統(tǒng)一的實驗標準,并評估在此背景下使用Transformer的可行性,為未來的研究奠定堅實基礎。
近年來的動物Re-ID數(shù)據集
動物Re-ID方法
基于全局圖像的方法:許多現(xiàn)有研究借鑒行人Re-ID的傳統(tǒng)方法,將完整的動物圖像輸入深度神經網絡以獲取可靠的特征表示。
基于局部區(qū)域的方法:一些工作在數(shù)據采集與特征提取階段關注動物的關鍵部位,例如牛的頭部、大象耳朵、鯨魚尾巴以及海豚的鰭等。
基于輔助信息的方法:Zhang等人以牦牛頭部左右朝向的簡化姿態(tài)為輔助監(jiān)督信號,強化特征表示;Li等人借助姿態(tài)關鍵點估計將老虎圖像劃分為多個身體部位進行局部特征學習。
動物Re-ID的統(tǒng)一基準測試
研究人員使用多種先進的通用Re-ID方法進行了廣泛動物Re-ID實驗。實驗評估了基于CNN架構的BoT方法和基于Transformer架構的TransReID、RotTrans方法?;赥ransformer架構的方法在多數(shù)情形下表現(xiàn)更優(yōu),本實驗證明了Transformer在動物Re-ID應用的可行性與巨大潛力。
最先進的Re-ID方法在多個動物數(shù)據集上的評估結果
未來展望
Re-ID與大語言模型的結合
將大語言模型(LLM)與Re-ID任務深度融合正成為熱門研究方向。通過生成或理解視覺數(shù)據的文本描述,LLM可在細粒度語義提取、無標記數(shù)據的利用以及模型泛化能力提升等方面為Re-ID提供有力支持。
通用Re-ID大模型構建
滿足多模態(tài)、多目標的實際應用場景是Re-ID未來的重要訴求。Transformer在多模態(tài)數(shù)據融合和大模型訓練中表現(xiàn)出突出能力,可用于同時處理視覺、文本乃至更多元的信息,從而建立模態(tài)無關、任務統(tǒng)一的通用Re-ID模型。
面向高效部署的Transformer優(yōu)化
視頻監(jiān)控、智能安防等場景要求實時性與輕量級部署,在保持Transformer魯棒性的同時需要減少計算開銷。有效遷移通用預訓練模型的知識到特定Re-ID任務,應對大規(guī)模動態(tài)更新中的災難性遺忘問題,這些也是未來亟待解決的課題。