自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

行人、車輛、動物等ReID最新綜述!武大等全面總結Transformer方法

人工智能
研究人員對基于Transformer的Re-ID研究進行了全面回顧和深入分析,將現(xiàn)有工作分類為圖像/視頻Re-ID、數(shù)據/標注受限的Re-ID、跨模態(tài)Re-ID以及特殊Re-ID場景,提出了Transformer基線UntransReID,設計動物Re-ID的標準化基準測試,為未來Re-ID研究提供新手冊。

目標重識別(Object Re-identification,簡稱Re-ID)旨在跨不同時間和場景識別特定對象。

近年來,基于Transformer的Re-ID改變了該領域長期由卷積神經網絡(CNN)主導的格局,不斷刷新性能記錄,取得重大突破。

與以往基于CNN與有限目標類型的Re-ID綜述不同,來自武漢大學、中山大學以及印第安納大學的研究人員全面回顧了近年來關于Transformer在Re-ID中日益增長的應用研究,深入分析Transformer的優(yōu)勢所在,總結了Transformer在四個廣泛研究的Re-ID方向上的應用,同時將動物加入Re-ID目標類型,揭示Transformer架構在動物Re-ID應用的巨大潛力。

圖片圖片

論文地址:http://arxiv.org/abs/2401.06960

項目地址:https://github.com/mangye16/ReID-Survey

Transformer架構方法打破CNN架構性能記錄Transformer架構方法打破CNN架構性能記錄

研究背景

Transformer以優(yōu)異性能滿足各種Re-ID任務的需求,提供一種強大、靈活且統(tǒng)一的解決方案。

研究人員將現(xiàn)有工作分類為基于圖像/視頻的Re-ID、數(shù)據/標注受限的Re-ID、跨模態(tài)Re-ID及特殊Re-ID場景,詳細闡述Transformer在應對這些領域中各種挑戰(zhàn)時所展現(xiàn)的優(yōu)勢。

考慮到無監(jiān)督Re-ID的流行趨勢,研究人員提出了新的Transformer基線——UntransReID,在單模態(tài)/跨模態(tài)任務實現(xiàn)最先進性能。

一般的Re-ID流程一般的Re-ID流程

針對尚未被充分探索的動物Re-ID領域,研究人員還設計了標準化的基準測試,進行廣泛的實驗以探討Transformer在這一任務中的適用性,促進未來研究。

最后,討論了一些在大模型時代中重要但尚未深入研究的開放性問題。

Transformer在圖片/視頻Re-ID的應用

Transformer在backbone層依靠注意力機制,具有全局、局部和時空關系的通用建模能力,有助于在圖像/視頻Re-ID任務中輕松提取全局、細粒度和時空信息。

Transformer在圖像Re-ID的應用

1. 架構優(yōu)化:設計特殊的Transformer架構,如金字塔結構、層次聚合等,或改進注意力機制。

2. Re-ID特定設計:利用視覺Transformer具備注意力機制和圖像塊嵌入的特性,捕捉局部區(qū)分性信息。通過Transformer中的編碼器-解碼器結構實現(xiàn)某些關鍵信息的解耦。根據不同目標類型的結構先驗和任務特性進行Transformer架構設計。

圖片

圖像Re-ID方法設計的不同Transformer架構

Transformer在視頻Re-ID的應用

1. 應用Transformer進行后處理:許多應用Transformer的視頻Re-ID方法為混合架構,先利用CNN模型提取特征,再使用Transformer模型進一步處理。通過Transformer的自注意力機制,捕捉序列中的長期依賴關系和上下文信息。

2. 純Transformer架構:為克服混合架構中CNN導致的長距離信息獲取受限,一些研究嘗試探索純Transformer架構在視頻Re-ID中的應用。

數(shù)據/標注受限的Re-ID

Transformer為無監(jiān)督學習提供更多可能。Transformer能夠對更強大、更通用的模型進行廣泛自監(jiān)督預訓練,以應對數(shù)據或標注受限的Re-ID任務。標注受限場景通常采取無監(jiān)督Re-ID,而數(shù)據受限則主要通過領域泛化Re-ID解決。

Transformer在無監(jiān)督Re-ID的應用

1. 自監(jiān)督預訓練:一類針對無監(jiān)督Re-ID中Transformer應用的研究關注自監(jiān)督預訓練。Transformer模型對大規(guī)模無標簽數(shù)據具有強大可擴展性,其結構的靈活性提供了更多樣化的自監(jiān)督范式。

2. 無監(jiān)督領域自適應:Transformer在無監(jiān)督領域自適應(UDA)問題中受到的關注有限。對于行人Re-ID,Wang等人借助Transformer實現(xiàn)不同身體部位之間的細粒度領域對齊。對于車輛Re-ID,一項工作通過聯(lián)合訓練策略,令Transformer自適應地關注每個域中車輛的判別部分。

Transformer在跨模態(tài)Re-ID的應用

Transformer提供了統(tǒng)一的架構,有效處理不同模態(tài)的數(shù)據。多頭注意力機制可在各種特征空間和全局語境中聚合特征。高度適應性的編碼器-解碼器結構可容納不同類型的輸入和輸出。因此Transformer特別適合在跨模態(tài)Re-ID中建立模態(tài)間關聯(lián),促進多模態(tài)信息的融合。

可見光-紅外Re-ID旨在匹配白天的可見光圖像與夜間的紅外圖像。因紅外圖像缺乏顏色與光照條件,視覺Transformer可更好地捕捉模態(tài)不變特征并具備更強的魯棒性。視覺Transformer的結構及其注意力機制可在patch級別輕松建立局部跨模態(tài)關聯(lián)?,F(xiàn)有可見光-紅外Re-ID方法聚焦于學習模態(tài)共享特征,將特征分解為模態(tài)特定特征和共享模態(tài)特征,在特征層面進行模態(tài)對齊。

文本-圖像Re-ID為跨模態(tài)檢索任務,根據文本描述在圖像庫中識別目標。作為Transformer架構在多模態(tài)應用中的里程碑,對比語言-圖像預訓練(CLIP)等大型多模態(tài)預訓練模型使該領域取得顯著進展。近期,CLIP已成為下游文本-圖像Re-ID任務中的有力工具。

素描-圖像Re-ID與骨架Re-ID均屬于跨模態(tài)匹配任務,前者基于藝術家或業(yè)余者繪制的素描,后者則基于姿態(tài)估計生成的骨架圖。Transformer擅長提取全局特征,在素描-圖像Re-ID中表現(xiàn)突出。對于骨架Re-ID,可利用Transformer對骨架點構成的圖結構進行全關系建模。

Transformer在特殊Re-ID的應用

在實際應用需求的推動下,Re-ID領域出現(xiàn)一系列特殊應用場景。Transformer被初步應用于這些復雜挑戰(zhàn),體現(xiàn)了卓越的可擴展性和適應性。

遮擋Re-ID:遮擋Re-ID場景下,圖片中的識別目標被部分遮擋,導致身份信息難以完整提取。近年來基于Transformer的方法在這一場景取得顯著成效,其核心策略包括提取局部區(qū)域特征。

換衣Re-ID:在長期Re-ID場景中,行人可能會以未知方式更換衣物,以服裝外觀為主導的判別性特征表示將失效。Lee等人在換裝Re-ID場景下對不同的特征提取主干網絡進行評估,Transformer架構相較于CNN表現(xiàn)出顯著性能優(yōu)勢。

以人為中心的任務:以人為中心的通用模型旨在將包括行人檢測、姿態(tài)估計、屬性識別和人體解析在內的多個人體相關任務整合到同一框架中,從而相互促進,提升如Re-ID這類下游任務的性能。

行人檢索:行人檢索是一種端到端方法,通過多任務學習同時解決行人檢測與Re-ID這兩個目標沖突的問題。將多尺度Transformer架構引入行人檢索方案可實現(xiàn)查詢層面的實例級匹配。

群體Re-ID:群體Re-ID利用群體中的上下文信息來匹配在同一個群體中的個體,面臨群體成員變動與布局變化等挑戰(zhàn)。傳統(tǒng)方法在位置建模方面存在不足,利用Transformer的位置嵌入機制可更好地處理群體級別的布局特性。

無人機Re-ID:與固定攝像頭相比,無人機在高度與視角上快速變化,導致圖像更為復雜。在鳥瞰圖像中分析車輛與行人時,顯著的邊界框尺寸差異與物體方向不確定性是關鍵挑戰(zhàn)。除了純無人機視角Re-ID外,還有研究重點關注空中與地面視角的跨域匹配。

特殊Re-ID場景特殊Re-ID場景

新基線UntransReID

研究人員提出了一個單模態(tài)/跨模態(tài)的常規(guī)無監(jiān)督Re-ID基線UntransReID。

圖片圖片

無監(jiān)督Re-ID基線UntransReID

單模態(tài)無監(jiān)督Re-ID:研究人員在無監(jiān)督訓練過程中設計了一種面向patch級別的mask增強策略。在數(shù)據增強過程中采用一系列l(wèi)earnable tokens來mask部分圖像patch,并在訓練過程中建立原始特征與掩碼特征之間的對應關系,將此作為監(jiān)督信號來引導模型學習。

跨模態(tài)無監(jiān)督Re-ID:針對可見光-紅外跨模態(tài)行人Re-ID,研究人員設計了一種雙流Transformer結構,包含兩個面向特定模態(tài)的patch嵌入層以及一個模態(tài)共享的Transformer。為進一步提升模態(tài)的泛化能力,在可見光通道中引入隨機通道增強作為額外的輸入,實現(xiàn)聯(lián)合訓練。

實驗結果分析:對于單模態(tài)無監(jiān)督Re-ID,UntransReID取得了與當前最先進方法相當?shù)男阅?。跨模態(tài)Re-ID現(xiàn)有先進方法大多基于CNN且需要復雜的跨模態(tài)關聯(lián)設計,UntransReID在多個可見光-紅外Re-ID數(shù)據集上憑借簡潔的設計實現(xiàn)了最先進的性能。

圖片圖片

表1 基于CNN/Transformer的有監(jiān)督/無監(jiān)督方法的實驗結果

表2 可見光-紅外跨模態(tài)基線在RegDB和SYSU-MM01上的實驗結果表2 可見光-紅外跨模態(tài)基線在RegDB和SYSU-MM01上的實驗結果

動物Re-ID

研究人員特別探討了動物Re-ID領域研究現(xiàn)狀,總結近年來的動物Re-ID數(shù)據集和基于深度學習的動物Re-ID方法,為動物Re-ID制定統(tǒng)一的實驗標準,并評估在此背景下使用Transformer的可行性,為未來的研究奠定堅實基礎。

近年來的動物Re-ID數(shù)據集近年來的動物Re-ID數(shù)據集

動物Re-ID方法

基于全局圖像的方法:許多現(xiàn)有研究借鑒行人Re-ID的傳統(tǒng)方法,將完整的動物圖像輸入深度神經網絡以獲取可靠的特征表示。

基于局部區(qū)域的方法:一些工作在數(shù)據采集與特征提取階段關注動物的關鍵部位,例如牛的頭部、大象耳朵、鯨魚尾巴以及海豚的鰭等。

基于輔助信息的方法:Zhang等人以牦牛頭部左右朝向的簡化姿態(tài)為輔助監(jiān)督信號,強化特征表示;Li等人借助姿態(tài)關鍵點估計將老虎圖像劃分為多個身體部位進行局部特征學習。

動物Re-ID的統(tǒng)一基準測試

研究人員使用多種先進的通用Re-ID方法進行了廣泛動物Re-ID實驗。實驗評估了基于CNN架構的BoT方法和基于Transformer架構的TransReID、RotTrans方法?;赥ransformer架構的方法在多數(shù)情形下表現(xiàn)更優(yōu),本實驗證明了Transformer在動物Re-ID應用的可行性與巨大潛力。

最先進的Re-ID方法在多個動物數(shù)據集上的評估結果最先進的Re-ID方法在多個動物數(shù)據集上的評估結果

未來展望

Re-ID與大語言模型的結合

將大語言模型(LLM)與Re-ID任務深度融合正成為熱門研究方向。通過生成或理解視覺數(shù)據的文本描述,LLM可在細粒度語義提取、無標記數(shù)據的利用以及模型泛化能力提升等方面為Re-ID提供有力支持。

通用Re-ID大模型構建

滿足多模態(tài)、多目標的實際應用場景是Re-ID未來的重要訴求。Transformer在多模態(tài)數(shù)據融合和大模型訓練中表現(xiàn)出突出能力,可用于同時處理視覺、文本乃至更多元的信息,從而建立模態(tài)無關、任務統(tǒng)一的通用Re-ID模型。

面向高效部署的Transformer優(yōu)化

視頻監(jiān)控、智能安防等場景要求實時性與輕量級部署,在保持Transformer魯棒性的同時需要減少計算開銷。有效遷移通用預訓練模型的知識到特定Re-ID任務,應對大規(guī)模動態(tài)更新中的災難性遺忘問題,這些也是未來亟待解決的課題。

參考資料:http://arxiv.org/abs/2401.06960

責任編輯:武曉燕 來源: 新智元
相關推薦

2025-03-11 13:44:24

2024-09-10 15:10:00

智能強化學習框架

2023-11-22 10:00:30

視覺智能

2024-09-03 09:46:51

2024-03-18 08:02:26

2023-11-05 10:24:31

2023-06-03 20:51:09

2024-10-29 14:10:00

AI模型

2023-08-14 07:46:27

模型機器學習

2024-04-18 10:39:57

2024-08-27 13:00:10

2025-03-19 09:10:00

2010-04-30 12:05:02

電信設備中興華為

2012-02-01 15:24:38

2023-02-10 13:19:50

2021-12-03 16:53:22

移動云等保2.0

2021-06-11 15:02:36

模型人工智能深度學習

2021-07-07 17:19:07

人工智能代碼開源

2023-02-08 10:57:16

模型技術

2023-04-13 15:25:14

模型
點贊
收藏

51CTO技術棧公眾號