自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="fento"><rp id="fento"></rp></style>
^{<center id="fento"></center>}

<sub id="fento"></sub>

<style id="fento"></style>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

行人、車輛、動物等ReID最新綜述！武大等全面總結Transformer方法

作者：新智元 2024-12-24 13:01:12

研究人員對基于Transformer的Re-ID研究進行了全面回顧和深入分析，將現(xiàn)有工作分類為圖像/視頻Re-ID、數(shù)據/標注受限的Re-ID、跨模態(tài)Re-ID以及特殊Re-ID場景，提出了Transformer基線UntransReID，設計動物Re-ID的標準化基準測試，為未來Re-ID研究提供新手冊。

目標重識別（Object Re-identification，簡稱Re-ID）旨在跨不同時間和場景識別特定對象。

近年來，基于Transformer的Re-ID改變了該領域長期由卷積神經網絡（CNN）主導的格局，不斷刷新性能記錄，取得重大突破。

與以往基于CNN與有限目標類型的Re-ID綜述不同，來自武漢大學、中山大學以及印第安納大學的研究人員全面回顧了近年來關于Transformer在Re-ID中日益增長的應用研究，深入分析Transformer的優(yōu)勢所在，總結了Transformer在四個廣泛研究的Re-ID方向上的應用，同時將動物加入Re-ID目標類型，揭示Transformer架構在動物Re-ID應用的巨大潛力。

圖片

論文地址：http://arxiv.org/abs/2401.06960

項目地址：https://github.com/mangye16/ReID-Survey

Transformer架構方法打破CNN架構性能記錄

研究背景

Transformer以優(yōu)異性能滿足各種Re-ID任務的需求，提供一種強大、靈活且統(tǒng)一的解決方案。

研究人員將現(xiàn)有工作分類為基于圖像/視頻的Re-ID、數(shù)據/標注受限的Re-ID、跨模態(tài)Re-ID及特殊Re-ID場景，詳細闡述Transformer在應對這些領域中各種挑戰(zhàn)時所展現(xiàn)的優(yōu)勢。

考慮到無監(jiān)督Re-ID的流行趨勢，研究人員提出了新的Transformer基線——UntransReID，在單模態(tài)/跨模態(tài)任務實現(xiàn)最先進性能。

一般的Re-ID流程

針對尚未被充分探索的動物Re-ID領域，研究人員還設計了標準化的基準測試，進行廣泛的實驗以探討Transformer在這一任務中的適用性，促進未來研究。

最后，討論了一些在大模型時代中重要但尚未深入研究的開放性問題。

Transformer在圖片/視頻Re-ID的應用

Transformer在backbone層依靠注意力機制，具有全局、局部和時空關系的通用建模能力，有助于在圖像/視頻Re-ID任務中輕松提取全局、細粒度和時空信息。

Transformer在圖像Re-ID的應用

1. 架構優(yōu)化：設計特殊的Transformer架構，如金字塔結構、層次聚合等，或改進注意力機制。

2. Re-ID特定設計：利用視覺Transformer具備注意力機制和圖像塊嵌入的特性，捕捉局部區(qū)分性信息。通過Transformer中的編碼器-解碼器結構實現(xiàn)某些關鍵信息的解耦。根據不同目標類型的結構先驗和任務特性進行Transformer架構設計。

圖像Re-ID方法設計的不同Transformer架構

Transformer在視頻Re-ID的應用

1. 應用Transformer進行后處理：許多應用Transformer的視頻Re-ID方法為混合架構，先利用CNN模型提取特征，再使用Transformer模型進一步處理。通過Transformer的自注意力機制，捕捉序列中的長期依賴關系和上下文信息。

2. 純Transformer架構：為克服混合架構中CNN導致的長距離信息獲取受限，一些研究嘗試探索純Transformer架構在視頻Re-ID中的應用。

數(shù)據/標注受限的Re-ID

Transformer為無監(jiān)督學習提供更多可能。Transformer能夠對更強大、更通用的模型進行廣泛自監(jiān)督預訓練，以應對數(shù)據或標注受限的Re-ID任務。標注受限場景通常采取無監(jiān)督Re-ID，而數(shù)據受限則主要通過領域泛化Re-ID解決。

Transformer在無監(jiān)督Re-ID的應用

1. 自監(jiān)督預訓練：一類針對無監(jiān)督Re-ID中Transformer應用的研究關注自監(jiān)督預訓練。Transformer模型對大規(guī)模無標簽數(shù)據具有強大可擴展性，其結構的靈活性提供了更多樣化的自監(jiān)督范式。

2. 無監(jiān)督領域自適應：Transformer在無監(jiān)督領域自適應（UDA）問題中受到的關注有限。對于行人Re-ID，Wang等人借助Transformer實現(xiàn)不同身體部位之間的細粒度領域對齊。對于車輛Re-ID，一項工作通過聯(lián)合訓練策略，令Transformer自適應地關注每個域中車輛的判別部分。

Transformer在跨模態(tài)Re-ID的應用

Transformer提供了統(tǒng)一的架構，有效處理不同模態(tài)的數(shù)據。多頭注意力機制可在各種特征空間和全局語境中聚合特征。高度適應性的編碼器-解碼器結構可容納不同類型的輸入和輸出。因此Transformer特別適合在跨模態(tài)Re-ID中建立模態(tài)間關聯(lián)，促進多模態(tài)信息的融合。

可見光-紅外Re-ID旨在匹配白天的可見光圖像與夜間的紅外圖像。因紅外圖像缺乏顏色與光照條件，視覺Transformer可更好地捕捉模態(tài)不變特征并具備更強的魯棒性。視覺Transformer的結構及其注意力機制可在patch級別輕松建立局部跨模態(tài)關聯(lián)?，F(xiàn)有可見光-紅外Re-ID方法聚焦于學習模態(tài)共享特征，將特征分解為模態(tài)特定特征和共享模態(tài)特征，在特征層面進行模態(tài)對齊。

文本-圖像Re-ID為跨模態(tài)檢索任務，根據文本描述在圖像庫中識別目標。作為Transformer架構在多模態(tài)應用中的里程碑，對比語言-圖像預訓練（CLIP）等大型多模態(tài)預訓練模型使該領域取得顯著進展。近期，CLIP已成為下游文本-圖像Re-ID任務中的有力工具。

素描-圖像Re-ID與骨架Re-ID均屬于跨模態(tài)匹配任務，前者基于藝術家或業(yè)余者繪制的素描，后者則基于姿態(tài)估計生成的骨架圖。Transformer擅長提取全局特征，在素描-圖像Re-ID中表現(xiàn)突出。對于骨架Re-ID，可利用Transformer對骨架點構成的圖結構進行全關系建模。

Transformer在特殊Re-ID的應用

在實際應用需求的推動下，Re-ID領域出現(xiàn)一系列特殊應用場景。Transformer被初步應用于這些復雜挑戰(zhàn)，體現(xiàn)了卓越的可擴展性和適應性。

遮擋Re-ID：遮擋Re-ID場景下，圖片中的識別目標被部分遮擋，導致身份信息難以完整提取。近年來基于Transformer的方法在這一場景取得顯著成效，其核心策略包括提取局部區(qū)域特征。

換衣Re-ID：在長期Re-ID場景中，行人可能會以未知方式更換衣物,以服裝外觀為主導的判別性特征表示將失效。Lee等人在換裝Re-ID場景下對不同的特征提取主干網絡進行評估，Transformer架構相較于CNN表現(xiàn)出顯著性能優(yōu)勢。

以人為中心的任務：以人為中心的通用模型旨在將包括行人檢測、姿態(tài)估計、屬性識別和人體解析在內的多個人體相關任務整合到同一框架中，從而相互促進，提升如Re-ID這類下游任務的性能。

行人檢索：行人檢索是一種端到端方法，通過多任務學習同時解決行人檢測與Re-ID這兩個目標沖突的問題。將多尺度Transformer架構引入行人檢索方案可實現(xiàn)查詢層面的實例級匹配。

群體Re-ID：群體Re-ID利用群體中的上下文信息來匹配在同一個群體中的個體,面臨群體成員變動與布局變化等挑戰(zhàn)。傳統(tǒng)方法在位置建模方面存在不足，利用Transformer的位置嵌入機制可更好地處理群體級別的布局特性。

無人機Re-ID：與固定攝像頭相比，無人機在高度與視角上快速變化，導致圖像更為復雜。在鳥瞰圖像中分析車輛與行人時，顯著的邊界框尺寸差異與物體方向不確定性是關鍵挑戰(zhàn)。除了純無人機視角Re-ID外，還有研究重點關注空中與地面視角的跨域匹配。

特殊Re-ID場景

新基線UntransReID

研究人員提出了一個單模態(tài)/跨模態(tài)的常規(guī)無監(jiān)督Re-ID基線UntransReID。

圖片

無監(jiān)督Re-ID基線UntransReID

單模態(tài)無監(jiān)督Re-ID：研究人員在無監(jiān)督訓練過程中設計了一種面向patch級別的mask增強策略。在數(shù)據增強過程中采用一系列l(wèi)earnable tokens來mask部分圖像patch，并在訓練過程中建立原始特征與掩碼特征之間的對應關系，將此作為監(jiān)督信號來引導模型學習。

跨模態(tài)無監(jiān)督Re-ID：針對可見光-紅外跨模態(tài)行人Re-ID，研究人員設計了一種雙流Transformer結構，包含兩個面向特定模態(tài)的patch嵌入層以及一個模態(tài)共享的Transformer。為進一步提升模態(tài)的泛化能力，在可見光通道中引入隨機通道增強作為額外的輸入，實現(xiàn)聯(lián)合訓練。

實驗結果分析：對于單模態(tài)無監(jiān)督Re-ID，UntransReID取得了與當前最先進方法相當?shù)男阅?。跨模態(tài)Re-ID現(xiàn)有先進方法大多基于CNN且需要復雜的跨模態(tài)關聯(lián)設計，UntransReID在多個可見光-紅外Re-ID數(shù)據集上憑借簡潔的設計實現(xiàn)了最先進的性能。

圖片

表1 基于CNN/Transformer的有監(jiān)督/無監(jiān)督方法的實驗結果

表2 可見光-紅外跨模態(tài)基線在RegDB和SYSU-MM01上的實驗結果

動物Re-ID

研究人員特別探討了動物Re-ID領域研究現(xiàn)狀，總結近年來的動物Re-ID數(shù)據集和基于深度學習的動物Re-ID方法，為動物Re-ID制定統(tǒng)一的實驗標準，并評估在此背景下使用Transformer的可行性，為未來的研究奠定堅實基礎。

近年來的動物Re-ID數(shù)據集

動物Re-ID方法

基于全局圖像的方法：許多現(xiàn)有研究借鑒行人Re-ID的傳統(tǒng)方法，將完整的動物圖像輸入深度神經網絡以獲取可靠的特征表示。

基于局部區(qū)域的方法：一些工作在數(shù)據采集與特征提取階段關注動物的關鍵部位，例如牛的頭部、大象耳朵、鯨魚尾巴以及海豚的鰭等。

基于輔助信息的方法：Zhang等人以牦牛頭部左右朝向的簡化姿態(tài)為輔助監(jiān)督信號，強化特征表示；Li等人借助姿態(tài)關鍵點估計將老虎圖像劃分為多個身體部位進行局部特征學習。

動物Re-ID的統(tǒng)一基準測試

研究人員使用多種先進的通用Re-ID方法進行了廣泛動物Re-ID實驗。實驗評估了基于CNN架構的BoT方法和基于Transformer架構的TransReID、RotTrans方法?；赥ransformer架構的方法在多數(shù)情形下表現(xiàn)更優(yōu)，本實驗證明了Transformer在動物Re-ID應用的可行性與巨大潛力。

最先進的Re-ID方法在多個動物數(shù)據集上的評估結果

未來展望

Re-ID與大語言模型的結合

將大語言模型（LLM）與Re-ID任務深度融合正成為熱門研究方向。通過生成或理解視覺數(shù)據的文本描述，LLM可在細粒度語義提取、無標記數(shù)據的利用以及模型泛化能力提升等方面為Re-ID提供有力支持。

通用Re-ID大模型構建

滿足多模態(tài)、多目標的實際應用場景是Re-ID未來的重要訴求。Transformer在多模態(tài)數(shù)據融合和大模型訓練中表現(xiàn)出突出能力，可用于同時處理視覺、文本乃至更多元的信息，從而建立模態(tài)無關、任務統(tǒng)一的通用Re-ID模型。

面向高效部署的Transformer優(yōu)化

視頻監(jiān)控、智能安防等場景要求實時性與輕量級部署，在保持Transformer魯棒性的同時需要減少計算開銷。有效遷移通用預訓練模型的知識到特定Re-ID任務，應對大規(guī)模動態(tài)更新中的災難性遺忘問題，這些也是未來亟待解決的課題。

參考資料：http://arxiv.org/abs/2401.06960

責任編輯：武曉燕來源：新智元

ReID 數(shù)據 Re-ID

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<blockquote id="g1hli"><p id="g1hli"></p></blockquote>

<blockquote id="g1hli"><p id="g1hli"></p></blockquote>

<style id="g1hli"></style>

^{<blockquote id="g1hli"></blockquote>}

<style id="g1hli"></style>