自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

達(dá)摩院首次將Pure Transformer引入目標(biāo)重識別,論文入選ICCV 2021

新聞 前端
阿里達(dá)摩院的研究團(tuán)隊首次成功將pure transformer架構(gòu)應(yīng)用于目標(biāo)重識別(ReID)任務(wù),提出了TransReID框架,在6個數(shù)據(jù)集上都取得了超過SOTA CNN方法的性能。

 [[418101]]

Transformer是一種自注意力模型架構(gòu),2017年之后在NLP領(lǐng)域取得了很大的成功。2020年,谷歌提出pure transformer結(jié)構(gòu)ViT,在ImageNet分類任務(wù)上取得了和CNN可比的性能。之后大量ViT衍生的Pure Transformer架構(gòu)(下文中簡稱為Transformer架構(gòu)/模型)在ImageNet上都取得了成功。此外,在檢測、跟蹤、分割等下游視覺任務(wù)上,pure transformer的架構(gòu)也不斷取得和CNN可比的性能,但是在更加細(xì)粒度的圖像檢索任務(wù)上目前還沒有將成功的工作。

達(dá)摩院首次將Pure Transformer引入目標(biāo)重識別,論文入選ICCV 2021
  • TransReID論文地址:https://arxiv.org/pdf/2102.04378
  • TransReID代碼:https://github.com/heshuting555/TransReID

在這篇論文中,阿里達(dá)摩院的研究團(tuán)隊首次成功將pure transformer架構(gòu)應(yīng)用于目標(biāo)重識別(ReID)任務(wù),提出了TransReID框架,在6個數(shù)據(jù)集上都取得了超過SOTA CNN方法的性能。

研究背景

縱觀整個CNN-based ReID方法的發(fā)展,我們發(fā)現(xiàn)很多工作都關(guān)注兩個重要的點(diǎn):

1)挖掘圖片中的全局性信息。CNN網(wǎng)絡(luò)由于卷積核堆疊的原因,所以感受野存在一個高斯核的衰減。例如圖1所示,標(biāo)準(zhǔn)CNN的模型通常會關(guān)注于圖片中某一兩個比較有判別性的局部區(qū)域,而會忽視一些全局信息。為了解決這個問題,大量方法通過引入注意力機(jī)制來擴(kuò)大模型的有效感受野,從而得到更好的全局性。但是注意力機(jī)制僅僅只是緩解了CNN的這個問題,并不能徹底解決有效感受野高斯衰減的問題。但是Transformer中的自注意力模塊會使得每一個patch都和圖片中的patch都計算一個attention score,所以相比CNN模型在挖掘全局信息上有天然的優(yōu)勢,并且multi-head也可以挖掘多個判別性區(qū)域??梢钥吹剑瑘D1中Transformer-based的方法能夠挖掘多個具有判別性的局部區(qū)域。

2) 學(xué)習(xí)細(xì)節(jié)信息豐富的細(xì)粒度特征。CNN網(wǎng)絡(luò)里面存在下采樣操作來獲得平移不變性和擴(kuò)大感受野,但是同時也降低特征圖的分辨率,這會丟失圖像的一些細(xì)節(jié)信息。如圖2中的這對負(fù)樣本對(CNN識別錯誤,Transformer識別正確),兩張圖片的外觀特征是非常相似的,但是從書包的細(xì)節(jié)可以看出,左邊書包側(cè)面有一個杯子,而右邊書包側(cè)面則沒有杯子,因此可以判斷是兩個ID。但是因此CNN的下采樣操作,在網(wǎng)絡(luò)最后輸出的特征圖上已經(jīng)看不清杯子這個細(xì)節(jié)了。但是Transformer沒有下采樣操作,因此特征圖能夠比較好地保留細(xì)節(jié)信息,從而識別目標(biāo)。

達(dá)摩院首次將Pure Transformer引入目標(biāo)重識別,論文入選ICCV 2021

綜上所述,Transformer結(jié)構(gòu)是非常適合ReID任務(wù)的,但是僅僅用Transformer替換掉CNN backbone并沒有充分利用Transformer的特性。本文提出了首個pure transformer的ReID框架TransReID,包含JPM和SIE兩個新的模塊。之前的ReID工作顯示將圖片進(jìn)行切塊得到若干個part,然后對每個part提取local特征能夠提升性能。我們借鑒了這個設(shè)計,將Transformer中的patch embedding分成若干個group,但是這個操作沒有充分利用Transformer的全局依賴性。因此我們設(shè)計了Jigsaw Patch Module (JPM),將patch embedding隨機(jī)打亂之后再切分group。Transformer非常擅長encode不同模態(tài)的信息,而之前的ReID工作顯示相機(jī)和姿態(tài)信息是有利于ID的識別的,因此我們設(shè)計了Side Information Module (SIE) 來利用這些有益的信息。

TransReID

1、Transformer-based strong baseline

我們首先參考CNN的baseline BoT 設(shè)計Transformer-based strong baseline。如圖圖3所示,我們參考ViT將圖片分成N個patch,并引入一個額外的cls token共N+1個embedding。經(jīng)過Transformer layers之后,我們將cls token作為圖像的全局特征,之后經(jīng)過一個BNNeck結(jié)構(gòu)計算triplet loss和分類ID loss。

由于ImageNet預(yù)訓(xùn)練的ViT是使用224*224的圖像分辨率,而ReID通常使用的分辨率不會是224*224,這造成了position embedding的維度不一樣。因此,我們將position embedding按照空間位置進(jìn)行插值來加載預(yù)訓(xùn)練的position embedding參數(shù)。

此外,還有一個漲點(diǎn)的tricks是對圖像進(jìn)行patch分塊的時候可以讓相鄰的patch之間有一定的overlap。當(dāng)然這個操作會使得patch數(shù)目增加從而使得模型訓(xùn)練的資源消耗增加,但是性能也會有比較穩(wěn)定提升。

達(dá)摩院首次將Pure Transformer引入目標(biāo)重識別,論文入選ICCV 2021

2、Jigsaw Patch Module

ReID任務(wù)經(jīng)常會遇到遮擋、不對齊這些問題,一般我們會采用細(xì)粒度的局部特征來處理這些問題,水平切塊就是非常常用的一種局部特征方法。JPM模塊借鑒水平切塊思想,將最后一層的patch embedding分成k個group (k=4),然后對于每個group進(jìn)行transformer encode得到N個cls token,每個cls token就相當(dāng)于PCB中的striped feature,計算一個loss。但是這么做有一個缺點(diǎn):每個group只包含了圖片中一個局部區(qū)域的信息,而transformer的特性是能夠挖掘全局關(guān)聯(lián)性。為了擴(kuò)大每個group的「視野」,我們將所有的patch embedding按照一定規(guī)則進(jìn)行打亂,然后再進(jìn)行分組。這樣每個group就可能包含來自圖片不同區(qū)域的patch,近似等效于每個group都有比較全局的「視野」。此外,打亂操作也可以看做是給網(wǎng)絡(luò)增加了一些擾動,使得網(wǎng)絡(luò)能夠?qū)W習(xí)到更加魯棒的特征。

具體打亂操作分為兩步:(1)將最后一層輸出的patch embedding去除0號位置的cls token可以得到N個patch embedding,之后將它們進(jìn)行循環(huán)平移m步;(2)第二步參照shuffle的group shuffle操作將N個patch的順序打亂得到新順序的N各patch embedding,之后將它們按照新順序分為k個group,每個group都學(xué)習(xí)一個cls token,最終concat所有cls token作為最終的feature。

達(dá)摩院首次將Pure Transformer引入目標(biāo)重識別,論文入選ICCV 2021

3、Side Information Embeddings

ReID任務(wù)中相機(jī)、視角的差異會給圖像帶來一些外觀上的差異,所以不少工作關(guān)注怎么抑制這些bias。對于CNN框架,通常需要專門設(shè)計結(jié)構(gòu)來處理這個問題,例如設(shè)計loss、對數(shù)據(jù)進(jìn)行先驗處理、改變模型結(jié)構(gòu)等等。這些設(shè)計通常比較定制化且比較復(fù)雜,推廣性并不強(qiáng)。而transformer則比較擅長融合不同模態(tài)的信息,因此我們提出了SIE模塊來利用相機(jī)ID、視角等輔助信息。

與可學(xué)習(xí)的position embedding類似,我們使用了可學(xué)習(xí)的embedding來編碼相機(jī)ID和方向ID這些Side information,這個模塊成為Side Information Embedding (SIE)。假設(shè)總共有Nc個相機(jī)ID和Nv個方向ID,某張圖片的相機(jī)ID和方向ID分別是r和q,則他們最終的SIE編碼為:

達(dá)摩院首次將Pure Transformer引入目標(biāo)重識別,論文入選ICCV 2021

最終,backbone的輸入為patch embeding、position embedding和SIE \mathcal{S}_{(C,V)}的加權(quán)之和。圖4展示了TransReID的完整框架,在ViT的基礎(chǔ)上增加了JPM和SIE模塊。

達(dá)摩院首次將Pure Transformer引入目標(biāo)重識別,論文入選ICCV 2021

實驗結(jié)果

1、不同Backbone的對比

Table 2給出了不同Backbone的準(zhǔn)確度和推理時間的對比,我們將ResNet50作為baseline,同時我們給出了ViT和DeiT的結(jié)果??梢钥吹?,DeiT-S/16在速度上與ResNet50是接近的,在準(zhǔn)確度上同樣也有可比的性能。當(dāng)我們使用更深的DeiT-B/16和DeiT-V/16時,同樣和ResNest50取得了相似的速度和準(zhǔn)確度。當(dāng)我們在pre-patch環(huán)節(jié)縮小conv的stride時,patch的數(shù)目增加,速度下降,但是準(zhǔn)確度也會收獲穩(wěn)定的提升。

達(dá)摩院首次將Pure Transformer引入目標(biāo)重識別,論文入選ICCV 2021

2、Ablation Study

詳細(xì)的消融實驗可以看論文,這里只給出大模塊的消融實驗,我們以ViT-B/16作為baseline。從Table 5中的結(jié)果可以看出,JPM模塊和SIE模塊都是能穩(wěn)定帶來提升的,TransReID將這兩個模塊一起用還能進(jìn)一步提升結(jié)果。

達(dá)摩院首次將Pure Transformer引入目標(biāo)重識別,論文入選ICCV 2021

3、和SOTA對比

Table 6給出了和SOTA方法對比的結(jié)果??梢钥吹?,和CNN的方法相比,TransReID在六個ReID數(shù)據(jù)集上取得了更好的準(zhǔn)確度,這顯示了pure transformer架構(gòu)在圖像檢索任務(wù)上同樣適用。

一個有意思的地方是,在ImageNet上取得更好分?jǐn)?shù)的DeiT在下游的ReID任務(wù)上并沒有超過ViT。這是因為ViT使用了更大的ImageNet22K做預(yù)訓(xùn)練,更大的預(yù)訓(xùn)練數(shù)據(jù)使得ViT有更好的遷移性。

達(dá)摩院首次將Pure Transformer引入目標(biāo)重識別,論文入選ICCV 2021

4、一些可視化

下圖給出了CNN和TransReID的注意力可視化結(jié)果,可以看出TransReID可以比CNN挖掘到更多判別性區(qū)域,同時有更好的全局性特征。

達(dá)摩院首次將Pure Transformer引入目標(biāo)重識別,論文入選ICCV 2021

本文的論文作者包括兩位:

1.何淑婷,浙江大學(xué)博士生,阿里巴巴達(dá)摩院研究實習(xí)生,研究方向為目標(biāo)重識別,多目標(biāo)跟蹤等。曾在國內(nèi)外十幾項競賽中取得前三的名次,其中包括六項冠軍。

2.羅浩,2020年博士畢業(yè)于浙江大學(xué),畢業(yè)后加入阿里巴巴達(dá)摩院,從事ReID方向的研究與技術(shù)落地工作。累計發(fā)表論文20余篇,Google scholar引用累計1000+次,代表作BagTricks Baseline開源代碼Star超過1.6K。曾經(jīng)獲得CVPR2021 AICITY Challenge、ECCV2020 VisDA Challenge, IJCAI2020 iQIYI iCartoonFace Challenge等國際比賽冠軍。博士期間創(chuàng)立浙大AI學(xué)生協(xié)會、在B站等平臺免費(fèi)開放《深度學(xué)習(xí)和目標(biāo)重識別》課程。

 

責(zé)任編輯:張燕妮 來源: 機(jī)器之心Pro
相關(guān)推薦

2021-08-13 14:54:16

開源技術(shù) 開發(fā)

2021-10-13 17:53:14

AI 數(shù)據(jù)人工智能

2021-01-13 12:39:46

科技趨勢電子器件量子霸權(quán)

2020-12-29 09:36:57

科技趨勢阿里

2021-09-07 09:01:07

人臉識別人工智能數(shù)據(jù)

2017-10-11 11:10:58

阿里巴巴頂尖科學(xué)家超千億

2021-08-03 13:42:34

數(shù)字化

2019-01-03 09:18:37

AI數(shù)據(jù)科技

2021-03-19 09:03:29

Pure Storag公有云微軟

2021-05-12 09:42:25

AI 數(shù)據(jù)人工智能

2022-07-19 14:01:44

阿里達(dá)摩院AI

2021-07-24 10:09:00

計算機(jī)AI 技術(shù)

2022-04-22 11:22:47

達(dá)摩院阿里巴巴

2018-06-07 16:00:28

阿里巴巴語音識別開源

2023-03-06 14:07:31

系統(tǒng)訓(xùn)練

2020-09-18 15:10:25

阿里達(dá)摩院數(shù)據(jù)

2020-09-17 13:17:04

QA機(jī)器人物流

2024-07-17 16:12:22

2022-04-12 14:36:58

達(dá)摩院訓(xùn)練模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號