回歸元學(xué)習(xí),基于變分特征聚合的少樣本目標(biāo)檢測實(shí)現(xiàn)新SOTA
不同于傳統(tǒng)的目標(biāo)檢測問題,少樣本目標(biāo)檢測(FSOD)假設(shè)我們有許多的基礎(chǔ)類樣本,但只有少量的新穎類樣本。其目標(biāo)是研究如何將基礎(chǔ)類的知識(shí)遷移到新穎類,進(jìn)而提升檢測器對新穎類的識(shí)別能力。
FSOD 通常遵循兩階段訓(xùn)練范式。在第一階段,檢測器使用豐富的基礎(chǔ)類樣本進(jìn)行訓(xùn)練,以學(xué)習(xí)目標(biāo)檢測任務(wù)所需的通用表示,如目標(biāo)定位和分類。在第二階段中,檢測器僅使用 少量(如 1, 2, 3...)新穎類樣本進(jìn)行微調(diào)。然而由于基礎(chǔ)類和新穎類樣本數(shù)量的不平衡,其學(xué)習(xí)到的模型通常偏向于基礎(chǔ)類,進(jìn)而導(dǎo)致新穎類目標(biāo)與相似的基礎(chǔ)類混淆。此外,由于每個(gè)新穎類只有少量樣本,模型對新穎類的方差很敏感。例如,隨機(jī)采樣新穎類樣本進(jìn)行多次訓(xùn)練,每次的結(jié)果都會(huì)有較大的差異。因此十分有必要提升模型在少樣本下的魯棒性。
近期,騰訊優(yōu)圖實(shí)驗(yàn)室與武漢大學(xué)提出了基于變分特征聚合的少樣本目標(biāo)檢測模型 VFA。VFA 的整體結(jié)構(gòu)是基于改進(jìn)版的元學(xué)習(xí)目標(biāo)檢測框架 Meta R-CNN++,并提出了兩種特征聚合方法:類別無關(guān)特征聚合 CAA(Class-Agnostic Aggregation)和變分特征聚合 VFA(Variational Feature Aggregation)。
特征聚合是 FSOD 中的一個(gè)關(guān)鍵設(shè)計(jì),其定義了 Query 和 Support 樣本之間的交互方式。前面的方法如 Meta R-CNN 通常采用類別相關(guān)特征聚合 CSA(class-specific aggregation),即同類 Query 和 Support 樣本的特征進(jìn)行特征聚合。與此相反,本文提出的 CAA 允許不同類樣本之間的特征聚合。由于 CAA 鼓勵(lì)模型學(xué)習(xí)類別無關(guān)的表示,其降低了模型對基礎(chǔ)類的偏向。此外,不同類之間的交互能夠更好地建模類別間的關(guān)系,從而降低了類別的混淆。
基于 CAA,本文又提出了 VFA,其采用變分編碼器(VAEs)將 Support 樣本編碼為類的分布,并從學(xué)習(xí)到的分布中采樣新的 Support 特征進(jìn)行特征融合。相關(guān)工作 [1] 指出類內(nèi)方差(如外觀的變化)在不同類之間是相似的,并且可以通過常見的分布進(jìn)行建模。因此我們可以利用基礎(chǔ)類的分布來估計(jì)新穎類的分布,進(jìn)而提高少樣本情況下特征聚合的魯棒性。
VFA 在多個(gè) FSOD 數(shù)據(jù)集上表現(xiàn)優(yōu)于目前最好的模型,相關(guān)研究已經(jīng)被 AAAI 2023 錄用為 Oral。
論文地址:https://arxiv.org/abs/2301.13411
VFA 模型細(xì)節(jié)
更強(qiáng)的基線方法:Meta R-CNN++
目前 FSOD 的工作主要可以分為兩類:基于元學(xué)習(xí)(meta learning)的方法和基于微調(diào)(fine-tuning)的方法。早期的一些工作證明元學(xué)習(xí)對 FSOD 是有效的,但基于微調(diào)的方法在最近受到越來越多的關(guān)注。本文首先建立了一個(gè)基于元學(xué)習(xí)的基線方法 Meta R-CNN++,縮小了兩種方法之間的差距,在某些指標(biāo)上甚至超過了基于微調(diào)的方法。
我們首先分析了兩種方法在實(shí)現(xiàn)上的一些差距,以元學(xué)習(xí)方法 Meta R-CNN [2] 和基于微調(diào)的方法 TFA [3] 為例,雖然這兩種方法都遵循兩階段訓(xùn)練范式,TFA 在微調(diào)階段使用額外的技術(shù)優(yōu)化模型:
- TFA 凍結(jié)了大部分網(wǎng)絡(luò)參數(shù),只訓(xùn)練最后的分類和回歸層,這樣模型就不會(huì)過度擬合少樣本類別。
- TFA 不是隨機(jī)初始化分類層,而是復(fù)制基礎(chǔ)類的預(yù)訓(xùn)練權(quán)重,只初始化新穎類的權(quán)重。
- TFA 采用余弦分類器(cosine classifier)而不是線性分類器。
考慮到 TFA 的成功,我們構(gòu)建了 Meta R-CNN++。如下表 1 所示,只要我們仔細(xì)處理微調(diào)階段,元學(xué)習(xí)方法也能夠取得較好的效果。因此,本文選擇 Meta R-CNN++ 作為基線方法。
表一:Meta R-CNN 和 TFA 的對比與分析
類別無關(guān)特征聚合 CAA
圖一:類別無關(guān)特征聚合 CAA 示意圖
本文提出一個(gè)簡單而有效的類別無關(guān)特征聚合方法 CAA。如上圖一所示,CAA 允許不同類之間的特征聚合,進(jìn)而鼓勵(lì)模型學(xué)習(xí)類別無關(guān)的表示,從而減少類別間的偏向和類之間的混淆。具體來說,對于類別的每個(gè) RoI 特征
和一組 Support 特征
,我們隨機(jī)選擇一個(gè)類的 Support 特征
的
與 Query 特征聚合:
然后我們將聚合特征
提供給檢測子網(wǎng)絡(luò)
以輸出分類得分
。
變分特征聚合 VFA
之前的工作通常將 Support 樣本編碼為單個(gè)特征向量來表示類別的中心。然而在樣本較少且方差較大的情況下,我們很難對類中心做出準(zhǔn)確的估計(jì)。在本文中,我們首先將 Support 特征轉(zhuǎn)換為類別的分布。由于估計(jì)出的類別分布不偏向于特定樣本,因此從分布中采樣的特征對樣本的方差有較好的魯棒性。VFA 的框架如上圖二所示。
a)變分特征學(xué)習(xí)。VFA 采用變分自編碼器 VAEs [4] 來學(xué)習(xí)類別的分布。如圖二所示,對于一個(gè) Support 特征 S,我們首先使用編碼器來估計(jì)分布的參數(shù)
和
,接著從分布
中通過變分推理(variational inference)采樣
,最后通過解碼器
得到重構(gòu)的 Support 特征
。在優(yōu)化 VAE 時(shí),除了常見的 KL Loss
和重構(gòu) Loss
,本文還使用了一致性 Loss 使得學(xué)習(xí)到的分布保留類別信息:?
b)變分特征融合。由于 Support 特征被轉(zhuǎn)換為類別的分布,我們可以從分布中采樣特征并與 Query 特征聚合。具體來說,VFA 同樣采用類別無關(guān)聚合 CAA,但將 Query 特征與變分特征
聚合在一起。給定類
的 Query 特征
和類
的 Support 特征
,我們首先估計(jì)其分布,并采樣變分特征
;然后通過下面的公式將其融合在一起:
其中表示通道乘法,而 sig 是 sigmoid 操作的縮寫。在訓(xùn)練階段,我們隨機(jī)選擇一個(gè) Support 特征
進(jìn)行聚合;在測試階段,我們對
類的個(gè) Support 特征取平均值
,并估計(jì)分布
,其中
。?
分類 - 回歸任務(wù)解耦
通常情況下,檢測子網(wǎng)絡(luò)包含一個(gè)共享特征提取器
和兩個(gè)獨(dú)立的網(wǎng)絡(luò):分類子網(wǎng)絡(luò)
和回歸子網(wǎng)絡(luò)
。在前面的工作中,聚合后的特征被輸入到檢測子網(wǎng)絡(luò)中進(jìn)行目標(biāo)分類和邊界框回歸。但是分類任務(wù)需要平移不變特征,而回歸需要平移協(xié)變的特征。由于 Support 特征表示的是類別的中心,具有平移不變性,因此聚合后特征會(huì)損害回歸任務(wù)。
本文提出一種簡單的分類 - 回歸任務(wù)解耦。讓和
表示原始和聚合后的 Query 特征,之前的方法對這兩個(gè)任務(wù)都采用
,其中分類分?jǐn)?shù)
和預(yù)測邊界框
定義為:
為了解耦這些任務(wù),我們采用單獨(dú)的特征提取器并使用原始的 Support 特征進(jìn)行邊界框回歸:?
我們采用的數(shù)據(jù)集:PASCAL VOC、 MS COCO。評(píng)價(jià)指標(biāo):新穎類平均精度 nAP、基礎(chǔ)類平均精度 bAP。
主要結(jié)果
VFA 在兩個(gè)數(shù)據(jù)集上都取得了較好的結(jié)果。如在 PASCAL VOC 數(shù)據(jù)集上(下表二),VFA 顯著高于之前的方法;VFA 的 1-shot 結(jié)果甚至高于一些方法 10-shot 的結(jié)果。
消融實(shí)驗(yàn)
a)不同模塊的作用。如下表三所示,VFA 的不同模塊可以共同作用,提升模型的性能。
b) 不同特征聚合方法可視化分析。如下圖三所示,CAA 可以減小基礎(chǔ)類與新穎類之間的混淆;VFA 在 CAA 的基礎(chǔ)上,進(jìn)一步增強(qiáng)了類間的區(qū)分度。
c)更加準(zhǔn)確的類別中心點(diǎn)估計(jì)。如下圖四所示,VFA 可以更加準(zhǔn)確的估計(jì)出類別的中心。且隨著樣本數(shù)量的減少,估計(jì)的準(zhǔn)確度逐漸高于基線方法。這也解釋了為什么我們的方法在樣本少的情況下(K=1)表現(xiàn)的更好。
d)結(jié)果可視化。
結(jié)語
本文回歸了基于元學(xué)習(xí)的 FSOD 中特征聚合方法,并提出了類別無關(guān)特征聚合 CAA 和變分特征聚合 VFA。CAA 可以減少基礎(chǔ)類和新穎類之間的類別偏差和混淆;VFA 將樣本轉(zhuǎn)換為類別分布以實(shí)現(xiàn)更加魯棒的特征聚合。本文提出的方法在 PASCAL VOC 和 MS COCO 數(shù)據(jù)集上的實(shí)驗(yàn)證明了其有效性。