自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

回歸元學(xué)習(xí),基于變分特征聚合的少樣本目標(biāo)檢測實(shí)現(xiàn)新SOTA

人工智能 新聞
騰訊優(yōu)圖實(shí)驗(yàn)室聯(lián)合武漢大學(xué)提出了基于變分特征聚合的少樣本目標(biāo)檢測模型 VFA,大幅刷新了 FSOD 指標(biāo)。本工作已入選 AAAI 2023 Oral。

不同于傳統(tǒng)的目標(biāo)檢測問題,少樣本目標(biāo)檢測(FSOD)假設(shè)我們有許多的基礎(chǔ)類樣本,但只有少量的新穎類樣本。其目標(biāo)是研究如何將基礎(chǔ)類的知識(shí)遷移到新穎類,進(jìn)而提升檢測器對新穎類的識(shí)別能力。

FSOD 通常遵循兩階段訓(xùn)練范式。在第一階段,檢測器使用豐富的基礎(chǔ)類樣本進(jìn)行訓(xùn)練,以學(xué)習(xí)目標(biāo)檢測任務(wù)所需的通用表示,如目標(biāo)定位和分類。在第二階段中,檢測器僅使用 少量(如 1, 2, 3...)新穎類樣本進(jìn)行微調(diào)。然而由于基礎(chǔ)類和新穎類樣本數(shù)量的不平衡,其學(xué)習(xí)到的模型通常偏向于基礎(chǔ)類,進(jìn)而導(dǎo)致新穎類目標(biāo)與相似的基礎(chǔ)類混淆。此外,由于每個(gè)新穎類只有少量樣本,模型對新穎類的方差很敏感。例如,隨機(jī)采樣新穎類樣本進(jìn)行多次訓(xùn)練,每次的結(jié)果都會(huì)有較大的差異。因此十分有必要提升模型在少樣本下的魯棒性。

近期,騰訊優(yōu)圖實(shí)驗(yàn)室與武漢大學(xué)提出了基于變分特征聚合的少樣本目標(biāo)檢測模型 VFA。VFA 的整體結(jié)構(gòu)是基于改進(jìn)版的元學(xué)習(xí)目標(biāo)檢測框架 Meta R-CNN++,并提出了兩種特征聚合方法:類別無關(guān)特征聚合 CAA(Class-Agnostic Aggregation)變分特征聚合 VFA(Variational Feature Aggregation)。

特征聚合是 FSOD 中的一個(gè)關(guān)鍵設(shè)計(jì),其定義了 Query 和 Support 樣本之間的交互方式。前面的方法如 Meta R-CNN 通常采用類別相關(guān)特征聚合 CSA(class-specific aggregation),即同類 Query 和 Support 樣本的特征進(jìn)行特征聚合。與此相反,本文提出的 CAA 允許不同類樣本之間的特征聚合。由于 CAA 鼓勵(lì)模型學(xué)習(xí)類別無關(guān)的表示,其降低了模型對基礎(chǔ)類的偏向。此外,不同類之間的交互能夠更好地建模類別間的關(guān)系,從而降低了類別的混淆。

基于 CAA,本文又提出了 VFA,其采用變分編碼器(VAEs)將 Support 樣本編碼為類的分布,并從學(xué)習(xí)到的分布中采樣新的 Support 特征進(jìn)行特征融合。相關(guān)工作 [1] 指出類內(nèi)方差(如外觀的變化)在不同類之間是相似的,并且可以通過常見的分布進(jìn)行建模。因此我們可以利用基礎(chǔ)類的分布來估計(jì)新穎類的分布,進(jìn)而提高少樣本情況下特征聚合的魯棒性。

VFA 在多個(gè) FSOD 數(shù)據(jù)集上表現(xiàn)優(yōu)于目前最好的模型,相關(guān)研究已經(jīng)被 AAAI 2023 錄用為 Oral。

圖片

論文地址:https://arxiv.org/abs/2301.13411

VFA 模型細(xì)節(jié)

更強(qiáng)的基線方法:Meta R-CNN++

目前 FSOD 的工作主要可以分為兩類:基于元學(xué)習(xí)(meta learning)的方法和基于微調(diào)(fine-tuning)的方法。早期的一些工作證明元學(xué)習(xí)對 FSOD 是有效的,但基于微調(diào)的方法在最近受到越來越多的關(guān)注。本文首先建立了一個(gè)基于元學(xué)習(xí)的基線方法 Meta R-CNN++,縮小了兩種方法之間的差距,在某些指標(biāo)上甚至超過了基于微調(diào)的方法。

我們首先分析了兩種方法在實(shí)現(xiàn)上的一些差距,以元學(xué)習(xí)方法 Meta R-CNN [2] 和基于微調(diào)的方法 TFA [3] 為例,雖然這兩種方法都遵循兩階段訓(xùn)練范式,TFA 在微調(diào)階段使用額外的技術(shù)優(yōu)化模型:

  1. TFA 凍結(jié)了大部分網(wǎng)絡(luò)參數(shù),只訓(xùn)練最后的分類和回歸層,這樣模型就不會(huì)過度擬合少樣本類別。
  2. TFA 不是隨機(jī)初始化分類層,而是復(fù)制基礎(chǔ)類的預(yù)訓(xùn)練權(quán)重,只初始化新穎類的權(quán)重。
  3. TFA 采用余弦分類器(cosine classifier)而不是線性分類器。

考慮到 TFA 的成功,我們構(gòu)建了 Meta R-CNN++。如下表 1 所示,只要我們仔細(xì)處理微調(diào)階段,元學(xué)習(xí)方法也能夠取得較好的效果。因此,本文選擇 Meta R-CNN++ 作為基線方法。

圖片

表一:Meta R-CNN 和 TFA 的對比與分析

類別無關(guān)特征聚合 CAA


圖片

圖一:類別無關(guān)特征聚合 CAA 示意圖

本文提出一個(gè)簡單而有效的類別無關(guān)特征聚合方法 CAA。如上圖一所示,CAA 允許不同類之間的特征聚合,進(jìn)而鼓勵(lì)模型學(xué)習(xí)類別無關(guān)的表示,從而減少類別間的偏向和類之間的混淆。具體來說,對于類別圖片的每個(gè) RoI 特征圖片和一組 Support 特征圖片我們隨機(jī)選擇一個(gè)類的 Support 特征圖片圖片與 Query 特征聚合:

圖片

然后我們將聚合特征

圖片

提供給檢測子網(wǎng)絡(luò)

圖片

以輸出分類得分

圖片。

變分特征聚合 VFA

圖片

圖二 VFA 模型示意圖

之前的工作通常將 Support 樣本編碼為單個(gè)特征向量來表示類別的中心。然而在樣本較少且方差較大的情況下,我們很難對類中心做出準(zhǔn)確的估計(jì)。在本文中,我們首先將 Support 特征轉(zhuǎn)換為類別的分布。由于估計(jì)出的類別分布不偏向于特定樣本,因此從分布中采樣的特征對樣本的方差有較好的魯棒性。VFA 的框架如上圖二所示。

a)變分特征學(xué)習(xí)。VFA 采用變分自編碼器 VAEs [4] 來學(xué)習(xí)類別的分布。如圖二所示,對于一個(gè) Support 特征 S,我們首先使用編碼器圖片來估計(jì)分布的參數(shù)圖片圖片,接著從分布圖片中通過變分推理(variational inference)采樣圖片,最后通過解碼器圖片得到重構(gòu)的 Support 特征圖片。在優(yōu)化 VAE 時(shí),除了常見的 KL Loss圖片和重構(gòu) Loss圖片,本文還使用了一致性 Loss 使得學(xué)習(xí)到的分布保留類別信息:?

圖片

b)變分特征融合。由于 Support 特征被轉(zhuǎn)換為類別的分布,我們可以從分布中采樣特征并與 Query 特征聚合。具體來說,VFA 同樣采用類別無關(guān)聚合 CAA,但將 Query 特征圖片與變分特征圖片聚合在一起。給定類圖片的 Query 特征圖片和類圖片的 Support 特征圖片

,我們首先估計(jì)其分布圖片,并采樣變分特征圖片;然后通過下面的公式將其融合在一起:

圖片

其中圖片表示通道乘法,而 sig 是 sigmoid 操作的縮寫。在訓(xùn)練階段,我們隨機(jī)選擇一個(gè) Support 特征圖片進(jìn)行聚合;在測試階段,我們對圖片

類的圖片個(gè) Support 特征取平均值圖片,并估計(jì)分布圖片,其中圖片。?

分類 - 回歸任務(wù)解耦

通常情況下,檢測子網(wǎng)絡(luò)圖片包含一個(gè)共享特征提取器圖片和兩個(gè)獨(dú)立的網(wǎng)絡(luò):分類子網(wǎng)絡(luò)圖片和回歸子網(wǎng)絡(luò)圖片。在前面的工作中,聚合后的特征被輸入到檢測子網(wǎng)絡(luò)中進(jìn)行目標(biāo)分類和邊界框回歸。但是分類任務(wù)需要平移不變特征,而回歸需要平移協(xié)變的特征。由于 Support 特征表示的是類別的中心,具有平移不變性,因此聚合后特征會(huì)損害回歸任務(wù)。

本文提出一種簡單的分類 - 回歸任務(wù)解耦。讓圖片圖片表示原始和聚合后的 Query 特征,之前的方法對這兩個(gè)任務(wù)都采用圖片,其中分類分?jǐn)?shù)圖片和預(yù)測邊界框圖片定義為:

圖片

為了解耦這些任務(wù),我們采用單獨(dú)的特征提取器并使用原始的 Support 特征圖片進(jìn)行邊界框回歸:?

圖片


實(shí)驗(yàn)評(píng)估

我們采用的數(shù)據(jù)集:PASCAL VOC、 MS COCO。評(píng)價(jià)指標(biāo):新穎類平均精度 nAP、基礎(chǔ)類平均精度 bAP。

主要結(jié)果

VFA 在兩個(gè)數(shù)據(jù)集上都取得了較好的結(jié)果。如在 PASCAL VOC 數(shù)據(jù)集上(下表二),VFA 顯著高于之前的方法;VFA 的 1-shot 結(jié)果甚至高于一些方法 10-shot 的結(jié)果。

圖片

表二 VFA 在 PASCAL VOC 數(shù)據(jù)集上的效果

消融實(shí)驗(yàn)

a)不同模塊的作用。如下表三所示,VFA 的不同模塊可以共同作用,提升模型的性能。

圖片

表三 不同模塊的作用

b) 不同特征聚合方法可視化分析。如下圖三所示,CAA 可以減小基礎(chǔ)類與新穎類之間的混淆;VFA 在 CAA 的基礎(chǔ)上,進(jìn)一步增強(qiáng)了類間的區(qū)分度。

圖片

圖三 相似矩陣可視化

c)更加準(zhǔn)確的類別中心點(diǎn)估計(jì)。如下圖四所示,VFA 可以更加準(zhǔn)確的估計(jì)出類別的中心。且隨著樣本數(shù)量的減少,估計(jì)的準(zhǔn)確度逐漸高于基線方法。這也解釋了為什么我們的方法在樣本少的情況下(K=1)表現(xiàn)的更好。

圖片

圖四 估計(jì)的類別中心與真實(shí)類別中心間的距離

d)結(jié)果可視化。

圖片

圖五 可視化結(jié)果

結(jié)語

本文回歸了基于元學(xué)習(xí)的 FSOD 中特征聚合方法,并提出了類別無關(guān)特征聚合 CAA 和變分特征聚合 VFA。CAA 可以減少基礎(chǔ)類和新穎類之間的類別偏差和混淆;VFA 將樣本轉(zhuǎn)換為類別分布以實(shí)現(xiàn)更加魯棒的特征聚合。本文提出的方法在 PASCAL VOC 和 MS COCO 數(shù)據(jù)集上的實(shí)驗(yàn)證明了其有效性。

責(zé)任編輯:張燕妮 來源: 機(jī)器學(xué)習(xí)
相關(guān)推薦

2022-07-14 14:05:26

元宇宙區(qū)塊鏈技術(shù)

2024-02-23 11:10:00

AI訓(xùn)練

2023-03-13 14:41:22

機(jī)器學(xué)習(xí)算法

2024-07-05 10:38:15

SOTA目標(biāo)檢測

2024-05-27 12:17:58

AI目標(biāo)檢測

2025-01-22 13:15:10

2020-07-25 19:40:33

Java開發(fā)代碼

2025-02-07 15:20:00

AI數(shù)據(jù)訓(xùn)練

2024-07-04 09:22:24

2021-04-15 09:50:41

深度學(xué)習(xí)編程人工智能

2017-09-22 11:45:10

深度學(xué)習(xí)OpenCVPython

2019-05-22 14:28:08

AI人工智能深度學(xué)習(xí)

2024-11-20 16:51:00

目標(biāo)檢測模型

2022-12-25 12:57:00

模型自然學(xué)習(xí)

2024-07-22 13:49:38

YOLOv8目標(biāo)檢測開發(fā)

2024-12-12 11:58:29

模型YOLO跨層

2017-10-02 16:13:47

深度學(xué)習(xí)目標(biāo)檢測計(jì)算機(jī)視覺

2024-07-23 10:39:20

2023-11-28 09:00:00

機(jī)器學(xué)習(xí)少樣本學(xué)習(xí)SetFit

2021-08-19 15:48:05

增量攻擊網(wǎng)絡(luò)安全網(wǎng)絡(luò)攻擊
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)