自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

ECCV'24論文提出跨域小樣本物體檢測新數(shù)據(jù)集|已開源

人工智能 新聞
實驗說明經(jīng)過優(yōu)化后的CD-ViTO方法在大多數(shù)情況下都優(yōu)于其它的對比方法,達到了對基本DE-ViT的有效提升,構(gòu)建了這個任務的新SOTA。

解決跨域小樣本物體檢測問題,入選ECCV 2024。

圖片

最新研究認為目前大多數(shù)跨域小樣本學習方法均集中于研究分類任務而忽略了目標檢測。

來自復旦大學、蘇黎世聯(lián)邦理工學院、INSAIT、東南大學、BOE科技的研究團隊,提出了一個用于算法評測的CD-FSOD數(shù)據(jù)集及用于衡量領域差異的style、ICV、IB數(shù)據(jù)集指標。

對現(xiàn)有目標檢測算法進行了廣泛實驗評估。

除此之外,團隊還提出了一種名為CD-ViTO的新方法,基于優(yōu)化一個在經(jīng)典FSOD上達到SOTA的開放域物體檢測器而得到。

CD-ViTO在多數(shù)情況下優(yōu)于基準,成為該任務的新SOTA。

目前該項研究已入選ECCV 2024,所有數(shù)據(jù)集、代碼、以及相關(guān)資源都已開源。

圖片

研究目的

跨域小樣本學習任務(Cross-Domain Few-Shot Learning,CD-FSL)解決的是源域與目標域存在領域差異情況下的小樣本學習任務,即集合了小樣本學習與跨域兩個任務的難點問題:

  • 源域S與目標域T類別集合完全不同,且目標域T中的類別僅存在少量標注樣本,例如1shot,5shot;
  • S與T屬于兩個不同領域,例如從自然圖像遷移到醫(yī)療圖像。

大多數(shù)的現(xiàn)有方法均集中于研究分類問題,即Cross-Domain Few-Shot Classification, 但是同樣很重要的物體檢測任務(Object Detection,OD)卻很少被研究,這促使了研究團隊想要探究OD問題在跨域小樣本的情況下是否也會遭遇挑戰(zhàn),以及是否會存在跟分類任務表現(xiàn)出不同的特性。

與CD-FSL是FSL在跨域下的分支類似,跨域小樣本物體檢測(Cross-Domain Few-Shot Object Detection,CD-FSOD)同樣也可以堪稱是FSOD在跨域下的分支任務。

所以研究團隊先從經(jīng)典的FSOD開始分析。大多數(shù)的FSOD方法都可以被粗略地劃分為:

  • meta-learning based,典型方法包括Meta-RCNN;
  • finetuning based,例如TFA,F(xiàn)SCE,DeFRCN。

然而近期出現(xiàn)了一個名為DE-ViT的開放域方法,通過基于DINOv2構(gòu)建物體檢測器同時在FSOD以及開放域物體檢測(OVD)上都達到了SOTA的效果,性能明顯高于其他的FSOD方法,因此這引發(fā)了團隊思考:

現(xiàn)有的FSOD方法,尤其是SOTA的DE-ViT open-set detector能不能在跨域的情況下仍表現(xiàn)優(yōu)異?

如果不能,什么是難點問題,以及是否有辦法能夠提升open-set detector的性能?

先用下圖來揭示一下問題的答案:

圖片

如上左圖所示,哪怕是SOTA的open-set detector DE-ViT(綠色星形)在跨域泛化的情況下性能也會出現(xiàn)急劇下降。

而本文研究團隊基于DE-ViT搭建的CD-ViTO方法 (橙色星形)能夠使原本性能下降的模型得以進一步提升。

而右圖,展示了相比于in-domain的小樣本物體檢測,跨域小樣本物體檢測通常會面臨三個問題:

1)目標域T的類間距離(ICV)通常較少;
2)目標域的圖像可能會出現(xiàn)前景與背景邊界模糊(Indifinable Boundary,IB);
3)目標域T得圖像相較于源域S而言視覺風格(style)發(fā)生變化。

ICV、IB、Style也成為了研究人員用于衡量不同數(shù)據(jù)集在跨域下的特性。

主要工作及貢獻

下面首先總結(jié)一下CD-ViTO團隊在解答兩個問題的過程中的主要工作及貢獻:

Benchmark, Metrics, and Extensive study

為了回答問題1,即研究現(xiàn)有的物體檢測器能不能泛化至跨域小樣本物體檢測任務中:

研究人員研究了CD-FSOD任務下的三個影響跨域的數(shù)據(jù)集特性:Style, ICV, IB;提出了一個CD-FSOD算法評測數(shù)據(jù)集,該數(shù)據(jù)集包含多樣的style,ICV,IB;對現(xiàn)有物體檢測器進行了廣泛研究,揭示了 CD-FSOD 帶來的挑戰(zhàn)。

New CD-ViTO Method

為了回答問題2,即進一步提升基礎DE-ViT在CD-FSOD下的性能,研究團隊提出了一個新的CD-ViTO方法,該方法提出三個新的模塊以解決跨域下的small ICV、indefinable boundary以及changing styles問題。

  • Learnable Instance Features:通過將初始固定的圖像特征與目標類別之間進行對齊,通過增強特征可分辨程度來解決目標域ICV距離小的問題 。
  • Instance Reweighting Module:通過給不同的圖像設置不同的權(quán)重,使得嚴具有輕微 IB 的高質(zhì)量實例分配更高的重要性,從而緩解顯著的 IB 問題;
  • Domain Prompter:通過合成虛擬領域而不改變語義內(nèi)容來鼓勵模型提升對不同style的魯棒性。

CD-FSOD數(shù)據(jù)集&Extensive Study

下圖為研究團隊構(gòu)建的CD-FSOD數(shù)據(jù)集,該數(shù)據(jù)集以MS-COCO作為源域S,以ArTaxOr、Clipart1K,DIOR,DeepFish,NEU-DET,UODD作為六個不同的目標域T;

團隊也分析并在圖中標注了每個數(shù)據(jù)集的Style、ICV、IB特征,每個數(shù)據(jù)與數(shù)據(jù)之間也展現(xiàn)了不同的數(shù)據(jù)集特性。

所有的數(shù)據(jù)集都整理成了統(tǒng)一的格式,并提供1shot、5shot、10shot用于模型測評。

圖片

數(shù)據(jù)集更多的介紹,比如數(shù)據(jù)類別數(shù),樣本數(shù)等可以在論文中找到細節(jié)。

Extensive Study

團隊對現(xiàn)有的四類目標檢測器進行了實驗,包括:

  • 典型的FSOD方法:Meta-RCNN、TFA、FSCE、DeFRCN
  • 現(xiàn)有的CD-FSOD方法:Distill-cdfsod
  • 基于ViT的方法:ViTDeT-FT
  • 開放域方法:Detic(-FT), DE-ViT(-FT) (DE-ViT僅利用視覺信息,Deti則依賴視覺-文本相似性)

其中“-FT”表示團隊用目標域T的少量樣本對方法進行了微調(diào)。

圖片

團隊結(jié)合實驗結(jié)果對這個任務以及相關(guān)方法展開了詳細的分析,主要有以下這幾點結(jié)論:

  • 現(xiàn)有FSOD方法可以泛化到跨域問題嗎?A:不能
  • 基于ViT的方法會比基于ResNet的方法好嗎?A:看情況
  • 開放域方法能夠直接用于應對CD-FSOD問題?A:不能
  • 開放域方法的性能可以進一步得到提升嗎?A:可以
  • 不同的開放域方法是否呈現(xiàn)不同的特性?A:是的
  • Style,ICV,IB是如何影響domain gap的?A:在分類里影響巨大的style對于OD任務而言影響相對較少;ICV有較大影響但是可以被有效緩解;IB是這三者中最具挑戰(zhàn)的。

詳細的分析就不在這里展開了,感興趣的朋友可以看看文章。

CD-ViTO方法&主要實驗

本文方法整體框架結(jié)構(gòu)圖如下所示:

圖片

整體來看,本文研究團隊的方法是基于DE-ViT搭建的(圖中藍色塊), 首先將DE-ViT方法簡化為圖中所示的幾個模塊,主要包括Pretrained DINOv2 ViT, RPN,ROI Align, Instance Features, Dection Head,One-vs-Rest Classification Head。

DE-ViT的核心想法是利用DINOv2提取出來的視覺特征對query image boxes與support images中所構(gòu)建出來的類別prototypes進行比較,從來進行分類和定位。

基于DE-ViT方法,團隊提出了三個新的模塊(圖中黃色塊)以及finetune(圖中火苗)以搭建CD-ViTO。如前所述,每個模塊都各自對應解決CD-FSOD下存在的一個挑戰(zhàn)。

Learnable Instance Features

原本的DE-ViT首先利用DINOv2獲取instance features,然后簡單對同類特征求和的方式得到support的class prototypes。

然而在面對目標域類別之間可能很相似的情況,直接使用這種預訓練的模型所提取出的特征會導致難以區(qū)分不同類別。

因此團隊提出將原本固定的特征設置為可學習參數(shù),并通過結(jié)合finetune方法將其顯式地映射到目標域類別中,以此增加不同類之間的特征差異程度,緩解ICV問題。

團隊對比了使用該模塊前后的類間cosine相似性,結(jié)果說明他們的模塊可以降低類間相似度,從而提升ICV。

圖片

Instance Reweighting Module

圖像模糊邊界的問題本身很難得到解決,這個模塊的主要想法是通過學習可調(diào)整的權(quán)重給不同質(zhì)量的樣本賦不同的權(quán)重,使得嚴重IB的圖像被抑制,沒有或者輕微IB地圖像被鼓勵。

模塊的設計如框架圖右上所示,主要包含一個可學習的MLP。

同樣的,團隊也對該模塊做了可視化分析,他們按照所分配到的權(quán)重從高到低給圖像排序,得到如下結(jié)果。從圖中可見,前后景邊緣模糊的圖像得到的權(quán)重要低于邊緣清晰的圖像。

圖片

Domain Prompter

Domain Prompter的設計主要是希望方法能夠?qū)Σ煌膁omain魯棒,如框架圖右下所示,在原有object prototype的基礎上,團隊額外引入數(shù)量為$N_{dom}$維度為D(等于prototype維度)的虛擬domains變量作為可學習參數(shù)。通過學習和利用這些domains,他們希望最終達到:

1) 不同domain之間相互遠離,增加多樣性 (domain diversity loss)

2) 添加不同domain至同一類別prototype所生成得到的兩個變種仍為正樣本,添加不同domain至不同類別prototype生成得到的兩個變種為負樣本 (prototype consistency loss)

兩個loss與finetuning所產(chǎn)生的loss疊加使用進行網(wǎng)絡的整體訓練。

如下T-SNE可視化圖說明學習到的domains之間相互遠離;疊加不用domains至class prototype不影響語義變化。

圖片

作為簡單但有效的遷移學習方法,團隊也采用了在目標域T上對模型進行微調(diào)的思路,論文附錄部分有提供不同finetune策略的不同性能表現(xiàn),團隊主方法里采用的是僅微調(diào)兩個頭部。

團隊在1/5/10shot上與其它方法進行了對比實驗。

實驗說明經(jīng)過優(yōu)化后的CD-ViTO方法在大多數(shù)情況下都優(yōu)于其它的對比方法,達到了對基本DE-ViT的有效提升,構(gòu)建了這個任務的新SOTA。

圖片

論文鏈接:https://arxiv.org/pdf/2402.03094
網(wǎng)頁鏈接:http://yuqianfu.com/CDFSOD-benchmark/
GitHub鏈接:https://github.com/lovelyqian/CDFSOD-benchmark
中文講解視頻:https://www.bilibili.com/video/BV11etbenET7/?spm_id_from=333.999.0.0
英文講解視頻:https://www.bilibili.com/video/BV17v4UetEdF/?vd_source=668a0bb77d7d7b855bde68ecea1232e7#reply113142138936707

責任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-08-27 10:20:00

2025-01-13 10:00:00

2024-09-24 10:30:32

2022-04-24 10:36:25

機器學習人工智能技術(shù)

2024-06-24 05:00:00

YOLO模型人工智能

2024-02-16 08:00:00

機器學習ML-data預訓練模型

2021-07-09 10:45:23

BBAugPyTorch神經(jīng)網(wǎng)絡

2013-07-08 10:08:40

海量樣本篩選大數(shù)據(jù)

2024-11-20 16:51:00

目標檢測模型

2023-12-27 08:22:34

框架3D檢測

2024-06-24 08:22:00

2022-08-22 11:34:42

開源數(shù)據(jù)

2021-09-08 17:23:33

谷歌模型開發(fā)

2023-09-04 13:23:20

算法智能駕駛

2021-10-14 09:43:59

人工智能AI機器人

2022-10-30 15:00:40

小樣本學習數(shù)據(jù)集機器學習

2020-12-29 10:56:38

惡意軟件SoReL-20M網(wǎng)絡安全

2014-06-06 10:01:31

2021-02-04 12:46:54

谷歌開源安全漏洞

2025-03-13 11:11:04

點贊
收藏

51CTO技術(shù)棧公眾號