自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

YOLC:空中圖像中的微小物體檢測新突破

人工智能 新聞
在人工智能和計(jì)算機(jī)視覺領(lǐng)域,物體檢測是一項(xiàng)基礎(chǔ)且關(guān)鍵的任務(wù)。尤其在空中圖像的背景下,這項(xiàng)任務(wù)變得更加復(fù)雜和具有挑戰(zhàn)性。

本文經(jīng)計(jì)算機(jī)視覺研究院公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

PART/1 概述    

目前航拍圖像中檢測物體有著一下幾項(xiàng)重大挑戰(zhàn):

1)航拍圖像通常具有非常大的尺寸,通常有數(shù)百萬甚至數(shù)億像素,而計(jì)算資源有限。

2) 物體尺寸小會導(dǎo)致有效檢測的信息不足。

3) 不均勻的對象分布會導(dǎo)致計(jì)算資源的浪費(fèi)。

圖片

為了解決這些問題,研究者提出了YOLC(You Only Look Clusters),這是一個(gè)基于無錨目標(biāo)檢測器CenterNet的高效框架。為了克服大規(guī)模圖像和非均勻?qū)ο蠓植紟淼奶魬?zhàn),引入了一種局部尺度模塊(LSM),該模塊自適應(yīng)地搜索聚類區(qū)域以放大以進(jìn)行精確檢測。此外,研究者還使用Gaussian Wasserstein distance(GWD)修改回歸損失,以獲得高質(zhì)量的邊界框。檢測頭采用可變形卷積和細(xì)化方法來增強(qiáng)對小物體的檢測。對包括Vi sdrone2019和UAVDT在內(nèi)的兩個(gè)航空圖像數(shù)據(jù)集進(jìn)行了廣泛的實(shí)驗(yàn),以證明新提出的方法的有效性和優(yōu)越性。

PART/背景    

早期的研究提出了新的多尺度訓(xùn)練策略,如圖像金字塔的尺度歸一化(SNIP)及其改進(jìn)版本。這些方法可以有效地提高小對象的檢測性能,而多尺度訓(xùn)練對計(jì)算資源和內(nèi)存容量都有很大的要求。另一種方法是提高圖像分辨率或特征分辨率。例如,生成對抗網(wǎng)絡(luò)(GAN)可用于補(bǔ)償小對象的信息丟失。因此,可以縮小小對象和大對象的特征表示之間的差距;但是計(jì)算成本將是昂貴的。最近,一些基于標(biāo)簽分配的方法旨在改進(jìn)罕見小對象樣本的樣本分配策略。它們提高了小物體的檢測性能,但在準(zhǔn)確性或效率方面仍有改進(jìn)的潛力。

高分辨率航空圖像中小物體的不均勻分布對探測器提出了重大挑戰(zhàn),導(dǎo)致大規(guī)模航空圖像的效率或精度降低。為了解決這些問題,一種簡單的方法是將圖像分成幾個(gè)部分并放大,如均勻裁剪所示。然而,這種方法無法解釋物體的非均勻分布,檢測所有作物仍然需要大量時(shí)間。

為了應(yīng)對上述挑戰(zhàn),已經(jīng)提出了主流解決方案,包括設(shè)計(jì)專用方案來定位集群區(qū)域,這些方案可以隨后用于檢測。ClusSet采用集群檢測網(wǎng)絡(luò)來檢測目標(biāo)集群。DMNet對目標(biāo)分布進(jìn)行建模,并通過密度圖生成聚類區(qū)域。這些策略顯示出有希望的結(jié)果,因?yàn)榫垲悈^(qū)域被保留,背景被盡可能地抑制。然而,對每種作物的獨(dú)立檢測降低了推理速度。此外,雖然上述方法生成了集群區(qū)域,但某些集群中的對象分布很稀疏,對最終性能的貢獻(xiàn)很小。因此,在精度和效率之間實(shí)現(xiàn)最佳折衷是航空圖像中目標(biāo)檢測的關(guān)鍵問題。

PART/新算法框架    

  • 準(zhǔn)備工作

CenterNet是一個(gè)強(qiáng)大而高效的無錨目標(biāo)象檢測框架。與使用錨點(diǎn)預(yù)測邊界框的傳統(tǒng)方法不同,CenterNet從對象的中心點(diǎn)回歸對象的大小、方向、姿勢和關(guān)鍵點(diǎn)。這是通過一個(gè)全卷積網(wǎng)絡(luò)實(shí)現(xiàn)的,該網(wǎng)絡(luò)生成對象中心的熱圖(密度圖),然后通過在熱圖中找到局部最大值來定位中心。使用這些峰值位置的特征,可以推斷出物體的大小。由于其簡單性,CenterNet在不依賴復(fù)雜特征工程的情況下實(shí)現(xiàn)了非凡的性能。它是一種快速有效的對象檢測方法,已被研究界廣泛采用。CenterNet作為一種代表性的無錨探測器,采用高分辨率特征圖進(jìn)行預(yù)測,使其對小物體特別友好和高效。密度貼圖是提供圖像中對象分布信息的強(qiáng)大工具。在CenterNet中,密度圖用于定位對象。為了提高檢測器檢測小物體的性能,我們使用轉(zhuǎn)置卷積層對特征圖進(jìn)行上采樣,以匹配輸入圖像的大小。此外,我們提出了一種局部尺度模塊,該模塊利用熱圖自適應(yīng)地搜索聚類區(qū)域并調(diào)整其大小以適應(yīng)檢測器,這可以進(jìn)一步提高檢測精度。

  • You Only Look Clusters

提出的YOLC遵循與Center-Net類似的管道,但它與CenterNet的區(qū)別在于使用了不同的主干、檢測頭、回歸方式和損失函數(shù)。特別是,HRNet被用作生成高分辨率熱圖的骨干,這些熱圖更擅長檢測小物體。此外,由于航空圖像中物體的分布不平衡,設(shè)計(jì)了一種局部尺度模塊(LSM)來自適應(yīng)地搜索聚類區(qū)域。在檢測到原始圖像和裁剪后,在密集區(qū)域中,精確的結(jié)果直接替換為原始圖像的結(jié)果。

  • 高分辨率熱圖

為了提高在充滿小物體的密集區(qū)域進(jìn)行物體檢測的準(zhǔn)確性,YOLC使用了更高分辨率的熱圖。在CenterNet中,每個(gè)對象都被建模為其邊界框中心的一個(gè)點(diǎn),由熱圖中的高斯斑點(diǎn)表示。然而,相對于輸入圖像,熱圖被降采樣了4倍。這種下采樣可能會導(dǎo)致小物體在熱圖中只折疊成幾個(gè)甚至一個(gè)點(diǎn),從而難以準(zhǔn)確定位它們的中心。為了解決這個(gè)問題,YOLC采用了一種經(jīng)過修改的管道,該管道使用了更高分辨率的熱圖。具體來說,我們添加了一個(gè)卷積層和兩個(gè)轉(zhuǎn)置卷積層,以將熱圖放大到與輸入圖像相同的大小。這使我們能夠捕獲有關(guān)小物體的更詳細(xì)信息,從而在密集區(qū)域中實(shí)現(xiàn)更準(zhǔn)確的物體檢測。在解碼之前應(yīng)用高斯濾波器有助于減少CenterNet中的假陽性預(yù)測。過濾器平滑熱圖并抑制對象周圍的多個(gè)峰值。這種方法有助于提高對象的定位精度,并減少誤分類的機(jī)會。

圖片

  • Local Scale Module

興趣區(qū)域建議方法是基于裁剪的目標(biāo)檢測模型的關(guān)鍵組成部分。然而,在航拍圖像中,車輛和行人等物體往往聚集在幾個(gè)聚集的區(qū)域。圖像中的大多數(shù)區(qū)域都是背景,不需要檢測。此外,密集區(qū)域的有限分辨率可能會導(dǎo)致檢測性能顯著下降?,F(xiàn)有的基于裁剪的方法,如DMNet,會產(chǎn)生許多作物或使用像ClusSet這樣的額外網(wǎng)絡(luò),導(dǎo)致檢測速度低和模型參數(shù)增加。為了解決這些問題,研究者提出了一種局部尺度模塊(LSM),可以自適應(yīng)地定位聚類區(qū)域。LSM受到AutoScale的啟發(fā),但研究者進(jìn)行了一些修改,使其適用于航空圖像。首先,LSM不是只搜索單個(gè)最大聚類區(qū)域,而是通過對每個(gè)網(wǎng)格中的密度進(jìn)行排序來定位前K個(gè)密集區(qū)域。這很重要,因?yàn)楹娇請D像通常有多個(gè)聚類區(qū)域。其次,AutoScale是為人群計(jì)數(shù)和定位而設(shè)計(jì)的,它只適用于具有單類目標(biāo)的場景。然而,在航空圖像中,有多個(gè)目標(biāo)類別。研究者還注意到,UCGNet使用DBSCAN和K-Means等聚類方法從密集區(qū)域生成圖像裁剪。然而,UCGNet產(chǎn)生的作物仍然很大,沒有考慮不同作物之間的密度差異。

圖片

  • Improved Detection Head

為了提高對航空圖像中小目標(biāo)的檢測,回歸分支通過可變形卷積進(jìn)行了增強(qiáng),因?yàn)樗梢宰赃m應(yīng)地調(diào)整卷積操作中的采樣位置,以更好地捕捉小細(xì)節(jié)。此外,為了更好地捕捉不同類別目標(biāo)的精細(xì)細(xì)節(jié),熱圖分支被解耦為多個(gè)子分支,每個(gè)子分支負(fù)責(zé)預(yù)測特定對象類別的熱圖。這不僅減輕了同時(shí)預(yù)測所有熱圖的計(jì)算負(fù)擔(dān),而且使網(wǎng)絡(luò)能夠?qū)W⒂趯W(xué)習(xí)每個(gè)類別的不同特征,從而提高了探測器的整體性能。下圖展示了經(jīng)過這些改進(jìn)的檢測頭的結(jié)構(gòu)。

圖片


PART/實(shí)驗(yàn)及可視化    

性能比較?!癘”、“C”、“CA”和“AUG”分別代表原始驗(yàn)證集、均勻圖像分割(EIP)裁剪圖像、集群裁剪圖像和增強(qiáng)圖像。“*”表示多尺度推理。“?”表示通過超參數(shù)調(diào)整進(jìn)行優(yōu)化。

圖片

在VisDrone(第一行)和UAVDT(第二行)上可視化YOLC檢測結(jié)果:

圖片

在VisDrone上可視化YOLC(右)和CenterNet(左)檢測結(jié)果:

圖片

責(zé)任編輯:張燕妮 來源: 計(jì)算機(jī)視覺研究院
相關(guān)推薦

2024-02-16 08:00:00

機(jī)器學(xué)習(xí)ML-data預(yù)訓(xùn)練模型

2025-01-13 10:00:00

2024-06-24 05:00:00

YOLO模型人工智能

2024-10-05 13:00:00

模型優(yōu)化訓(xùn)練

2020-03-19 16:14:45

AI 數(shù)據(jù)人工智能

2021-07-09 10:45:23

BBAugPyTorch神經(jīng)網(wǎng)絡(luò)

2022-02-14 11:37:59

自動駕駛算法技術(shù)

2025-02-06 11:00:00

機(jī)器人感知機(jī)器人深度學(xué)習(xí)

2025-02-24 14:15:00

模型訓(xùn)練AI

2025-03-13 11:11:04

2022-02-16 09:54:43

AI模型

2023-12-14 11:18:16

視覺檢測

2017-08-02 00:12:50

CVPR 2017論文FPN網(wǎng)絡(luò)

2010-05-19 15:23:51

Linux 2.6.3Ceph分布式文件系統(tǒng)

2022-02-25 23:42:12

谷歌3D檢測

2023-10-09 12:56:00

區(qū)塊鏈計(jì)算機(jī)視覺

2020-07-26 18:42:51

人工智能

2013-05-27 15:12:49

Hadoop 2.0

2020-12-04 14:03:47

5G信息信號HAPS

2020-07-08 15:36:18

百度大腦
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號