自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Drone-YOLO:一種有效的無人機圖像目標檢測

人工智能 新聞
無人機圖像中的目標檢測是各個研究領(lǐng)域的重要基礎(chǔ)。然而,無人機圖像帶來了獨特的挑戰(zhàn),包括圖像尺寸大、檢測對象尺寸小、分布密集、實例重疊和照明不足,這些都會影響對象檢測的有效性。

01 前景概要

今天分享中,我們提出了Drone-YOLO,這是一系列基于YOLOv8模型的多尺度無人機圖像目標檢測算法,旨在克服與無人機圖像目標檢測相關(guān)的特定挑戰(zhàn)。為了解決大場景大小和小檢測對象的問題,我們對YOLOv8模型的頸部組件進行了改進。具體而言,我們采用了三層PAFPN結(jié)構(gòu),并結(jié)合了一個使用大規(guī)模特征圖為小型目標量身定制的檢測頭,顯著增強了算法檢測小型目標的能力。此外,我們將夾層融合模塊集成到頸部上下分支的每一層中。這種融合機制將網(wǎng)絡(luò)特征與低級特征相結(jié)合,提供了關(guān)于不同層檢測頭處物體的豐富空間信息。我們使用深度可分離進化來實現(xiàn)這種融合,它平衡了參數(shù)成本和大的感受野。在網(wǎng)絡(luò)主干中,我們使用RepVGG模塊作為下采樣層,增強了網(wǎng)絡(luò)學(xué)習(xí)多尺度特征的能力,并優(yōu)于傳統(tǒng)的卷積層。

所提出的Drone-YOLO方法已在消融實驗中進行了評估,并在VisDrone2019數(shù)據(jù)集上與其他最先進的方法進行了比較。結(jié)果表明,我們的Drone-YOLO(L)在目標檢測的準確性方面優(yōu)于其他基線方法。與YOLOv8相比,我們的方法在mAP0.5指標上實現(xiàn)了顯著改進,VisDrone2019測試增加了13.4%,VisDrone 2019-val.增加了17.40%。此外,只有5.25M參數(shù)的參數(shù)高效Drone-YOLO(tiny)在數(shù)據(jù)集上的性能與9.66M參數(shù)的基線方法相當或更好。這些實驗驗證了Drone-YOLO方法在無人機圖像中目標檢測任務(wù)中的有效性。

02 背景

在過去的15年里,隨著無人機控制技術(shù)的逐漸成熟,無人機遙感圖像以其成本效益和易獲取性成為低空遙感研究領(lǐng)域的重要數(shù)據(jù)源。在此期間,深度神經(jīng)網(wǎng)絡(luò)方法得到了廣泛的研究,并逐漸成為圖像分類、目標檢測和圖像分割等任務(wù)的最佳方法。然而,目前應(yīng)用的大多數(shù)深度神經(jīng)網(wǎng)絡(luò)模型,如VGG、RESNET、U-NET、PSPNET,主要是使用手動收集的圖像數(shù)據(jù)集開發(fā)和驗證的,如VOC2007、VOC2012、MS-COCO,如下圖所示。

圖片

與人工拍攝的真是圖像相比,從無人機獲得的圖像顯示出顯著差異。這些無人機拍攝的圖像如下:

圖片

除了這些圖像數(shù)據(jù)特征外,無人機遙感目標檢測方法還有兩種常見的應(yīng)用場景。第一個涉及使用大型臺式計算機進行飛行后數(shù)據(jù)處理。無人機飛行后,捕獲的數(shù)據(jù)在臺式計算機上進行處理。第二個涉及飛行過程中的實時處理,無人機上的嵌入式計算機實時同步處理航空圖像數(shù)據(jù)。該應(yīng)用程序通常用于無人機飛行期間的避障和自動任務(wù)規(guī)劃。因此,應(yīng)用神經(jīng)網(wǎng)絡(luò)的目標檢測方法需要滿足每個場景的不同要求。對于適用于臺式計算機環(huán)境的方法,需要高檢測精度。對于適用于嵌入式環(huán)境的方法,模型參數(shù)需要在一定范圍內(nèi)才能滿足嵌入式硬件的操作要求。在滿足操作條件后,該方法的檢測精度也需要盡可能高。

因此,無人機遙感圖像中目標檢測的神經(jīng)網(wǎng)絡(luò)方法需要能夠適應(yīng)這些數(shù)據(jù)的特定特征。它們的設(shè)計應(yīng)滿足飛行后數(shù)據(jù)處理的要求,可以提供高精度和召回率的結(jié)果,或者它們應(yīng)設(shè)計為具有較小規(guī)模參數(shù)的模型,可以部署在嵌入式硬件環(huán)境中,用于無人機上的實時處理。

03 新框架設(shè)計介紹

下圖顯示了我們提出的Drone-YOLO(L)網(wǎng)絡(luò)模型的架構(gòu)。該網(wǎng)絡(luò)結(jié)構(gòu)是對YOLOv8-l模型的改進。在網(wǎng)絡(luò)的主干部分,我們使用RepVGG結(jié)構(gòu)的重新參數(shù)化卷積模塊作為下采樣層。在訓(xùn)練過程中,這種卷積結(jié)構(gòu)同時訓(xùn)練3×3和1×1卷積。在推理過程中,兩個卷積核被合并為一個3×3卷積層。這種機制使網(wǎng)絡(luò)能夠在不影響推理速度或擴大模型大小的情況下學(xué)習(xí)更穩(wěn)健的特征。在頸部,我們將PAFPN結(jié)構(gòu)擴展到三層,并附加了一個小尺寸的物體檢測頭。通過結(jié)合所提出的三明治融合模塊,從網(wǎng)絡(luò)主干的三個不同層特征圖中提取空間和信道特征。這種優(yōu)化增強了多尺度檢測頭收集待檢測對象的空間定位信息的能力。

圖片

如下圖所示,我們提出了sandwich-fusion(SF),這是一種三尺寸特征圖的新融合模塊,它優(yōu)化了目標的空間和語義信息,用于檢測頭。該模塊應(yīng)用于頸部自上而下的層。該模塊的靈感來自YOLOv6 3.0【YOLOv6 v3.0: A Full-Scale Reloading】中提出的BiC模型。SF的輸入如圖所示,包括主干較低階段、相應(yīng)階段和較高階段的特征圖。目標是平衡低級特征的空間信息和高級特征的語義信息,以優(yōu)化網(wǎng)絡(luò)頭部對目標位置的識別和分類。

圖片

04 項目落地效果

項目中,我們使用Ubuntu 20.04作為操作系統(tǒng),Python 3.8、PyTorch 1.16.0和Cuda 11.6作為軟件環(huán)境。實驗采用NVIDIA 3080ti圖形卡作為硬件。神經(jīng)網(wǎng)絡(luò)的實現(xiàn)代碼是在Ultralytics 8.0.105版本的基礎(chǔ)上修改的。在項目中的訓(xùn)練、測試和驗證過程中使用的超參數(shù)保持一致。訓(xùn)練epoch被設(shè)置為300,并且輸入到網(wǎng)絡(luò)中的圖像被重新縮放到640×640。在下面列出的一些結(jié)果中,所有YOLOv8和我們提出的Drone-YOLO網(wǎng)絡(luò)都具有來自我們檢測結(jié)果。在這些落地中,這些網(wǎng)絡(luò)都沒有使用預(yù)訓(xùn)練參數(shù)。

在嵌入式應(yīng)用實驗中,我們使用NVIDIA Tegra TX2作為實驗環(huán)境,該環(huán)境具有256核NVIDIA Pascal架構(gòu)GPU,提供1.33 TFLOPS的峰值計算性能和8GB的內(nèi)存。軟件環(huán)境為Ubuntu 18.04 LTS操作系統(tǒng)、NVIDIA JetPack 4.4.1、CUDA 10.2和cuDNN 8.0.0。

在VisDrone2019-test測試效果

圖片

基于NVIDIA Tegra TX2的結(jié)果

圖片

圖片

Drone-YOLO實際效果

圖片 圖片

左邊是Yolov8的結(jié)果,可以看出紅色框中大部分目標沒有檢測出來

圖片

圖片

圖片

論文地址:www.mdpi.com/2504-446X/7/8/526

責任編輯:張燕妮 來源: 計算機視覺研究院
相關(guān)推薦

2021-04-19 16:39:59

無人機人工智能AI

2021-05-21 10:20:45

無人機橋梁技術(shù)

2021-07-16 08:39:27

無人機農(nóng)業(yè)農(nóng)民

2012-07-05 10:14:21

2017-06-30 15:45:33

消費

2023-11-24 17:20:41

無人機無人駕駛飛行器

2024-07-30 09:50:00

深度學(xué)習(xí)目標檢測

2021-01-11 13:27:55

無人機通信技術(shù)

2021-05-08 16:53:04

5G無人機技術(shù)

2020-12-28 10:56:20

無人機人工智能機器學(xué)習(xí)

2021-10-04 15:04:46

無人機技術(shù)安全

2023-06-26 10:25:12

2023-05-04 11:35:15

無人機

2021-12-23 10:38:00

人工智能AI無人機

2022-03-03 21:39:38

無人機人工智能

2015-05-25 16:35:22

CES

2021-01-03 20:05:02

美國無人機牌照

2015-06-23 14:57:08

深圳市國通廣告有限公司
點贊
收藏

51CTO技術(shù)棧公眾號