FisheyeDetNet:首個基于魚眼相機(jī)的目標(biāo)檢測算法
本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
目標(biāo)檢測在自動駕駛系統(tǒng)當(dāng)中是一個比較成熟的問題,其中行人檢測是最早得以部署算法之一。在多數(shù)論文當(dāng)中已經(jīng)進(jìn)行了非常全面的研究。然而,利用魚眼相機(jī)進(jìn)行環(huán)視的近距離的感知相對來說研究較少。由于徑向畸變較大,標(biāo)準(zhǔn)的邊界框表示在魚眼相機(jī)當(dāng)中很難實施。為了緩解上述提到的相關(guān)問題,我們探索了擴(kuò)展邊界框的標(biāo)準(zhǔn)對象檢測輸出表示。我們將旋轉(zhuǎn)的邊界框、橢圓、通用多邊形設(shè)計為極坐標(biāo)弧/角度表示,并定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形的模型FisheyeDetNet優(yōu)于其他模型,同時在用于自動駕駛的Valeo魚眼相機(jī)數(shù)據(jù)集上實現(xiàn)了49.5%的mAP指標(biāo)。目前,這是第一個關(guān)于自動駕駛場景中基于魚眼相機(jī)的目標(biāo)檢測算法研究。
文章鏈接:https://arxiv.org/pdf/2404.13443.pdf
網(wǎng)絡(luò)結(jié)構(gòu)
我們的網(wǎng)絡(luò)結(jié)構(gòu)建立在YOLOv3網(wǎng)絡(luò)模型的基礎(chǔ)上,并且對邊界框,旋轉(zhuǎn)邊界框、橢圓以及多邊形等進(jìn)行多種表示。為了使網(wǎng)絡(luò)能夠移植到低功率汽車硬件上,我們使用ResNet18作為編碼器。與標(biāo)準(zhǔn)Darknet53編碼器相比,參數(shù)減少了近60%。提出了網(wǎng)絡(luò)架構(gòu)如下圖所示。
邊界框檢測
我們的邊界框模型與 YOLOv3 相同,只是 Darknet53 編碼器被替換為 ResNet18 編碼器。與YOLOv3類似,目標(biāo)檢測是在多個尺度上執(zhí)行的。對于每個尺度中的每個網(wǎng)格,預(yù)測對象寬度()、高度()、對象中心坐標(biāo)(,)和對象類。最后,使用非最大抑制來過濾冗余檢測。
旋轉(zhuǎn)邊界框檢測
在該模型中,與常規(guī)框信息(,,,)一起回歸框的方向。方向地面實況范圍 (-180 到 +180°) 在 -1 到 +1 之間進(jìn)行歸一化。
橢圓檢測
橢圓回歸與定向框回歸相同。唯一的區(qū)別是輸出表示。因此損失函數(shù)也與定向框損失相同。
多邊形檢測
我們提出的基于多邊形的實例分割方法與PolarMask和PolyYOLO方法非常相似。而不是使用稀疏多邊形點和像PolyYOLO這樣的單尺度預(yù)測。我們使用密集多邊形注釋和多尺度預(yù)測。
實驗對比
我們在Valeo魚眼數(shù)據(jù)集上評估,該數(shù)據(jù)集有 60K 圖像,這些圖像是從歐洲、北美和亞洲的 4 個環(huán)繞視圖相機(jī)捕獲的。
所有模型都使用 IoU 閾值為 50% 的平均精度度量 (mAP) 進(jìn)行比較。結(jié)果如下表所示。每個算法都基于兩個標(biāo)準(zhǔn)進(jìn)行評估—相同表示和實例分割的性能。