2024新技術(shù):遠(yuǎn)距離的小目標(biāo)也可以準(zhǔn)確檢測(cè)
本文經(jīng)計(jì)算機(jī)視覺(jué)研究院公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
PART/1 概述
目前的OD算法對(duì)于長(zhǎng)距離的小物體的成功率有限。為了提高這項(xiàng)任務(wù)的準(zhǔn)確性和效率,我們提出了一套新的算法,將圖像劃分為塊,選擇具有不同尺度對(duì)象的塊,詳細(xì)說(shuō)明小對(duì)象的細(xì)節(jié),并盡早檢測(cè)到它。我們的方法建立在transformer的網(wǎng)絡(luò)上,并集成了擴(kuò)散模型以提高檢測(cè)精度。如在BDD100K,我們的算法將小目標(biāo)的mAP從1.03提高到8.93,并將計(jì)算中的數(shù)據(jù)量減少了77%以上。
PART/2 背景
物體檢測(cè)(OD)在許多現(xiàn)實(shí)場(chǎng)景的應(yīng)用中發(fā)揮著至關(guān)重要的作用,如自動(dòng)駕駛和機(jī)器人。盡管針對(duì)這項(xiàng)任務(wù)的各種算法激增,但現(xiàn)有方法在早期目標(biāo)檢測(cè)方面仍然面臨重大挑戰(zhàn),這是實(shí)現(xiàn)快速和主動(dòng)決策的關(guān)鍵方面。在這樣的場(chǎng)景中,由于距離長(zhǎng),捕獲圖像中的對(duì)象的大小通常會(huì)顯著減小。
如上圖所示,當(dāng)圖像僅包含有限數(shù)量的對(duì)象,并且由于數(shù)據(jù)量不足,目標(biāo)檢測(cè)的性能顯著不理想。為了應(yīng)對(duì)這一挑戰(zhàn),我們可以利用超分辨率(SR)算法來(lái)重建更高分辨率的圖像,從而增加可用于后續(xù)目標(biāo)檢測(cè)模型的數(shù)據(jù)。SR也是計(jì)算機(jī)視覺(jué)中的一個(gè)經(jīng)典問(wèn)題,擁有大量為該任務(wù)量身定制的解決方案。
最近,與生成對(duì)抗性網(wǎng)絡(luò)(GAN)相比,擴(kuò)散模型,如DDPM,在圖像生成方面表現(xiàn)出了顯著的能力,并表現(xiàn)出了更大的穩(wěn)定性。此外,專(zhuān)注于條件擴(kuò)散模型(CDM)應(yīng)用于SR的研究取得了顯著進(jìn)展。通過(guò)利用擴(kuò)散模型生成高分辨率圖像,我們可以顯著提高目標(biāo)檢測(cè)性能。然而,擴(kuò)散模型具有巨大的計(jì)算成本,這對(duì)自動(dòng)駕駛等現(xiàn)實(shí)的應(yīng)用構(gòu)成了挑戰(zhàn)。從上圖中的圖像示例來(lái)看,圖像的整體細(xì)化會(huì)對(duì)背景像素造成相當(dāng)大的計(jì)算負(fù)擔(dān),導(dǎo)致資源的過(guò)度浪費(fèi),對(duì)OD沒(méi)有任何有意義的貢獻(xiàn)。
PART/3 新框架詳細(xì)分解
如下圖所示,DPR包括三個(gè)關(guān)鍵模塊:Patch-Selector, Patch-Refiner, Patch-Organizer。Patch-Selector模塊負(fù)責(zé)提取補(bǔ)丁特征并執(zhí)行分類(lèi)。接下來(lái),Patch-Refiner模塊詳細(xì)闡述了正補(bǔ)丁,利用CDM將其重建到更高的分辨率,從而提高了目標(biāo)檢測(cè)精度。最后,為了完全展示我們提出的方法的效率和準(zhǔn)確性,我們使用廉價(jià)的插值技術(shù)來(lái)放大負(fù)補(bǔ)丁,并將所有補(bǔ)丁組織成完整的圖像,以便于與原始圖像進(jìn)行直接比較。接下來(lái)我們對(duì)所有模塊進(jìn)行了詳細(xì)討論,并概述了算法1中提出的DPR的具體訓(xùn)練過(guò)程。此外,算法2詳細(xì)說(shuō)明了采樣和測(cè)試過(guò)程。
Patch-Selector模塊的設(shè)計(jì)如下圖:(a)利用分層結(jié)構(gòu)編碼器,輸入圖像被嵌入到三個(gè)不同尺度的特征中。隨后,對(duì)這些特征中的補(bǔ)丁進(jìn)行分類(lèi)和聚合,以形成最終輸出。(b)每個(gè)變換器層(TL)包括一個(gè)特征合并塊和多個(gè)基于窗口的自關(guān)注塊。
PART/4 實(shí)驗(yàn)及可視化
為了權(quán)衡計(jì)算和性能,在下表中對(duì)將圖像從64×64放大到512×512時(shí)的不同閾值進(jìn)行了補(bǔ)丁分類(lèi)實(shí)驗(yàn)。第二排的mAP為4.33,是最佳選擇,計(jì)算量減少了63%。
對(duì)于具有相同閾值的從128×128到1024×1024的FBDD上采樣,我們的PS模塊僅輸出22.8%的CDM生成和OD補(bǔ)丁,并且與CDM相比,PS的FLOP可以忽略不計(jì),這意味著與全圖像生成相比,我們節(jié)省了77.2%的計(jì)算,如下表所示:
上圖顯示了集成補(bǔ)丁后BI和DPR的可視化比較。雖然DPR生成的總體圖像看起來(lái)與BI相似,但包含對(duì)象的關(guān)鍵補(bǔ)丁顯示出更精細(xì)的細(xì)節(jié),這表明CDM只需要處理少量數(shù)據(jù),從而實(shí)現(xiàn)更高效的計(jì)算。