無人汽車無法避開沒見過的物體?問題出在訓(xùn)練pipeline上
本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請至雷鋒網(wǎng)官網(wǎng)申請授權(quán)。
人類經(jīng)常會遇到種類新穎的工具、食物或動物,盡管以前從未見過,但人類仍然可以確定這些是新物體。
與人類不同,目前最先進的檢測和分割方法很難識別新型的物體,因為它們是以封閉世界的設(shè)定來設(shè)計的。它們所受的訓(xùn)練是定位已知種類(有標記)的物體,而把未知種類(無標記)的物體視為背景。這就導(dǎo)致模型不能夠順利定位新物體和學(xué)習(xí)一般物體的性質(zhì)。
最近,來自波士頓大學(xué)、加州大學(xué)伯克利分校、MIT-IBM Watson AI Lab研究團隊的一項研究,提出了一種檢測和分割新型物體的簡單方法。
原文鏈接:https://arxiv.org/pdf/2112.01698v1.pdf
為了應(yīng)對這一挑戰(zhàn),研究團隊創(chuàng)建一個數(shù)據(jù)集,對每張圖片中的每一個物體進行詳盡的標記。然而,要創(chuàng)建這樣的數(shù)據(jù)集是非常昂貴的。如下圖所示,事實上,許多用于物體檢測和實例分割的公共數(shù)據(jù)集并沒有完全標注圖像中的所有物體。
圖1. 標準的物體檢測器訓(xùn)練中存在的問題。該例來自COCO,有色框是注釋框,而白色虛線框是潛在的背景區(qū)域。許多白色虛線區(qū)域?qū)嶋H上定位了物體,但在傳統(tǒng)的物體檢測器訓(xùn)練中被認為是背景,從而壓制了新物體的目標屬性。
1問題背景
未能學(xué)習(xí)到一般的目標屬性會在許多應(yīng)用場景中暴露出各種問題。例如具身人工智能,在機器人、自動駕駛場景中,需要在訓(xùn)練中定位未見過的物體;自動駕駛系統(tǒng)需要檢測出車輛前方的新型物體以避免交通事故。
此外,零樣本和小樣本檢測必須對訓(xùn)練期間未標記的物體進行定位。開放世界實例分割旨在定位和分割新的物體,但最先進的模型表現(xiàn)并不理想。
研究團隊發(fā)現(xiàn),導(dǎo)致目前最先進的模型表現(xiàn)不理想的原因在于訓(xùn)練pipeline,所有與標記的前景物體重疊不多的區(qū)域?qū)⒈灰暈楸尘?。如圖1所示,雖然背景中有可見但卻未被標記的物體,但模型的訓(xùn)練pipeline使其不能檢測到這些物體,這也導(dǎo)致模型無法學(xué)習(xí)一般的目標屬性。
為了解決該問題,Kim等人提出學(xué)習(xí)候選區(qū)域(region proposals )的定位質(zhì)量 ,而不是將它們分為前景與背景。他們的方法是對接近真實標記的object proposals 進行采樣,并學(xué)習(xí)估計相應(yīng)的定位質(zhì)量。雖然緩解了部分問題,但這種方法除了需要仔細設(shè)置正/負采樣的重疊閾值外,還有可能將潛在的物體壓制目標屬性。
2方法
為了改進開放集的實例分割,研究團隊提出了一個簡單并且強大的學(xué)習(xí)框架,還有一種新的數(shù)據(jù)增強方法,稱為 "Learning to Detect Every Thing"(LDET)。為了消除壓制潛在物體目標屬性這一問題,研究團隊使用掩碼標記復(fù)制前景物體并將其粘貼到背景圖像上。而前景圖像是由裁剪過的補丁調(diào)整合成而來的。通過保持較小的裁剪補丁,使得合成的圖像不太可能包含任何隱藏物體。
然而,由于背景是合成圖像創(chuàng)建而來的,這就使其看起來與真實圖像有很大的不同,例如,背景可能僅由低頻內(nèi)容組成。因此,在這種圖像上訓(xùn)練出來的檢測器幾乎表現(xiàn)都不是很好。
為了克服這一限制,研究團隊將訓(xùn)練分成兩部分:
1)用合成圖像訓(xùn)練背景和前景區(qū)域分類和定位頭(classification and localization heads);2)用真實圖像學(xué)習(xí)掩碼頭(mask head)。
圖2. 本文的增補策略是通過提高小區(qū)域的比例作為背景來創(chuàng)建沒有潛在物體的圖像。
圖3. 原始輸入(左)和合成圖像(右)。用顏色標示了掩碼區(qū)域,使用小區(qū)域作為背景,避免了背景中會隱藏物體。在某些情況下,背景補丁恰好可以定位前景物體(左欄第二行)。要注意的是,這種情況很少見, 可以看出補丁被明顯放大了。
在訓(xùn)練分類頭(classification head)時,由于潛在物體在合成圖像時就已經(jīng)被移除了,因此將潛在物體視為背景的幾率變得很小。此外,掩碼頭是為在真實圖像中分割實例而訓(xùn)練的,因此主干系統(tǒng)學(xué)習(xí)了一般表征,能夠分離真實圖像中的前景和背景區(qū)域。
也許這看起來只是一個小變化,但LDET在開放世界的實例分割和檢測方面的表現(xiàn)非常顯著。
在COCO上,在VOC類別上訓(xùn)練的LDET評估非VOC類別時,平均召回率提高了14.1點。令人驚訝的是,LDET在檢測新物體方面有明顯提高,而且不需要額外的標記,例如,在COCO中只對VOC類別(20類)進行訓(xùn)練的LDET在評估UVO上的平均召回率時,超過了對所有COCO類別(80類)訓(xùn)練的Mask R-CNN。如圖2所示,LDET可以生成精確的object proposals,也可以覆蓋場景中的許多物體。
圖4. 在開放世界中進行實例分割,Mask R-CNN(上圖)比本文所研究的方法(下圖)所檢測到的物體要少。在此任務(wù)中,在不考慮訓(xùn)練種類的情況下,模型必須對圖像中的所有物體進行定位并對其分割。圖中的兩個檢測器都是在COCO上訓(xùn)練,并在UVO上測試的。在新的數(shù)據(jù)增補方法和訓(xùn)練方案的幫助下,本文的檢測器準確地定位出許多在COCO中沒有被標記的物體。
圖5. 訓(xùn)練流程。給定一個原始輸入圖像和合成圖像,根據(jù)在原始圖像上計算的掩碼損失和分類,以及在合成圖像上的回歸損失來訓(xùn)練檢測器。
本文的貢獻總結(jié)如下:
- 提出了一個簡單的框架——LDET,該框架由用于開放世界實例分割的新數(shù)據(jù)增補和解耦訓(xùn)練組成。
- 證明了本文的數(shù)據(jù)增補和解耦訓(xùn)練對在開放世界實例分割中實現(xiàn)良好的性能至關(guān)重要。
- LDET在所有設(shè)置中都優(yōu)于最先進的方法,包括COCO的跨類別設(shè)置和COCO-to-UVO和Cityscape-to-Mapillary的跨數(shù)據(jù)集設(shè)置。
3實驗結(jié)果
研究團隊在開放世界實例分割的跨類別和跨數(shù)據(jù)集上評估了LDET??珙悇e設(shè)置是基于COCO數(shù)據(jù)集,將標記分為已知和未知兩類,在已知類別上訓(xùn)練模型,并在未知類別上評估檢測/分割性能。
由于模型可能會處在一個新的環(huán)境中并且遇到新的實例,所以跨數(shù)據(jù)集設(shè)置還評估了模型對新數(shù)據(jù)集的歸納延伸能力。為此,采用COCO或Cityscapes作為訓(xùn)練源,UVO和Mappilary Vista分別作為測試數(shù)據(jù)集。在此工作中,平均精度(AP)和平均召回率(AR)作為性能評估標準。評估是以不分等級的方式進行的,除非另有說明。AR和AP是按照COCO評估協(xié)議計算的,AP或AR最多有100個檢測值。
表1. COCO中VOC → Non-VOC泛化的結(jié)果。表中最后一行的藍色部分是對Mask R-CNN的改進。LDET超過了所有的基線,并相較于Mask R-CNN有巨大改進。
圖6. 在COCO數(shù)據(jù)集中,VOC to Non-VOC的可視化。上圖:Mask R-CNN,下圖:LDET。注意訓(xùn)練類別不包括長頸鹿、垃圾箱、筆、風(fēng)箏和漂浮物。LDET比Mask R-CNN能更好地檢測許多新的物體。
表2. VOC → Non-VOC的數(shù)據(jù)和訓(xùn)練方法的消融研究。最后一行是本文提出的框架。
表3. class agnostic訓(xùn)練的消融研究。class agnostic訓(xùn)練對LDET和Mask R-CNN的性能有些許提高。
圖7. 基線Mask R-CNN存在著對標記實例的過度擬合。因此,隨著訓(xùn)練的進行,它檢測新物體的性能會下降。相比之下,本文的方法基本上隨著訓(xùn)練,性能都會提升。
表4. 與COCO上測試的無監(jiān)督方法和DeepMask的比較。需注意的是,DeepMask使用VGG作為主干。LDET和DeepMask是在VOC-COCO上訓(xùn)練的。
表5. 改變背景區(qū)域的大小。2-m表示用輸入圖像的2-m的寬度和高度裁剪背景區(qū)域。從較小的區(qū)域取樣背景,往往會提高AR,降低AP。
表6. ResNet50與ResNet101的對比。ResNet101傾向于比ResNet50表現(xiàn)得更好,這在LDET中更明顯。
表7. region proposal network和region of interest head的比較。bounding boxes的AP和AR。
圖8. COCO實驗中的目標屬性圖(RPN score)的可視化。LDET捕獲了各種類別的物體性,而Mask R-CNN則傾向于抑制許多物體。
表8. COCO→UVO泛化的結(jié)果。上:在VOC-COCO上訓(xùn)練的模型,下:在COCO上訓(xùn)練的模型。與基線相比,LDET在所有情況下都表現(xiàn)出較高的AP和AR。
圖9. 在COCO上訓(xùn)練的模型結(jié)果的可視化。上圖:Mask R-CNN,下圖:LDET。最左邊的兩張圖片來自UVO,其他的來自COCO的驗證圖片。
表9. Cityscapes → Mappilary Vista的歸納結(jié)果。LDET對自動駕駛數(shù)據(jù)集是有效的。AR0.5表示AR,IoU閾值=0.5。