北大王選最新OpenAD!助力自動駕駛邁向開放3D世界
寫在前面 & 筆者的個(gè)人理解
開放世界自動駕駛包括域泛化和開放詞匯。領(lǐng)域泛化是指自動駕駛系統(tǒng)在不同場景和傳感器參數(shù)配置下的能力。開放詞匯是指識別訓(xùn)練中沒有遇到的各種語義類別的能力。在本文中,我們介紹了OpenAD,這是第一個(gè)用于3D目標(biāo)檢測的現(xiàn)實(shí)世界開放世界自動駕駛基準(zhǔn)。OpenAD建立在與多模態(tài)大型語言模型(MLLM)集成的角案例發(fā)現(xiàn)和標(biāo)注管道之上。所提出的管道以統(tǒng)一的格式為五個(gè)具有2000個(gè)場景的自動駕駛感知數(shù)據(jù)集標(biāo)注corner case目標(biāo)。此外,我們設(shè)計(jì)評估方法,評估各種2D和3D開放世界和專業(yè)模型。此外,我們提出了一種以視覺為中心的3D開放世界目標(biāo)檢測基線,并通過融合通用和專用模型進(jìn)一步引入了一種集成方法,以解決OpenAD基準(zhǔn)現(xiàn)有開放世界方法精度較低的問題。
- 項(xiàng)目鏈接:https://github.com/VDIGPKU/OpenAD
總結(jié)來說,本文的主要貢獻(xiàn)如下:
- 提出了一個(gè)開放世界基準(zhǔn),同時(shí)評估目標(biāo)檢測器的領(lǐng)域泛化和開放詞匯表能力。據(jù)我們所知,這是3D開放世界物體檢測的第一個(gè)現(xiàn)實(shí)世界自動駕駛基準(zhǔn)。
- 設(shè)計(jì)了一個(gè)與MLLM集成的標(biāo)注管道,用于自動識別極端情況場景,并為異常目標(biāo)提供語義標(biāo)注。
- 提出了一種結(jié)合二維開放世界模型的三維開放世界感知基線方法。此外,我們分析了開放世界和專業(yè)模式的優(yōu)缺點(diǎn),并進(jìn)一步介紹了一種融合方法來利用這兩種優(yōu)勢。
相關(guān)工作回顧
Benchmark for Open-world Object Detection
2D基準(zhǔn)。各種數(shù)據(jù)集已被用于2D開放詞匯表目標(biāo)檢測評估。最常用的是LVIS數(shù)據(jù)集,它包含1203個(gè)類別。
在自動駕駛領(lǐng)域,如表1所示,也提出了許多數(shù)據(jù)集。其中,CODA是一個(gè)用于自動駕駛中二維物體檢測的道路拐角案例數(shù)據(jù)集,包含1500個(gè)道路駕駛場景,其中包含34個(gè)類別的邊界框注釋。然而,一些數(shù)據(jù)集只提供語義分割注釋,沒有特定的實(shí)例,或者將目標(biāo)注釋為異常但缺乏語義標(biāo)簽。此外,從真實(shí)世界的駕駛數(shù)據(jù)中收集的數(shù)據(jù)集規(guī)模較小,而來自CARLA等模擬平臺的合成數(shù)據(jù)缺乏真實(shí)性,因此難以進(jìn)行有效的評估。相比之下,我們的OpenAD提供了來自真實(shí)世界數(shù)據(jù)的大規(guī)模2D和3D邊界框注釋,用于更全面的開放世界目標(biāo)檢測評估。
3D基準(zhǔn)。3D開放世界基準(zhǔn)測試可分為兩類:室內(nèi)和室外場景。對于室內(nèi)場景,SUN-RGBD和ScanNet是兩個(gè)經(jīng)常用于開放世界評估的真實(shí)世界數(shù)據(jù)集,分別包含約700和21個(gè)類別。對于戶外或自動駕駛場景,AnoVox是一個(gè)合成數(shù)據(jù)集,包含35個(gè)類別的實(shí)例掩碼,用于開放世界評估。然而,由于模擬資產(chǎn)有限,合成數(shù)據(jù)的質(zhì)量和實(shí)例多樣性不如真實(shí)世界的數(shù)據(jù)。除了AnoVox之外,現(xiàn)有的用于自動駕駛的真實(shí)數(shù)據(jù)3D目標(biāo)檢測數(shù)據(jù)集只包含少數(shù)目標(biāo)類別,很難用于評估開放世界模型。為了解決這個(gè)問題,我們提出了OpenAD,它由真實(shí)世界的數(shù)據(jù)構(gòu)建而成,包含206個(gè)出現(xiàn)在自動駕駛場景中的不同corner-case類別。
2D Open-world Object Detection Methods
為了解決分布外(OOD)或異常檢測問題,早期的方法通常采用決策邊界、聚類等來發(fā)現(xiàn)OOD目標(biāo)。最近的方法采用文本編碼器,即CLIP,將相應(yīng)類別標(biāo)簽的文本特征與框特征對齊。具體來說,OVR-CNN將圖像特征與字幕嵌入對齊。GLIP將目標(biāo)檢測和短語基礎(chǔ)統(tǒng)一用于預(yù)訓(xùn)練。OWL ViT v2使用預(yù)訓(xùn)練的檢測器在圖像-文本對上生成偽標(biāo)簽,以擴(kuò)大檢測數(shù)據(jù)用于自訓(xùn)練。YOLO World采用YOLO類型的架構(gòu)進(jìn)行開放詞匯檢測,并取得了良好的效率。然而,所有這些方法在推理過程中都需要預(yù)定義的目標(biāo)類別。
最近,一些開放式方法提出利用自然語言解碼器提供語言描述,這使它們能夠直接從RoI特征生成類別標(biāo)簽。更具體地說,GenerateU引入了一種語言模型,可以直接從感興趣的區(qū)域生成類標(biāo)簽。DetClipv3引入了一個(gè)目標(biāo)字幕器,用于在推理過程中生成類標(biāo)簽和用于訓(xùn)練的圖像級描述。VL-SAM引入了一個(gè)無需訓(xùn)練的框架,其中注意力圖作為提示。
3D Open-world Object Detection Methods
與2D開放世界目標(biāo)檢測任務(wù)相比,由于訓(xùn)練數(shù)據(jù)集有限和3D環(huán)境復(fù)雜,3D開放世界目標(biāo)探測任務(wù)更具挑戰(zhàn)性。為了緩解這個(gè)問題,大多數(shù)現(xiàn)有的3D開放世界模型都來自預(yù)訓(xùn)練的2D開放世界模型,或者利用豐富的2D訓(xùn)練數(shù)據(jù)集。
例如,一些室內(nèi)3D開放世界檢測方法,如OV-3DET和INHA,使用預(yù)訓(xùn)練的2D目標(biāo)檢測器來引導(dǎo)3D檢測器找到新的目標(biāo)。同樣,Coda利用3D box幾何先驗(yàn)和2D語義開放詞匯先驗(yàn)來生成新類別的偽3D box標(biāo)簽。FM-OV3D利用穩(wěn)定擴(kuò)散生成包含OOD目標(biāo)的數(shù)據(jù)。至于戶外方法,F(xiàn)nP在訓(xùn)練過程中使用區(qū)域VLMs和貪婪盒搜索器為新類生成注釋。OV-Uni3DETR利用來自其他2D數(shù)據(jù)集的圖像和由開放詞匯檢測器生成的2D邊界框或?qū)嵗诖a。
然而,這些現(xiàn)有的3D開放詞匯檢測模型在推理過程中需要預(yù)定義的目標(biāo)類別。為了解決這個(gè)問題,我們引入了一種以視覺為中心的開放式3D目標(biāo)檢測方法,該方法可以在推理過程中直接生成無限的類別標(biāo)簽。
OpenAD概覽
Baseline Methods of OpenAD
Vision-Centric 3D Open-ended Object Detec- tion
由于現(xiàn)有3D感知數(shù)據(jù)的規(guī)模有限,直接訓(xùn)練基于視覺的3D開放世界感知模型具有挑戰(zhàn)性。我們利用具有強(qiáng)大泛化能力的現(xiàn)有2D模型來解決這個(gè)問題,并為3D開放世界感知提出了一個(gè)以視覺為中心的基線。
如圖4所示,最初采用任意現(xiàn)有的二維開放世界目標(biāo)檢測方法來獲得二維邊界框及其相應(yīng)的語義標(biāo)簽。同時(shí),緩存由2D模型的圖像編碼器生成的圖像特征圖。隨后,引入了一個(gè)結(jié)合了多個(gè)特征和一些可訓(xùn)練參數(shù)的2D到3D Bbox轉(zhuǎn)換器,將2D box轉(zhuǎn)換為3D box。
具體來說,我們使用現(xiàn)有的深度估計(jì)模型,如ZoeDepth、DepthAnything和UniDepth,通過2D框獲得裁剪圖像的深度圖。我們還包括一個(gè)可選的分支,該分支利用激光雷達(dá)點(diǎn)云和線性擬合函數(shù),通過將點(diǎn)云投影到圖像上來細(xì)化深度圖。同時(shí),為了消除2D邊界框內(nèi)不屬于前景目標(biāo)的區(qū)域,我們利用Segment Anything Model(SAM)以2D框?yàn)樘崾緦δ繕?biāo)進(jìn)行分割,從而產(chǎn)生分割掩碼。之后,我們可以使用像素坐標(biāo)、深度圖和相機(jī)參數(shù)為分割掩模構(gòu)建偽點(diǎn)云。我們將偽點(diǎn)云投影到特征圖和深度圖上,并通過插值將特征分配給每個(gè)點(diǎn)。然后,我們采用PointNet來提取偽點(diǎn)云的特征fp。同時(shí),2D邊界框內(nèi)的深度圖和特征圖沿著通道維度連接,其特征fc是通過卷積和全局池化得到的。最后,我們利用MLP來預(yù)測具有fp和fc級聯(lián)特征的目標(biāo)的3D邊界框。
在此基線中,2D到3D Bbox Converter中只有少數(shù)參數(shù)是可訓(xùn)練的。因此,培訓(xùn)成本低。此外,在訓(xùn)練過程中,每個(gè)3D目標(biāo)都充當(dāng)此基線的數(shù)據(jù)點(diǎn),從而可以直接構(gòu)建多域數(shù)據(jù)集訓(xùn)練。
General and Specialized Models Fusion
在實(shí)驗(yàn)中,我們發(fā)現(xiàn)現(xiàn)有的開放世界方法或通用模型在處理屬于常見類別的目標(biāo)方面不如閉集方法或?qū)S媚P?,但它們表現(xiàn)出更強(qiáng)的領(lǐng)域泛化能力和處理極端情況的能力。也就是說,現(xiàn)有的通用和專用模型是相輔相成的。因此,我們利用它們的優(yōu)勢,通過結(jié)合兩種模型的預(yù)測結(jié)果,提出了一個(gè)融合基線。具體來說,我們將兩種模型的置信度得分對齊,并使用雙閾值(即IoU和語義相似性)執(zhí)行非最大抑制(NMS),以過濾重復(fù)項(xiàng)。
實(shí)驗(yàn)結(jié)果
結(jié)論
在本文中,我們介紹了OpenAD,這是第一個(gè)用于3D目標(biāo)檢測的開放世界自動駕駛基準(zhǔn)。OpenAD建立在與多模態(tài)大型語言模型集成的角案例發(fā)現(xiàn)和注釋管道之上。該管道以格式對齊五個(gè)自動駕駛感知數(shù)據(jù)集,并為2000個(gè)場景注釋角案例目標(biāo)。此外,我們還設(shè)計(jì)了評估方法,并分析了現(xiàn)有開放世界感知模型和自動駕駛專業(yè)模型的優(yōu)缺點(diǎn)。此外,為了應(yīng)對訓(xùn)練3D開放世界模型的挑戰(zhàn),我們提出了一種結(jié)合2D開放世界模型進(jìn)行3D開放世界感知的基線方法。此外,我們引入了一種融合基線方法,以利用開放世界模型和專用模型的優(yōu)勢。
通過對OpenAD進(jìn)行的評估,我們觀察到現(xiàn)有的開放世界模型在域內(nèi)上下文中仍然不如專門的模型,但它們表現(xiàn)出更強(qiáng)的域泛化和開放詞匯能力。值得注意的是,某些模型在域內(nèi)基準(zhǔn)測試上的改進(jìn)是以犧牲其開放世界能力為代價(jià)的,而其他模型則不是這樣。這種區(qū)別不能僅僅通過測試域內(nèi)基準(zhǔn)來揭示。
我們希望OpenAD可以幫助開發(fā)超越專業(yè)模型的開放世界感知模型,無論是在同一領(lǐng)域還是跨領(lǐng)域,無論是對于可見還是未知的語義類別。