解放人工標(biāo)注!理想多模態(tài)框架UniPLV:開放3D場景理解新SOTA
寫在前面 & 筆者的個(gè)人理解
開放世界的3D場景理解旨在從點(diǎn)云等3D數(shù)據(jù)中識別和區(qū)分開放世界的對象和類別,而無需人工標(biāo)注。這對于真實(shí)世界的應(yīng)用,如自動(dòng)駕駛和虛擬現(xiàn)實(shí)等至關(guān)重要。傳統(tǒng)的依賴人工標(biāo)注的閉集識別方法無法滿足開放世界識別的挑戰(zhàn),尤其3D語義標(biāo)注,非常耗費(fèi)人力和物力。大量的互聯(lián)網(wǎng)文本-視覺對數(shù)據(jù),使得2D視覺語言模型展現(xiàn)出了杰出的2D開集世界理解能力。同樣道理,為了理解3D開放世界,當(dāng)前的SOTA方法通過構(gòu)建點(diǎn)云-文本對數(shù)據(jù),再通過CLIP的對比學(xué)習(xí)方式,達(dá)到3D開放世界理解能力。這種方式不僅要求繁瑣的點(diǎn)云-文本對數(shù)據(jù)制作過程,而且要求大量的點(diǎn)云文本對齊數(shù)據(jù)。在實(shí)際互聯(lián)網(wǎng)世界中,大量的3D點(diǎn)云數(shù)據(jù)難以獲得且是有限的,因而限制了大量點(diǎn)云-文本對數(shù)據(jù)的制作,進(jìn)而限制了方法的性能上限。
仔細(xì)觀察可以發(fā)現(xiàn),盡管3D點(diǎn)云數(shù)據(jù)有限,它們通常與圖像成對出現(xiàn)。這就使得我們仔細(xì)思考:是否可以利用2D開放世界理解方法的成功,借助圖像作為媒介,在有限的數(shù)據(jù)中,將2D開放世界理解的能力轉(zhuǎn)移到3D開放世界理解當(dāng)中。因此,我們設(shè)計(jì)了一個(gè)點(diǎn)云-圖像-文本統(tǒng)一的多模態(tài)學(xué)習(xí)框架,在數(shù)據(jù)有限的情況下,將圖像-文本的對齊關(guān)系遷移到點(diǎn)云-文本,得到3D開集場景理解模型。這個(gè)框架不需要生產(chǎn)點(diǎn)云-文本對,僅通過2D基礎(chǔ)模型得到區(qū)域像素-文本對,即可通過多模態(tài)統(tǒng)一訓(xùn)練得到3D開集場景理解模型。同時(shí),推理時(shí)不需要依賴圖像即可得到點(diǎn)云的語義信息。在廣泛使用的nuScenes、Waymo以及SeamanticKITTI數(shù)據(jù)集上進(jìn)行的多個(gè)實(shí)驗(yàn)驗(yàn)證了多模態(tài)框架在3D開集任務(wù)上的有效性。
- 論文鏈接:https://arxiv.org/abs/2412.18131
本文提出了一個(gè)多模態(tài)開集框架UniPLV,將點(diǎn)云、圖像和文本統(tǒng)一到一個(gè)范式中,以實(shí)現(xiàn)開放世界的3D場景理解。UniPLV利用圖像模態(tài)作為橋梁,將3D點(diǎn)云與預(yù)對齊的圖像和文本共同嵌入到一個(gè)共享的特征空間中,不需要制作對齊的點(diǎn)云和文本數(shù)據(jù)。為了實(shí)現(xiàn)多模態(tài)對齊,我們提出了兩個(gè)關(guān)鍵策略:(i) 圖像和點(diǎn)云分支的邏輯和特征蒸餾模塊;(ii) 一個(gè)視覺點(diǎn)云匹配模塊,用于顯式糾正由點(diǎn)云到像素投影引起的錯(cuò)位。此外,為進(jìn)一步提升我們統(tǒng)一框架的性能,我們采用了四種特定任務(wù)的損失函數(shù)和一個(gè)兩階段的訓(xùn)練策略。大量實(shí)驗(yàn)表明,我們的方法在兩個(gè)開集任務(wù)Base-Annotated和Annotation-Free上的指標(biāo)平均分別超過最先進(jìn)方法15.6%和14.8%。
相關(guān)工作回顧
3D語義分割。3D語義分割技術(shù)可根據(jù)對點(diǎn)云的建模方式分為三類:view-based、point-based和voxel-based。view-based將3D點(diǎn)云轉(zhuǎn)換為距離視圖或鳥瞰視圖,提取2D特征,但會(huì)損失3D幾何特性。point-based直接使用3維點(diǎn)作為模型輸入,并設(shè)計(jì)算法聚合上下文信息。Voxel-based將點(diǎn)云空間劃分為多個(gè)體素網(wǎng)格,并使用稀疏卷積技術(shù)處理這些體素特征以提高效率。本文采用MinkUNet、SparseUnet32和PTv3作為骨干網(wǎng)絡(luò),分別驗(yàn)證提出框架的可擴(kuò)展性和泛化能力。
開放詞匯2D場景理解。開放詞匯的2D場景理解技術(shù)隨著大型視覺語言模型的發(fā)展,在理解二維開放世界場景的能力上取得了顯著進(jìn)展。主要有兩大方向:基于CLIP的方法和Grounding方法?;贑LIP的方法通常使用CLIP文本特征代替線性投影特征,并利用對比學(xué)習(xí)進(jìn)行特征對齊,如GLEE、DetCLIP系列、RegionCLIP和OWL-ViT等。Grounding任務(wù)的輸入是一張圖片和對應(yīng)的描述,通過不同的描述在圖像中輸出物體框的位置。鑒于2D開放世界理解的成功,我們選擇GLEE和Grounding DINO作為我們的2D開集區(qū)域標(biāo)簽生成算法。
開放詞匯3D場景理解。開放詞匯的3D場景理解旨在識別未被標(biāo)注的物體。早期的方法主要通過特征區(qū)分或生成的方法實(shí)現(xiàn)開放場景的理解。隨著視覺語言模型(如CLIP)的成功,出現(xiàn)了許多工作將視覺語言知識遷移到3D場景理解上。Clip2Scene使用凍結(jié)的CLIP獲取圖像的語義標(biāo)簽,然后投影以指導(dǎo)點(diǎn)云的語義分割。OpenMask3D采用3D實(shí)例分割網(wǎng)絡(luò)創(chuàng)建3D掩碼,并投影以獲得2D掩碼。這些2D掩碼輸入到CLIP中,以提取視覺特征并與文本特征匹配,最終獲得3D語義。由于CLIP是基于完整圖像和文本的對齊進(jìn)行訓(xùn)練的,其理解特定區(qū)域的能力有限。OpenScene通過將預(yù)測結(jié)果從凍結(jié)的2D視覺模型投影并在圖像與點(diǎn)云特征之間進(jìn)行蒸餾,實(shí)現(xiàn)了點(diǎn)云與文本對齊。然而,OpenScene需要資源密集的特征提取與融合,并且在訓(xùn)練期間圖像骨干是固定的,難以擴(kuò)展到更先進(jìn)的3D網(wǎng)絡(luò)和3D場景。RegionPLC和PLA通過構(gòu)建大量的點(diǎn)云文本對來訓(xùn)練點(diǎn)云與文本的對齊,實(shí)現(xiàn)了開放場景的3D理解。本文提出了一個(gè)統(tǒng)一的多模態(tài)框架,用于開放場景3D理解,具有輕量級和可擴(kuò)展的特點(diǎn),并且不需要生成額外的點(diǎn)云文本對。
UniPLV 方法詳解
UniPLV能夠識別無人工標(biāo)注的新類別,同時(shí)保持對已標(biāo)注的基礎(chǔ)類別的性能。與之前通過構(gòu)建3D點(diǎn)-文本對來實(shí)現(xiàn)開放詞匯理解的方法不同,我們的工作利用2D基礎(chǔ)模型構(gòu)建圖像區(qū)域語義標(biāo)簽,將開集能力從二維遷移到三維,而無需額外的3D和文本配對數(shù)據(jù)。利用二維和三維空間之間的映射關(guān)系以及預(yù)先對齊的圖像和文本,我們設(shè)計(jì)了一個(gè)多模態(tài)統(tǒng)一訓(xùn)練框架,使用圖像作為橋梁,將點(diǎn)云特征嵌入到圖像和文本的共享特征空間中。我們介紹了所提框架的主要組件、數(shù)據(jù)流轉(zhuǎn)換、兩個(gè)知識蒸餾模塊以及一個(gè)視覺點(diǎn)匹配模塊。我們引入了一種多模態(tài)和多任務(wù)的訓(xùn)練策略,以確保點(diǎn)云和圖像分支的穩(wěn)定和高效訓(xùn)練。在推理階段,此框架僅需要點(diǎn)云和類別描述作為輸入來計(jì)算特征相似性,選擇最相似的類別作為每個(gè)點(diǎn)的語義預(yù)測。
區(qū)域文本生成
我們利用二維視覺-語言基礎(chǔ)模型提取圖像實(shí)例和像素語義。具體來說,給定一組圖像和類別文本列表,為每張圖像輸出邊界框、實(shí)例掩碼和語義類別。我們使用GLEE進(jìn)行實(shí)例掩碼和邊界框生成,該模型已在大規(guī)模數(shù)據(jù)集上訓(xùn)練,在準(zhǔn)確性和泛化性方面表現(xiàn)出色。另外,我們結(jié)合了 Grounding DINO 和 SAM2 ,以生成另一組實(shí)例標(biāo)簽。邊界框通過 Grounding DINO 生成,隨后使用 SAM2 對每個(gè)框進(jìn)一步分割以產(chǎn)生實(shí)例掩碼。至此,我們獲得了區(qū)域-像素-文本對,以及與圖像時(shí)空對齊的點(diǎn)云,用于訓(xùn)練提出的多模態(tài)3D場景理解網(wǎng)絡(luò)。本文的實(shí)驗(yàn)結(jié)果中,2D 語義標(biāo)簽來自 GLEE,相關(guān)的 Grounding DINO 和 SAM2 實(shí)驗(yàn)可以在補(bǔ)充材料中找到。
模型框架
所提出的UniPLV包括一個(gè)凍結(jié)的文本編碼器、圖像編碼-解碼器和點(diǎn)云分割網(wǎng)絡(luò),如圖2所示。我們將所有類別名稱作為文本prompt輸入到文本編碼器中,在序列維度上應(yīng)用全局平均池化來獲取文本特征。為了支持開放世界理解,我們用感知特征與文本特征之間的相似性測量替換了圖像解碼器和3D分割頭的分類器:
UniPLV可以利用構(gòu)建的區(qū)域圖像-文本對微調(diào)圖像的分割和檢測,并提供對應(yīng)于給定類別的點(diǎn)云分割結(jié)果。該框架的最終優(yōu)化目標(biāo)是通過多模態(tài)聯(lián)合訓(xùn)練將點(diǎn)云特征和圖像-文本特征嵌入到統(tǒng)一的特征空間中,實(shí)現(xiàn)點(diǎn)云和文本在開放世界3D場景理解中的對齊。對于圖像和文本分支,我們加載GLEE的第二階段模型作為預(yù)訓(xùn)練權(quán)重,以加強(qiáng)文本和圖像的對齊。在訓(xùn)練過程中,我們使用二維基礎(chǔ)模型構(gòu)建的數(shù)據(jù)微調(diào)圖像模型,在迭代訓(xùn)練過程中,模型進(jìn)行特征聚類,以識別并學(xué)習(xí)給定類別的共同屬性。這種機(jī)制有助于濾除由誤檢引入的噪聲,從而有效清洗偽標(biāo)簽。
視覺-點(diǎn)云知識蒸餾
為了將圖像作為橋梁,將點(diǎn)云特征和預(yù)對齊的圖像-文本對共同嵌入到統(tǒng)一的特征空間,我們從圖像分支到點(diǎn)云分支引入了兩個(gè)蒸餾模塊:邏輯蒸餾和特征蒸餾。
邏輯蒸餾。 圖像像素的語義分類概率是通過圖像特征與所有給定類別的文本特征之間的相似性測量獲得的。類似地,點(diǎn)云的語義分類概率也通過計(jì)算與文本的相似性獲得。我們設(shè)計(jì)了邏輯蒸餾來監(jiān)督新類別的點(diǎn)云分類,新類別語義由圖像分支預(yù)測并經(jīng)過投影得到,使用了交叉熵?fù)p失和Dice損失來實(shí)現(xiàn)邏輯蒸餾:
特征蒸餾。 圖像和文本之間的對齊已經(jīng)使用大規(guī)模數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練。為了彌合點(diǎn)云與語義文本之間的特征差距,我們進(jìn)一步使用圖像特征蒸餾點(diǎn)云的特征。我們僅蒸餾在空間映射和語義上同時(shí)對齊的2D-3D配對點(diǎn)。特征蒸餾基于相似性計(jì)算進(jìn)行,使用余弦相似度函數(shù)在特定配對的點(diǎn)云和圖像之間測量特征相似度:
視覺-點(diǎn)云匹配學(xué)習(xí)
我們引入了視覺-點(diǎn)云匹配(VPM)模塊以進(jìn)一步學(xué)習(xí)圖像與點(diǎn)云之間的細(xì)粒度對齊。這是一個(gè)二分類任務(wù),要求模型預(yù)測來自投影的像素點(diǎn)對是正匹配還是負(fù)匹配。VPM主要包括一個(gè)注意力編碼器模塊和一個(gè)二分類器。給定配對的圖像特征和點(diǎn)云特征,圖像特征為查詢向量,而點(diǎn)云特征作為鍵和值向量。自注意力應(yīng)用于圖像特征以獲得圖像注意力特征。隨后的交叉注意力在圖像和點(diǎn)云特征之間進(jìn)行,交叉特征經(jīng)過前饋網(wǎng)絡(luò)輸出到一個(gè)二分類器獲得匹配概率:
優(yōu)化目標(biāo)&多模態(tài)訓(xùn)練
為了實(shí)現(xiàn)3D開放世界場景理解,我們聯(lián)合訓(xùn)練圖像像素、3D點(diǎn)云與文本之間的對齊。我們提出的UniPLV有四個(gè)特定任務(wù)的損失:圖像-文本對齊、點(diǎn)云-文本對齊、像素-點(diǎn)云匹配,以及邏輯和特征蒸餾損失。最終的總損失通過加權(quán)結(jié)合上述四種損失進(jìn)行如下計(jì)算:
為了達(dá)到多模態(tài)穩(wěn)定的訓(xùn)練,我們提出了一種兩階段多任務(wù)訓(xùn)練策略,用于訓(xùn)練多模態(tài)框架UniPLV。
階段1:獨(dú)立圖像分支訓(xùn)練。 訓(xùn)練初步階段,我們獨(dú)立訓(xùn)練圖像分支持續(xù)總迭代步數(shù)的一半,保證兩個(gè)模態(tài)的網(wǎng)絡(luò)梯度同步,并且在圖像分支訓(xùn)練期間實(shí)施梯度剪裁,以防止梯度爆炸,保證訓(xùn)練穩(wěn)定。
階段2:統(tǒng)一多模態(tài)訓(xùn)練。 第二階段涉及圖像和點(diǎn)云分支的聯(lián)合訓(xùn)練,采用不同的損失權(quán)重以有效平衡它們的損失值。在整個(gè)訓(xùn)練過程中,我們使用AdamW優(yōu)化器,因其自適應(yīng)學(xué)習(xí)能力和收斂穩(wěn)定而被選擇。優(yōu)化器參數(shù),特別是學(xué)習(xí)率和權(quán)重衰減,取決于每個(gè)分支的主干結(jié)構(gòu),并且針對圖像和點(diǎn)云分支設(shè)置有所不同。這種策略上的優(yōu)化設(shè)置差異確保了兩個(gè)分支根據(jù)其特定的網(wǎng)絡(luò)結(jié)構(gòu)和數(shù)據(jù)特性進(jìn)行訓(xùn)練,最終使得多模態(tài)訓(xùn)練任務(wù)達(dá)到更優(yōu)的性能。
推理
推理過程如圖2所示。在推理過程中,我們可以將任意開放詞匯類別編碼為文本查詢,并計(jì)算它們與3D點(diǎn)云的相似性。具體來說,我們將每個(gè)點(diǎn)與計(jì)算出的余弦相似度最高的類別關(guān)聯(lián)。由于我們已經(jīng)將圖像-文本對齊蒸餾到點(diǎn)云-文本對齊,因此在推理過程中不需要處理圖像。
實(shí)驗(yàn)結(jié)果
結(jié)論&未來工作
結(jié)論。本文提出了一種用于開放世界3D場景理解的統(tǒng)一多模態(tài)學(xué)習(xí)框架,UniPLV,該框架不需要制作點(diǎn)云文本對,利用圖像作為橋梁,提出了邏輯蒸餾、特征蒸餾和視覺-點(diǎn)云匹配模塊。此外,我們引入了四個(gè)特定任務(wù)的損失函數(shù)和兩階段訓(xùn)練過程,以實(shí)現(xiàn)穩(wěn)定的多模態(tài)學(xué)習(xí)。我們的方法在nuScenes數(shù)據(jù)集上顯著超越了最先進(jìn)的方法。此外,在不同3D骨干網(wǎng)絡(luò)以及Waymo和Semantickitti數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果也顯示了我們方法的可擴(kuò)展性和輕量級特征。
未來工作。未來有一些工作需要改進(jìn)和解決。我們提出的框架目前僅在室外數(shù)據(jù)集上進(jìn)行了驗(yàn)證。未來,我們計(jì)劃將驗(yàn)證擴(kuò)展到室內(nèi)數(shù)據(jù)集,如ScanNet,其中2D和3D之間的投影參數(shù)更為準(zhǔn)確。我們將來會(huì)改進(jìn)和量化圖像分支,使提出的框架能夠同時(shí)實(shí)現(xiàn)2D和3D開放世界場景理解任務(wù)。點(diǎn)云分支也可以替換為OCC占用預(yù)測網(wǎng)絡(luò),以擴(kuò)展開放世界的應(yīng)用。