新加坡國立大學(xué) | 通過語言分割任何3D目標
本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
寫在前面&筆者的個人理解
本文研究了具有自由形式語言指令的開放詞匯3D實例分割(OV-3DIS)。先前的作品只依賴于注釋的基本類別進行訓(xùn)練,對看不見的長尾類別的泛化能力有限。最近的工作通過生成類無關(guān)掩碼或?qū)V義Mask從2D投影到3D來緩解對新類別的較差可泛化性,但忽略語義或幾何信息,導(dǎo)致次優(yōu)性能。相反,直接從3D點云生成可推廣但與語義相關(guān)的Mask將產(chǎn)生更好的結(jié)果。在本文中,我們介紹了用LanguagE分割任何3D目標(SOLE),這是一種具有語義和幾何意識的視覺語言學(xué)習(xí)框架,通過直接從三維點云生成語義相關(guān)的掩碼,具有很強的可推廣性。具體來說,我們提出了一種多模態(tài)融合網(wǎng)絡(luò),將多模態(tài)語義納入主干和解碼器中。此外,為了使3D分割模型與各種語言指令對齊并提高掩碼質(zhì)量,我們引入了三種類型的多模態(tài)關(guān)聯(lián)作為監(jiān)督。我們的SOLE在ScanNetv2、ScanNet200和Replica基準測試上大大優(yōu)于以前的方法,盡管訓(xùn)練中沒有類別標注,但結(jié)果甚至接近于完全監(jiān)督的方法。此外,大量的定性結(jié)果證明了我們的SOLE對語言指令的通用性。
項目主頁:https://cvrp-sole.github.io/
總結(jié)來說,本文的主要貢獻如下:
- 我們?yōu)镺V-3DIS提出了一個可視化語言學(xué)習(xí)框架—SOLE。為SOLE設(shè)計了一個多模態(tài)融合網(wǎng)絡(luò),該網(wǎng)絡(luò)可以利用多模態(tài)信息直接預(yù)測三維點云中的語義mask,從而產(chǎn)生高質(zhì)量和可推廣segment。
- 我們提出了三種類型的多模態(tài)關(guān)聯(lián),以提高3D分割模型與語言之間的一致性。這些關(guān)聯(lián)提高了掩碼質(zhì)量和對語言指令的響應(yīng)能力。
- SOLE在ScanNetv2、Scannet200和Replica基準測試上取得了最先進的結(jié)果,其結(jié)果甚至接近完全監(jiān)督的同類產(chǎn)品。此外,大量的定性結(jié)果表明,SOLE可以回答各種語言問題和指令。
相關(guān)工作回顧
閉集三維實例分割。三維實例分割旨在檢測、分割和識別三維場景中的目標實例。先前的工作主要考慮閉集設(shè)置,其中訓(xùn)練和測試類別相同。這些方法在特征提取和解碼過程中各不相同。隨著變換器模型的發(fā)展,掩模預(yù)測成為一種比傳統(tǒng)的盒檢測解碼方法更高效、更有效的方法。Mask3D對場景中固定數(shù)量的點進行采樣作為查詢,然后使用注意力機制直接預(yù)測最終的掩碼,從而獲得更好的結(jié)果。然而,無論解碼方法如何,封閉集方法都缺乏處理看不見的類別的能力,從而阻礙了它們在現(xiàn)實世界中的應(yīng)用。
開放式詞匯2D分割。由于最近大規(guī)模視覺語言模型的成功,在開放詞匯或零樣本2D分割方面取得了顯著的成就。共同的關(guān)鍵思想是利用2D多模態(tài)基礎(chǔ)模型將圖像級嵌入轉(zhuǎn)移到像素級下游任務(wù)。LSeg、OpenSeg和OVSeg將像素級或掩碼級視覺特征與開放詞匯語義分割基礎(chǔ)模型中的文本特征對齊。其他作品如X-Decoder、FreeSeg和SEEM提出了更統(tǒng)一的開放式詞匯分割框架,包括實例、全景和referring分割。
開放詞匯三維場景理解。開放詞匯2D分割(OV-2DS)取得的顯著成功促使了開放詞匯3D分割的幾項努力。然而,由于缺乏三維多模態(tài)基礎(chǔ)模型,OV-2DS中的技術(shù)無法直接轉(zhuǎn)移到三維領(lǐng)域。因此,研究人員建議將2D圖像和3D點云對齊,從而將2D基礎(chǔ)模型提升到3D。對于開放式詞匯3D語義分割從2D基礎(chǔ)模型中構(gòu)建任務(wù)不可知的逐點特征表示,然后使用這些特征來查詢3D場景中的開放式詞匯概念。這些工作純粹專注于將語義信息從2D轉(zhuǎn)移到3D,限制了應(yīng)用程序級別的識別任務(wù)。在這方面,引入了開放詞匯3D實例分割(OV-3DIS)來檢測和分割3D場景中各種類別的實例。PLA及其變體將訓(xùn)練類別劃分為基類和新類,并僅使用基類注釋來訓(xùn)練模型。OpenMask3D和OpenIns3D從掩碼注釋中學(xué)習(xí)類不可知的3D掩碼,然后使用相應(yīng)的2D圖像從基礎(chǔ)模型中獲得類標簽。最近,研究人員還研究了在沒有訓(xùn)練的情況下將2D預(yù)測從2D實例分割模型直接提升到3D。以往的工作極大地促進了OV-3DIS的改進。然而,由于語義泛化能力差和掩碼預(yù)測質(zhì)量低,結(jié)果仍遠不能令人滿意??紤]到先前工作的局限性,我們通過設(shè)計一個具有多模態(tài)網(wǎng)絡(luò)和各種多模態(tài)關(guān)聯(lián)的視覺語言學(xué)習(xí)框架,顯著改進了OV-3DIS。
方法詳解
Objective:具有自由形式語言指令的開放詞匯三維實例分割(OV-3DIS)的目標定義如下:給定一個三維點云,對應(yīng)的二維圖像和實例級三維掩碼,我們的目標是訓(xùn)練一個沒有GT注釋的三維實例分割網(wǎng)絡(luò)。在推理過程中,給定文本提示,經(jīng)過訓(xùn)練的3D實例分割網(wǎng)絡(luò)必須檢測并分割相應(yīng)的實例。
掩碼預(yù)測基線。我們在基于Transformer的3D實例分割模型Mask3D上構(gòu)建了我們的框架,該模型將實例分割任務(wù)視為掩碼預(yù)測范式。具體來說,帶有掩碼查詢的轉(zhuǎn)換器解碼器用于對實例進行分段。給定從場景中選擇的Nq個查詢,使用交叉注意力將信息從點云聚合到實例查詢。在幾個解碼器層之后,Nq個查詢變成具有相應(yīng)語義預(yù)測的Nq個掩碼。在訓(xùn)練過程中,采用匈牙利匹配來匹配和訓(xùn)練具有GT和掩碼的模型。在推理階段,將具有正確語義分類結(jié)果的Nq掩碼作為最終輸出。我們的SOLE利用了基于轉(zhuǎn)換器的架構(gòu)的掩碼預(yù)測范式,其中模型僅使用掩碼進行訓(xùn)練,而沒有GT,以實現(xiàn)可推廣的OV-3DIS。
概述:SOLE的總體架構(gòu)如圖2所示。為了使用自由形式的語言指令實現(xiàn)開放式詞匯實例分割,我們改進了具有多模態(tài)信息的基于轉(zhuǎn)換器的實例分割模型:主干中的逐點CLIP特征和解碼器中的文本信息。此外,為了在沒有GT類標簽的情況下獲得更好的泛化能力,我們在目標實例上構(gòu)建了三種類型的多模態(tài)關(guān)聯(lián):掩碼視覺關(guān)聯(lián)、掩碼字幕關(guān)聯(lián)和掩碼實體關(guān)聯(lián)來訓(xùn)練SOLE。配備了多模態(tài)框架和關(guān)聯(lián),我們的SOLE可以在各種語言提示下有效地分割實例。
Backbone Feature Ensemble
使用預(yù)先訓(xùn)練的模型 初始化主干是提高下游任務(wù)性能的有效方法,尤其是在下游數(shù)據(jù)不豐富的情況下。對于3D開放集設(shè)置,由于3D數(shù)據(jù)有限,利用2D基礎(chǔ)模型至關(guān)重要。因此遵循基于相機位姿將2D圖像的預(yù)訓(xùn)練視覺特征投影到3D點云。為了保持細粒度和可推廣的特性,我們利用OpenSeg作為2D主干。這些特征包含CLIP特征空間中的視覺信息,該空間與文本信息對齊。
由于圖像級的對比訓(xùn)練,CLIP特征空間主要關(guān)注語義信息,因此單獨利用投影的特征無法在實例分割上實現(xiàn)最佳性能。為此,我們訓(xùn)練3D實例分割主干,并將其特征與投影的2D CLIP特征相結(jié)合。
從3D主干提取不同分辨率的特征,并分別與2D CLIP特征合并。如圖2所示,CLIP特征采用了與3D主干相同的池化策略,使分辨率保持一致。最后,將具有多個分辨率的合并的逐點特征饋送到跨模態(tài)解碼器中。
Cross Modality Decoder
投影的2D CLIP特征提供了可概括的視覺信息,但語言信息沒有明確集成,限制了對語言指令的響應(yīng)能力。為了避免這個問題,我們引入了跨模態(tài)解碼器(CMD),將文本信息納入我們框架的解碼過程。具體來說,每個CMD模塊包含三個注意力層。實例查詢首先從CLIP組合的主干特征中提取視覺信息。然后將CLIP文本特征投影到第二關(guān)注層中的關(guān)鍵和值,結(jié)合文本領(lǐng)域知識。在訓(xùn)練過程中,CLIP文本特征是從每個目標掩碼的字幕特征中獲得的,而在推理過程中,它可以是查詢實例的描述或其他形式的語言指令,如視覺問題或功能屬性。最后,將自注意應(yīng)用于實例查詢,以進一步改進表示。通過將CLIP的多模態(tài)知識與多級CMD作為解碼器相融合,SOLE可以以高質(zhì)量的結(jié)果響應(yīng)各種語言指令。
Vision-Language Learning
我們進行視覺語言學(xué)習(xí),使我們的SOLE能夠?qū)崿F(xiàn)可推廣的OV-3DIS。為了有效地響應(yīng)各種語言指令,我們利用源于目標掩碼注釋的多模態(tài)信息來監(jiān)督分割網(wǎng)絡(luò)。具體而言,提出了三種分級粒度的監(jiān)督類型:1)掩碼視覺關(guān)聯(lián)、2)掩碼字幕關(guān)聯(lián)和3)掩碼實體關(guān)聯(lián)。
- Mask-Visual Association (MVA):利用2D圖像和3D點云之間的對應(yīng)關(guān)系,我們可以通過對Nm目標實例掩碼內(nèi)的每點CLIP特征進行平均來獲得實例級CLIP視覺特征。實例級CLIP視覺特征可以用作監(jiān)督,以間接地將3D分割模型與CLIP文本空間對準。此外,作為3D點云和語言之間的中間表示,mask-visual關(guān)聯(lián)也是以下兩種細粒度關(guān)聯(lián)的基礎(chǔ)。
- Mask-Caption Association (MCA):盡管處于CLIP特征空間,面具視覺聯(lián)想并不是一種準確的語言監(jiān)督。相反,用語言指令直接監(jiān)督模型會產(chǎn)生更好的結(jié)果。由于CLIP的強大泛化能力,現(xiàn)有工作中廣泛研究了從CLIP空間生成文本。由于掩碼視覺關(guān)聯(lián)中的實例級CLIP視覺特征在CLIP視覺空間中,我們可以將它們饋送到CLIP空間字幕生成模型(DeCap)中,以獲得掩碼字幕。然后將掩碼字幕饋送到CLIP文本模型中以提取掩碼字幕關(guān)聯(lián)。該關(guān)聯(lián)表示實例掩碼的語言信息,在CMD中用于在訓(xùn)練期間融合文本信息。
- Mask-Entity Association (MEA):盡管掩碼-標題關(guān)聯(lián)可以為語義和幾何結(jié)構(gòu)提供詳細的語言描述,但對于特定類別來說,它可能是不明確的。如圖3的示例所示。桌子的口罩說明是“房間里有一張帶椅子的木制桌子”。這樣的說明可能會導(dǎo)致椅子和桌子之間的模型混淆,或者將這兩個實例誤解為單個實例。因此,引入更細粒度的視覺語言關(guān)聯(lián)以更好地進行語義學(xué)習(xí)是很重要的。
由于目標通常是標題中的名詞,我們可以提取名詞的實體級描述,并將其與實例進行匹配。具體來說,如圖3所示,我們首先提取每個掩碼標題ci的所有名詞短語ei,并從CLIP文本編碼器T中獲得每個名詞短語的文本特征,如下所示:
實體可以以硬或軟的方式與掩模匹配。直觀地說,最相似的實體可以被視為mask標簽。然而,這種硬匹配有兩個主要問題。首先,生成的字幕和相似性結(jié)果可能不準確,導(dǎo)致錯誤的監(jiān)督。其次,盡管實體是正確的,但硬匹配忽略了上下文中的幾何信息,從而削弱了對語言指令的響應(yīng)能力。為此,我們提出了一種軟匹配方法,通過多模態(tài)注意來獲得掩碼-實體關(guān)聯(lián)。具體地,基于掩模特征和實體特征之間的注意力映射來獲得第i個掩模的聚合實體特征:
Training and Inference
訓(xùn)練這三種類型的多模態(tài)關(guān)聯(lián)是學(xué)習(xí)可推廣的3D實例分割模型的有效監(jiān)督。我們遵循掩碼預(yù)測范式來訓(xùn)練分割模型,該模型通過匈牙利匹配將GT 實例與預(yù)測的掩碼匹配。具體而言,第i個預(yù)測掩碼與第j個GT實例之間的匹配成本計算為:
在匹配掩碼和GT之后,使用掩碼和語義損失的組合來訓(xùn)練模型。具體來說,所有三種類型的關(guān)聯(lián)都用于在語義上監(jiān)督模型。對于每個關(guān)聯(lián),我們按照使用focal loss和dice loss的組合,這可以確保獨立生成每個類別的分割結(jié)果。第j個GT掩碼的語義多模態(tài)關(guān)聯(lián)損失為:
訓(xùn)練損失匯總?cè)缦拢?/p>
推論:在推理過程中,我們將CLIP的視覺特征與預(yù)測的掩碼特征相結(jié)合,以獲得更好的泛化能力。具體地,在獲得3D掩模之后,在掩模內(nèi)匯集每點CLIP特征。然后將合并的CLIP特征和掩碼特征饋送到分類器中,以獲得各自的分類概率,并通過它們之間的軟幾何平均值得出最終概率:
實驗
基準:我們主要將SOLE與OV-3DIS的兩個現(xiàn)有工作流進行比較:類劃分方法和掩碼訓(xùn)練方法。類劃分方法將訓(xùn)練類別劃分為基本類別和新穎類別。所有遮罩標注和基本類別標簽都用于訓(xùn)練模型。與這些方法相比,我們只在掩碼注釋上訓(xùn)練我們的模型,并在拆分的小說類別上與它們進行比較。掩碼訓(xùn)練方法使用掩碼注釋訓(xùn)練類不可知的掩碼生成器,并使用2D基礎(chǔ)模型獲得語義預(yù)測。mask訓(xùn)練方法的設(shè)置與我們的相似,我們直接在所有類別上與他們進行比較。
閉集3D實例分割方法比較:相關(guān)結(jié)果匯總在表1和表2。
分層跨域開放集3DIS:相關(guān)結(jié)果匯總在表3和表4。
消融實驗見表5和表6:
可視化見下圖:
結(jié)論
本文提出了一種新的框架SOLE,用于自由形式語言指令的開放詞匯三維實例分割。SOLE包含一個多模態(tài)融合網(wǎng)絡(luò),并由三種類型的多模態(tài)關(guān)聯(lián)進行監(jiān)督,旨在使模型與各種自由形式的語言指令保持一致。我們的框架在三個基準上以很大的優(yōu)勢優(yōu)于以前的方法,同時與完全監(jiān)督的框架實現(xiàn)了有競爭力的性能。此外,大量的定性結(jié)果證明了我們的SOLE對語言指令的通用性。