CVPR 24|ETH Zurich等團(tuán)隊(duì):重新定義小樣本3D分割任務(wù),新基準(zhǔn)開(kāi)啟廣闊提升潛力!
該文章的第一作者安照崇,目前在哥本哈根大學(xué)攻讀博士學(xué)位,導(dǎo)師為Serge Belongie。他碩士畢業(yè)于蘇黎世聯(lián)邦理工學(xué)院(ETH Zurich),在碩士期間,他在導(dǎo)師Luc Van Gool的實(shí)驗(yàn)室中參與了多個(gè)研究項(xiàng)目。他的主要研究方向包括場(chǎng)景理解、小樣本學(xué)習(xí)以及多模態(tài)學(xué)習(xí)。
3D場(chǎng)景理解讓人形機(jī)器人「看得見(jiàn)」周身場(chǎng)景,使汽車(chē)自動(dòng)駕駛功能能夠?qū)崟r(shí)感知行駛過(guò)程中可能出現(xiàn)的情形,從而做出更加智能化的行為和反應(yīng)。而這一切需要大量3D場(chǎng)景的詳細(xì)標(biāo)注,從而急劇提升時(shí)間成本和資源投入。
最近,ETH Zurich等團(tuán)隊(duì)提出了一種Few-shot學(xué)習(xí)方法,大大改善了這一局限性,并重新審視了目前的FS-PCS任務(wù),在3D場(chǎng)景感知領(lǐng)域引入全新的benchmark,為未來(lái)的模型設(shè)計(jì)與開(kāi)發(fā)開(kāi)創(chuàng)了新局面。
- 論文鏈接: https://arxiv.org/abs/2403.00592
- 代碼鏈接: https://github.com/ZhaochongAn/COSeg
3D Few-shot分割結(jié)果示例
技術(shù)背景
3D場(chǎng)景理解在自動(dòng)駕駛、智能機(jī)器人等領(lǐng)域扮演著至關(guān)重要的角色,它使設(shè)備能夠感知并理解周?chē)娜S世界。盡管傳統(tǒng)的全監(jiān)督學(xué)習(xí)模型在特定類別的識(shí)別上表現(xiàn)出色,但這些模型通常只限于識(shí)別這些預(yù)定義的類別。這就意味著,每當(dāng)需要識(shí)別新的對(duì)象類別時(shí),就必須收集大量的3D場(chǎng)景數(shù)據(jù)并進(jìn)行詳細(xì)標(biāo)注,這一過(guò)程不僅耗時(shí)耗力,還極大限制了全監(jiān)督模型在真實(shí)世界中的應(yīng)用廣度和靈活性。
然而,借助Few-shot學(xué)習(xí)方法,這一局面得到了顯著改善。Few-shot學(xué)習(xí)是一種需要極少標(biāo)注樣本就能迅速適應(yīng)新類別的技術(shù)。這意味著模型可以通過(guò)少量的示例迅速學(xué)習(xí)和適應(yīng)新的環(huán)境,大大降低了數(shù)據(jù)收集和處理的成本。這種快速、靈活的學(xué)習(xí)方式,使得3D場(chǎng)景理解技術(shù)更加適應(yīng)快速變化的現(xiàn)實(shí)世界,為各種應(yīng)用場(chǎng)景如自動(dòng)駕駛和高級(jí)機(jī)器人系統(tǒng)打開(kāi)了新的可能性。因此,研究Few-shot 3D模型能有效推動(dòng)很多重要任務(wù)在更廣闊世界的實(shí)際應(yīng)用。
特別的,對(duì)于Few-shot 3D point cloud semantic segmentation(FS-PCS)任務(wù),模型的輸入包括support point cloud以及關(guān)于新類別的標(biāo)注(support mask)和query point cloud。模型需要通過(guò)利用support point cloud和support mask獲得關(guān)于新類別的知識(shí)并應(yīng)用于分割query point cloud,預(yù)測(cè)出這些新類別的標(biāo)簽。在模型訓(xùn)練和測(cè)試時(shí)使用的目標(biāo)類別無(wú)重合,以保證測(cè)試時(shí)使用的類均為新類,未被模型在訓(xùn)練時(shí)見(jiàn)過(guò)。
任務(wù)的重新審視與改正
圖1. 兩個(gè)場(chǎng)景的可視化(前景類分別為door和board)
表1. 存在(w/FG)和不存在前景泄露(w/o FG)時(shí)過(guò)往模型的性能比較
該文章重新審視了當(dāng)前FS-PCS任務(wù)。發(fā)現(xiàn)當(dāng)前的任務(wù)setting具有兩個(gè)顯著的問(wèn)題:
- 第一個(gè)問(wèn)題是前景泄漏:3D任務(wù)通常將場(chǎng)景點(diǎn)云中的密集點(diǎn)均勻采樣后作為模型的輸入。然而FS-PCS采用的采樣方法并非均勻采樣,而是會(huì)對(duì)目標(biāo)類別(前景區(qū)域)采樣更多的點(diǎn),對(duì)非目標(biāo)區(qū)域(背景區(qū)域)采樣更少的點(diǎn),這樣得到的輸入點(diǎn)云會(huì)在前景有更密集的點(diǎn)分布,導(dǎo)致了前景泄露問(wèn)題。如圖1所示,第四和第六列的輸入點(diǎn)云來(lái)自于當(dāng)前的有偏采樣,在前景區(qū)域(door或board)展示出比背景更密集的點(diǎn)分布,而第三和第五列的輸入使用改正后的一致性采樣,展示出了均勻的點(diǎn)密度分布。該問(wèn)題使得新類的信息被點(diǎn)云的密度分布所泄漏,從而允許模型簡(jiǎn)單的利用輸入點(diǎn)云中的密度差異,預(yù)測(cè)更密集的區(qū)域?yàn)榍熬熬涂梢詫?shí)現(xiàn)良好的few-shot性能,而非依賴于學(xué)習(xí)從support到query的知識(shí)轉(zhuǎn)移能力。因此當(dāng)前的評(píng)價(jià)benchmark無(wú)法反映過(guò)往模型的真實(shí)性能。如表1所示,將當(dāng)前setting中的前景泄露改正后,過(guò)往模型展示出了大的性能下降,表明了過(guò)往模型極大的依賴于密度的差異來(lái)實(shí)現(xiàn)看似優(yōu)越的few-shot性能。
- 第二個(gè)問(wèn)題是稀疏點(diǎn)分布:當(dāng)前的setting僅從場(chǎng)景中采樣2048個(gè)點(diǎn)作為模型在訓(xùn)練和測(cè)試時(shí)的輸入,這樣稀疏的點(diǎn)分布嚴(yán)重限制了輸入場(chǎng)景的語(yǔ)義清晰度。如圖1所示,在第一行第五列中,人類肉眼都難以區(qū)分出區(qū)域中的語(yǔ)義類別door和周?chē)念悇ewall。對(duì)第二行也同樣很困難來(lái)區(qū)分目標(biāo)區(qū)域?yàn)閎oard類或是其他的類別如window。這些稀疏的輸入點(diǎn)云有非常受限的語(yǔ)義信息,引入了顯著的歧義性,限制了模型有效挖掘場(chǎng)景中語(yǔ)義的能力。
因此,為了改正這些問(wèn)題,作者提出了一個(gè)新的setting來(lái)標(biāo)準(zhǔn)化FS-PCS任務(wù),采用均勻采樣并增加采樣點(diǎn)數(shù)10倍到20480點(diǎn)。如圖1中第三列所示,新setting下的輸入有一致性的點(diǎn)的分布和更清晰的語(yǔ)義信息,使得該任務(wù)更加貼近于真實(shí)的應(yīng)用場(chǎng)景。
新的模型COSeg
在新改正的setting下,作者引入了一個(gè)新的模型叫做Correlation Optimization Segmentation(COSeg)。過(guò)往的方法都基于特征優(yōu)化范式,側(cè)重于優(yōu)化support或者query的特征,并將改進(jìn)后的特征輸入到無(wú)參的預(yù)測(cè)模塊獲得預(yù)測(cè)結(jié)果,可看作隱式的建模support和query間的correlations。相反,沒(méi)有注重于優(yōu)化特征,文中提出了correlation優(yōu)化范式,直接將support和query間的correlations輸入到有參的模塊中,顯式的優(yōu)化correlations,允許模型直接塑造query和support間的關(guān)系,增強(qiáng)了模型的泛化能力。
圖2. COSeg架構(gòu)
在COSeg中,首先對(duì)每個(gè)query點(diǎn)計(jì)算與support prototypes間的Class-specific Multi-prototypical Correlation簡(jiǎn)稱為CMC,表示每個(gè)點(diǎn)和所有類別prototypes之間的關(guān)系。隨后將CMC輸入到后續(xù)的Hyper Correlation Augmentation(HCA)模塊。
HCA模塊利用兩個(gè)潛在的關(guān)系來(lái)優(yōu)化correlations。第一,query點(diǎn)都是互相關(guān)聯(lián)的,因此他們對(duì)于類別prototypes間的correlations也是互相關(guān)聯(lián)的,由此可得到點(diǎn)和點(diǎn)間的關(guān)系,相對(duì)應(yīng)于HCA的前半部分對(duì)correlations在點(diǎn)維度做attention。第二,將一個(gè)query點(diǎn)分為前景或者背景類依賴于該點(diǎn)對(duì)于前景和背景prototypes之間的相對(duì)correlations,由此可得到前景和背景間的關(guān)系,相對(duì)應(yīng)于HCA的后半部分對(duì)correlations在類別維度做attention。
此外,由于few-shot模型在base類別上做訓(xùn)練,在novel類別上做測(cè)試。這些模型會(huì)容易被測(cè)試場(chǎng)景中存在的熟悉的base類別干擾,影響對(duì)于novel類別的分割。為了解決該問(wèn)題,文中提出對(duì)于base類別學(xué)習(xí)無(wú)參的prototypes(稱為base prototypes)。當(dāng)分割新類時(shí),屬于base類的query點(diǎn)應(yīng)該被預(yù)測(cè)為背景。因此,利用base prototypes,作者在HCA層內(nèi)部引入Base Prototypes Calibration(BPC)模塊來(lái)調(diào)整點(diǎn)和背景類別間的correlations,從而緩解base類帶來(lái)的干擾。
實(shí)驗(yàn)結(jié)果
表2. 新的FS-PCS benchmark
圖3. COSeg和過(guò)往最佳方法的可視化比較
文中的實(shí)驗(yàn)首先在改正后的標(biāo)準(zhǔn)setting下評(píng)測(cè)了之前的方法,創(chuàng)立了標(biāo)準(zhǔn)的benchmark,并且證明了COSeg方法的優(yōu)越性能,在各個(gè)few-shot任務(wù)中都實(shí)現(xiàn)了最佳的結(jié)果??梢暬睬宄砻髁薈OSeg實(shí)現(xiàn)了更好分割結(jié)果。此外,在文中作者也提供了廣泛的消融實(shí)驗(yàn)證明了設(shè)計(jì)的有效性和correlation優(yōu)化范式的優(yōu)越性。
總結(jié)
該文章的研究在FS-PCS領(lǐng)域的貢獻(xiàn)如下。
首先,作者確定了當(dāng)前FS-PCS setting中的兩個(gè)關(guān)鍵問(wèn)題(前景泄露和稀疏點(diǎn)分布),這兩個(gè)問(wèn)題降低了對(duì)過(guò)往方法的評(píng)價(jià)基準(zhǔn)的準(zhǔn)確性。為了解決過(guò)往setting中的問(wèn)題,文中引入了一個(gè)全新的標(biāo)準(zhǔn)化的setting以及評(píng)價(jià)benchmark。
此外,在標(biāo)準(zhǔn)化FS-PCS setting下,作者提出一個(gè)新的correlation優(yōu)化范式,顯著提高了模型在few-shot任務(wù)上的泛化性能。文中的模型COSeg融合了HCA來(lái)挖掘有效的點(diǎn)云關(guān)聯(lián)信息和BPC來(lái)進(jìn)行背景預(yù)測(cè)的調(diào)整,在所有few-shot任務(wù)上實(shí)現(xiàn)了最佳的性能。
文中改正的標(biāo)準(zhǔn)化setting開(kāi)放了更多在Few-shot 3D分割任務(wù)上提升的可能性,同時(shí)提出的新correlation優(yōu)化范式也為未來(lái)的模型設(shè)計(jì)與開(kāi)發(fā)提供了新的方向。這項(xiàng)工作作為FS-PCS領(lǐng)域的一個(gè)新基準(zhǔn),有望激勵(lì)更多研究者探索和拓展小樣本3D場(chǎng)景理解的邊界。
作為參考,以下幾點(diǎn)可以作為潛在的研究方向,以進(jìn)一步推動(dòng)該領(lǐng)域的發(fā)展:
- 在文中的新setting下,雖然COSeg實(shí)現(xiàn)了最佳性能,但仍然有很大的進(jìn)步空間,可以改進(jìn)模型以實(shí)現(xiàn)更優(yōu)的few-shot泛化:如改進(jìn)prototype的抽取方式 [1,2],改進(jìn)correlation優(yōu)化模塊 [3],對(duì)每個(gè)few-shot任務(wù)做針對(duì)性的訓(xùn)練 [4]。
- 解決Base類別干擾問(wèn)題也是影響Few-shot性能的關(guān)鍵因素,可以從訓(xùn)練或模型設(shè)計(jì)角度進(jìn)行優(yōu)化 [5,6],更好的減少Base類別的干擾。
- 提高模型的訓(xùn)練和推理效率 [7],特別是在部署到實(shí)際應(yīng)用時(shí),模型的效率也是一個(gè)關(guān)鍵考量。
總結(jié)來(lái)說(shuō),這一領(lǐng)域的前景十分廣闊,而且目前尚處于新興起步階段,對(duì)于廣大的研究者而言,無(wú)疑是一個(gè)充滿希望和機(jī)遇的研究領(lǐng)域。