CVPR最佳論文候選 | NeRF新突破,用啟發(fā)式引導分割去除瞬態(tài)干擾物,無需額外先驗知識
本文經(jīng)計算機視覺研究院公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
- 論文鏈接:https://arxiv.org/abs/2403.17537
- 項目鏈接:https://www.sysu-hcp.net/projects/cv/132.html
論文第一作者為中山大學計算機學院研二碩士生陳家豪,研究方向為神經(jīng)渲染和三維重建,導師為李冠彬教授。該論文是他的第一個工作。論文通訊作者為中山大學計算機學院、人機物智能融合實驗室李冠彬教授,博士生導師,國家優(yōu)秀青年基金獲得者。團隊主要研究領域為視覺感知、場景建模、理解與生成。迄今為止累計發(fā)表 CCF A 類 / 中科院一區(qū)論文 150 余篇,Google Scholar 引用超過 12000 次,曾獲得吳文俊人工智能優(yōu)秀青年獎等榮譽。
自被提出以來,神經(jīng)輻射場(Neural Radiance Fields, NeRF)因其在新視角合成及三維重建中的出色表現(xiàn)而受到極大關注。
雖然大量工作都在嘗試改進 NeRF 的渲染質(zhì)量或運行速度,但一個現(xiàn)實的問題很少被人提及:如果待建模場景中出現(xiàn)了意想不到的瞬態(tài)干擾物,我們應該如何消除它們對 NeRF 造成的影響?
本文中,來自中山大學、卡迪夫大學、賓夕法尼亞大學和思謀科技的研究人員對此展開了深入研究,并提出了一種解決該問題的新穎范式。
通過總結(jié)現(xiàn)有方法的優(yōu)勢缺陷、拓寬已有技術(shù)的應用思路,該方法不僅可以在各類場景中準確區(qū)分靜瞬態(tài)元素、提高 NeRF 的渲染質(zhì)量,還入圍了 CVPR 2024 最佳論文候選。
讓我們一起來了解下這項工作。
背景介紹
新視角合成是計算機視覺和圖形學的一個重要任務,算法模型需要利用給定的多視角圖像及相機位姿來生成目標位姿對應的圖像。NeRF 在該任務上取得了重要突破,但其有效性與靜態(tài)場景的假設有關。
具體來說,NeRF 要求待建模場景在拍攝過程中保持靜止、多視角圖像內(nèi)容必須一致。在現(xiàn)實中,我們很難滿足這種要求,例如在戶外拍攝時場景以外的車輛或路人可能會在鏡頭中隨機出現(xiàn)移動,在室內(nèi)拍攝時某個物體或陰影會不經(jīng)意間遮擋鏡頭。我們把這類場景以外的表現(xiàn)出運動或不一致的元素稱為瞬態(tài)干擾物(Transient Distractors)。如果我們不能消除它們,它們會給 NeRF 的渲染結(jié)果帶來偽影。
瞬態(tài)干擾物(黃色方框)的存在會導致大量偽影。
目前解決瞬態(tài)干擾物問題的方法大致可分為兩種。第一種方法使用語義分割等已有分割模型顯式地得到與干擾物有關的掩膜,然后在訓練 NeRF 時屏蔽對應像素。雖然這類方法可以得到精確的分割結(jié)果,但它們并不通用。這是因為我們需要提前得知與干擾物有關的先驗知識(如物體類別、初始掩膜等)、并且模型可以識別這些干擾物。
與第一種方法不同,第二種方法在訓練 NeRF 時使用啟發(fā)式算法隱式地處理瞬態(tài)干擾物,不要求先驗知識。雖然這類方法更加通用,但它們因設計復雜性和高度不適定性而無法準確分離瞬態(tài)干擾物和靜態(tài)場景元素。例如,由于瞬態(tài)像素對應的顏色紋理在不同視角下不一致,在訓練 NeRF 時該像素的預測值和真值之間的顏色殘差往往大于靜態(tài)像素的殘差。然而,場景中的高頻靜態(tài)細節(jié)也會因難以擬合而有過大的殘差,因此一些通過設置殘差閾值來去除瞬態(tài)干擾物的方法很容易丟失高頻靜態(tài)細節(jié)。
現(xiàn)有方法與本文提出的啟發(fā)式引導分割(HuGS)之間的比較。當靜態(tài)場景被瞬態(tài)干擾物干擾時,(a)基于分割的方法依賴先驗知識,會因無法識別意料之外的瞬態(tài)物體(例如比薩)而出現(xiàn)相關偽影;(b)基于啟發(fā)式的方法更具通用性但不夠準確(例如丟失了高頻靜態(tài)桌布紋理);(c)HuGS 結(jié)合了它們的優(yōu)點,能夠精確地分離瞬態(tài)干擾物和靜態(tài)場景元素,從而顯著改善 NeRF 的結(jié)果。
方法概述
基于分割模型的方法準確但不通用、基于啟發(fā)式算法的方法通用但不準確,那么是否可以把它們結(jié)合起來揚長補短、做到既準確又通用呢?
因此,論文作者以「horses for courses」為動機,提出了一種名為啟發(fā)式引導分割(Heuristics-Guided Segmentation, HuGS)的新穎范式。通過巧妙結(jié)合手工設計的啟發(fā)式算法和由提示驅(qū)動的分割模型,HuGS 可以在沒有額外先驗知識的情況下準確區(qū)分場景中的瞬態(tài)干擾物和靜態(tài)元素。
具體來說,HuGS 首先使用啟發(fā)式算法大致區(qū)分多視角圖像中的靜瞬態(tài)元素并輸出粗糙提示,然后使用粗糙提示引導分割模型生成更加精確的分割掩膜。在訓練 NeRF 時,這些掩膜會被用來屏蔽瞬態(tài)像素、消除瞬態(tài)干擾物對 NeRF 的影響。
HuGS 設計思路。
在具體實現(xiàn)上,論文作者選用 Segment Anything Model (SAM) 作為 HuGS 的分割模型。SAM 是當前最先進的基于提示驅(qū)動的分割模型,可以接受點、框、掩膜等不同類型的提示輸入并輸出對應的實例分割掩膜。
至于啟發(fā)式算法,作者在深入分析后提出了一種組合啟發(fā)式:基于 Structure-from-Motion (SfM) 的啟發(fā)式被用于捕獲場景的高頻靜態(tài)細節(jié),而基于顏色殘差的啟發(fā)式被用于捕獲低頻靜態(tài)細節(jié)。兩種啟發(fā)式算法輸出的粗糙靜態(tài)掩膜互不相同,而它們的并集會被用來引導 SAM 得到更加準確的靜態(tài)掩膜。通過無縫結(jié)合這兩種啟發(fā)式算法,HuGS 在面對不同紋理細節(jié)時可以穩(wěn)健地識別各類靜態(tài)元素。
HuGS 流程圖。(a) 給定帶有瞬態(tài)干擾物的靜態(tài)場景下的無序多視角圖像,HuGS 首先獲得兩種啟發(fā)式信息。(b) 基于 SfM 的啟發(fā)式算法通過 SfM 來獲取區(qū)分靜態(tài)特征點和瞬態(tài)特征點,然后使用稀疏的靜態(tài)特征點作為提示引導 SAM 生成稠密的靜態(tài)掩膜。(c) 基于顏色殘差的啟發(fā)式算法依賴于部分訓練(即只經(jīng)過數(shù)千次迭代訓練)的 NeRF。其預測圖像和真實圖像之間的顏色殘差可以用于生成另一組靜態(tài)掩膜。(d) 兩種不同掩膜的結(jié)合最終引導 SAM 生成 (e) 每個圖像的準確靜態(tài)掩膜。
基于 SfM 的啟發(fā)式算法
SfM 是一種從二維圖像重建三維結(jié)構(gòu)的技術(shù)。在提取圖像的二維特征后,SfM 會對特征進行匹配和幾何驗證、重建稀疏三維點云。SfM 在 NeRF 中常被用于估計圖像相機位姿,而論文作者發(fā)現(xiàn) SfM 還可以被用來區(qū)分場景的靜瞬態(tài)元素。設某個二維特征點的匹配數(shù)量為與其對應相同三維點云點的其他二維特征點數(shù)量,那么來自靜態(tài)區(qū)域的二維特征點的匹配數(shù)量要大于來自瞬態(tài)區(qū)域的特征點匹配數(shù)量。
基于該發(fā)現(xiàn),我們可以在匹配數(shù)量上設置閾值來過濾得到靜態(tài)特征點,再通過 SAM 將靜態(tài)特征點轉(zhuǎn)換為靜態(tài)掩膜。為了驗證該發(fā)現(xiàn)的正確性,論文作者在 Kubric 數(shù)據(jù)集上進行了統(tǒng)計。正如下圖所示,不同圖像區(qū)域的特征點匹配數(shù)量有顯著的差異。另一個可視化結(jié)果表明合理的閾值設置可以在去除瞬態(tài)特征點的同時保留靜態(tài)特征點。
左圖為來自不同圖像區(qū)域的特征點在匹配數(shù)量上的數(shù)量分布直方圖,其中靜態(tài)區(qū)域特征點的匹配數(shù)量均勻分布在 [0,200] 區(qū)間內(nèi),而瞬態(tài)區(qū)域特征點的匹配數(shù)量趨近于 0、集中分布在 [0,10] 區(qū)間內(nèi)。右圖為經(jīng)過過濾后不同圖像區(qū)域的剩余特征點密度隨閾值變化的曲線圖,其中整張圖像與靜態(tài)區(qū)域的剩余特征點密度隨著閾值上升呈線性下降,而瞬態(tài)區(qū)域的剩余特征點密度呈指數(shù)下降、并在閾值大于 0.2 后幾乎為 0。
兩個不同視角圖像的剩余特征點隨閾值上升而變化的可視化分布情況。位于瞬態(tài)區(qū)域內(nèi)的剩余特征點被逐漸去除,而靜態(tài)區(qū)域的大部分特征點仍被保留。
基于顏色殘差的啟發(fā)式算法
雖然基于 SfM 的啟發(fā)式在大部分場景中表現(xiàn)良好,但它無法很好地捕獲靜態(tài)平滑紋理,這是因為平滑紋理缺乏顯著特征、難以被 SfM 的特征提取算法識別。
為了能夠識別低頻紋理,論文作者引入了基于顏色殘差的啟發(fā)式算法:首先在原始多視角圖像上部分訓練 NeRF(即只迭代數(shù)千次)、得到欠擬合模型,然后獲取渲染圖像和目標圖像之間的顏色殘差。正如背景介紹所述,低頻靜態(tài)紋理區(qū)域的顏色殘差要小于其他類型區(qū)域的殘差,因此可以在顏色殘差上設置閾值獲取與低頻靜態(tài)紋理相關的粗糙掩膜。通過顏色殘差得到的掩膜可以和通過 SfM 得到的掩膜互補,形成完整結(jié)果。
兩種啟發(fā)式算法的組合,其中(a)為輸入的目標圖像,(d)為只迭代五千次的 NeRF 渲染結(jié)果。基于 SfM 的啟發(fā)式得到的靜態(tài)掩膜 (b) 在捕獲高頻靜態(tài)細節(jié)(如盒子紋理)的同時遺漏了靜態(tài)平滑部分(如白色椅背)。基于顏色殘差的啟發(fā)式得到的靜態(tài)掩膜(e)及其單獨引導 SAM 得到的分割掩膜(f)取得了相反效果。它們的并集(c)在覆蓋所有靜態(tài)元素的同時區(qū)分了瞬態(tài)干擾物(即粉色氣球)。
實驗結(jié)果
可視化結(jié)果
這里展示了 HuGS 在兩個不同真實場景下的可視化分割過程,以及基線模型 Mip-NeRF 360 在應用靜態(tài)掩膜前后的渲染結(jié)果比較。在組合啟發(fā)式算法和 SAM 的幫助下,HuGS 可以生成準確的靜態(tài)掩膜,而 Mip-NeRF 360 在應用靜態(tài)掩膜后消除了大量偽影,RGB 圖和深度圖的渲染質(zhì)量有明顯提升。
定性 / 定量渲染結(jié)果比較
這里展示了論文方法在三個數(shù)據(jù)集和兩個基線模型上的實驗結(jié)果,以及與現(xiàn)有方法的比較?,F(xiàn)有方法要么無法消除瞬態(tài)干擾物帶來的偽影,要么抹除掉過多的靜態(tài)紋理細節(jié)。相比之下,論文方法可以在有效消除偽影的同時更好地保留靜態(tài)細節(jié)。
定性 / 定量分割結(jié)果比較
論文作者同樣在 Kubric 數(shù)據(jù)集上與現(xiàn)有分割算法進行了比較。實驗結(jié)果表明,即使提供了先驗知識,語義分割、視頻分割等現(xiàn)有分割模型依然表現(xiàn)不佳,這是因為現(xiàn)有分割模型都沒有針對該任務進行設計?,F(xiàn)有基于啟發(fā)式的方法雖然可以大致定位瞬態(tài)干擾物的位置,但無法得到更加精確的分割結(jié)果。與之相比,HuGS 通過結(jié)合啟發(fā)式算法和分割模型,在沒有額外先驗知識的情況下準確分離瞬態(tài)干擾物和靜態(tài)場景元素。
消融實驗結(jié)果
論文作者還通過去除不同組件的方式來驗證各組件對 HuGS 造成的影響。結(jié)果表明,缺少基于 SfM 的啟發(fā)式的模型 (b) 無法很好地重建藍色方框中的低頻靜態(tài)紋理,而缺少基于顏色殘差的啟發(fā)式的模型 (c) 和 (d) 丟失了黃色方框中的高頻靜態(tài)細節(jié)。相比之下,完整方法 (f) 的數(shù)值指標和可視化結(jié)果最佳。
全文總結(jié)
論文提出了一種新穎的啟發(fā)式引導分割范式,有效解決了 NeRF 現(xiàn)實訓練中常見的瞬時干擾問題。通過戰(zhàn)略性地結(jié)合手工設計的啟發(fā)式和最先進的分割模型的互補優(yōu)勢,該方法在沒有任何先驗知識的情況下實現(xiàn)了對不同場景中瞬時干擾物的高度準確分割。通過精心設計的啟發(fā)式,論文方法能夠穩(wěn)健地捕捉到高頻和低頻的靜態(tài)場景元素。大量實驗證明了該方法的先進性。