NeRF新突破，用啟發(fā)式引導(dǎo)分割去除瞬態(tài)干擾物，無需額外先驗(yàn)知識

作者：計(jì)算機(jī)視覺研究院 2024-07-10 10:41:38

論文提出了一種新穎的啟發(fā)式引導(dǎo)分割范式，有效解決了 NeRF 現(xiàn)實(shí)訓(xùn)練中常見的瞬時(shí)干擾問題。

本文經(jīng)計(jì)算機(jī)視覺研究院公眾號授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請聯(lián)系出處。

論文鏈接：https://arxiv.org/abs/2403.17537
項(xiàng)目鏈接：https://www.sysu-hcp.net/projects/cv/132.html

自被提出以來，神經(jīng)輻射場（Neural Radiance Fields, NeRF）因其在新視角合成及三維重建中的出色表現(xiàn)而受到極大關(guān)注。

雖然大量工作都在嘗試改進(jìn) NeRF 的渲染質(zhì)量或運(yùn)行速度，但一個(gè)現(xiàn)實(shí)的問題很少被人提及：如果待建模場景中出現(xiàn)了意想不到的瞬態(tài)干擾物，我們應(yīng)該如何消除它們對 NeRF 造成的影響？

本文中，來自中山大學(xué)、卡迪夫大學(xué)、賓夕法尼亞大學(xué)和思謀科技的研究人員對此展開了深入研究，并提出了一種解決該問題的新穎范式。

通過總結(jié)現(xiàn)有方法的優(yōu)勢缺陷、拓寬已有技術(shù)的應(yīng)用思路，該方法不僅可以在各類場景中準(zhǔn)確區(qū)分靜瞬態(tài)元素、提高 NeRF 的渲染質(zhì)量，還入圍了 CVPR 2024 最佳論文候選。

讓我們一起來了解下這項(xiàng)工作。

背景介紹

新視角合成是計(jì)算機(jī)視覺和圖形學(xué)的一個(gè)重要任務(wù)，算法模型需要利用給定的多視角圖像及相機(jī)位姿來生成目標(biāo)位姿對應(yīng)的圖像。NeRF 在該任務(wù)上取得了重要突破，但其有效性與靜態(tài)場景的假設(shè)有關(guān)。

具體來說，NeRF 要求待建模場景在拍攝過程中保持靜止、多視角圖像內(nèi)容必須一致。在現(xiàn)實(shí)中，我們很難滿足這種要求，例如在戶外拍攝時(shí)場景以外的車輛或路人可能會(huì)在鏡頭中隨機(jī)出現(xiàn)移動(dòng)，在室內(nèi)拍攝時(shí)某個(gè)物體或陰影會(huì)不經(jīng)意間遮擋鏡頭。我們把這類場景以外的表現(xiàn)出運(yùn)動(dòng)或不一致的元素稱為瞬態(tài)干擾物（Transient Distractors）。如果我們不能消除它們，它們會(huì)給 NeRF 的渲染結(jié)果帶來偽影。

瞬態(tài)干擾物（黃色方框）的存在會(huì)導(dǎo)致大量偽影。

目前解決瞬態(tài)干擾物問題的方法大致可分為兩種。第一種方法使用語義分割等已有分割模型顯式地得到與干擾物有關(guān)的掩膜，然后在訓(xùn)練 NeRF 時(shí)屏蔽對應(yīng)像素。雖然這類方法可以得到精確的分割結(jié)果，但它們并不通用。這是因?yàn)槲覀冃枰崆暗弥c干擾物有關(guān)的先驗(yàn)知識（如物體類別、初始掩膜等）、并且模型可以識別這些干擾物。

與第一種方法不同，第二種方法在訓(xùn)練 NeRF 時(shí)使用啟發(fā)式算法隱式地處理瞬態(tài)干擾物，不要求先驗(yàn)知識。雖然這類方法更加通用，但它們因設(shè)計(jì)復(fù)雜性和高度不適定性而無法準(zhǔn)確分離瞬態(tài)干擾物和靜態(tài)場景元素。例如，由于瞬態(tài)像素對應(yīng)的顏色紋理在不同視角下不一致，在訓(xùn)練 NeRF 時(shí)該像素的預(yù)測值和真值之間的顏色殘差往往大于靜態(tài)像素的殘差。然而，場景中的高頻靜態(tài)細(xì)節(jié)也會(huì)因難以擬合而有過大的殘差，因此一些通過設(shè)置殘差閾值來去除瞬態(tài)干擾物的方法很容易丟失高頻靜態(tài)細(xì)節(jié)。

現(xiàn)有方法與本文提出的啟發(fā)式引導(dǎo)分割（HuGS）之間的比較。當(dāng)靜態(tài)場景被瞬態(tài)干擾物干擾時(shí)，（a）基于分割的方法依賴先驗(yàn)知識，會(huì)因無法識別意料之外的瞬態(tài)物體（例如比薩）而出現(xiàn)相關(guān)偽影；（b）基于啟發(fā)式的方法更具通用性但不夠準(zhǔn)確（例如丟失了高頻靜態(tài)桌布紋理）；（c）HuGS 結(jié)合了它們的優(yōu)點(diǎn)，能夠精確地分離瞬態(tài)干擾物和靜態(tài)場景元素，從而顯著改善 NeRF 的結(jié)果。

方法概述

基于分割模型的方法準(zhǔn)確但不通用、基于啟發(fā)式算法的方法通用但不準(zhǔn)確，那么是否可以把它們結(jié)合起來揚(yáng)長補(bǔ)短、做到既準(zhǔn)確又通用呢？

因此，論文作者以「horses for courses」為動(dòng)機(jī)，提出了一種名為啟發(fā)式引導(dǎo)分割（Heuristics-Guided Segmentation, HuGS）的新穎范式。通過巧妙結(jié)合手工設(shè)計(jì)的啟發(fā)式算法和由提示驅(qū)動(dòng)的分割模型，HuGS 可以在沒有額外先驗(yàn)知識的情況下準(zhǔn)確區(qū)分場景中的瞬態(tài)干擾物和靜態(tài)元素。

具體來說，HuGS 首先使用啟發(fā)式算法大致區(qū)分多視角圖像中的靜瞬態(tài)元素并輸出粗糙提示，然后使用粗糙提示引導(dǎo)分割模型生成更加精確的分割掩膜。在訓(xùn)練 NeRF 時(shí)，這些掩膜會(huì)被用來屏蔽瞬態(tài)像素、消除瞬態(tài)干擾物對 NeRF 的影響。

HuGS 設(shè)計(jì)思路。

在具體實(shí)現(xiàn)上，論文作者選用 Segment Anything Model (SAM) 作為 HuGS 的分割模型。SAM 是當(dāng)前最先進(jìn)的基于提示驅(qū)動(dòng)的分割模型，可以接受點(diǎn)、框、掩膜等不同類型的提示輸入并輸出對應(yīng)的實(shí)例分割掩膜。

至于啟發(fā)式算法，作者在深入分析后提出了一種組合啟發(fā)式：基于 Structure-from-Motion (SfM) 的啟發(fā)式被用于捕獲場景的高頻靜態(tài)細(xì)節(jié)，而基于顏色殘差的啟發(fā)式被用于捕獲低頻靜態(tài)細(xì)節(jié)。兩種啟發(fā)式算法輸出的粗糙靜態(tài)掩膜互不相同，而它們的并集會(huì)被用來引導(dǎo) SAM 得到更加準(zhǔn)確的靜態(tài)掩膜。通過無縫結(jié)合這兩種啟發(fā)式算法，HuGS 在面對不同紋理細(xì)節(jié)時(shí)可以穩(wěn)健地識別各類靜態(tài)元素。

HuGS 流程圖。(a) 給定帶有瞬態(tài)干擾物的靜態(tài)場景下的無序多視角圖像，HuGS 首先獲得兩種啟發(fā)式信息。(b) 基于 SfM 的啟發(fā)式算法通過 SfM 來獲取區(qū)分靜態(tài)特征點(diǎn)和瞬態(tài)特征點(diǎn)，然后使用稀疏的靜態(tài)特征點(diǎn)作為提示引導(dǎo) SAM 生成稠密的靜態(tài)掩膜。(c) 基于顏色殘差的啟發(fā)式算法依賴于部分訓(xùn)練（即只經(jīng)過數(shù)千次迭代訓(xùn)練）的 NeRF。其預(yù)測圖像和真實(shí)圖像之間的顏色殘差可以用于生成另一組靜態(tài)掩膜。(d) 兩種不同掩膜的結(jié)合最終引導(dǎo) SAM 生成 (e) 每個(gè)圖像的準(zhǔn)確靜態(tài)掩膜。

基于 SfM 的啟發(fā)式算法

SfM 是一種從二維圖像重建三維結(jié)構(gòu)的技術(shù)。在提取圖像的二維特征后，SfM 會(huì)對特征進(jìn)行匹配和幾何驗(yàn)證、重建稀疏三維點(diǎn)云。SfM 在 NeRF 中常被用于估計(jì)圖像相機(jī)位姿，而論文作者發(fā)現(xiàn) SfM 還可以被用來區(qū)分場景的靜瞬態(tài)元素。設(shè)某個(gè)二維特征點(diǎn)的匹配數(shù)量為與其對應(yīng)相同三維點(diǎn)云點(diǎn)的其他二維特征點(diǎn)數(shù)量，那么來自靜態(tài)區(qū)域的二維特征點(diǎn)的匹配數(shù)量要大于來自瞬態(tài)區(qū)域的特征點(diǎn)匹配數(shù)量。

基于該發(fā)現(xiàn)，我們可以在匹配數(shù)量上設(shè)置閾值來過濾得到靜態(tài)特征點(diǎn)，再通過 SAM 將靜態(tài)特征點(diǎn)轉(zhuǎn)換為靜態(tài)掩膜。為了驗(yàn)證該發(fā)現(xiàn)的正確性，論文作者在 Kubric 數(shù)據(jù)集上進(jìn)行了統(tǒng)計(jì)。正如下圖所示，不同圖像區(qū)域的特征點(diǎn)匹配數(shù)量有顯著的差異。另一個(gè)可視化結(jié)果表明合理的閾值設(shè)置可以在去除瞬態(tài)特征點(diǎn)的同時(shí)保留靜態(tài)特征點(diǎn)。

左圖為來自不同圖像區(qū)域的特征點(diǎn)在匹配數(shù)量上的數(shù)量分布直方圖，其中靜態(tài)區(qū)域特征點(diǎn)的匹配數(shù)量均勻分布在 [0,200] 區(qū)間內(nèi)，而瞬態(tài)區(qū)域特征點(diǎn)的匹配數(shù)量趨近于 0、集中分布在 [0,10] 區(qū)間內(nèi)。右圖為經(jīng)過過濾后不同圖像區(qū)域的剩余特征點(diǎn)密度隨閾值變化的曲線圖，其中整張圖像與靜態(tài)區(qū)域的剩余特征點(diǎn)密度隨著閾值上升呈線性下降，而瞬態(tài)區(qū)域的剩余特征點(diǎn)密度呈指數(shù)下降、并在閾值大于 0.2 后幾乎為 0。

兩個(gè)不同視角圖像的剩余特征點(diǎn)隨閾值上升而變化的可視化分布情況。位于瞬態(tài)區(qū)域內(nèi)的剩余特征點(diǎn)被逐漸去除，而靜態(tài)區(qū)域的大部分特征點(diǎn)仍被保留。

基于顏色殘差的啟發(fā)式算法

雖然基于 SfM 的啟發(fā)式在大部分場景中表現(xiàn)良好，但它無法很好地捕獲靜態(tài)平滑紋理，這是因?yàn)槠交y理缺乏顯著特征、難以被 SfM 的特征提取算法識別。

為了能夠識別低頻紋理，論文作者引入了基于顏色殘差的啟發(fā)式算法：首先在原始多視角圖像上部分訓(xùn)練 NeRF（即只迭代數(shù)千次）、得到欠擬合模型，然后獲取渲染圖像和目標(biāo)圖像之間的顏色殘差。正如背景介紹所述，低頻靜態(tài)紋理區(qū)域的顏色殘差要小于其他類型區(qū)域的殘差，因此可以在顏色殘差上設(shè)置閾值獲取與低頻靜態(tài)紋理相關(guān)的粗糙掩膜。通過顏色殘差得到的掩膜可以和通過 SfM 得到的掩膜互補(bǔ)，形成完整結(jié)果。

兩種啟發(fā)式算法的組合，其中（a）為輸入的目標(biāo)圖像，（d）為只迭代五千次的 NeRF 渲染結(jié)果?；?SfM 的啟發(fā)式得到的靜態(tài)掩膜 (b) 在捕獲高頻靜態(tài)細(xì)節(jié)（如盒子紋理）的同時(shí)遺漏了靜態(tài)平滑部分（如白色椅背）。基于顏色殘差的啟發(fā)式得到的靜態(tài)掩膜（e）及其單獨(dú)引導(dǎo) SAM 得到的分割掩膜（f）取得了相反效果。它們的并集（c）在覆蓋所有靜態(tài)元素的同時(shí)區(qū)分了瞬態(tài)干擾物（即粉色氣球）。

實(shí)驗(yàn)結(jié)果

可視化結(jié)果

這里展示了 HuGS 在兩個(gè)不同真實(shí)場景下的可視化分割過程，以及基線模型 Mip-NeRF 360 在應(yīng)用靜態(tài)掩膜前后的渲染結(jié)果比較。在組合啟發(fā)式算法和 SAM 的幫助下，HuGS 可以生成準(zhǔn)確的靜態(tài)掩膜，而 Mip-NeRF 360 在應(yīng)用靜態(tài)掩膜后消除了大量偽影，RGB 圖和深度圖的渲染質(zhì)量有明顯提升。

定性 / 定量渲染結(jié)果比較

這里展示了論文方法在三個(gè)數(shù)據(jù)集和兩個(gè)基線模型上的實(shí)驗(yàn)結(jié)果，以及與現(xiàn)有方法的比較。現(xiàn)有方法要么無法消除瞬態(tài)干擾物帶來的偽影，要么抹除掉過多的靜態(tài)紋理細(xì)節(jié)。相比之下，論文方法可以在有效消除偽影的同時(shí)更好地保留靜態(tài)細(xì)節(jié)。

定性 / 定量分割結(jié)果比較

論文作者同樣在 Kubric 數(shù)據(jù)集上與現(xiàn)有分割算法進(jìn)行了比較。實(shí)驗(yàn)結(jié)果表明，即使提供了先驗(yàn)知識，語義分割、視頻分割等現(xiàn)有分割模型依然表現(xiàn)不佳，這是因?yàn)楝F(xiàn)有分割模型都沒有針對該任務(wù)進(jìn)行設(shè)計(jì)。現(xiàn)有基于啟發(fā)式的方法雖然可以大致定位瞬態(tài)干擾物的位置，但無法得到更加精確的分割結(jié)果。與之相比，HuGS 通過結(jié)合啟發(fā)式算法和分割模型，在沒有額外先驗(yàn)知識的情況下準(zhǔn)確分離瞬態(tài)干擾物和靜態(tài)場景元素。

消融實(shí)驗(yàn)結(jié)果

論文作者還通過去除不同組件的方式來驗(yàn)證各組件對 HuGS 造成的影響。結(jié)果表明，缺少基于 SfM 的啟發(fā)式的模型 (b) 無法很好地重建藍(lán)色方框中的低頻靜態(tài)紋理，而缺少基于顏色殘差的啟發(fā)式的模型 (c) 和 (d) 丟失了黃色方框中的高頻靜態(tài)細(xì)節(jié)。相比之下，完整方法 (f) 的數(shù)值指標(biāo)和可視化結(jié)果最佳。

全文總結(jié)

論文提出了一種新穎的啟發(fā)式引導(dǎo)分割范式，有效解決了 NeRF 現(xiàn)實(shí)訓(xùn)練中常見的瞬時(shí)干擾問題。通過戰(zhàn)略性地結(jié)合手工設(shè)計(jì)的啟發(fā)式和最先進(jìn)的分割模型的互補(bǔ)優(yōu)勢，該方法在沒有任何先驗(yàn)知識的情況下實(shí)現(xiàn)了對不同場景中瞬時(shí)干擾物的高度準(zhǔn)確分割。通過精心設(shè)計(jì)的啟發(fā)式，論文方法能夠穩(wěn)健地捕捉到高頻和低頻的靜態(tài)場景元素。大量實(shí)驗(yàn)證明了該方法的先進(jìn)性。

責(zé)任編輯：張燕妮來源：計(jì)算機(jī)視覺研究院