單圖就能解鎖全景視角!北大/港中文/騰訊等推出ViewCrafter | 已開源
隨便給張圖就能從更多視角查看全景了?!
話不多說,先看一波效果,單視角輸入be like:
難度升級,接下來換成雙視角,看起來銜接也非常絲滑。
以上來自ViewCrafter,由北大、港中文、騰訊等機(jī)構(gòu)的研究人員提出,可以從單張或稀疏輸入圖像生成精確相機(jī)可控的新視角視頻。
還支持場景級文生3D、圖生3D、以及稀疏視角重建等應(yīng)用。
目前論文和代碼均已開源,并提供了在線Huggingface demo供用戶使用。
ViewCrafter:一種新視角生成方法
傳統(tǒng)的新視角生成方法,如NeRF和3D-GS等技術(shù),存在一個痛點:
依賴于密集的多視角訓(xùn)練數(shù)據(jù)
這限制了它們在僅有稀疏(輸入圖像數(shù)量有限,不能提供完整視角或詳盡場景信息)甚至單張輸入視角的情況下的應(yīng)用。
同時,傳統(tǒng)方法對訓(xùn)練資源的需求較高,且不具備泛化能力,這限制了它們在訓(xùn)練資源受限場景下的應(yīng)用。
因此,ViewCrafter最終想實現(xiàn):
從稀疏視角圖像甚至單張輸入圖像中生成任意規(guī)模場景的新視角。
這需要模型對3D物理世界有全面的理解。
接下來一起康康具體咋實現(xiàn)的。
概括而言,ViewCrafter是基于點云先驗的可控視角視頻生成。
首先,快速多視圖/單視圖stereo技術(shù)的發(fā)展,使得從單張或稀疏圖像中快速重建點云表征成為可能。
點云表征能夠提供3D場景的粗略信息,支持精確的相機(jī)位置控制以實現(xiàn)自由視角渲染。
然而,由于點云的表示能力較弱,加之極其稀疏的輸入圖像只能提供有限的3D線索,重建出的點云存在大面積的遮擋和缺失區(qū)域,并可能面臨幾何形變和點云噪聲。
這些問題限制了其在新視角合成上的應(yīng)用。
與此同時,在大規(guī)模視頻數(shù)據(jù)集上訓(xùn)練的視頻擴(kuò)散模型能夠深入理解3D物理世界,支持從單張圖像或文本提示中生成符合物理規(guī)律和現(xiàn)實世界規(guī)則的視頻內(nèi)容。
然而,現(xiàn)有的視頻擴(kuò)散模型缺乏顯式的場景3D信息,因此在視頻生成過程中難以實現(xiàn)精確的相機(jī)視角控制。
針對這些優(yōu)缺點,團(tuán)隊提出將視頻擴(kuò)散模型的生成能力與點云表征提供的顯式3D先驗相結(jié)合,以實現(xiàn)相機(jī)精準(zhǔn)可控的任意場景高保真度新視角視頻生成。
具體而言,給定單張或稀疏視角輸入圖像,團(tuán)隊首先使用快速多視圖stereo方法構(gòu)建其點云表征,以實現(xiàn)精準(zhǔn)地移動相機(jī)進(jìn)行自由視角渲染。
隨后,為了解決點云渲染結(jié)果中存在的大面積缺失區(qū)域、幾何失真和點云偽影,團(tuán)隊訓(xùn)練了一個以點云渲染結(jié)果為控制信號的視頻擴(kuò)散模型作為增強(qiáng)渲染器。
這一渲染器能在粗糙的點云渲染結(jié)果的基礎(chǔ)上進(jìn)一步生成具有高保真度和3D一致性的新視角。
通過結(jié)合點云提供的顯式3D信息以及視頻擴(kuò)散模型的強(qiáng)大生成能力,新方法能夠在視頻生成過程中實現(xiàn)6自由度的精準(zhǔn)相機(jī)位姿控制,并生成高保真度、一致性強(qiáng)的新視角視頻。
△相機(jī)軌跡規(guī)劃算法
此外,現(xiàn)有的視頻擴(kuò)散模型難以生成長視頻,因為長視頻推理會造成巨大的計算開銷。
為了解決這一問題,研究采用了一種迭代式的新視角生成策略,并提出了一種內(nèi)容自適應(yīng)的像機(jī)軌跡規(guī)劃算法,以逐步擴(kuò)展新視角覆蓋的區(qū)域和重建的點云。
具體來說,從初始輸入圖像構(gòu)建的點云開始,團(tuán)隊首先利用相機(jī)軌跡規(guī)劃算法,從當(dāng)前點云預(yù)測一段相機(jī)軌跡,以有效揭示遮擋和確實區(qū)域。
接著,團(tuán)隊根據(jù)預(yù)測的軌跡渲染點云,并利用ViewCrafter根據(jù)渲染的點云生成高質(zhì)量的新視角。
隨后利用生成的新視角更新點云,以擴(kuò)展全局點云表征。
通過迭代執(zhí)行這些步驟,最終可以獲得覆蓋大視場范圍和擴(kuò)展點云的高保真新視圖,并支持高斯重建等下游任務(wù)。
具體應(yīng)用上,基于ViewCrafter和提出的迭代式新視角生成算法,可以從單張圖像/稀疏視角甚至一段文字描述中進(jìn)行3D高斯重建,以支持實時渲染和沉浸式3D體驗。
對比實驗
團(tuán)隊從多個角度對比了新方法。
從新視角生成來看,團(tuán)隊在Tanks-and-Temples,CO3D, RealEstate10K這三個真實世界數(shù)據(jù)集上與SOTA方法進(jìn)行了定量和定性比較。
實驗結(jié)果證明,ViewCrafter在相機(jī)位姿控制的精準(zhǔn)程度,以及生成新視角的視覺質(zhì)量上都優(yōu)于對比方法。
在場景重建方面,團(tuán)隊在Tanks-and-Temples數(shù)據(jù)集上與稀疏視角重建領(lǐng)域的SOTA方法進(jìn)行了定量和定性比較。
結(jié)果證明,ViewCrafter在3D高斯重建渲染出的新視角的視覺質(zhì)量上也超過了對比方法。
文生3D結(jié)果如下。左邊顯示了文本提示以及文生圖效果,后面是最終的3D效果。
當(dāng)然,團(tuán)隊也進(jìn)行了消融實驗。
比如利用點云先驗作為視頻擴(kuò)散模型控制信號的有效性。
具體而言,一些同期工作采用普呂克坐標(biāo)作為視頻生成模型的控制信號,以實現(xiàn)相機(jī)可控的新視角生成。
作為對比,為了驗證點云控制信號的優(yōu)越性,團(tuán)隊訓(xùn)練了一個以普呂克坐標(biāo)為控制信號的新視角生成模型,并進(jìn)行控制變量實驗,保證除了控制信號外其他模型結(jié)構(gòu)與ViewCrafter一致。
兩個模型在新視角生成任務(wù)上對比結(jié)果如下所示:
實驗結(jié)果證明,不管是在新視角生成質(zhì)量還是在相機(jī)控制的精準(zhǔn)程度上,團(tuán)隊使用的基于點云的控制信號都要優(yōu)于基于普呂克坐標(biāo)的控制信號。
另外,團(tuán)隊驗證了模型對粗糙點云的魯棒性。
如圖所示,對于作為控制信號的點云具有嚴(yán)重幾何形變的情況,模型依然能夠有效地進(jìn)行幾何糾錯和空洞修補(bǔ)。
這證明了新方法對點云控制信號的魯棒性。
概括下來,團(tuán)隊驗證了ViewCrafter對于靜態(tài)場景的強(qiáng)大新視角生成能力。
接下來,團(tuán)隊計劃探索和單目視頻深度估計方法結(jié)合,實現(xiàn)單目動態(tài)視頻的新視角生成和4D重建。
更多細(xì)節(jié)歡迎查閱原論文。
GitHub:https://github.com/Drexubery/ViewCrafter
項目主頁:https://drexubery.github.io/ViewCrafter/
論文:https://arxiv.org/abs/2409.02048
Huggingface Demo:https://huggingface.co/spaces/Doubiiu/ViewCrafter