自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="an3rd"></cite>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

一張圖搞定3D視效！北大提出ViewCrafter：主打一個(gè)可控生成~

作者：Wangbo Yu等 2024-09-30 09:35:55

人工智能新聞

來自北大、港中文、騰訊等機(jī)構(gòu)的研究人員提出ViewCrafter，可以從根據(jù)單張或稀疏輸入圖像生成精確相機(jī)可控的新視角視頻，并支持場(chǎng)景級(jí)圖生3D、文生3D和稀疏視角重建等應(yīng)用。

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請(qǐng)聯(lián)系出處。

論文標(biāo)題：
ViewCrafter: Taming Video Diffusion Models for High-fidelity Novel View Synthesis
論文鏈接：
https://arxiv.org/abs/2409.02048
代碼鏈接：
https://github.com/Drexubery/ViewCrafter
項(xiàng)目主頁：
https://drexubery.github.io/ViewCrafter/
Huggingface Demo：
https://huggingface.co/spaces/Doubiiu/ViewCrafter

一、研究動(dòng)機(jī)

盡管NeRF和3D-GS等新視角生成方法可以生成高保真度的新視角，但他們依賴于密集的多視角訓(xùn)練數(shù)據(jù)，且不具備泛化能力，這限制了它們?cè)谟?xùn)練資源受限場(chǎng)景下的應(yīng)用。在實(shí)際應(yīng)用中，一個(gè)更普適的問題場(chǎng)景是訓(xùn)練一個(gè)可范化的模型，在不需要訓(xùn)練或微調(diào)的情況下從稀疏視角圖像甚至單張輸入圖像中生成新視角。解決這個(gè)問題具有相當(dāng)大的挑戰(zhàn)性，因?yàn)樗枰?xùn)練的模型對(duì)3D物理世界有全面的理解。為了實(shí)現(xiàn)這個(gè)目標(biāo)，我們提出ViewCrafter，一個(gè)能夠?qū)θ我廨斎雸D像實(shí)現(xiàn)相機(jī)軌跡精確可控的新視角視頻生成的視頻擴(kuò)散模型，并基于ViewCrafter探索了圖像生成3D、文本生成3D和稀疏視角重建等應(yīng)用。

相機(jī)軌跡可控的視頻生成，單視角輸入

相機(jī)軌跡可控的視頻生成，2視角輸入。

文生3D

單圖生3D

二、方法介紹

2.1 點(diǎn)云表征

DUSt3R等快速多視圖/單視圖stereo技術(shù)的發(fā)展使得從單張或稀疏圖像中快速重建點(diǎn)云表征成為可能。點(diǎn)云表征能夠提供3D場(chǎng)景的粗略信息，支持精確的相機(jī)位置控制以實(shí)現(xiàn)自由視角渲染。然而，由于點(diǎn)云的表示能力較弱，加之極其稀疏的輸入圖像只能提供有限的3D線索，重建出的點(diǎn)云存在大面積的遮擋和缺失區(qū)域，并可能面臨幾何形變和點(diǎn)云噪聲。這些問題限制了其在新視角合成上的應(yīng)用。

點(diǎn)云渲染結(jié)果

2.2 視頻擴(kuò)散模型

在大規(guī)模視頻數(shù)據(jù)集上訓(xùn)練的視頻擴(kuò)散模型能夠深入理解3D物理世界，支持從單張圖像或文本提示中生成符合物理規(guī)律和現(xiàn)實(shí)世界規(guī)則的視頻內(nèi)容。然而，現(xiàn)有的視頻擴(kuò)散模型缺乏顯式的場(chǎng)景3D信息，因此在視頻生成過程中難以實(shí)現(xiàn)精確的相機(jī)視角控制。

2.3 ViewCrafter：基于點(diǎn)云先驗(yàn)的可控視角視頻生成

我們提出將視頻擴(kuò)散模型的生成能力與點(diǎn)云表征提供的顯式3D先驗(yàn)相結(jié)合，以實(shí)現(xiàn)相機(jī)精準(zhǔn)可控的任意場(chǎng)景高保真度新視角視頻生成。

方法流程圖

如圖所示, 給定單張或稀疏視角輸入圖像，我們首先使用快速多視圖stereo方法構(gòu)建其點(diǎn)云表征，以實(shí)現(xiàn)精準(zhǔn)地移動(dòng)相機(jī)進(jìn)行自由視角渲染。隨后，為了解決點(diǎn)云渲染結(jié)果中存在的大面積缺失區(qū)域、幾何失真和點(diǎn)云偽影，我們訓(xùn)練了一個(gè)以點(diǎn)云渲染結(jié)果為控制信號(hào)的視頻擴(kuò)散模型作為增強(qiáng)渲染器，在粗糙的點(diǎn)云渲染結(jié)果的基礎(chǔ)上進(jìn)一步生成具有高保真度和3D一致性的新視角。

視頻擴(kuò)散模型主要由三個(gè)模塊組成。我們采用一對(duì)繼承自Stable Diffusion的VAE編碼器和解碼器對(duì)點(diǎn)云渲染結(jié)果進(jìn)行壓縮，以降低模型開銷。此外，我們利用CLIP圖像編碼器處理參考圖像，以使得模型獲得對(duì)輸入圖像的語義關(guān)系的理解。模型的核心是一個(gè)去噪U(xiǎn)-Net,他接受壓縮后的點(diǎn)云渲染結(jié)果和噪聲作為輸入，將其逐步去噪成具有高保真度的新視角。在訓(xùn)練過程中，我們只訓(xùn)練去噪U(xiǎn)-Net的權(quán)重，凍結(jié)其他模塊的參數(shù)，并在RealEstate10K和DL3DV這兩個(gè)大規(guī)模多視角數(shù)據(jù)集上進(jìn)行訓(xùn)練。

在推理過程中，通過結(jié)合點(diǎn)云提供的顯式3D信息以及視頻擴(kuò)散模型的強(qiáng)大生成能力，我們的方法能夠在視頻生成過程中實(shí)現(xiàn)6自由度的精準(zhǔn)相機(jī)位姿控制，并生成高保真度、一致性強(qiáng)的新視角視頻。

2.4 應(yīng)用：稀疏視角3D高斯重建，圖生3D和文生3D

基于ViewCrafter和我們提出的迭代式新視角生成算法,我們可以從單張圖像/稀疏視角甚至一段文字描述中進(jìn)行3D高斯重建，以支持實(shí)時(shí)渲染和沉浸式3D體驗(yàn)。

三、對(duì)比實(shí)驗(yàn)

3.1 新視角生成

我們?cè)赥anks-and-Temples,CO3D, RealEstate10K這三個(gè)真實(shí)世界數(shù)據(jù)集上與SOTA方法進(jìn)行了定量和定性比較，實(shí)驗(yàn)結(jié)果證明我們的方法在相機(jī)位姿控制的精準(zhǔn)程度，以及生成新視角的視覺質(zhì)量上都大幅超過對(duì)比方法

3.2 場(chǎng)景重建

我們?cè)赥anks-and-Temples數(shù)據(jù)集上與稀疏視角重建領(lǐng)域的SOTA方法進(jìn)行了定量和定性比較，實(shí)驗(yàn)結(jié)果證明我們的方法在3D高斯重建渲染出的新視角的視覺質(zhì)量上大幅超過對(duì)比方法

四、消融實(shí)驗(yàn)

4.1 利用點(diǎn)云先驗(yàn)作為視頻擴(kuò)散模型控制信號(hào)的有效性

一些同期工作采用普呂克坐標(biāo)作為視頻生成模型的控制信號(hào)，以實(shí)現(xiàn)相機(jī)可控的新視角生成。作為對(duì)比，為了驗(yàn)證點(diǎn)云控制信號(hào)的優(yōu)越性，我們訓(xùn)練了一個(gè)以普呂克坐標(biāo)為控制信號(hào)的新視角生成模型，并進(jìn)行控制變量實(shí)驗(yàn)，保證除了控制信號(hào)外其他模型結(jié)構(gòu)與ViewCrafter一致。兩個(gè)模型在新視角生成任務(wù)上對(duì)比結(jié)果如下所示：

實(shí)驗(yàn)結(jié)果證明，不管是在新視角生成質(zhì)量還是在相機(jī)控制的精準(zhǔn)程度上，我們使用的基于點(diǎn)云的控制信號(hào)都要優(yōu)于基于普呂克坐標(biāo)的控制信號(hào)。

4.2 模型對(duì)粗糙點(diǎn)云的魯棒性

如圖所示，對(duì)于作為控制信號(hào)的點(diǎn)云具有嚴(yán)重幾何形變的情況，我們的模型依然能夠有效地進(jìn)行幾何糾錯(cuò)和空洞修補(bǔ)。這證明了我們的方法對(duì)點(diǎn)云控制信號(hào)的魯棒性。

點(diǎn)云渲染和生成結(jié)果對(duì)比

五、未來計(jì)劃

我們驗(yàn)證了ViewCrafter對(duì)于靜態(tài)場(chǎng)景的強(qiáng)大新視角生成能力。在未來的工作中，我們將探索和單目視頻深度估計(jì)方法結(jié)合，實(shí)現(xiàn)單目動(dòng)態(tài)視頻的新視角生成和4D重建。

責(zé)任編輯：張燕妮來源：自動(dòng)駕駛之心

圖像生成 AI

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<s id="oqtrw"></s>

<legend id="oqtrw"><track id="oqtrw"></track></legend>