自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

幾分鐘生成四維內(nèi)容,還能控制運(yùn)動(dòng)效果:北大、密歇根提出DG4D

人工智能 新聞
DG4D 允許進(jìn)行三維網(wǎng)格模型提取,并支持實(shí)現(xiàn)時(shí)序上保持連貫一致的高質(zhì)量紋理優(yōu)化。我們希望 DG4D 提出的四維內(nèi)容生成框架,將促進(jìn)四維內(nèi)容生成方向的研究工作,并有助于多樣化的實(shí)際應(yīng)用。

本文作者潘亮博士目前是上海人工智能實(shí)驗(yàn)室的Research Scientist。此前,在2020年至2023年,他于新加坡南洋理工大學(xué)S-Lab擔(dān)任Research Fellow,指導(dǎo)老師為劉子緯教授。他的研究重點(diǎn)是計(jì)算機(jī)視覺、3D點(diǎn)云和虛擬人類,并在頂級(jí)會(huì)議和期刊上發(fā)表了多篇論文,谷歌學(xué)術(shù)引用超過2700次。此外,他還多次擔(dān)任計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)等領(lǐng)域頂級(jí)會(huì)議和期刊的審稿人。

近期,商湯科技 - 南洋理工大學(xué)聯(lián)合 AI 研究中心 S-Lab ,上海人工智能實(shí)驗(yàn)室,北京大學(xué)與密歇根大學(xué)聯(lián)合提出 DreamGaussian4D(DG4D),通過結(jié)合空間變換的顯式建模與靜態(tài) 3D Gaussian Splatting(GS)技術(shù)實(shí)現(xiàn)高效四維內(nèi)容生成。

四維內(nèi)容生成近來取得了顯著進(jìn)展,但是現(xiàn)有方法存在優(yōu)化時(shí)間長(zhǎng)、運(yùn)動(dòng)控制能力差、細(xì)節(jié)質(zhì)量低等問題。DG4D 提出了一個(gè)包含兩個(gè)主要模塊的整體框架:1)圖像到 4D GS - 我們首先使用 DreamGaussianHD 生成靜態(tài) 3D GS,接著基于 HexPlane 生成基于高斯形變的動(dòng)態(tài)生成;2)視頻到視頻紋理細(xì)化 - 我們細(xì)化生成的 UV 空間紋理映射,并通過使用預(yù)訓(xùn)練的圖像到視頻擴(kuò)散模型增強(qiáng)其時(shí)間一致性。

值得注意的是,DG4D 將四維內(nèi)容生成的優(yōu)化時(shí)間從幾小時(shí)縮短到幾分鐘(如圖 1 所示),允許視覺上控制生成的三維運(yùn)動(dòng),并支持生成可以在三維引擎中真實(shí)渲染的動(dòng)畫網(wǎng)格模型。

圖片

  • 論文名稱: DreamGaussian4D: Generative 4D Gaussian Splatting
  • 主頁地址: https://jiawei-ren.github.io/projects/dreamgaussian4d/ 
  • 論文地址: https://arxiv.org/abs/2312.17142  
  • Demo 地址: https://huggingface.co/spaces/jiawei011/dreamgaussian4d

圖片

圖 1. DG4D 在四分半鐘內(nèi)可實(shí)現(xiàn)四維內(nèi)容優(yōu)化基本收斂

問題和挑戰(zhàn)

生成模型可以極大地簡(jiǎn)化多樣化數(shù)字內(nèi)容(如二維圖像、視頻和三維景物)的生產(chǎn)和制作,近年來取得了顯著進(jìn)步。四維內(nèi)容是諸如游戲、影視等諸多下游任務(wù)的重要內(nèi)容形式。四維生成內(nèi)容也應(yīng)支持導(dǎo)入傳統(tǒng)圖形學(xué)渲染引擎軟件(比如,Blender 或者 Unreal Engine),以接入現(xiàn)有圖形學(xué)內(nèi)容生產(chǎn)管線(見圖 2)。

盡管有一些研究致力于動(dòng)態(tài)三維(即四維)生成,但四維景物的高效和高質(zhì)量生成仍然存在挑戰(zhàn)。近年來,越來越多的研究方法通過結(jié)合視頻和三維生成模型,約束任意視角下內(nèi)容外觀和動(dòng)作的一致性,以實(shí)現(xiàn)四維內(nèi)容生成。

圖片

圖 2. DG4D 生成的四維內(nèi)容支持導(dǎo)入到傳統(tǒng)計(jì)算機(jī)圖形學(xué)渲染引擎中

目前主流的四維內(nèi)容生成方法都基于四維動(dòng)態(tài)神經(jīng)輻射場(chǎng)(4D NeRF)表示。比如,MAV3D [1] 通過在 HexPlane [2] 上提煉文本到視頻的擴(kuò)散模型,實(shí)現(xiàn)了文本到四維內(nèi)容的生成。Consistent4D [3] 引入了一個(gè)視頻到四維的框架,以優(yōu)化級(jí)聯(lián)的 DyNeRF,從靜態(tài)捕獲的視頻中生成四維景物。通過多重?cái)U(kuò)散模型的先驗(yàn),Animate124 [4] 能夠通過文本運(yùn)動(dòng)描述將單個(gè)未處理的二維圖像動(dòng)畫化為三維的動(dòng)態(tài)視頻?;诨旌?SDS [5] 技術(shù),4D-fy [6] 使用多個(gè)預(yù)訓(xùn)練擴(kuò)散模型可實(shí)現(xiàn)引人入勝的文本到四維內(nèi)容的生成。

然而,所有上述現(xiàn)有方法 [1,3,4,6] 生成單個(gè) 4D NeRF 都需要數(shù)個(gè)小時(shí),這極大地限制了它們的應(yīng)用潛力。此外,它們都難以有效控制或選擇最后生成的運(yùn)動(dòng)。以上不足主要來自以下幾個(gè)因素:首先,前述方法的底層隱式四維表示不夠高效,存在渲染速度慢和運(yùn)動(dòng)規(guī)律性差的問題;其次,視頻 SDS 的隨機(jī)性質(zhì)增加了收斂難度,并在最終結(jié)果中引入了不穩(wěn)定性和多種瑕疵偽影現(xiàn)象。

方法介紹

與直接優(yōu)化 4D NeRF 的方法不同,DG4D 通過結(jié)合靜態(tài)高斯?jié)姙R技術(shù)和顯式的空間變換建模,為四維內(nèi)容生成構(gòu)建了一個(gè)高效和強(qiáng)力的表征。此外,視頻生成方法有潛力提供有價(jià)值的時(shí)空先驗(yàn),增強(qiáng)高質(zhì)量的 4D 生成。具體而言,我們提出了一個(gè)包含兩個(gè)主要階段的整體框架:1)圖像到 4D GS 的生成;2)基于視頻大模型的紋理圖細(xì)化。

1. 圖像到 4D GS 的生成

圖片

圖 3 圖片到 4D GS 生成框架圖

在這一階段中,我們使用靜態(tài) 3D GS 及其空間變形來表示動(dòng)態(tài)的四維景物?;谝粡埥o定的二維圖片,我們使用增強(qiáng)方法 DreamGaussianHD 方法生成靜態(tài) 3D GS。隨后,通過在靜態(tài) 3D GS 函數(shù)上優(yōu)化時(shí)間依賴的變形場(chǎng),估計(jì)各個(gè)時(shí)間戳處的高斯變形,旨在讓變形后的每一幀的形狀和紋理都與驅(qū)動(dòng)視頻里面的對(duì)應(yīng)幀盡力保持吻合。這一階段結(jié)束,將可以生成一段動(dòng)態(tài)的三維網(wǎng)格模型序列。

圖片

圖 4 DreamGaussianHD 初始化基于 3D GS 的三維物體模型

  • DreamGaussianHD 基于近來使用 3D GS 的圖生三維物體方法 DreamGaussian [7],我們做了一些進(jìn)一步的改進(jìn),整理出一套效果更佳的 3D GS 生成和初始化方法。主要改進(jìn)的操作包括有 1)采取多視角的優(yōu)化方式;2)設(shè)定優(yōu)化過程中的渲染圖片背景為更適合生成的黑色背景。我們稱呼改進(jìn)后的版本為 DreamGaussianHD,具體的改進(jìn)效果圖可見圖 4。

圖片

圖 5 HexPlane 表征動(dòng)態(tài)形變場(chǎng)

  • Gaussian Deformation 基于生成的靜態(tài) 3D GS 模型,我們通過預(yù)測(cè)每一幀中高斯核的變形來生成符合期望視頻的動(dòng)態(tài) 4D GS 模型。在動(dòng)態(tài)效果的表征上,我們選用 HexPlane(如圖 5 所示)來預(yù)測(cè)每一個(gè)時(shí)間戳下高斯核位移、旋轉(zhuǎn)和比例尺度,從而驅(qū)動(dòng)生成每一幀的動(dòng)態(tài)模型。此外,我們也針對(duì)性地調(diào)整設(shè)計(jì)網(wǎng)絡(luò),尤其是對(duì)最后幾個(gè)線性操作的網(wǎng)絡(luò)層做了殘差連接和零初始化的設(shè)計(jì),從而可以平滑充分地基于靜態(tài) 3D GS 模型初始化動(dòng)態(tài)場(chǎng)(效果如圖 6 所示)。

圖片

圖 6 零初始化動(dòng)態(tài)形變場(chǎng)對(duì)最后生成效果的影響

2. 視頻到視頻的紋理優(yōu)化

圖片

圖 7 視頻到視頻紋理優(yōu)化框架圖

類似于 DreamGaussian,在第一階段基于 4D GS 的四維動(dòng)態(tài)模型生成結(jié)束后,可以提取四維的網(wǎng)格模型序列。并且,我們也可以類似于 DreamGaussian 的做法,在網(wǎng)格模型的 UV 空間中對(duì)紋理做進(jìn)一步的優(yōu)化。不同于 DreamGaussian 只對(duì)單獨(dú)的三維網(wǎng)格模型使用圖片生成模型做紋理的優(yōu)化,我們需要對(duì)整個(gè)三維網(wǎng)格序列做優(yōu)化。

并且,我們發(fā)現(xiàn)如果沿用 DreamGaussian 的做法,即對(duì)每個(gè)三維網(wǎng)格序列做獨(dú)立的紋理優(yōu)化,會(huì)導(dǎo)致三維網(wǎng)格的紋理在不同的時(shí)間戳下有不一致的生成,并且常常會(huì)有閃爍等瑕疵偽影效果出現(xiàn)。鑒于此,我們有別于 DreamGaussian,提出了基于視頻生成大模型的視頻到視頻的 UV 空間下紋理優(yōu)化方法。具體而言,我們?cè)趦?yōu)化過程中隨機(jī)生成了一系列相機(jī)軌跡,并基于此渲染出多個(gè)視頻,并對(duì)渲染出的視頻做相應(yīng)的加噪和去噪處理,從而實(shí)現(xiàn)對(duì)生成網(wǎng)格模型序列的紋理增強(qiáng)。

基于圖片生成大模型和基于視頻生成大模型做的紋理優(yōu)化效果對(duì)比展示在圖 8 中。

圖 8 基于視頻到視頻的紋理優(yōu)化可以實(shí)現(xiàn)時(shí)序上紋理的穩(wěn)定性和一致性

實(shí)驗(yàn)結(jié)果

相比之前整體優(yōu)化 4D NeRF 的方法,DG4D 顯著減少了四維內(nèi)容生成所需的時(shí)間。具體的用時(shí)對(duì)比可見表 1。

圖片

表 1 四維內(nèi)容生成方法用時(shí)對(duì)比

對(duì)于基于單圖生成四維內(nèi)容的設(shè)置,我們跟隨之前方法的對(duì)比方式,將生成的四維內(nèi)容與給定圖片的一致程度匯報(bào)在表 2 中。

圖片

表 2 基于單圖生成的四維內(nèi)容與圖片的一致性對(duì)比

對(duì)于基于視頻生成四維內(nèi)容的設(shè)置,視頻生成四維內(nèi)容方法的數(shù)值結(jié)果對(duì)比可見表 3。

圖片

表 3 基于視頻生成的四維內(nèi)容相關(guān)方法的數(shù)值結(jié)果對(duì)比

此外,我們還對(duì)最符合我們方法的單圖生成四維內(nèi)容的各個(gè)方法的生成結(jié)果做了用戶采樣測(cè)試,測(cè)試的結(jié)果匯報(bào)在表 4 中。

圖片

表 4 基于單圖生成的四維內(nèi)容的用戶測(cè)試

DG4D 與現(xiàn)存開源 SoTA 的圖生成四維內(nèi)容方法和視頻生成四維內(nèi)容方法的效果對(duì)比圖,分別展示在圖 9 和圖 10 中。

圖片

圖 9 圖生四維內(nèi)容效果對(duì)比圖


圖片

圖 10 視頻生四維內(nèi)容效果對(duì)比圖

此外,我們還基于近期的直接前饋實(shí)現(xiàn)單圖生成 3D GS 的方法(即非使用 SDS 優(yōu)化方法),做了靜態(tài)三維內(nèi)容的生成,并基于此初始化了動(dòng)態(tài) 4D GS 的生成。直接前饋生成 3D GS,可以比基于 SDS 優(yōu)化的方法,更快地得到質(zhì)量更高,也更多樣化的三維內(nèi)容?;诖说玫降乃木S內(nèi)容,展示在圖 11 中。

圖片

圖 11 基于前饋生成 3D GS 的方法生成的四維動(dòng)態(tài)內(nèi)容

更多基于單圖生成的四維內(nèi)容展示在圖 12 中。

圖片

結(jié)語

基于 4D GS,我們提出了 DreamGaussian4D(DG4D),這是一個(gè)高效的圖像到 4D 生成框架。相較于現(xiàn)存的四維內(nèi)容生成框架,DG4D 顯著將優(yōu)化時(shí)間從幾小時(shí)縮短到幾分鐘。此外,我們展示了使用生成的視頻進(jìn)行驅(qū)動(dòng)運(yùn)動(dòng)生成,實(shí)現(xiàn)了視覺可控的三維運(yùn)動(dòng)生成。

最后,DG4D 允許進(jìn)行三維網(wǎng)格模型提取,并支持實(shí)現(xiàn)時(shí)序上保持連貫一致的高質(zhì)量紋理優(yōu)化。我們希望 DG4D 提出的四維內(nèi)容生成框架,將促進(jìn)四維內(nèi)容生成方向的研究工作,并有助于多樣化的實(shí)際應(yīng)用。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2013-07-02 09:58:38

ClojureClojure教程

2016-09-30 15:13:01

Python代碼

2009-12-29 09:01:46

ADSL斷線

2009-11-24 16:03:21

D-Link無線路由器

2010-01-06 15:35:06

JSON對(duì)象

2010-01-21 09:46:24

C++程序

2010-02-23 14:19:30

Python目錄操作

2024-12-03 15:38:14

2010-03-01 18:13:22

Python程序

2009-12-21 13:51:54

ADO.NET處理

2009-11-25 17:22:12

路由器安裝

2010-03-04 10:01:01

Android基本組件

2017-08-03 17:30:26

戴爾IoT設(shè)備

2024-04-19 09:37:49

Ollama大語言模型開源

2010-01-21 14:51:02

C++函數(shù)指針

2022-04-06 09:28:04

漏洞SQL注入

2010-01-06 13:39:51

擴(kuò)展Jquery的Js

2022-04-12 08:46:30

for 循環(huán)遍歷字符串

2010-01-26 14:53:43

C++

2009-12-30 09:58:28

mpls標(biāo)簽
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)