自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AIGC發(fā)展太快!Meta發(fā)布首個基于文本的4D視頻合成器:3D游戲建模師也要下崗了?

人工智能 新聞
文本到2維圖像、2維視頻、3維模型,現(xiàn)在終于發(fā)展到3維模型視頻了!

AI生成模型在過去這段時間里取了巨大的進(jìn)展,就圖像領(lǐng)域來說,用戶可以通過輸入自然語言提示來生成圖像(如DALL-E 2,Stable Diffusion),也可以在時間維度上擴展生成連續(xù)的視頻(如Phenaki),或者在空間維度上擴展直接生成3D模型(如Dreamfusion)。

但到目前為止,這些任務(wù)仍然處于孤立的研究狀態(tài),彼此之間不存在技術(shù)交集。

最近Meta AI的研究人員結(jié)合了視頻和三維生成模型的優(yōu)勢,提出了一個全新的文本到四維(三維+時間)生成系統(tǒng)MAV3D(MakeA-Video3D),將自然語言描述作為輸入,并輸出一個動態(tài)的三維場景表示,可以從任意的視角進(jìn)行渲染。

圖片

論文鏈接:https://arxiv.org/abs/2301.11280

項目鏈接:https://make-a-video3d.github.io/

MAV3D也是第一個可以根據(jù)給定文本描述來生成三維動態(tài)場景的模型。

文中提出的方法使用了一個4D 動態(tài)神經(jīng)輻射場(NeRF) ,通過查詢基于文本到視頻(T2V)擴散的模型來優(yōu)化場景表現(xiàn)、密度和運動一致性,由提供的文本生成的動態(tài)視頻輸出可以從任何攝像機的位置和角度觀看,并且可以合成到任意的3D環(huán)境中。

該方法可用于為視頻游戲、視覺效果或增強型和虛擬現(xiàn)實生成3D資產(chǎn)。

圖片

與圖像生成和視頻生成任務(wù)不同的是,互聯(lián)網(wǎng)上有大量的caption數(shù)據(jù)可供訓(xùn)練,但卻連一個現(xiàn)成的4D模型集合都沒有。?

圖片

柯基玩球

MAV3D的訓(xùn)練不需要任何3D或4D數(shù)據(jù),T2V 模型只需要在文本-圖像對和未標(biāo)記的視頻上進(jìn)行訓(xùn)練。

在實驗部分,研究人員進(jìn)行了全面的定量和定性實驗以證明該方法的有效性,對之前建立的內(nèi)部基線有明顯提升。

文本到4D動態(tài)場景

由于缺乏訓(xùn)練數(shù)據(jù),研究人員為了解決這個任務(wù)構(gòu)想了幾種思路。

一種方法可能是找到一個預(yù)先訓(xùn)練好的二維視頻生成器,并從生成的視頻中提煉出一個四維重建。不過從視頻中重建可變形物體的形狀仍然是一個非常具有挑戰(zhàn)性的問題,即非剛性運動結(jié)構(gòu)(Non-Rigid Structure from Motion, NRSfM)。

如果給定物體的多個同步視點(multiple simultaneous viewpoints),任務(wù)就變得簡單了。雖然多機位設(shè)置在真實數(shù)據(jù)中很少見,但研究人員認(rèn)為,現(xiàn)有的視頻生成器隱含了生成場景的任意視點模型。

圖片

也就是說,可以將視頻生成器作為一個「統(tǒng)計學(xué)」的多攝像機設(shè)置來重建可變形物體的幾何和光度。

MAV3D算法通過優(yōu)化動態(tài)神經(jīng)輻射場(NeRF)與將輸入文本解碼成視頻,對物體周圍的隨機視點進(jìn)行采樣來實現(xiàn)該目的。

直接使用視頻生成器來優(yōu)化動態(tài)NeRF并沒有取得令人滿意的結(jié)果,實現(xiàn)過程中還有幾個難題需要攻克:

1. 需要一個有效的、端到端可學(xué)習(xí)的動態(tài)三維場景表征;

2. 需要一個有監(jiān)督學(xué)習(xí)的數(shù)據(jù)源,因為目前并不存在大規(guī)模的(文本,4D)對的數(shù)據(jù)集可供學(xué)習(xí);

3. 需要在空間和時間維度上擴展輸出的分辨率,因為4D輸出需要大量的內(nèi)存和計算能力;

MAV3D模型

MAV3D模型基于神經(jīng)輻射場(NeRFs)的最新工作,結(jié)合了高效(靜態(tài))NeRFs和動態(tài)NeRFs中的成果,并將4D場景表示為六個多分辨率特征平面的集合。

為了在沒有相應(yīng)(文本、4D)數(shù)據(jù)的情況下監(jiān)督這種表示,研究人員提出了一個用于動態(tài)場景渲染的多階段訓(xùn)練pipeline,并證明了每個組件在實現(xiàn)高質(zhì)量結(jié)果中的重要性。

圖片

一個比較關(guān)鍵的觀察結(jié)果是,使用Text-to-Video(T2V)模型,利用Score Distillation Sampling(SDS)直接優(yōu)化動態(tài)場景會導(dǎo)致視覺偽影和次優(yōu)收斂。

所以研究人員選擇首先利用文本到圖像(T2I)模型,將靜態(tài)的三維場景與文本提示相匹配,隨后再用動態(tài)的方式增強三維場景模型。

此外,模型中還引入了一個新的temporal-aware SDS損失和運動正則項,通過實驗證明了其對現(xiàn)實中和具有挑戰(zhàn)性的運動至關(guān)重要。

圖片

并且通過一個額外的temporal-aware超分辨率微調(diào)階段擴展到更高分辨率的輸出。

最后使用T2V模型的超級分辨率模塊的SDS來獲得高分辨率的梯度信息來進(jìn)行有監(jiān)督學(xué)習(xí)三維場景模型,增加其視覺保真度,能夠在推理過程中對更高分辨率的輸出進(jìn)行采樣。

實驗部分

評價指標(biāo)

使用CLIP R-Precision來評估生成的視頻,可以用于衡量文本和生成場景之間的一致性,可以反應(yīng)輸入提示從渲染的框架中的檢索準(zhǔn)確性。研究人員使用CLIP的ViT-B/32變體,并在不同的視圖和時間步中提取幀。

除此之外還使用了四個定性指標(biāo),通過詢問人類標(biāo)注員在兩個生成的視頻中的偏好,可以得出(i)視頻質(zhì)量;(ii)對文本提示的忠實度;(iii)運動量;以及(iv)運動的真實性

Text-to-4D對比

由于之前沒有文字轉(zhuǎn)4D的方法,所以研究人員建立了三個基于T2V生成方法的基線用于對比,二維幀的序列就會用三種不同的方法轉(zhuǎn)化為三維場景表示的序列。

第一個序列是通過one-shot神經(jīng)場景渲染器(Point-E)得到;第二個是通過對每一幀獨立應(yīng)用pixelNeRF生成的;第三個是應(yīng)用D-NeRF結(jié)合使用COLMAP提取的相機位置。

圖片

可以看出,該方法在客觀的R-精度指標(biāo)上超過了基線模型,并且在所有指標(biāo)上都得到了人類標(biāo)注員更高的評價。

圖片

此外,研究人員還探索了該方法在不同相機視角下的表現(xiàn)。

消融實驗

圖片

1、 在沒有場景超分辨率(SR)微調(diào)的情況下訓(xùn)練的模型,其步驟數(shù)與MAV3D相同(階段3)的情況下,人類標(biāo)注員在質(zhì)量、文本對齊和運動方面都更傾向于選擇用SR訓(xùn)練的模型。

圖片

此外,超分辨率微調(diào)增強了渲染視頻的質(zhì)量,使高分辨率視頻具有更精細(xì)的細(xì)節(jié)和更少的噪音。

圖片

2、無預(yù)訓(xùn)練:在直接優(yōu)化動態(tài)場景(沒有靜態(tài)場景預(yù)訓(xùn)練)的步驟與MAV3D相同的情況下,結(jié)果是場景質(zhì)量低得多或收斂性差:在73%和65%的情況下,用靜態(tài)預(yù)訓(xùn)練的模型在視頻質(zhì)量和現(xiàn)實運動方面更受歡迎。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2013-11-21 19:36:56

暢游游戲引擎Genesis-3D

2023-11-22 17:34:37

2024-12-16 14:40:00

AI模型訓(xùn)練

2021-12-28 10:52:10

鴻蒙HarmonyOS應(yīng)用

2017-04-21 16:32:42

4D3D打印

2022-09-07 12:00:26

Python3D游戲

2024-03-15 08:10:00

2021-09-26 10:45:27

前端游戲CSS

2023-03-20 09:38:42

Meta數(shù)據(jù)

2016-06-01 09:19:08

開發(fā)3D游戲

2023-10-12 09:47:00

4D雷達(dá)

2011-05-26 10:55:39

2011-08-26 14:50:23

2011-05-03 11:07:46

2D3D麗訊

2011-06-02 16:00:37

3D電視

2021-08-26 15:16:58

鴻蒙游戲3D

2012-12-24 08:48:25

iOSUnity3D
點贊
收藏

51CTO技術(shù)棧公眾號