自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

麻省理工創(chuàng)新模型:用2D視頻擴(kuò)散,生成 3D 視頻 精華

發(fā)布于 2024-9-18 10:50
瀏覽
0收藏

傳統(tǒng)的3D 視頻生成主要有兩種方法,一種是通過(guò)2D 視頻模型和靜態(tài) 3D 場(chǎng)景模型的分類器指導(dǎo)來(lái)優(yōu)化動(dòng)態(tài)3D 視頻場(chǎng)景表示,不過(guò)這種對(duì)算力的需求極大,生成一個(gè) 3D 視頻需要數(shù)小時(shí);


另一種是通過(guò)變形初始 3D 場(chǎng)景表示來(lái)實(shí)現(xiàn),但需要嚴(yán)格的時(shí)間結(jié)構(gòu)并且需調(diào)整復(fù)雜的參數(shù)。


為了解決這些難題,麻省理工、Databricks 馬賽克科研所和康奈爾大學(xué)聯(lián)合推出了創(chuàng)新模型Vid3D。該模型假設(shè)無(wú)需明確建模 3D 時(shí)間動(dòng)態(tài),通過(guò)生成2D視頻的時(shí)序動(dòng)態(tài)輪廓,然后獨(dú)立地為視頻中的每一幀生成3D表示,而無(wú)需考慮前后幀之間的時(shí)間連貫性。

論文地址:https://arxiv.org/abs/2406.11196

麻省理工創(chuàng)新模型:用2D視頻擴(kuò)散,生成 3D 視頻-AI.x社區(qū)


麻省理工創(chuàng)新模型:用2D視頻擴(kuò)散,生成 3D 視頻-AI.x社區(qū)

簡(jiǎn)單來(lái)說(shuō),就像在制作動(dòng)畫電影時(shí),先繪制故事板,然后每個(gè)關(guān)鍵幀單獨(dú)創(chuàng)建3D模型,而不是試圖在三維空間中模擬整個(gè)場(chǎng)景的連續(xù)變化,這不僅節(jié)省算力復(fù)雜度也大幅度降低。


例如,我們想要生成一個(gè)貓?jiān)诨▓@里玩耍的動(dòng)態(tài)3D場(chǎng)景,Vid3D通過(guò)將生成任務(wù)分解為生成場(chǎng)景的2D時(shí)間動(dòng)態(tài)和為每個(gè)時(shí)間步生成3D表示兩個(gè)部分,極大降低了生成時(shí)間并簡(jiǎn)化了生成流程。


Vid3D先從一張參考圖像開(kāi)始,生成該場(chǎng)景的2D視頻種子,也稱為“時(shí)序播種”,旨在捕捉場(chǎng)景隨時(shí)間變化的動(dòng)態(tài)特征。再通過(guò)查詢一個(gè)2D視頻模型并輸入?yún)⒖紙D像,Vid3D能夠獲得動(dòng)態(tài)渲染的對(duì)象,盡管此時(shí)只限于單一視角。這一步類似于在制作動(dòng)畫前先繪制出關(guān)鍵幀的故事板,為后續(xù)步驟提供了動(dòng)態(tài)變化的基礎(chǔ)框架。

麻省理工創(chuàng)新模型:用2D視頻擴(kuò)散,生成 3D 視頻-AI.x社區(qū)

在多視圖合成階段,Vid3D針對(duì)種子視頻中的每個(gè)時(shí)間步,獨(dú)立生成多個(gè)視圖來(lái)豐富場(chǎng)景的細(xì)節(jié),并增強(qiáng)3D表示的準(zhǔn)確性。


Vid3D使用了高斯濺射方法來(lái)生成3D場(chǎng)景的連續(xù)表示。高斯濺射是一種基于點(diǎn)云的方法,它通過(guò)在3D空間中散布大量的點(diǎn),并為每個(gè)點(diǎn)分配一個(gè)高斯權(quán)重來(lái)表示場(chǎng)景的表面。這些點(diǎn)的集合,以及它們的高斯權(quán)重,共同定義了場(chǎng)景的3D形狀和外觀。

麻省理工創(chuàng)新模型:用2D視頻擴(kuò)散,生成 3D 視頻-AI.x社區(qū)

在Vid3D中,每個(gè)時(shí)間步的多視角視圖被用來(lái)訓(xùn)練一個(gè)高斯濺射模型,該過(guò)程涉及到優(yōu)化每個(gè)點(diǎn)的位置和權(quán)重,以便它們能夠最好地表示從不同視角觀察到的場(chǎng)景。這些訓(xùn)練好的高斯濺射模型序列定義了一個(gè)動(dòng)態(tài)的3D視頻,其中每個(gè)模型對(duì)應(yīng)視頻中的一個(gè)時(shí)間步。


最后在3D視頻合成階段,Vid3D將每個(gè)時(shí)間步的多視圖集合轉(zhuǎn)化為3D表示。這里使用的是Gaussian Splatting技術(shù),這是一種能夠?qū)?D圖像轉(zhuǎn)換為3D幾何結(jié)構(gòu)的有效手段。通過(guò)訓(xùn)練一個(gè)Gaussian Splatting模型,Vid3D能夠基于先前生成的多視圖集合,構(gòu)建出每個(gè)時(shí)間步的3D場(chǎng)景。

麻省理工創(chuàng)新模型:用2D視頻擴(kuò)散,生成 3D 視頻-AI.x社區(qū)

同時(shí)在種子視頻的每一個(gè)時(shí)間步重復(fù)進(jìn)行,最終形成了一個(gè)由一系列獨(dú)立3D表示組成的動(dòng)態(tài)3D視頻。


為了評(píng)估Vid3D的性能,研究人員使用了最新評(píng)估基準(zhǔn)。在評(píng)估過(guò)程中,為了測(cè)試每個(gè) 3D 視頻的質(zhì)量,從十個(gè)不同的均勻采樣相機(jī)角度渲染 10 個(gè) 2D 視頻,并使用 CLIP - I 分?jǐn)?shù)作為定量評(píng)估指標(biāo)。

麻省理工創(chuàng)新模型:用2D視頻擴(kuò)散,生成 3D 視頻-AI.x社區(qū)

結(jié)果顯示,Vid3D在生成動(dòng)態(tài) 3D 視頻場(chǎng)景方面非常出色,例如,Vid3D 的 CLIP - I 分?jǐn)?shù)為0.8946高于Animate124 的 0.8544。此外,研究人員還對(duì)Vid3D中每個(gè)時(shí)間步生成的視圖數(shù)量進(jìn)行了消融實(shí)驗(yàn)。隨著視圖數(shù)量的減少,CLIP - I分?jǐn)?shù)也開(kāi)始降低,從18幀減少到9幀時(shí),分?jǐn)?shù)僅下降了0.0067,性能幾乎沒(méi)有變化


本文轉(zhuǎn)自 AIGC開(kāi)放社區(qū)  ,作者:AIGC開(kāi)放社區(qū)


原文鏈接:??https://mp.weixin.qq.com/s/z7Enh8IHAOoU46B3nvwIVw??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦