像Sora一樣,用物理模擬方式生成視頻
麻省理工學(xué)院、斯坦福大學(xué)、哥倫比亞大學(xué)、康奈爾大學(xué)的研究人員聯(lián)合開源了創(chuàng)新3D交互視頻模型——PhysDreamer(簡(jiǎn)稱“PD”)。PD和OpenAI的Sora一樣,是一個(gè)可以通過物理模擬的方式來生成視頻。也就是說,PD的視頻具備很多物理世界的特征。例如,用手去觸摸一盆花后,花朵會(huì)左右搖擺直至緩慢停止。PD可以準(zhǔn)確地捕捉到物體很多微妙的動(dòng)態(tài)變化和復(fù)雜的交互細(xì)節(jié),生成的視頻也就更加精準(zhǔn)、細(xì)膩。
PD案例展示
PD主要通過視頻生成模型學(xué)習(xí)到的動(dòng)態(tài)先驗(yàn)知識(shí),來評(píng)估靜態(tài)3D對(duì)象的物理材質(zhì)屬性。在大量視頻訓(xùn)練數(shù)據(jù)的幫助下,可捕捉到物體外觀和動(dòng)態(tài)之間的關(guān)系。
從而幫助PD推斷出驅(qū)動(dòng)物體動(dòng)態(tài)行為的物理材質(zhì)屬性,即使在缺乏地面真實(shí)材質(zhì)數(shù)據(jù)的情況下也沒問題,這也體現(xiàn)了PD強(qiáng)大的物理模擬和評(píng)估能力。
視頻生成模型是PD的核心模塊之一,通過學(xué)習(xí)大量視頻數(shù)據(jù)中的場(chǎng)景外觀和動(dòng)力學(xué)關(guān)系,為后續(xù)的物理材質(zhì)模擬,以及交互式3D動(dòng)力合成提供了重要的基礎(chǔ)知識(shí)。
視頻生成模型主要是通過深度神經(jīng)網(wǎng)絡(luò)來建模視頻幀之間的時(shí)空依賴關(guān)系,由編碼器和解碼器組成。編碼器負(fù)責(zé)將輸入視頻幀編碼為低維表示,捕捉到圖像中的關(guān)鍵特征。
解碼器則將這些低維表示解碼為逼真的視頻幀。通過訓(xùn)練過程,視頻生成模型能夠?qū)W習(xí)到輸入視頻幀與目標(biāo)視頻幀之間的映射關(guān)系,從而實(shí)現(xiàn)逐幀的視頻生成。主要流程分為以下四大塊。
外觀建模:主要用來學(xué)習(xí)物體的外觀變化模式,通過觀察大量的視頻數(shù)據(jù),使PD能夠捕捉到物體的紋理、顏色、形狀等特征,并將它們編碼為低維表示。這些編碼后的表示可以用于后續(xù)的物理材料特性估計(jì)和3D動(dòng)力學(xué)合成。
動(dòng)力學(xué)建模:通過觀察物體在視頻中的運(yùn)動(dòng)軌跡,模型能夠捕捉到物體的速度、加速度以及其他動(dòng)力學(xué)特征。
先驗(yàn)知識(shí)提取:通過分析編碼后的表示和解碼后的視頻幀,模型能夠提取出物體外觀和動(dòng)力學(xué)之間的關(guān)系,包括外部力對(duì)物體的影響、物體的彈性等特征,為后續(xù)的物理材質(zhì)模擬提供重要基礎(chǔ)。
物體響應(yīng)預(yù)測(cè):可根據(jù)輸入的交互刺激,預(yù)測(cè)物體的響應(yīng)。通過將交互刺激與學(xué)到的外觀和動(dòng)力學(xué)模式結(jié)合起來,模型能夠生成物體在新穎交互下的運(yùn)動(dòng)軌跡和形變情況。
使得PD生成的視頻能夠根據(jù)用戶的輸入,預(yù)測(cè)出靜態(tài)3D物體在特定交互刺激下的逼真動(dòng)態(tài)響應(yīng)。
在現(xiàn)實(shí)世界中,物體的物理行為由其材質(zhì)屬性決定,例如,剛度、彈性和質(zhì)量等。而在虛擬環(huán)境中模擬這些屬性時(shí),會(huì)使用“楊氏模量”來進(jìn)行評(píng)估和調(diào)整,例如,一個(gè)高楊氏模量意味著材料更堅(jiān)硬,低則是更軟。
PD為了復(fù)現(xiàn)現(xiàn)實(shí)世界中的物理知識(shí),使用了材質(zhì)場(chǎng)表示來實(shí)現(xiàn)對(duì)3D對(duì)象物理屬性的逼真模擬。材質(zhì)場(chǎng)是一個(gè)連續(xù)的函數(shù),為3D場(chǎng)景中的每個(gè)點(diǎn)分配了一個(gè)“楊氏模量”物理屬性值。
物理材質(zhì)場(chǎng)是通過隱式神經(jīng)場(chǎng)來表示,這是一種可微分的模型,可以優(yōu)化以匹配參考視頻中的動(dòng)態(tài)。這種表示方法不僅能夠精確地捕捉物體的物理屬性,還能夠與物理模擬過程無縫集成。
例如,當(dāng)用戶在虛擬環(huán)境中擠壓一朵虛擬花朵時(shí),花朵的變形和回彈方式會(huì)非常接近真實(shí)世界的表現(xiàn)。
尤其是在緩慢運(yùn)動(dòng)表征方面,PD模型比DreamGaussian4D、PhysGaussian、Real Capture模型表現(xiàn)更好。
本文轉(zhuǎn)自 AIGC開放社區(qū) ,作者:AIGC開放社區(qū)
