谷歌DeepMind重磅推出多視角視頻擴(kuò)散模型CAT4D,單視角視頻也能轉(zhuǎn)換多視角了
本文經(jīng)AIGC Studio公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
單目視覺4D重建再突破!谷歌DeepMind等團(tuán)隊,推出了多視角視頻擴(kuò)散模型CAT4D,它支持輸入單個視角的視頻,轉(zhuǎn)換后可以自行拖動。
該模型可以分別固定視角和時間,然后分別輸出了視角不動(機(jī)位固定)時間變、時間不變視角動,以及視角時間均變動的效果。 如下圖所示:
相關(guān)鏈接
? 論文:https://arxiv.org/pdf/2411.18613
? 主頁:https://cat-4d.github.io/
論文介紹
CAT4D:使用多視圖視頻擴(kuò)散模型以 4D 形式創(chuàng)建任何內(nèi)容
工作原理
它是如何運(yùn)作的
給定輸入單目視頻,我們使用多視圖視頻擴(kuò)散模型生成新視點(diǎn)的多視圖視頻。然后,使用這些生成的視頻將動態(tài) 3D 場景重建為變形 3D 高斯。
獨(dú)立的攝像頭和時間控制
CAT4D 的核心是多視圖視頻擴(kuò)散模型,它可以解開攝像機(jī)和場景運(yùn)動的控制。我們通過給定 3 個輸入圖像(帶有相機(jī)姿勢)生成三種類型的輸出序列來演示這一點(diǎn):1)固定視點(diǎn)和變化時間,2)變化視點(diǎn)和固定時間,3)變化視點(diǎn)和變化時間。
比較
將我們的方法與不同任務(wù)的基線進(jìn)行比較。嘗試選擇不同的任務(wù)和場景!
給定 3 個輸入圖像,我們生成三種類型的輸出序列:
1. 固定視點(diǎn)和變化時間
2. 變化視點(diǎn)和固定時間
3. 變化視點(diǎn)和變化時間。
僅給定動態(tài)場景的一些姿勢圖像,我們就可以通過重建與一個輸入視圖的時間相對應(yīng)的靜態(tài) 3D 場景來創(chuàng)建“子彈時間”效果。三個輸入圖像顯示在左側(cè),其中第一個是目標(biāo)子彈時間幀。
DyCheck 數(shù)據(jù)集上單目視頻動態(tài)場景重建的比較。