自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

只需一張圖片!實(shí)現(xiàn)任意3D/4D場(chǎng)景生成!港科大&清華&生數(shù)發(fā)布DimensionX

發(fā)布于 2024-11-25 10:27
瀏覽
0收藏

只需一張圖片!實(shí)現(xiàn)任意3D/4D場(chǎng)景生成!港科大&清華&生數(shù)發(fā)布DimensionX-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2411.04928
項(xiàng)目鏈接:https://chenshuo20.github.io/DimensionX/

只需一張圖片!實(shí)現(xiàn)任意3D/4D場(chǎng)景生成!港科大&清華&生數(shù)發(fā)布DimensionX-AI.x社區(qū)

亮點(diǎn)直擊

  • 提出了DimensionX框架,通過可控的視頻擴(kuò)散技術(shù),僅使用單張圖像生成逼真的3D和4D場(chǎng)景。
  • 提出了ST-Director,通過學(xué)習(xí)(空間和時(shí)間)維度感知模塊,并結(jié)合我們精心挑選的數(shù)據(jù)集,解耦視頻擴(kuò)散模型中的空間和時(shí)間先驗(yàn)。進(jìn)一步通過基于視頻擴(kuò)散去噪過程本質(zhì)的訓(xùn)練無(wú)關(guān)組合方法,增強(qiáng)了混合維度控制。
  • 為了彌合視頻擴(kuò)散與真實(shí)場(chǎng)景之間的差距,設(shè)計(jì)了一個(gè)軌跡感知機(jī)制用于3D生成,并提出了一種保持身份的去噪方法用于4D生成,從而實(shí)現(xiàn)更真實(shí)且可控的場(chǎng)景合成。
  • 廣泛的實(shí)驗(yàn)表明,相較于基準(zhǔn)方法,DimensionX在視頻、3D和4D生成方面表現(xiàn)出色。

總結(jié)速覽

解決的問題
本文提出了DimensionX框架,旨在從單張圖像生成具有視頻擴(kuò)散效果的逼真3D和4D場(chǎng)景?,F(xiàn)有的視頻擴(kuò)散模型在直接恢復(fù)3D/4D場(chǎng)景時(shí)存在限制,尤其是在生成過程中缺乏空間和時(shí)間的可控性。

提出的方案
本文提出了ST-Director,通過從維度變化的數(shù)據(jù)中學(xué)習(xí)維度感知的LoRAs,解耦視頻擴(kuò)散中的空間和時(shí)間因素。這種可控的視頻擴(kuò)散方法使得空間結(jié)構(gòu)和時(shí)間動(dòng)態(tài)的精確操控成為可能,從而能夠從連續(xù)幀中重建3D和4D表示。

應(yīng)用的技術(shù)

  • ST-Director:通過解耦空間和時(shí)間因素,利用維度感知的LoRAs技術(shù)進(jìn)行視頻擴(kuò)散。
  • 軌跡感知機(jī)制:用于3D生成,幫助填補(bǔ)生成視頻與真實(shí)世界場(chǎng)景之間的差距。
  • 保持身份的去噪策略:用于4D生成,確保生成視頻中的身份保持一致。

達(dá)到的效果
DimensionX在控制視頻生成以及3D和4D場(chǎng)景生成方面表現(xiàn)出色,通過廣泛的實(shí)驗(yàn)驗(yàn)證,在多個(gè)真實(shí)和合成數(shù)據(jù)集上相比之前的方法,DimensionX取得了更好的結(jié)果。

只需一張圖片!實(shí)現(xiàn)任意3D/4D場(chǎng)景生成!港科大&清華&生數(shù)發(fā)布DimensionX-AI.x社區(qū)

方法

本文的目標(biāo)是,給定一張圖像,通過可控的視頻擴(kuò)散生成高質(zhì)量的3D和4D場(chǎng)景。為了在空間和時(shí)間維度上實(shí)現(xiàn)有效的控制,首先開發(fā)了一個(gè)系統(tǒng)化框架來(lái)構(gòu)建維度變化數(shù)據(jù)集。借助精心挑選的數(shù)據(jù)集,引入了ST-Director,通過維度感知的LoRA解耦空間和時(shí)間基礎(chǔ),實(shí)現(xiàn)精確的維度感知控制。還探索了視頻生成過程中的去噪機(jī)制,并引入了一種訓(xùn)練無(wú)關(guān)的維度感知組合方法,以實(shí)現(xiàn)有效的混合維度控制。為了更好地利用可控的視頻擴(kuò)散生成高質(zhì)量的場(chǎng)景,設(shè)計(jì)了一個(gè)軌跡感知機(jī)制用于3D生成,并提出了一種保持身份的去噪方法用于4D生成。

構(gòu)建維度變化數(shù)據(jù)集

為了在視頻擴(kuò)散中解耦空間和時(shí)間參數(shù),提出了一個(gè)框架來(lái)從開源數(shù)據(jù)集中收集空間和時(shí)間變化的視頻。本文為空間變化數(shù)據(jù)采用了軌跡規(guī)劃策略,并為時(shí)間變化數(shù)據(jù)引入了流引導(dǎo)。

空間變化數(shù)據(jù)的軌跡規(guī)劃。為了獲取空間變化數(shù)據(jù)集,本文提出了重建逼真3D場(chǎng)景并渲染與我們空間變化一致的視頻。為了方便渲染路徑的選擇和規(guī)劃,需要計(jì)算攝像機(jī)在整個(gè)場(chǎng)景中的覆蓋范圍。給定場(chǎng)景中的N個(gè)攝像機(jī),首先通過主成分分析(PCA)技術(shù)計(jì)算中心C和沿x、y、z方向的主軸A:

只需一張圖片!實(shí)現(xiàn)任意3D/4D場(chǎng)景生成!港科大&清華&生數(shù)發(fā)布DimensionX-AI.x社區(qū)

只需一張圖片!實(shí)現(xiàn)任意3D/4D場(chǎng)景生成!港科大&清華&生數(shù)發(fā)布DimensionX-AI.x社區(qū)

只需一張圖片!實(shí)現(xiàn)任意3D/4D場(chǎng)景生成!港科大&清華&生數(shù)發(fā)布DimensionX-AI.x社區(qū)

基于上述計(jì)算,已經(jīng)確定了攝像機(jī)在整個(gè)場(chǎng)景中的分布。為了應(yīng)對(duì)不同的場(chǎng)景,建立了以下規(guī)則來(lái)篩選符合條件的數(shù)據(jù):

  1. 攝像機(jī)分布:計(jì)算場(chǎng)景的中心,并判斷攝像機(jī)如何圍繞場(chǎng)景進(jìn)行捕捉。
  2. 邊界框長(zhǎng)寬比:邊界框的長(zhǎng)寬比應(yīng)滿足各種S-Director的要求。例如,x軸和y軸的長(zhǎng)寬比不應(yīng)差異過大,這有助于選擇合適的360度全景視頻。
  3. 攝像機(jī)與邊界框的距離:計(jì)算每個(gè)攝像機(jī)位置到邊界框最近平面的距離,并優(yōu)先選擇總距離較小的數(shù)據(jù),以確保攝像機(jī)的合理布置。

在篩選出數(shù)據(jù)集后,需要計(jì)算場(chǎng)景內(nèi)的占據(jù)場(chǎng),以幫助我們規(guī)劃渲染攝像機(jī)的可行區(qū)域。在從多視角圖像重建整個(gè)場(chǎng)景的3DGS后,渲染多視角圖像及其對(duì)應(yīng)的深度圖,然后使用TSDF從RGB-D數(shù)據(jù)中提取場(chǎng)景的網(wǎng)格。

時(shí)間變化數(shù)據(jù)的流引導(dǎo)。為了實(shí)現(xiàn)時(shí)間控制,旨在篩選時(shí)間變化數(shù)據(jù),以微調(diào)視頻擴(kuò)散模型。利用光流來(lái)篩選時(shí)間變化的視頻。對(duì)于時(shí)間變化的視頻,光流圖通常會(huì)顯示大量的白色區(qū)域,這可以作為有效的選擇標(biāo)準(zhǔn)。

ST-Director用于可控視頻生成

只需一張圖片!實(shí)現(xiàn)任意3D/4D場(chǎng)景生成!港科大&清華&生數(shù)發(fā)布DimensionX-AI.x社區(qū)

只需一張圖片!實(shí)現(xiàn)任意3D/4D場(chǎng)景生成!港科大&清華&生數(shù)發(fā)布DimensionX-AI.x社區(qū)

只需一張圖片!實(shí)現(xiàn)任意3D/4D場(chǎng)景生成!港科大&清華&生數(shù)發(fā)布DimensionX-AI.x社區(qū)

維度感知分解

只需一張圖片!實(shí)現(xiàn)任意3D/4D場(chǎng)景生成!港科大&清華&生數(shù)發(fā)布DimensionX-AI.x社區(qū)

只需一張圖片!實(shí)現(xiàn)任意3D/4D場(chǎng)景生成!港科大&清華&生數(shù)發(fā)布DimensionX-AI.x社區(qū)

無(wú)需調(diào)優(yōu)的維度感知合成

只需一張圖片!實(shí)現(xiàn)任意3D/4D場(chǎng)景生成!港科大&清華&生數(shù)發(fā)布DimensionX-AI.x社區(qū)

觀察1:去噪過程的初期步驟對(duì)生成視頻至關(guān)重要

從注意力圖中可以觀察到,在去噪過程的初期步驟中,基礎(chǔ)模型和兩個(gè)控制器都建立了與最終生成結(jié)果緊密對(duì)齊的基礎(chǔ)輪廓。這些初步的輪廓捕捉了空間和時(shí)間的基本結(jié)構(gòu),實(shí)際上為剩余的去噪步驟設(shè)定了方向。此外,還注意到這些變化展開的方式有明顯不同:在基礎(chǔ)模型中,時(shí)間和空間的變化同時(shí)發(fā)生,導(dǎo)致兩個(gè)維度的統(tǒng)一演化。相比之下,當(dāng)使用S-Director和T-Director時(shí),每次只有一個(gè)維度發(fā)生變化——是時(shí)間維度還是空間維度,取決于具體使用的控制器。

觀察2:空間信息比時(shí)間信息更早構(gòu)建

類似于Motionclone的發(fā)現(xiàn),觀察到,在去噪過程的初期階段,物體運(yùn)動(dòng)的合成仍未完全發(fā)展。具體來(lái)說(shuō),在使用S-Director時(shí),注意力圖表明,最終視頻的結(jié)構(gòu)性輪廓比時(shí)間控制提前出現(xiàn)。前面圖3顯示,在去噪循環(huán)的第0步和第3步時(shí),物體在T-Director的引導(dǎo)下保持靜止,而S-Director已經(jīng)開始引導(dǎo)攝像機(jī)在場(chǎng)景中移動(dòng)。

只需一張圖片!實(shí)現(xiàn)任意3D/4D場(chǎng)景生成!港科大&清華&生數(shù)發(fā)布DimensionX-AI.x社區(qū)

只需一張圖片!實(shí)現(xiàn)任意3D/4D場(chǎng)景生成!港科大&清華&生數(shù)發(fā)布DimensionX-AI.x社區(qū)

基于S-Director的3D場(chǎng)景生成

基于S-Director,視頻擴(kuò)散模型能夠從單一圖像生成長(zhǎng)時(shí)間一致的幀,從而重建逼真的場(chǎng)景。為了更好地推廣到現(xiàn)實(shí)世界場(chǎng)景,其中空間變化多樣且攝像機(jī)軌跡高度靈活,引入了軌跡感知機(jī)制來(lái)處理不同的攝像機(jī)運(yùn)動(dòng)。具體來(lái)說(shuō),為了覆蓋各種攝像機(jī)軌跡模式C(t),我們訓(xùn)練了多種類型的S-Directors,每種S-Director都針對(duì)特定的攝像機(jī)運(yùn)動(dòng)。 在3D世界中,攝像機(jī)的運(yùn)動(dòng)由6個(gè)自由度(DoF)定義,每個(gè)自由度允許在平移和旋轉(zhuǎn)的正負(fù)方向上進(jìn)行運(yùn)動(dòng),形成12種不同的運(yùn)動(dòng)模式。此外,我們還訓(xùn)練了軌道運(yùn)動(dòng)類別的S-Director,其中攝像機(jī)沿著一個(gè)平滑的圓形路徑繞主體運(yùn)動(dòng),捕捉到超越標(biāo)準(zhǔn)自由度運(yùn)動(dòng)的獨(dú)特視角。通過多樣化且可控的S-Directors,在單視圖和稀疏視圖設(shè)置中都采用了軌跡感知機(jī)制,從而使得能夠生成具有廣泛適應(yīng)性的現(xiàn)實(shí)世界3D場(chǎng)景。

只需一張圖片!實(shí)現(xiàn)任意3D/4D場(chǎng)景生成!港科大&清華&生數(shù)發(fā)布DimensionX-AI.x社區(qū)

稀疏視圖場(chǎng)景生成在3D場(chǎng)景生成的應(yīng)用中,精度和細(xì)節(jié)至關(guān)重要,使用稀疏視圖輸入可以顯著提高生成內(nèi)容的逼真。在這種設(shè)置下,提出了結(jié)合視頻插值模型和自適應(yīng)S-Director的方案,以實(shí)現(xiàn)稀疏視圖之間的平滑和一致的過渡。開發(fā)了一個(gè)視頻擴(kuò)散模型來(lái)生成高質(zhì)量的插值視頻,該模型以兩張圖像作為起始和結(jié)束幀。

只需一張圖片!實(shí)現(xiàn)任意3D/4D場(chǎng)景生成!港科大&清華&生數(shù)發(fā)布DimensionX-AI.x社區(qū)

只需一張圖片!實(shí)現(xiàn)任意3D/4D場(chǎng)景生成!港科大&清華&生數(shù)發(fā)布DimensionX-AI.x社區(qū)

只需一張圖片!實(shí)現(xiàn)任意3D/4D場(chǎng)景生成!港科大&清華&生數(shù)發(fā)布DimensionX-AI.x社區(qū)

本文采用了兩種關(guān)鍵策略,以充分利用S-Directors攜帶的指導(dǎo)信息:早期停止訓(xùn)練和自適應(yīng)軌跡規(guī)劃。研究發(fā)現(xiàn),在訓(xùn)練S-Director的早期階段,足夠的軌跡指導(dǎo)已被獲得,在此階段,相機(jī)運(yùn)動(dòng)可以根據(jù)輸入視點(diǎn)的變化靈活調(diào)節(jié)。此外,為了處理稀疏視圖的各種視點(diǎn)插值,提出根據(jù)輸入圖像之間的坐標(biāo)關(guān)系,動(dòng)態(tài)選擇合適的S-Director。


借助本文提出的長(zhǎng)視頻擴(kuò)散模型和多樣化的S-Directors,可以直接從生成的視頻中重建廣泛的場(chǎng)景。特別是,給定稀疏視圖(例如只有一張)圖像和選定的相機(jī)運(yùn)動(dòng)類型(可以是基本軌跡或這些運(yùn)動(dòng)原語(yǔ)的組合),擴(kuò)散模型能夠沿著指定路徑生成一致的長(zhǎng)視頻。

為了減輕生成視頻中的不一致性,采用了一種自信度感知的高斯點(diǎn)云濺射程序來(lái)重建3D場(chǎng)景。該程序使用DUSt3R提供的點(diǎn)云和估計(jì)的相機(jī)姿態(tài)進(jìn)行初始化,3D高斯點(diǎn)云濺射通過額外的LPIPS損失和從DUSt3R獲得的置信度圖進(jìn)行優(yōu)化。采用以下3DGS損失:

只需一張圖片!實(shí)現(xiàn)任意3D/4D場(chǎng)景生成!港科大&清華&生數(shù)發(fā)布DimensionX-AI.x社區(qū)

4D 場(chǎng)景生成與 ST-Director

通過配備空間和時(shí)間控制的視頻擴(kuò)散,可以從單一圖像恢復(fù)高質(zhì)量的4D動(dòng)態(tài)場(chǎng)景。直接的方法是將為每個(gè)時(shí)間幀生成的空間變化視頻拼接成多視圖視頻,然后用這些視頻重建4D場(chǎng)景。然而,這種方法面臨一個(gè)關(guān)鍵挑戰(zhàn):3D一致性。在空間變化的視頻之間保持背景和物體外觀的一致性是一個(gè)挑戰(zhàn),導(dǎo)致4D場(chǎng)景中出現(xiàn)嚴(yán)重的抖動(dòng)和不連續(xù)性。為了解決上述問題,我們提出了一種保持身份一致性的去噪策略,包括參考視頻潛在共享和外觀精煉過程,以增強(qiáng)所有空間變化視頻的一致性。

只需一張圖片!實(shí)現(xiàn)任意3D/4D場(chǎng)景生成!港科大&清華&生數(shù)發(fā)布DimensionX-AI.x社區(qū)

只需一張圖片!實(shí)現(xiàn)任意3D/4D場(chǎng)景生成!港科大&清華&生數(shù)發(fā)布DimensionX-AI.x社區(qū)

只需一張圖片!實(shí)現(xiàn)任意3D/4D場(chǎng)景生成!港科大&清華&生數(shù)發(fā)布DimensionX-AI.x社區(qū)

只需一張圖片!實(shí)現(xiàn)任意3D/4D場(chǎng)景生成!港科大&清華&生數(shù)發(fā)布DimensionX-AI.x社區(qū)

只需一張圖片!實(shí)現(xiàn)任意3D/4D場(chǎng)景生成!港科大&清華&生數(shù)發(fā)布DimensionX-AI.x社區(qū)

只需一張圖片!實(shí)現(xiàn)任意3D/4D場(chǎng)景生成!港科大&清華&生數(shù)發(fā)布DimensionX-AI.x社區(qū)

只需一張圖片!實(shí)現(xiàn)任意3D/4D場(chǎng)景生成!港科大&清華&生數(shù)發(fā)布DimensionX-AI.x社區(qū)

只需一張圖片!實(shí)現(xiàn)任意3D/4D場(chǎng)景生成!港科大&清華&生數(shù)發(fā)布DimensionX-AI.x社區(qū)

實(shí)驗(yàn)

本節(jié)對(duì)真實(shí)世界和合成數(shù)據(jù)集進(jìn)行了廣泛的實(shí)驗(yàn),以評(píng)估DimensionX的可控性,以及使用ST-Director進(jìn)行3D和4D場(chǎng)景生成的能力。我們首先全面說(shuō)明實(shí)驗(yàn)細(xì)節(jié)。然后提供了可控視頻生成的定量和定性評(píng)估。接著,我們報(bào)告了在各種場(chǎng)景下(包括單視角和稀疏視角3D生成)與其他基線方法的定量和定性結(jié)果。隨后,展示了本文方法的4D場(chǎng)景生成結(jié)果。最后進(jìn)行了各種消融研究,以評(píng)估本文設(shè)計(jì)的有效性。

實(shí)驗(yàn)設(shè)置

只需一張圖片!實(shí)現(xiàn)任意3D/4D場(chǎng)景生成!港科大&清華&生數(shù)發(fā)布DimensionX-AI.x社區(qū)

數(shù)據(jù)集。整個(gè)框架中的視頻擴(kuò)散模型主要在三個(gè)數(shù)據(jù)集上進(jìn)行訓(xùn)練:DL3DV-10K、OpenVid和RealEstate-10K。OpenVid-1M是一個(gè)高質(zhì)量的開源視頻數(shù)據(jù)集,包括100萬(wàn)個(gè)視頻片段,具有多樣的運(yùn)動(dòng)動(dòng)態(tài)和相機(jī)控制。DL3DV-10K是一個(gè)廣泛收集的3D場(chǎng)景數(shù)據(jù)集,包含高分辨率的多視角圖像,包括各種室內(nèi)和室外場(chǎng)景。RealEstate-10K是一個(gè)來(lái)自YouTube的數(shù)據(jù)集,主要包含室內(nèi)場(chǎng)景的捕捉。通過應(yīng)用我們?cè)O(shè)計(jì)的數(shù)據(jù)收集框架,我們從DL3DV-10K和OpenVid構(gòu)建了維度變化數(shù)據(jù)集。我們選擇了OpenVid中的100個(gè)高質(zhì)量時(shí)變視頻來(lái)訓(xùn)練T-Director。對(duì)于每種S-Director類型,渲染100個(gè)視頻,根據(jù)特定的相機(jī)軌跡來(lái)訓(xùn)練相應(yīng)的LoRA。為了擴(kuò)大視頻幀,我們篩選了來(lái)自RealEstate-10K和OpenVid的超過145幀的高質(zhì)量視頻,以完全微調(diào)視頻擴(kuò)散模型。使用相同的數(shù)據(jù)集,我們通過第一幀和最后一幀的引導(dǎo)微調(diào)視頻插值模型。為了進(jìn)一步驗(yàn)證DimensionX的3D生成能力,將本文的方法與其他基線方法在Tank-and-Temples、MipNeRF360、NeRF-LLFF和DL3DV-10K上進(jìn)行了比較。

可控視頻生成

基線和評(píng)估指標(biāo)。將DimensionX與原始的CogVideoX(開源)和Dream Machine 1.6(閉源產(chǎn)品)進(jìn)行了比較。收集了數(shù)百?gòu)垐D像作為評(píng)估數(shù)據(jù)集。根據(jù)先前的基準(zhǔn)VBench,評(píng)估了生成視頻的主題一致性、動(dòng)態(tài)度和美學(xué)得分作為我們的評(píng)估指標(biāo)。


定量和定性比較。下表2中的定性結(jié)果展示了本文方法的出色表現(xiàn),包括更好的視覺質(zhì)量和3D一致性。如前面圖4所示,可以觀察到,DimensionX有效地分解了視頻擴(kuò)散模型的空間和時(shí)間參數(shù),而Dream Machine無(wú)法解耦維度感知控制,即便使用了相機(jī)運(yùn)動(dòng)和提示約束。此外,對(duì)于包括空間和時(shí)間運(yùn)動(dòng)在內(nèi)的混合維度控制,相較于Dream Machine,DimensionX生成了更加生動(dòng)和動(dòng)態(tài)的視頻。定量和定性結(jié)果都表明,本文的方法能夠生成可控視頻,同時(shí)保持動(dòng)態(tài)運(yùn)動(dòng)和主題一致性。

只需一張圖片!實(shí)現(xiàn)任意3D/4D場(chǎng)景生成!港科大&清華&生數(shù)發(fā)布DimensionX-AI.x社區(qū)

3D場(chǎng)景生成

基線和評(píng)估指標(biāo)。在單視角設(shè)置中,將本文的方法與兩種生成方法進(jìn)行了比較:ZeroNVS和ViewCrafter。對(duì)于稀疏視角場(chǎng)景,選擇了兩種稀疏視角重建方法和一種稀疏視角生成基線,包括:DNGaussian 、InstantSplat和ViewCrafter。采用PSNR、SSIM和LPIPS作為定量結(jié)果的評(píng)估指標(biāo)。具體來(lái)說(shuō),在單視角和稀疏視角設(shè)置中,首先從給定的圖像重建3D場(chǎng)景,然后通過從新視角渲染計(jì)算指標(biāo)。


定量和定性比較。定量比較結(jié)果見下表1。DimensionX在所有指標(biāo)上均優(yōu)于基線,展示了本文方法的出色表現(xiàn)。如下圖5所示,在單視角(更多細(xì)節(jié)可見于附錄)和稀疏視角設(shè)置中,本文的方法能夠重建高質(zhì)量的3D場(chǎng)景,而其他基線無(wú)法處理具有挑戰(zhàn)性的案例。

只需一張圖片!實(shí)現(xiàn)任意3D/4D場(chǎng)景生成!港科大&清華&生數(shù)發(fā)布DimensionX-AI.x社區(qū)

只需一張圖片!實(shí)現(xiàn)任意3D/4D場(chǎng)景生成!港科大&清華&生數(shù)發(fā)布DimensionX-AI.x社區(qū)

4D場(chǎng)景生成

在真實(shí)世界和合成數(shù)據(jù)集上評(píng)估了DimensionX。具體來(lái)說(shuō),采用了Neu3D ,該數(shù)據(jù)集包含不同場(chǎng)景的高分辨率多視角視頻,以驗(yàn)證本文方法在真實(shí)世界視頻到4D生成的表現(xiàn)。如下圖6所示,給定一張單一圖像,DimensionX能夠從大角度新視角生成高度一致的動(dòng)態(tài)視頻。

只需一張圖片!實(shí)現(xiàn)任意3D/4D場(chǎng)景生成!港科大&清華&生數(shù)發(fā)布DimensionX-AI.x社區(qū)

消融實(shí)驗(yàn)

3D生成的軌跡感知機(jī)制。在稀疏視角的3D生成中,利用S-Director來(lái)指導(dǎo)視頻插值模型。如下圖7所示,在處理大角度稀疏視角時(shí),缺乏S-Director通常會(huì)導(dǎo)致“賈努斯問題”,即生成多個(gè)頭部,從而顯著降低重建質(zhì)量。

只需一張圖片!實(shí)現(xiàn)任意3D/4D場(chǎng)景生成!港科大&清華&生數(shù)發(fā)布DimensionX-AI.x社區(qū)

4D生成的身份保持去噪策略。在4D場(chǎng)景生成中,在真實(shí)世界圖像上進(jìn)行實(shí)驗(yàn),分析我們?cè)?D場(chǎng)景生成中的身份保持去噪策略。如下圖8所示,對(duì)參考視頻潛在共享和外觀精細(xì)化的設(shè)計(jì)進(jìn)行了消融實(shí)驗(yàn),具體分析了新視角中不同幀之間的一致性??梢杂^察到,直接將每幀視頻組合在一起會(huì)導(dǎo)致嚴(yán)重的不一致性,包括背景和主題形狀。通過參考視頻潛在共享,全球背景和外觀在不同幀之間表現(xiàn)出高度一致性。在參考視頻潛在共享的基礎(chǔ)上,外觀精細(xì)化增強(qiáng)了外觀細(xì)節(jié)的一致性。

只需一張圖片!實(shí)現(xiàn)任意3D/4D場(chǎng)景生成!港科大&清華&生數(shù)發(fā)布DimensionX-AI.x社區(qū)

結(jié)論

本文介紹了DimensionX框架,能夠僅從單張圖像生成具有可控視頻擴(kuò)散的逼真3D和4D場(chǎng)景。核心思路是引入ST-Director,通過學(xué)習(xí)基于維度變化的數(shù)據(jù)集上的維度感知LoRA,解耦視頻擴(kuò)散模型中的空間和時(shí)間先驗(yàn)。還研究了視頻擴(kuò)散的去噪過程,并引入了一種無(wú)需調(diào)優(yōu)的維度感知組合方法,實(shí)現(xiàn)了混合維度控制。通過可控的視頻擴(kuò)散,能夠從順序生成的視頻幀中恢復(fù)準(zhǔn)確的3D結(jié)構(gòu)和4D動(dòng)態(tài)。為了進(jìn)一步增強(qiáng)DimensionX在真實(shí)場(chǎng)景中的泛化能力,為3D場(chǎng)景生成量身定制了軌跡感知策略,為4D場(chǎng)景生成設(shè)計(jì)了身份感知機(jī)制。通過在各種真實(shí)世界和合成數(shù)據(jù)集上的廣泛實(shí)驗(yàn),證明了本文的方法在可控視頻生成以及3D和4D場(chǎng)景生成方面達(dá)到了最先進(jìn)的性能。


本文轉(zhuǎn)自AI生成未來(lái) ,作者:AI生成未來(lái)


原文鏈接:??https://mp.weixin.qq.com/s/lwj239Obzisp3MDl2gaplA??


收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦