自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

通向AGI的未來(lái)之路!首篇2D/視頻/3D/4D統(tǒng)一生成框架全景綜述(港科大&中山等)

發(fā)布于 2025-3-17 10:15
瀏覽
0收藏

通向AGI的未來(lái)之路!首篇2D/視頻/3D/4D統(tǒng)一生成框架全景綜述(港科大&中山等)-AI.x社區(qū)

文章鏈接: https://arxiv.org/pdf/2503.04641

亮點(diǎn)直擊

  • 首次統(tǒng)一2D、視頻、3D和4D生成研究的綜述,為該研究領(lǐng)域提供了結(jié)構(gòu)化和全面的概述。
  • 從數(shù)據(jù)維度增長(zhǎng)的角度,通過(guò)多模態(tài)生成模型的視角,系統(tǒng)性地回顧了現(xiàn)實(shí)世界模擬的方法。
  • 從多個(gè)角度調(diào)查了常用數(shù)據(jù)集、其特性以及相應(yīng)的評(píng)估指標(biāo)。
  • 它指出了開(kāi)放的研究挑戰(zhàn),旨在為該領(lǐng)域的進(jìn)一步探索提供指導(dǎo)。

理解并復(fù)現(xiàn)現(xiàn)實(shí)世界是通用人工智能(AGI)研究中的一個(gè)關(guān)鍵挑戰(zhàn)。為實(shí)現(xiàn)這一目標(biāo),許多現(xiàn)有方法(例如世界模型)旨在捕捉支配物理世界的基本原理,從而實(shí)現(xiàn)更精確的模擬和有意義的交互。然而,當(dāng)前的方法通常將不同模態(tài)(包括2D(圖像)、視頻、3D和4D表示)視為獨(dú)立領(lǐng)域,忽略了它們之間的相互依賴(lài)性。此外,這些方法通常專(zhuān)注于現(xiàn)實(shí)的孤立維度,而沒(méi)有系統(tǒng)地整合它們之間的聯(lián)系。本綜述提出了一種多模態(tài)生成模型的統(tǒng)一綜述,探討了現(xiàn)實(shí)世界模擬中數(shù)據(jù)維度的演進(jìn)。具體而言,本綜述從2D生成(外觀)開(kāi)始,隨后轉(zhuǎn)向視頻(外觀+動(dòng)態(tài))和3D生成(外觀+幾何),最后以整合所有維度的4D生成為終點(diǎn)。據(jù)我們所知,這是首次嘗試在單一框架內(nèi)系統(tǒng)性地統(tǒng)一2D、視頻、3D和4D生成的研究。為指導(dǎo)未來(lái)研究,全面回顧了數(shù)據(jù)集、評(píng)估指標(biāo)和未來(lái)方向,并為新研究者提供了啟發(fā)。本綜述作為橋梁,推動(dòng)了多模態(tài)生成模型和現(xiàn)實(shí)世界模擬在統(tǒng)一框架內(nèi)的研究進(jìn)展。

1 引言

幾十年來(lái),研究界一直致力于開(kāi)發(fā)能夠封裝物理世界基本原理的系統(tǒng),這是實(shí)現(xiàn)通用人工智能(AGI)的關(guān)鍵基石。這一努力的核心是通過(guò)機(jī)器模擬現(xiàn)實(shí)世界,旨在通過(guò)多模態(tài)生成模型的視角捕捉現(xiàn)實(shí)的復(fù)雜性。由此產(chǎn)生的世界模擬器有望推動(dòng)對(duì)現(xiàn)實(shí)世界的理解,并解鎖諸如虛擬現(xiàn)實(shí) 、游戲、機(jī)器人和自動(dòng)駕駛等變革性應(yīng)用。


“世界模擬器”一詞最早由 Ha David提出,借鑒了認(rèn)知科學(xué)中的心理模型概念?;谶@一視角,現(xiàn)代研究將模擬器定義為一個(gè)抽象框架,使智能系統(tǒng)能夠通過(guò)多模態(tài)生成模型模擬現(xiàn)實(shí)世界。這些模型將現(xiàn)實(shí)世界的視覺(jué)內(nèi)容和時(shí)空動(dòng)態(tài)編碼為緊湊的表示形式。由于幾何、外觀和動(dòng)態(tài)共同決定了生成內(nèi)容的真實(shí)感,這三個(gè)方面得到了廣泛研究。傳統(tǒng)的現(xiàn)實(shí)世界模擬方法長(zhǎng)期以來(lái)依賴(lài)于結(jié)合幾何、紋理和動(dòng)態(tài)的圖形技術(shù)。具體而言,幾何和紋理建模用于創(chuàng)建物體,而關(guān)鍵幀動(dòng)畫(huà)和基于物理的模擬等方法則用于模擬物體隨時(shí)間的運(yùn)動(dòng)和行為。


盡管取得了巨大進(jìn)展,但這些傳統(tǒng)方法通常需要大量的手動(dòng)設(shè)計(jì)、啟發(fā)式規(guī)則定義和計(jì)算密集型處理,限制了其可擴(kuò)展性和對(duì)多樣化場(chǎng)景的適應(yīng)性。近年來(lái),基于學(xué)習(xí)的方法,特別是多模態(tài)生成模型,通過(guò)提供數(shù)據(jù)驅(qū)動(dòng)的現(xiàn)實(shí)模擬方法,徹底改變了內(nèi)容創(chuàng)作。這些方法減少了對(duì)人工努力的依賴(lài),提高了跨任務(wù)的泛化能力,并實(shí)現(xiàn)了人與模型之間的直觀交互。例如,Sora 因其逼真的模擬能力而備受關(guān)注,展示了早期對(duì)物理定律的理解。此類(lèi)生成模型的出現(xiàn)引入了新的視角和方法,通過(guò)減少對(duì)大量手動(dòng)設(shè)計(jì)和計(jì)算密集型建模的需求,同時(shí)增強(qiáng)多樣化模擬場(chǎng)景中的適應(yīng)性和可擴(kuò)展性,解決了傳統(tǒng)方法的局限性。


盡管現(xiàn)有的生成模型為合成不同數(shù)據(jù)維度中的逼真內(nèi)容提供了強(qiáng)大的技術(shù),但現(xiàn)實(shí)世界表現(xiàn)出固有的高維復(fù)雜性,目前仍缺乏一項(xiàng)系統(tǒng)整合這些跨維度進(jìn)展的全面綜述。本綜述旨在通過(guò)從數(shù)據(jù)維度增長(zhǎng)的角度統(tǒng)一現(xiàn)實(shí)世界模擬的研究,填補(bǔ)這一空白,如下圖 1 所示。具體而言,從 2D 生成(僅外觀)開(kāi)始,然后通過(guò)分別引入動(dòng)態(tài)和幾何維度,擴(kuò)展到視頻和 3D 生成。最后,通過(guò)整合所有維度,以 4D 生成為終點(diǎn)。

通向AGI的未來(lái)之路!首篇2D/視頻/3D/4D統(tǒng)一生成框架全景綜述(港科大&中山等)-AI.x社區(qū)

總結(jié)而言,本綜述做出了三項(xiàng)關(guān)鍵貢獻(xiàn)。首先,它從數(shù)據(jù)維度增長(zhǎng)的角度,通過(guò)多模態(tài)生成模型的視角,系統(tǒng)性地回顧了現(xiàn)實(shí)世界模擬的方法。據(jù)我們所知,這是首次統(tǒng)一 2D、視頻、3D 和 4D 生成研究的綜述,為該研究領(lǐng)域提供了結(jié)構(gòu)化和全面的概述。其次,它從多個(gè)角度調(diào)查了常用數(shù)據(jù)集、其特性以及相應(yīng)的評(píng)估指標(biāo)。第三,它指出了開(kāi)放的研究挑戰(zhàn),旨在為該領(lǐng)域的進(jìn)一步探索提供指導(dǎo)。


希望本綜述能夠?yàn)樾卵芯空咛峁┯袃r(jià)值的見(jiàn)解,并促進(jìn)經(jīng)驗(yàn)豐富的研究者進(jìn)行批判性分析。本綜述的組織結(jié)構(gòu)如下:第 2 節(jié)介紹了深度生成模型的基礎(chǔ)概念;第 3 節(jié)介紹了 2D、視頻、3D 和 4D 生成四個(gè)關(guān)鍵范式;第 4 節(jié)回顧了這些范式的數(shù)據(jù)集和評(píng)估指標(biāo);第 5 節(jié)概述了未來(lái)方向;第 6 節(jié)總結(jié)了本綜述。

2 預(yù)備知識(shí)

通向AGI的未來(lái)之路!首篇2D/視頻/3D/4D統(tǒng)一生成框架全景綜述(港科大&中山等)-AI.x社區(qū)

通向AGI的未來(lái)之路!首篇2D/視頻/3D/4D統(tǒng)一生成框架全景綜述(港科大&中山等)-AI.x社區(qū)

2.1 生成對(duì)抗網(wǎng)絡(luò)(GANs)

通向AGI的未來(lái)之路!首篇2D/視頻/3D/4D統(tǒng)一生成框架全景綜述(港科大&中山等)-AI.x社區(qū)

通向AGI的未來(lái)之路!首篇2D/視頻/3D/4D統(tǒng)一生成框架全景綜述(港科大&中山等)-AI.x社區(qū)

2.2 變分自編碼器(VAEs)

通向AGI的未來(lái)之路!首篇2D/視頻/3D/4D統(tǒng)一生成框架全景綜述(港科大&中山等)-AI.x社區(qū)

通向AGI的未來(lái)之路!首篇2D/視頻/3D/4D統(tǒng)一生成框架全景綜述(港科大&中山等)-AI.x社區(qū)

通向AGI的未來(lái)之路!首篇2D/視頻/3D/4D統(tǒng)一生成框架全景綜述(港科大&中山等)-AI.x社區(qū)

2.3 自回歸模型(AR Models)

通向AGI的未來(lái)之路!首篇2D/視頻/3D/4D統(tǒng)一生成框架全景綜述(港科大&中山等)-AI.x社區(qū)

通向AGI的未來(lái)之路!首篇2D/視頻/3D/4D統(tǒng)一生成框架全景綜述(港科大&中山等)-AI.x社區(qū)

其中, d是序列長(zhǎng)度。最近,許多研究致力于使用自回歸模型對(duì)圖像中的像素進(jìn)行順序建模 [19]–[21]。

2.4 歸一化流(Normalizing Flows, NFs)

通向AGI的未來(lái)之路!首篇2D/視頻/3D/4D統(tǒng)一生成框架全景綜述(港科大&中山等)-AI.x社區(qū)

2.5 擴(kuò)散模型

通向AGI的未來(lái)之路!首篇2D/視頻/3D/4D統(tǒng)一生成框架全景綜述(港科大&中山等)-AI.x社區(qū)

3 范式

本節(jié)從數(shù)據(jù)維度增長(zhǎng)的角度介紹了模擬現(xiàn)實(shí)世界的方法。首先從外觀建模的 2D 生成(第 3.1 節(jié))開(kāi)始,然后通過(guò)引入動(dòng)態(tài)和幾何維度,擴(kuò)展到視頻生成(第 3.2 節(jié))和 3D 生成(第 3.3 節(jié))。最后,通過(guò)整合這三個(gè)維度,介紹了 4D 生成(第 3.4 節(jié))的最新進(jìn)展。

3.1 2D 生成

近年來(lái),生成模型領(lǐng)域取得了顯著進(jìn)展,尤其是在文本到圖像生成方面。文本到圖像生成因其能夠通過(guò)捕捉現(xiàn)實(shí)世界的外觀從文本描述中生成逼真圖像而備受關(guān)注。利用擴(kuò)散模型、大語(yǔ)言模型(LLMs)和自編碼器等技術(shù),這些模型實(shí)現(xiàn)了高質(zhì)量且語(yǔ)義準(zhǔn)確的圖像生成。

3.1.1 算法

Imagen 基于 GLIDE 的原則,但引入了顯著的優(yōu)化和改進(jìn)。Imagen 沒(méi)有從頭開(kāi)始訓(xùn)練任務(wù)特定的文本編碼器,而是使用預(yù)訓(xùn)練并凍結(jié)的語(yǔ)言模型,從而減少了計(jì)算需求。Imagen 測(cè)試了在圖像-文本數(shù)據(jù)集(如 CLIP)上訓(xùn)練的模型,以及在純文本數(shù)據(jù)集(如 BERT 和 T5)上訓(xùn)練的模型。這一實(shí)踐表明,擴(kuò)大語(yǔ)言模型的規(guī)模比擴(kuò)大圖像擴(kuò)散模型更有效地提高了圖像保真度和文本一致性。


DALL-E(v1版本)使用了一種 Transformer 架構(gòu),將文本和圖像作為單一數(shù)據(jù)流進(jìn)行處理。


DALL-E 2 利用了 CLIP 的強(qiáng)大語(yǔ)義和風(fēng)格能力,采用生成擴(kuò)散解碼器來(lái)逆轉(zhuǎn) CLIP 圖像編碼器的過(guò)程。


DALL-E 3 在 DALL-E 2 的基礎(chǔ)上進(jìn)一步改進(jìn),顯著提升了圖像保真度和文本對(duì)齊能力。它增強(qiáng)了文本理解能力,能夠從復(fù)雜描述中生成更準(zhǔn)確和細(xì)致的圖像。DALL-E 3 與 ChatGPT集成,使用戶可以直接在 ChatGPT 界面中構(gòu)思和完善提示,從而簡(jiǎn)化生成詳細(xì)和定制化提示的過(guò)程。該模型生成的圖像具有更高的真實(shí)感,并與提供的文本更好地對(duì)齊,使其成為創(chuàng)意和專(zhuān)業(yè)應(yīng)用的強(qiáng)大工具。


DeepFloyd IFDeepFloyd IF 以其卓越的 photorealism(超寫(xiě)實(shí)主義)和高級(jí)語(yǔ)言理解能力而聞名。該系統(tǒng)采用模塊化設(shè)計(jì),包括一個(gè)靜態(tài)文本編碼器和三個(gè)順序的像素?cái)U(kuò)散模塊。首先,基礎(chǔ)模型從文本描述生成 64×64 像素的圖像,然后通過(guò)兩個(gè)超分辨率模型將其增強(qiáng)到 256×256 像素,最終達(dá)到 1024×1024 像素。每個(gè)階段都使用基于 T5 Transformer 的靜態(tài)文本編碼器生成文本嵌入,隨后通過(guò)集成了交叉注意力和注意力池化機(jī)制的 U-Net 架構(gòu)進(jìn)行處理。


Stable Diffusion (SD)Stable Diffusion(SD),也稱(chēng)為 Latent Diffusion Model(LDM),在有限的計(jì)算資源上提高了訓(xùn)練和推理效率,同時(shí)生成高質(zhì)量和多樣化的圖像。去噪過(guò)程在預(yù)訓(xùn)練自編碼器的隱空間中進(jìn)行,這些自編碼器將圖像映射到空間隱空間。底層的 U-Net 架構(gòu)通過(guò)交叉注意力機(jī)制增強(qiáng),以建模條件分布,條件可以包括文本提示、分割掩碼等。它使用 BERT 分詞器進(jìn)行文本編碼,并在 LAION-400M數(shù)據(jù)集上訓(xùn)練,生成分辨率為 256×256 的圖像(隱空間分辨率為 32×32)。


在 Stable Diffusion 的基礎(chǔ)上,SDXL 采用了三倍大的 U-Net 骨干網(wǎng)絡(luò),并引入了額外的注意力塊和更大的交叉注意力上下文,通過(guò)使用第二個(gè)文本編碼器實(shí)現(xiàn)。此外,SDXL 還包含一個(gè)細(xì)化模型,通過(guò)后處理的圖像到圖像技術(shù)增強(qiáng) SDXL 生成樣本的視覺(jué)保真度。

FLUX.1FLUX.1 采用了一種混合架構(gòu),集成了多模態(tài)和并行擴(kuò)散 Transformer 塊,達(dá)到了 120 億參數(shù)的規(guī)模。通過(guò)使用流匹配(flow matching)這一簡(jiǎn)單而有效的生成模型訓(xùn)練技術(shù),F(xiàn)LUX.1 超越了之前的最先進(jìn)擴(kuò)散模型。該套件還采用了旋轉(zhuǎn)位置嵌入和并行注意力層,極大地提高了模型性能和效率。

3.2 視頻生成

文本到視頻生成模型通過(guò)擴(kuò)展文本到圖像框架來(lái)處理現(xiàn)實(shí)世界中的動(dòng)態(tài)維度。根據(jù)不同的生成機(jī)器學(xué)習(xí)架構(gòu)將這些模型分為三類(lèi)。下圖 2 總結(jié)了最近的文本到視頻生成技術(shù)。如需更詳細(xì)的綜述,讀者可以參考該子領(lǐng)域的更多詳細(xì)綜述 [62], [63]。

通向AGI的未來(lái)之路!首篇2D/視頻/3D/4D統(tǒng)一生成框架全景綜述(港科大&中山等)-AI.x社區(qū)

3.2.1 算法

(1) 基于 VAE 和 GAN 的方法在擴(kuò)散模型之前,視頻生成研究主要通過(guò)兩種方法推進(jìn):基于 VAE 和基于 GAN 的方法,每種方法都為視頻合成的挑戰(zhàn)提供了獨(dú)特的解決方案?;?VAE 的方法從 SV2P的隨機(jī)動(dòng)態(tài)發(fā)展到 VideoGPT 中 VQ-VAE與 Transformer 的結(jié)合,通過(guò)分層離散隱空間變量高效處理高分辨率視頻。FitVid的參數(shù)高效架構(gòu)和對(duì)抗訓(xùn)練的引入帶來(lái)了顯著改進(jìn)?;?GAN 的方法則從 MoCoGAN開(kāi)始,通過(guò)分解內(nèi)容和運(yùn)動(dòng)組件實(shí)現(xiàn)可控生成。StyleGAN-V 通過(guò)位置嵌入將視頻視為時(shí)間連續(xù)信號(hào),而 DIGAN引入了隱式神經(jīng)表示以改進(jìn)連續(xù)視頻建模。StyleInV利用預(yù)訓(xùn)練的 StyleGAN生成器,結(jié)合時(shí)間風(fēng)格調(diào)制反演網(wǎng)絡(luò),標(biāo)志著高質(zhì)量幀合成和時(shí)間一致性的又一里程碑。


(2) 基于擴(kuò)散的方法文本到視頻生成最近取得了顯著進(jìn)展,主要分為兩類(lèi):基于 U-Net 的架構(gòu)和基于 Transformer 的架構(gòu)。

  • (i) 基于 U-Net 的架構(gòu)開(kāi)創(chuàng)性的視頻擴(kuò)散模型(VDM) 通過(guò)擴(kuò)展圖像擴(kuò)散架構(gòu)并引入聯(lián)合圖像-視頻訓(xùn)練以減少梯度方差,實(shí)現(xiàn)了高保真、時(shí)間一致的視頻生成。Make-A-Video通過(guò)利用現(xiàn)有視覺(jué)表示和創(chuàng)新時(shí)空模塊,在沒(méi)有配對(duì)文本-視頻數(shù)據(jù)的情況下推進(jìn)了文本到視頻生成。Imagen Video引入了結(jié)合基礎(chǔ)生成和超分辨率的擴(kuò)散模型級(jí)聯(lián),而 MagicVideo通過(guò)在低維空間中的隱空間擴(kuò)散實(shí)現(xiàn)了高效生成。GEN-1專(zhuān)注于使用深度估計(jì)進(jìn)行結(jié)構(gòu)保留編輯,而 PYoCo通過(guò)精心設(shè)計(jì)的視頻噪聲先驗(yàn)展示了在有限數(shù)據(jù)下的高效微調(diào)。Align-your-Latents通過(guò)擴(kuò)展 Stable Diffusion并結(jié)合時(shí)間對(duì)齊技術(shù),實(shí)現(xiàn)了高分辨率生成(1280×2048)。Show-1結(jié)合了基于像素和基于隱空間的方法,以提高質(zhì)量并減少計(jì)算量。VideoComposer通過(guò)時(shí)空條件編碼器引入了一種新的可控合成范式,支持基于多種條件的靈活組合。AnimateDiff提出了一個(gè)即插即用的運(yùn)動(dòng)模塊,具有可遷移的運(yùn)動(dòng)先驗(yàn),并引入了 MotionLoRA 以實(shí)現(xiàn)高效適配。PixelDance通過(guò)結(jié)合首幀和末幀圖像指令以及文本提示,增強(qiáng)了生成效果。
  • (ii) 基于 Transformer 的架構(gòu)隨著 Diffusion Transformer (DiT)的成功,基于 Transformer 的模型逐漸嶄露頭角。VDT引入了模塊化的時(shí)間和空間注意力機(jī)制,支持預(yù)測(cè)、插值和補(bǔ)全等多樣化任務(wù)。W.A.L.T通過(guò)統(tǒng)一的隱空間和因果編碼器架構(gòu)實(shí)現(xiàn)了照片級(jí)真實(shí)感生成,生成分辨率為 512×896 的高分辨率視頻。Snap Video通過(guò)處理空間和時(shí)間冗余像素,將訓(xùn)練效率提高了 3.31 倍,而 GenTron通過(guò)無(wú)運(yùn)動(dòng)引導(dǎo)擴(kuò)展到了超過(guò) 30 億參數(shù)。Luminia-T2X通過(guò)零初始化注意力和標(biāo)記化的隱時(shí)空空間集成了多種模態(tài)。CogVideoX通過(guò)專(zhuān)家 Transformer、3D VAE 和漸進(jìn)訓(xùn)練在長(zhǎng)視頻生成中表現(xiàn)出色,通過(guò)多項(xiàng)指標(biāo)驗(yàn)證了其最先進(jìn)的性能。突破性的 Sora是一種先進(jìn)的擴(kuò)散 Transformer 模型,專(zhuān)注于生成不同分辨率、寬高比和時(shí)長(zhǎng)的高質(zhì)量圖像和視頻。Sora 通過(guò)對(duì)隱時(shí)空空間進(jìn)行標(biāo)記化,實(shí)現(xiàn)了靈活且可擴(kuò)展的生成能力。

?

(3) 基于自回歸的方法與基于擴(kuò)散的方法并行,受大語(yǔ)言模型(LLMs)啟發(fā)的自回歸框架也成為了視頻生成的另一種方法。這些方法通常遵循兩階段過(guò)程:首先使用 VQ-GAN和 MAGVIT, [71]–[74] 等向量量化自編碼器將視覺(jué)內(nèi)容編碼為離散的隱空間標(biāo)記,然后在隱空間中建模標(biāo)記分布。CogVideo 是一個(gè)基于預(yù)訓(xùn)練文本到圖像模型 CogView 的 90 億參數(shù) Transformer 模型,代表了這一方向的重大進(jìn)展。它采用多幀率分層訓(xùn)練策略來(lái)增強(qiáng)文本-視頻對(duì)齊,并作為首批開(kāi)源的大規(guī)模預(yù)訓(xùn)練文本到視頻模型之一,在機(jī)器和人類(lèi)評(píng)估中設(shè)立了新的基準(zhǔn)。VideoPoet引入了一種僅解碼器的 Transformer 架構(gòu),用于零樣本視頻生成,能夠處理包括圖像、視頻、文本和音頻在內(nèi)的多種輸入模態(tài)。遵循 LLM 訓(xùn)練范式,VideoPoet 在零樣本視頻生成中實(shí)現(xiàn)了最先進(jìn)的性能,特別是在運(yùn)動(dòng)保真度方面表現(xiàn)出色。

3.2.2 應(yīng)用

(1) 視頻編輯

最近,擴(kuò)散模型顯著推動(dòng)了視頻編輯的發(fā)展,能夠在保持時(shí)間一致性的同時(shí)實(shí)現(xiàn)復(fù)雜的修改。該領(lǐng)域通過(guò)多種創(chuàng)新方法不斷發(fā)展,涵蓋了視頻操作的各個(gè)方面。早期的發(fā)展包括 Tune-A-Video,它通過(guò)時(shí)空注意力機(jī)制將文本到圖像擴(kuò)散模型擴(kuò)展到視頻生成。VidToMe引入了標(biāo)記合并以對(duì)齊幀,而 EI開(kāi)發(fā)了專(zhuān)門(mén)的注意力模塊。Ground-A-Video通過(guò)接地引導(dǎo)框架處理多屬性編輯,而 Video-P2P引入了交叉注意力控制以生成角色。UniEdit和 AnyV2V等最新框架提供了無(wú)需調(diào)優(yōu)的方法和簡(jiǎn)化的編輯流程。CoDeF和 Pix2Video等專(zhuān)門(mén)應(yīng)用引入了創(chuàng)新的時(shí)間一致性處理和漸進(jìn)變化傳播技術(shù)。這些方法成功平衡了內(nèi)容編輯和結(jié)構(gòu)保留,標(biāo)志著視頻操作技術(shù)的重大進(jìn)展。

(2) 新視角合成

視頻擴(kuò)散模型徹底改變了新視角合成,通過(guò)學(xué)習(xí)真實(shí)世界幾何的先驗(yàn),從有限的輸入圖像生成高質(zhì)量視角。ViewCrafter通過(guò)將視頻擴(kuò)散模型與基于點(diǎn)的 3D 表示相結(jié)合,開(kāi)創(chuàng)了這一方向,引入了迭代合成策略和相機(jī)軌跡規(guī)劃,從稀疏輸入中生成高保真結(jié)果。CameraCtrl通過(guò)即插即用模塊引入了精確的相機(jī)姿態(tài)控制。ViVid-1-to-3將新視角合成重新定義為相機(jī)運(yùn)動(dòng)的視頻生成,而 NVSSolver引入了一種零樣本范式,通過(guò)給定視圖調(diào)制擴(kuò)散采樣。這一趨勢(shì)表明,利用視頻擴(kuò)散先驗(yàn)的同時(shí)保持幾何一致性和相機(jī)控制,正在推動(dòng)越來(lái)越逼真的合成應(yīng)用。

(3) 視頻中的人類(lèi)動(dòng)畫(huà)

人類(lèi)動(dòng)畫(huà)在視頻生成中具有重要意義,正如第 3.2.1 節(jié)所述,它在世界模擬器中扮演著關(guān)鍵角色。由于人類(lèi)是現(xiàn)實(shí)世界中最主要的參與者,因此其逼真模擬尤為重要。得益于生成模型的早期成功,一些代表性工作 [37], [89], [90] 引入了生成對(duì)抗網(wǎng)絡(luò)(GAN)來(lái)生成視頻中的人類(lèi)動(dòng)畫(huà)。盡管取得了這些進(jìn)展,人類(lèi)視頻動(dòng)畫(huà)中最關(guān)鍵的問(wèn)題仍然是生成視頻的視覺(jué)保真度。ControlNet 和 HumanSD 是基于基礎(chǔ)文本到圖像模型(如 Stable Diffusion [31])的即插即用方法,用于參考姿勢(shì)生成人類(lèi)動(dòng)畫(huà)。此外,為了解決這些方法的泛化問(wèn)題,animate-anyone 提出了 ReferenceNet 以保持參考視頻的更多空間細(xì)節(jié),并將野外生成質(zhì)量推向了新的里程碑。一些后續(xù)工作 [94], [95] 嘗試簡(jiǎn)化訓(xùn)練架構(gòu)和成本。此外,隨著計(jì)算機(jī)圖形學(xué)中對(duì)幾何和紋理的深入研究,一些工作將 3D 建模引入人類(lèi)視頻動(dòng)畫(huà)。Liquid Warping GAN、CustomHuman 和 LatentMan是早期嘗試將 3D 人類(lèi)先驗(yàn)引入生成循環(huán)的成果。最新進(jìn)展 MIMO 明確分別建模角色、3D 運(yùn)動(dòng)和場(chǎng)景,以驅(qū)動(dòng)野外人類(lèi)動(dòng)畫(huà)。這些方法無(wú)論是否使用 3D 先驗(yàn),都為將人類(lèi)引入世界模擬器循環(huán)邁出了重要一步。

3.3 3D 生成

3D 生成關(guān)注幾何結(jié)構(gòu)和外觀,以更好地模擬現(xiàn)實(shí)世界場(chǎng)景。在本節(jié)中,探討各種 3D 表示和生成算法,并對(duì)最新進(jìn)展進(jìn)行系統(tǒng)概述。具體而言,根據(jù)輸入模式對(duì) 3D 生成方法進(jìn)行分類(lèi),包括 文本到 3D 生成(Text-to-3D Generation),該方法直接從文本描述合成 3D 內(nèi)容;圖像到 3D 生成(Image-to-3D Generation),該方法通過(guò)引入圖像約束優(yōu)化基于文本的輸出;視頻到 3D 生成(Video-to-3D Generation),該方法利用視頻先驗(yàn)信息生成更一致的 3D 結(jié)果。圖 4 按時(shí)間順序總結(jié)了這些技術(shù)的進(jìn)展,而表 2 則對(duì)最前沿的方法進(jìn)行了全面比較。值得注意的是,一些方法跨多個(gè)類(lèi)別,展示了現(xiàn)代 3D 生成技術(shù)的多功能性。

通向AGI的未來(lái)之路!首篇2D/視頻/3D/4D統(tǒng)一生成框架全景綜述(港科大&中山等)-AI.x社區(qū)

通向AGI的未來(lái)之路!首篇2D/視頻/3D/4D統(tǒng)一生成框架全景綜述(港科大&中山等)-AI.x社區(qū)

3.3.1 3D 表示

在 3D 生成領(lǐng)域,選擇最優(yōu)的 3D 表示至關(guān)重要。對(duì)于神經(jīng)場(chǎng)景表示,3D 數(shù)據(jù)通常可分為三類(lèi):顯式表示(explicit representations)、隱式表示(implicit representations)和 混合表示(hybrid representations),這些類(lèi)別在圖 3 中有所展示。

通向AGI的未來(lái)之路!首篇2D/視頻/3D/4D統(tǒng)一生成框架全景綜述(港科大&中山等)-AI.x社區(qū)

(1) 顯式表示

顯式表示通過(guò)一組元素清晰地可視化對(duì)象和場(chǎng)景。傳統(tǒng)形式包括 點(diǎn)云(point clouds)、網(wǎng)格(meshes)和 體素(voxels),這些方法已廣泛應(yīng)用多年。

通向AGI的未來(lái)之路!首篇2D/視頻/3D/4D統(tǒng)一生成框架全景綜述(港科大&中山等)-AI.x社區(qū)

通向AGI的未來(lái)之路!首篇2D/視頻/3D/4D統(tǒng)一生成框架全景綜述(港科大&中山等)-AI.x社區(qū)

(2) 隱式表示

隱式表示使用連續(xù)函數(shù)(如數(shù)學(xué)模型或神經(jīng)網(wǎng)絡(luò))來(lái)描述 3D 空間,捕捉體積特性,而非直接表示表面幾何。隱式神經(jīng)表示利用神經(jīng)網(wǎng)絡(luò)逼近這些函數(shù),提高表現(xiàn)力,但帶來(lái)了更高的訓(xùn)練和推理開(kāi)銷(xiāo)。主要方法包括 有向距離場(chǎng)(Signed Distance Field, SDF)和 神經(jīng)輻射場(chǎng)(Neural Radiance Field, NeRF)。

通向AGI的未來(lái)之路!首篇2D/視頻/3D/4D統(tǒng)一生成框架全景綜述(港科大&中山等)-AI.x社區(qū)

(3) 混合表示

目前,大多數(shù)隱式方法依賴(lài)于回歸 NeRF 或 SDF 值,這可能限制它們利用目標(biāo)視圖或表面的顯式監(jiān)督能力。而顯式表示提供了有益的訓(xùn)練約束并改善用戶交互?;旌媳硎窘Y(jié)合了二者的優(yōu)勢(shì),是顯式和隱式表示之間的一種折中方案。

  • 混合體素網(wǎng)格在方法 [110]–[112] 中有所應(yīng)用,例如 [111] 通過(guò)密度和特征網(wǎng)格重建輻射場(chǎng),而Instant-NGP[112] 利用哈希多層網(wǎng)格優(yōu)化 GPU 性能,以加速訓(xùn)練和渲染。
  • DMTet將四面體網(wǎng)格與implicit SDF相結(jié)合,用于靈活的3D表面表示。神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)每個(gè)頂點(diǎn)的SDF值和位置偏移,從而可以對(duì)復(fù)雜的拓?fù)溥M(jìn)行建模。網(wǎng)格通過(guò)可微的Marching Tetrahedra(MT)層轉(zhuǎn)換為網(wǎng)格,實(shí)現(xiàn)了高效、高分辨率的渲染。通過(guò)基于網(wǎng)格的損失優(yōu)化幾何和拓?fù)?,DMTet實(shí)現(xiàn)了更精細(xì)的細(xì)節(jié)、更少的偽影,并在復(fù)雜3D數(shù)據(jù)集上從粗體素進(jìn)行條件形狀合成方面優(yōu)于以前的方法。
  • 三平面表示(Tri-plane)通過(guò)將 3D 體積分解為三個(gè)正交的 2D 特征平面(XY、XZ、YZ),提供了一種節(jié)省內(nèi)存的替代方案。例如EG3D采用此結(jié)構(gòu),并使用 MLP 聚合平面特征以預(yù)測(cè) 3D 點(diǎn)的顏色和密度:

通向AGI的未來(lái)之路!首篇2D/視頻/3D/4D統(tǒng)一生成框架全景綜述(港科大&中山等)-AI.x社區(qū)

該方法比基于體素的 NeRF 更節(jié)省內(nèi)存,并能實(shí)現(xiàn)更快的渲染。

3.3.2 算法

(1) 文本到 3D 生成

為了通過(guò)模擬真實(shí)世界中的幾何結(jié)構(gòu),從文本提示生成 3D 內(nèi)容,已經(jīng)進(jìn)行了大量研究,并且可以分為三個(gè)分支。讀者可以參考 [161]–[163] 以獲取該領(lǐng)域更全面的綜述。

  • (i) 前饋方法

受文本到圖像生成的啟發(fā),一類(lèi)主要的方法擴(kuò)展了現(xiàn)有成功的生成模型,以在一次前饋傳播中直接從文本提示合成 3D 表示。成功的關(guān)鍵在于將 3D 幾何編碼為緊湊的表示,并使其與相應(yīng)的文本提示對(duì)齊。


Michelangelo首先構(gòu)建了一個(gè) VAE 模型,將 3D 形狀編碼到一個(gè)隱空間嵌入中。然后,該嵌入使用 CLIP模型與從語(yǔ)言和圖像中提取的嵌入進(jìn)行對(duì)齊。通過(guò)使用對(duì)比損失進(jìn)行優(yōu)化,可以從文本提示推斷出 3D 形狀。


ATT3D使用Instant-NGP模型作為 3D 表示,并通過(guò)映射網(wǎng)絡(luò)將其與文本嵌入連接起來(lái)。然后,從 Instant-NGP 模型渲染多視圖圖像,并使用 SDS 損失優(yōu)化整個(gè)網(wǎng)絡(luò)。


受 ATT3D 啟發(fā),Atom學(xué)習(xí)從文本嵌入預(yù)測(cè)三平面(triplane)表示,并采用兩階段優(yōu)化策略。


Hyperfields訓(xùn)練一個(gè)動(dòng)態(tài)超網(wǎng)絡(luò),以記錄從不同場(chǎng)景學(xué)習(xí)到的 NeRF 參數(shù)。


最近,擴(kuò)散模型(diffusion models)的出色表現(xiàn)促使研究人員將其擴(kuò)展到 3D 生成。早期方法主要專(zhuān)注于學(xué)習(xí)從文本提示(text prompt)合成顯式 3D 表示。具體來(lái)說(shuō),Point·E首先使用 GLIDE生成多個(gè)視角的圖像,然后利用擴(kuò)散模型將這些圖像作為條件生成點(diǎn)云(point cloud)。隨后,MeshDiffusion使用擴(kuò)散模型建立從文本到網(wǎng)格(meshes)的映射。


后續(xù)方法嘗試將擴(kuò)散模型應(yīng)用于隱式 3D 表示(implicit 3D representations)。Shap·E 首先將 3D 內(nèi)容映射到輻射場(chǎng)(radiance field)的參數(shù),并訓(xùn)練擴(kuò)散模型生成這些參數(shù),以文本嵌入(text embedding)作為條件。3D-LDM 使用 SDF(簽名距離場(chǎng))表示 3D 內(nèi)容的幾何信息,并訓(xùn)練擴(kuò)散模型進(jìn)行基于文本的生成。同樣,Diffusion-SDF 通過(guò)體素化(voxelized)的擴(kuò)散模型構(gòu)建一個(gè) SDF 自編碼器(autoencoder),從文本提示生成體素化的 SDFs。LATTE3D 發(fā)展了一個(gè)紋理網(wǎng)絡(luò)(texture network)和一個(gè)幾何網(wǎng)絡(luò)(geometry network),分別生成 NeRF 和 SDF,并以文本嵌入作為條件。然后,通過(guò) SDS 損失優(yōu)化一個(gè) 3D 感知的擴(kuò)散模型。


討論:與基于優(yōu)化的方法相比,前饋方法(feedforward approaches)效率更高,并且能夠在無(wú)需測(cè)試時(shí)優(yōu)化(test-time optimization)的情況下生成 3D 內(nèi)容。然而,這些方法依賴(lài)于大量數(shù)據(jù),并且通常在結(jié)構(gòu)和紋理細(xì)節(jié)方面表現(xiàn)較差。

  • (ii) 基于優(yōu)化的方法(Optimization-based Approaches)

在文本到圖像生成的基礎(chǔ)上,另一類(lèi)方法通過(guò)利用強(qiáng)大的文本到圖像生成模型提供豐富的監(jiān)督信號(hào),以優(yōu)化 3D 表示。


DreamFusion首次引入得分蒸餾采樣(Score Distillation Sampling, SDS)損失,以優(yōu)化從文本提示合成的圖像的 NeRF。MVDream通過(guò)微調(diào)一個(gè)多視角擴(kuò)散模型(multi-view diffusion model),以生成跨視角一致的多視角圖像,從而訓(xùn)練 NeRF 以捕捉 3D 內(nèi)容。Magic3D采用帶有紋理的網(wǎng)格(textured meshes)來(lái)表示 3D 物體,并使用 SDS 損失優(yōu)化網(wǎng)格。Dream3D首先從文本提示生成圖像,然后利用該圖像生成 3D 形狀,以初始化神經(jīng)輻射場(chǎng)(NeRF),隨后 NeRF 通過(guò) CLIP 指導(dǎo)進(jìn)行優(yōu)化。Fantasia3D 進(jìn)一步結(jié)合 DMTet 和 SDS 損失,從文本提示生成 3D 物體。


ProlificDreamer發(fā)展了一種變分得分蒸餾(VSD)方法,以建模 3D 表示的分布,并產(chǎn)生更高質(zhì)量、細(xì)節(jié)豐富的結(jié)果。為了應(yīng)對(duì)多面 Janus(multi-face Janus)問(wèn)題,PI3D先微調(diào)文本到圖像擴(kuò)散模型,以生成偽圖像(pseudo-images),然后利用這些圖像通過(guò) SDS 損失生成 3D 形狀。VP3D首先使用文本到圖像擴(kuò)散模型從文本提示生成高質(zhì)量圖像,然后使用 SDS 損失,以該圖像和文本提示為條件優(yōu)化 3D 表示。


隨著 3D 高斯(3D Gaussian)的顯著進(jìn)展,該技術(shù)被廣泛應(yīng)用于文本到 3D 生成領(lǐng)域。DreamGaussian首次使用擴(kuò)散模型生成 3D 高斯,并采用 SDS 損失進(jìn)行優(yōu)化。然后,從 3D 高斯中提取網(wǎng)格,并優(yōu)化紋理,以獲得更高質(zhì)量的內(nèi)容。為促進(jìn)收斂,GSGEN和 GaussianDreamer首先利用 Point·E 從文本提示生成點(diǎn)云,以初始化高斯的位置。隨后,這些高斯通過(guò) SDS 損失優(yōu)化其幾何和外觀。Sculpt3D引入了 3D 先驗(yàn)(3D prior),通過(guò)檢索數(shù)據(jù)庫(kù)中的參考 3D 物體,與現(xiàn)有流水線無(wú)縫集成。


討論:得益于文本到圖像模型的豐富知識(shí),基于優(yōu)化的方法能夠生成更精細(xì)的細(xì)節(jié)。然而,這些方法需要昂貴的逐提示優(yōu)化(per-prompt optimization),并且計(jì)算開(kāi)銷(xiāo)較大。

  • (iii) 基于多視角(MVS)的方法

相比于直接從文本提示生成 3D 表示,為了更好地利用文本到圖像模型,許多方法嘗試合成多視角圖像以進(jìn)行 3D 生成。


Instant3D首先微調(diào)文本到圖像擴(kuò)散模型,以生成四視角圖像。然后,這些圖像輸入一個(gè) Transformer,以預(yù)測(cè)三平面(triplane)表示。Direct2.5對(duì)2.5D渲染和自然圖像上的多視圖法線擴(kuò)散模型進(jìn)行了微調(diào)。給定一個(gè)文本提示,Direct2.5首先生成法線貼圖,并通過(guò)可微分光柵化對(duì)其進(jìn)行優(yōu)化。然后,采用最優(yōu)法線圖作為合成多視圖圖像的條件。Sherpa3D首先采用3D擴(kuò)散模型從文本提示生成粗略的3D先驗(yàn)。然后,生成法線圖并用于合成具有3D相干性的多視圖圖像。


討論:隨著視覺(jué)語(yǔ)言模型(VLMs)的發(fā)展,通過(guò)注入 3D 先驗(yàn)提升 2D 生成模型的 3D 生成能力引起了越來(lái)越多的興趣。然而,3D 一致性的建立以及有限 3D 數(shù)據(jù)的微調(diào)仍然是開(kāi)放性問(wèn)題。

(2) 圖像到3D生成

圖像到3D任務(wù)的目標(biāo)是生成與給定圖像身份一致的高質(zhì)量3D資產(chǎn)。

(i) 前饋方法

此類(lèi)方法首先通過(guò)壓縮網(wǎng)絡(luò)(如VAE)將3D資產(chǎn)編碼為隱空間變量,隨后訓(xùn)練生成模型對(duì)隱空間樣本進(jìn)行建模:

  • 3DGen:引入三平面作為隱空間,提升壓縮網(wǎng)絡(luò)精度與效率。
  • Direct3D:采用三平面表征并直接使用3D監(jiān)督訓(xùn)練,保留隱空間中的細(xì)節(jié)3D信息。
  • Michelangelo:受3Dshape2vecset啟發(fā),使用一維向量作為隱空間,并通過(guò)占據(jù)場(chǎng)監(jiān)督輸出。
  • CraftsMan:引入多視角生成模型為擴(kuò)散模型提供條件,結(jié)合法線優(yōu)化生成網(wǎng)格。
  • Clay:構(gòu)建基于大規(guī)模3D數(shù)據(jù)集預(yù)訓(xùn)練的綜合系統(tǒng),包含一維向量VAE/擴(kuò)散模型(幾何生成)、PBR材質(zhì)擴(kuò)散與多模態(tài)條件設(shè)計(jì)。

討論:原生方法在3D數(shù)據(jù)集上訓(xùn)練壓縮網(wǎng)絡(luò)和生成模型,與基于MVS和基于優(yōu)化的方法相比,在幾何生成方面表現(xiàn)出卓越的性能,能夠生成更細(xì)粒度的幾何細(xì)節(jié)。然而,由于制作和收集成本高昂,3D數(shù)據(jù)集的大小比圖像或視頻數(shù)據(jù)集要慢得多。因此,原生方法缺乏足夠多樣和廣泛的數(shù)據(jù)用于預(yù)訓(xùn)練。因此,如何利用視頻和圖像中的先驗(yàn)信息來(lái)增強(qiáng)3D生成的多樣性和通用性,特別是在紋理生成方面,仍然是一個(gè)有待進(jìn)一步探索的領(lǐng)域。

(ii) 基于優(yōu)化的方法

基于文本到3D模型的蒸餾方法發(fā)展,此類(lèi)方法通過(guò)預(yù)訓(xùn)練圖像-圖像/文本-圖像生成模型提供的SDS損失監(jiān)督優(yōu)化3D資產(chǎn),同時(shí)通過(guò)額外損失約束保持圖像身份:

  • RealFusion:融合DreamFusion、Magic3D與SJC,結(jié)合圖像重建損失(保持低層特征)與文本反轉(zhuǎn)(保持語(yǔ)義身份)優(yōu)化。
  • Zero123:將文本-圖像模型替換為新視角合成模型,引入相機(jī)位姿條件,在3D數(shù)據(jù)集上微調(diào)預(yù)訓(xùn)練模型。其新視角合成模型同時(shí)保留圖像細(xì)節(jié)與3D數(shù)據(jù)集的多視角一致性,顯著緩解多面Janus問(wèn)題。
  • Zero123-xl:在10倍規(guī)模3D數(shù)據(jù)集上預(yù)訓(xùn)練Zero123流程以提升泛化性。
  • Magic123:聯(lián)合利用2D/3D先驗(yàn)進(jìn)行蒸餾,平衡泛化與一致性,采用粗-細(xì)流程提升質(zhì)量。
  • SyncDreamer:通過(guò)3D體積建模圖像聯(lián)合分布關(guān)系提升多視角一致性。
  • Consistent123:利用跨視角注意力與共享自注意力機(jī)制增強(qiáng)一致性。
  • Toss:引入文本描述作為3D數(shù)據(jù)高層語(yǔ)義,增強(qiáng)不可見(jiàn)視角的合理性與可控性。
  • ImageDream:設(shè)計(jì)多級(jí)圖像提示控制器并結(jié)合文本描述訓(xùn)練,解決多視角一致性與3D細(xì)節(jié)問(wèn)題。
  • Wonder3D:跨域注意力機(jī)制同步去噪圖像與對(duì)齊法線圖,并引入法線圖優(yōu)化流程。

討論:繼承圖像生成模型的強(qiáng)大先驗(yàn),優(yōu)化方法展現(xiàn)出強(qiáng)泛化能力與高精度紋理建模。但由于新視角合成(NVS)模型預(yù)訓(xùn)練僅使用3D數(shù)據(jù)采樣的2D數(shù)據(jù)而非直接3D監(jiān)督,即使通過(guò)3D體積建?;蚩缫暯亲⒁饬Ω倪M(jìn),多視角一致性問(wèn)題仍無(wú)法根本解決,導(dǎo)致幾何過(guò)平滑與訓(xùn)練耗時(shí)較長(zhǎng)。

(iii) 基于MVS的方法

MVS方法將圖像到3D生成拆分為兩階段:1)使用NVS模型從單圖生成多視角圖像;2)通過(guò)前饋重建網(wǎng)絡(luò)直接生成3D資產(chǎn):

  • One-2-3-45:基于Zero123預(yù)測(cè)圖像,提出高度估計(jì)模塊與SDF通用神經(jīng)表面重建模塊(3D數(shù)據(jù)集預(yù)訓(xùn)練),實(shí)現(xiàn)360°網(wǎng)格重建(耗時(shí)45秒,遠(yuǎn)快于優(yōu)化方法)。
  • CRM:固定多視角生成圖像為六種相機(jī)位姿以提升一致性,通過(guò)卷積U-Net生成深度/RGB監(jiān)督的高分辨率三平面。
  • InstantMesh:固定多視角相機(jī)位姿,采用基于LRM的Transformer多視角重建模型,以部分細(xì)節(jié)一致性為代價(jià)提升泛化性。
  • Unique3D:多級(jí)上采樣策略生成高分辨率多視角圖像,法線擴(kuò)散模型預(yù)測(cè)多視角法線圖初始化粗網(wǎng)格,并基于多視角圖像優(yōu)化著色。

討論:相比優(yōu)化方法,基于MVS的方法在3D數(shù)據(jù)集上訓(xùn)練前饋重建模型,顯著提升3D一致性與推理速度(秒級(jí))。但受模型規(guī)模限制,幾何細(xì)節(jié)質(zhì)量仍有不足。

(3) 視頻到3D生成

海量在線視頻數(shù)據(jù)蘊(yùn)含物體運(yùn)動(dòng)、視角變化與相機(jī)運(yùn)動(dòng)信息,為3D生成提供靜態(tài)圖像難以捕獲的多視角先驗(yàn)。這些動(dòng)態(tài)內(nèi)容具有時(shí)序連貫性與空間一致性,對(duì)復(fù)雜3D場(chǎng)景理解與高保真結(jié)構(gòu)生成至關(guān)重要。當(dāng)前研究探索視頻先驗(yàn)以實(shí)現(xiàn)跨幀連貫、視角自適應(yīng)的3D表征,核心思想是將相機(jī)可控視頻模型作為密集3D重建的連貫多視角生成器。


視頻擴(kuò)散模型的最新進(jìn)展展現(xiàn)了其在生成逼真視頻與隱式推理3D結(jié)構(gòu)方面的卓越能力,但精確相機(jī)控制仍是關(guān)鍵挑戰(zhàn)。傳統(tǒng)模型通常局限于生成短軌跡平滑相機(jī)運(yùn)動(dòng)片段,難以有效構(gòu)建動(dòng)態(tài)3D場(chǎng)景或整合多變視角。為此,研究者提出多種創(chuàng)新技術(shù)增強(qiáng)視頻擴(kuò)散框架的相機(jī)控制:

  • AnimateDiff:采用低秩自適應(yīng)(LoRA)微調(diào)視頻擴(kuò)散模型,生成固定相機(jī)運(yùn)動(dòng)類(lèi)型的結(jié)構(gòu)化場(chǎng)景。
  • MotionCtrl:引入條件機(jī)制支持任意相機(jī)路徑跟蹤,突破傳統(tǒng)方法剛性限制。
  • SVD-MVSV3D、IM-3D:基于相機(jī)可控視頻生成能力優(yōu)化3D物體生成。例如SV3D訓(xùn)練可渲染任意視角的視頻擴(kuò)散模型,輸出576×576高分辨率,保持跨幀空間一致性。

這些能力使得能夠保持跨框架的空間一致性,同時(shí)適應(yīng)各種觀點(diǎn),有效地應(yīng)對(duì)密集重建中的關(guān)鍵挑戰(zhàn)。雖然有效,這些方法往往限制攝像機(jī)的運(yùn)動(dòng)固定,軌道路徑周?chē)闹行膶?duì)象,這限制了他們的適用性,復(fù)雜的場(chǎng)景與豐富的背景。然而,許多這些方法仍然不能產(chǎn)生令人信服的復(fù)雜環(huán)境的 3D 表示,其中不同的攝像機(jī)角度和與多個(gè)對(duì)象的交互是至關(guān)重要的。


隨著視頻模型中相機(jī)運(yùn)動(dòng)控制與新穎視角信息的互補(bǔ),部分方法探索視頻擴(kuò)散模型在新視角合成(NVS)中的潛力:

  • Vivid-1-to-3:融合視角條件擴(kuò)散模型與視頻擴(kuò)散模型,生成時(shí)序一致視圖。
  • CAT3D:通過(guò)多視角擴(kuò)散模型增強(qiáng)豐富多視角信息。

?

討論:視頻先驗(yàn)驅(qū)動(dòng)多視角生成技術(shù)將推進(jìn)高保真3D表征發(fā)展,尤其在需要強(qiáng)大多視角合成的復(fù)雜動(dòng)態(tài)環(huán)境建模中潛力巨大。

3.3.3 應(yīng)用

(1) 頭像生成(Avatar Generation)

隨著元宇宙(Metaverse)的興起和 VR/AR 的普及,3D 頭像生成受到了越來(lái)越多的關(guān)注。早期工作主要專(zhuān)注于生成頭部頭像,采用文本到圖像擴(kuò)散模型和神經(jīng)輻射場(chǎng)生成面部資產(chǎn)。隨后的方法更加關(guān)注逼真的全身頭像生成,結(jié)合神經(jīng)輻射場(chǎng)與統(tǒng)計(jì)模型。最近,頭像生成的動(dòng)畫(huà)能力受到了廣泛關(guān)注,并涌現(xiàn)出許多相關(guān)方法。

(2) 場(chǎng)景生成(Scene Generation)

除了頭像生成,場(chǎng)景生成(Scene Generation)在元宇宙和具身智能(embodied intelligence)等應(yīng)用中也至關(guān)重要。早期方法主要集中在基于物體的場(chǎng)景,并利用條件擴(kuò)散模型合成多視角圖像,以優(yōu)化神經(jīng)輻射場(chǎng)。后續(xù)研究擴(kuò)展了這些方法至房間尺度(room-scale)場(chǎng)景,并引入漸進(jìn)式策略。受其成功啟發(fā),最近的研究進(jìn)一步探索了從街道尺度到城市尺度的室外場(chǎng)景生成。

(3) 3D 編輯(3D Editing)

3D 生成能力的強(qiáng)大,使得 3D 內(nèi)容編輯成為了一個(gè)新的下游應(yīng)用方向。一些方法專(zhuān)注于全局更改 3D 內(nèi)容的外觀或幾何形狀,例如場(chǎng)景風(fēng)格化(scene stylization)方法,用于調(diào)整照明或氣候變化。近年來(lái),研究人員致力于實(shí)現(xiàn)更加靈活和精細(xì)化的 3D 內(nèi)容編輯,包括外觀修改、幾何變形和基于物體級(jí)別的操作,并取得了令人矚目的成果。

3.4 4D 生成

最終整合所有維度,探討4D生成。作為計(jì)算機(jī)視覺(jué)的前沿領(lǐng)域,4D 生成專(zhuān)注于合成基于文本、圖像或視頻等多模態(tài)輸入的動(dòng)態(tài) 3D 場(chǎng)景。與傳統(tǒng)的 2D 或 3D 生成不同,4D 合成引入了獨(dú)特的挑戰(zhàn),要求在保持高保真度、計(jì)算效率和動(dòng)態(tài)真實(shí)感的同時(shí),實(shí)現(xiàn)空間連貫性和時(shí)間一致性。在本節(jié)中,首先介紹基于3D 表示擴(kuò)展的 4D 表示,然后總結(jié)當(dāng)前的 4D 生成方法。最近的研究探索了兩種主要范式:利用評(píng)分蒸餾采樣(SDS)的優(yōu)化方法,以及避免每次提示優(yōu)化的前饋方法。這些范式解決了不同的技術(shù)挑戰(zhàn),凸顯了該領(lǐng)域的復(fù)雜性,以及在視覺(jué)質(zhì)量、計(jì)算效率和場(chǎng)景靈活性之間尋找可行平衡的持續(xù)努力。表 3 總結(jié)了 4D 生成的代表性工作。

通向AGI的未來(lái)之路!首篇2D/視頻/3D/4D統(tǒng)一生成框架全景綜述(港科大&中山等)-AI.x社區(qū)

3.4.1 4D表示

4D 表示領(lǐng)域?qū)r(shí)間維度融入 3D 建模,為理解動(dòng)態(tài)場(chǎng)景提供了堅(jiān)實(shí)基礎(chǔ)。通過(guò)將靜態(tài) 3D 空間表示 ((x, y, z)) 擴(kuò)展到時(shí)間 ((t)),這些方法對(duì)場(chǎng)景動(dòng)態(tài)和變換進(jìn)行編碼,對(duì)于非剛性人體運(yùn)動(dòng)捕捉模擬物體軌跡等應(yīng)用至關(guān)重要。

4D 表示面臨的一個(gè)主要挑戰(zhàn)是重建單個(gè)場(chǎng)景的高計(jì)算成本。為了解決這一問(wèn)題,顯式和混合方法在不犧牲質(zhì)量的情況下提高了效率。例如:

  • 平面分解通過(guò)將 4D 時(shí)空網(wǎng)格拆分為更小的組件來(lái)優(yōu)化計(jì)算。
  • 基于哈希的表示降低了內(nèi)存和處理需求。
  • 3DGS通過(guò)變形網(wǎng)絡(luò)將靜態(tài)高斯調(diào)整為動(dòng)態(tài)高斯,以平衡速度與質(zhì)量。

最近的進(jìn)展將靜態(tài)和動(dòng)態(tài)場(chǎng)景組件解耦,以高效渲染剛性和非剛性運(yùn)動(dòng)。例如:

  • D-NeRF先將場(chǎng)景編碼到一個(gè)標(biāo)準(zhǔn)空間,然后再映射到隨時(shí)間變化的變形狀態(tài)。
  • 3D Cinemagraphy通過(guò)單張圖像生成基于特征的點(diǎn)云,并使用 3D 場(chǎng)景流進(jìn)行動(dòng)畫(huà)化。
  • 4DGS通過(guò)將尺度、位置、旋轉(zhuǎn)等屬性建模為時(shí)間函數(shù)來(lái)捕捉時(shí)間動(dòng)態(tài),同時(shí)保持靜態(tài)場(chǎng)景不變。

此外,混合 NeRF 方法 擴(kuò)展了 4D 建模,引入平面和體素特征網(wǎng)格,結(jié)合 MLP 實(shí)現(xiàn)高效的新視角合成,并通過(guò)時(shí)間平面拓展到動(dòng)態(tài)場(chǎng)景。可變形 NeRFs 通過(guò)將幾何與運(yùn)動(dòng)分離,簡(jiǎn)化了運(yùn)動(dòng)學(xué)習(xí),支持圖像到 4D 視頻生成多視角重建等應(yīng)用??傮w而言,這些進(jìn)展反映了在計(jì)算效率和高質(zhì)量時(shí)間建模方面的持續(xù)突破。

3.4.2 算法

(1) 前饋方法

前饋方法提供了一種高效的替代方案,在單次前向傳播中生成 4D 內(nèi)容,繞過(guò) SDS 需要的迭代優(yōu)化。這些方法依賴(lài)于預(yù)訓(xùn)練模型,利用時(shí)空先驗(yàn)實(shí)現(xiàn)快速且一致的生成。例如:

  • Control4D ** 和 Animate3D ** 可直接從文本或視覺(jué)輸入合成動(dòng)態(tài)場(chǎng)景,支持交互式媒體和個(gè)性化內(nèi)容創(chuàng)作
  • Vidu4D通過(guò)整合時(shí)間先驗(yàn)來(lái)優(yōu)化運(yùn)動(dòng)軌跡,確保幀間一致性平滑過(guò)渡
  • Diffusion4D擴(kuò)展擴(kuò)散模型以處理 4D 場(chǎng)景合成,結(jié)合時(shí)空特征提取與高效推理機(jī)制。
  • L4GM進(jìn)一步增強(qiáng)前饋技術(shù),集成隱空間幾何建模,在保證高質(zhì)量的同時(shí)保持計(jì)算效率。

討論:前饋方法在實(shí)時(shí)內(nèi)容生成輕量級(jí)設(shè)備部署等場(chǎng)景中表現(xiàn)優(yōu)異。然而,它們依賴(lài)預(yù)訓(xùn)練模型,難以處理復(fù)雜動(dòng)態(tài),難以達(dá)到優(yōu)化方法的細(xì)節(jié)和多樣性水平。盡管如此,這些技術(shù)在計(jì)算效率和可擴(kuò)展性方面的優(yōu)勢(shì),使其成為推動(dòng) 4D 生成實(shí)用化的重要步驟。

(2) 優(yōu)化方法

優(yōu)化方法是 4D 生成的基礎(chǔ),利用評(píng)分蒸餾采樣(SDS)等迭代技術(shù),使預(yù)訓(xùn)練的擴(kuò)散模型適應(yīng)動(dòng)態(tài) 4D 場(chǎng)景合成。這些方法借助文本到圖像、多視角圖像文本到視頻生成模型的強(qiáng)大先驗(yàn),實(shí)現(xiàn)時(shí)間一致性強(qiáng)、運(yùn)動(dòng)動(dòng)態(tài)豐富的場(chǎng)景。例如:

  • MAV3D針對(duì) SDS 損失優(yōu)化 NeRF 或 HexPlane 特征,以文本提示引導(dǎo) 4D 生成。
  • 4D-fyDream-in-4D通過(guò)整合圖像、多視角和視頻擴(kuò)散模型提升 3D 一致性與運(yùn)動(dòng)動(dòng)態(tài)。
  • AYG使用可變形 3DGS作為內(nèi)在表示,利用簡(jiǎn)單的增量變形場(chǎng)分離靜態(tài)幾何與動(dòng)態(tài)運(yùn)動(dòng),提高靈活性。

在這些基礎(chǔ)上,最近的研究從多個(gè)方面進(jìn)一步提升 4D 生成:

  • TC4DSC4D允許用戶自由控制 4D 物體的運(yùn)動(dòng)軌跡。
  • STAG4D采用多視角融合增強(qiáng)幀間的空間和時(shí)間對(duì)齊,確保平滑過(guò)渡和一致性。
  • DreamScene4DDreamMesh4D采用解耦策略,局部?jī)?yōu)化計(jì)算量,降低計(jì)算開(kāi)銷(xiāo)的同時(shí)保持高保真度。

此外,4Real 和 C3V 結(jié)合組合式場(chǎng)景生成與高效優(yōu)化,將動(dòng)態(tài)場(chǎng)景拆分為靜態(tài)幾何與運(yùn)動(dòng)場(chǎng)等模塊化組件,支持靈活更新與多樣化內(nèi)容生成。盡管優(yōu)化方法在生成質(zhì)量和時(shí)間一致性上表現(xiàn)卓越,但計(jì)算需求較高,難以支持實(shí)時(shí)應(yīng)用。當(dāng)前研究正致力于在可擴(kuò)展性與低延遲方面取得突破,同時(shí)保持視覺(jué)質(zhì)量和動(dòng)態(tài)真實(shí)感。

3.4.3 應(yīng)用

(1) 4D 編輯

基于指令引導(dǎo)的編輯允許用戶通過(guò)自然語(yǔ)言編輯場(chǎng)景,提升可用性。例如:

  • Instruct 4D-to-4D將 4D 場(chǎng)景視為偽 3D 場(chǎng)景,采用視頻編輯方法逐步生成一致的編輯數(shù)據(jù)集
  • Control4D結(jié)合 GAN 和擴(kuò)散模型,實(shí)現(xiàn)基于文本指令的動(dòng)態(tài) 4D 人像編輯。
(2) 人體動(dòng)畫(huà)

4D 生成的重要應(yīng)用之一是人體運(yùn)動(dòng)生成,其目標(biāo)是在數(shù)字世界中模擬 4D 人體角色。研究方向包括:

  1. 基于稀疏控制信號(hào)生成運(yùn)動(dòng),例如運(yùn)動(dòng)補(bǔ)全運(yùn)動(dòng)預(yù)測(cè)。
  2. 多模態(tài)條件生成,例如文本到動(dòng)作、音樂(lè)驅(qū)動(dòng)舞蹈等。

隨著擴(kuò)散模型的快速發(fā)展,許多研究已將其引入文本到動(dòng)作音樂(lè)到舞蹈生成任務(wù),取得了良好的生成質(zhì)量。

4 數(shù)據(jù)集與評(píng)估

在本節(jié)中,總結(jié)了 2D、視頻、3D 和 4D 生成中常用的數(shù)據(jù)集(見(jiàn)表 4)。隨后,我們?cè)诒?5 中呈現(xiàn)了統(tǒng)一且全面的評(píng)估指標(biāo)總結(jié)。

通向AGI的未來(lái)之路!首篇2D/視頻/3D/4D統(tǒng)一生成框架全景綜述(港科大&中山等)-AI.x社區(qū)

通向AGI的未來(lái)之路!首篇2D/視頻/3D/4D統(tǒng)一生成框架全景綜述(港科大&中山等)-AI.x社區(qū)

對(duì)于定量分析,從兩個(gè)角度評(píng)估指標(biāo):

  1. 質(zhì)量(Quality):評(píng)估合成數(shù)據(jù)的感知質(zhì)量,與輸入條件(如文本提示)無(wú)關(guān)。
  2. 一致性(Alignment):衡量生成數(shù)據(jù)與用戶期望輸入之間的匹配程度。

對(duì)于定性分析,生成結(jié)果的視覺(jué)質(zhì)量在評(píng)估方法中起著關(guān)鍵作用。因此,引入了一些基于人類(lèi)偏好的指標(biāo),以作為用戶研究的參考,從而更有效地進(jìn)行定性分析,提供更具說(shuō)服力的評(píng)估結(jié)果。

5 未來(lái)方向

盡管 2D、視頻和 3D 生成取得了重大進(jìn)展,但 4D 生成仍面臨重大挑戰(zhàn)。這些困難源于空間和時(shí)間維度的復(fù)雜結(jié)合。在 2D 生成中,主要挑戰(zhàn)仍然是提高現(xiàn)實(shí)感和生成內(nèi)容的多樣性。在視頻生成中,關(guān)鍵問(wèn)題在于建模長(zhǎng)期的時(shí)間動(dòng)態(tài),并確保幀之間的平滑過(guò)渡。在 3D 生成中,平衡高質(zhì)量輸出與計(jì)算效率仍然是核心問(wèn)題。解決這些挑戰(zhàn)對(duì)于 4D 生成至關(guān)重要,因?yàn)樗⒃谶@些既有技術(shù)的基礎(chǔ)上。

以下是 4D 生成的主要未來(lái)方向,說(shuō)明了如何解決這些問(wèn)題不僅有助于 4D 模型的發(fā)展,同時(shí)也推動(dòng) 2D、視頻和 3D 生成的進(jìn)步。

多模態(tài)生成

生成多樣且合理的 4D 內(nèi)容,并捕捉現(xiàn)實(shí)世界動(dòng)態(tài)的固有變化性,是一個(gè)重大挑戰(zhàn)。由于現(xiàn)實(shí)世界的場(chǎng)景通常是多模態(tài)的,當(dāng)前的生成模型往往難以捕捉這種多樣性,并傾向于生成不真實(shí)的結(jié)果。盡管條件生成(Conditional Generation)隱空間建模(Latent Space Modeling)等技術(shù)正在被探索,但在 4D 生成中同時(shí)實(shí)現(xiàn)多樣性現(xiàn)實(shí)感仍然是一個(gè)未解決的問(wèn)題。

時(shí)間一致性與連貫性

確保幀之間的平滑、真實(shí)過(guò)渡是 4D 生成中的重要挑戰(zhàn)。與靜態(tài) 3D 生成不同,4D 生成需要在多個(gè)時(shí)間步中保持形狀、紋理和運(yùn)動(dòng)的一致性。特別是在長(zhǎng)序列中,閃爍(Flickering)不自然的變形等偽影(Artifacts)很容易出現(xiàn)。如何開(kāi)發(fā)既能強(qiáng)制執(zhí)行時(shí)間一致性、又不會(huì)犧牲細(xì)節(jié)和真實(shí)感的方法,仍然是一個(gè)懸而未決的問(wèn)題。

物理與動(dòng)態(tài)建模

真實(shí)的 4D 生成需要準(zhǔn)確建模物理交互,如碰撞、形變和流體動(dòng)力學(xué)。在生成模型中引入物理約束極具挑戰(zhàn)性,因?yàn)檫@通常涉及求解復(fù)雜的微分方程實(shí)時(shí)模擬交互。如何在真實(shí)性計(jì)算效率之間取得平衡,仍然是一個(gè)開(kāi)放性問(wèn)題。

場(chǎng)景泛化能力

4D 生成模型通常難以在不同場(chǎng)景下泛化,例如面對(duì)不同的物體類(lèi)型、運(yùn)動(dòng)模式或環(huán)境條件時(shí)。這是因?yàn)?strong>動(dòng)態(tài) 3D 內(nèi)容的變化性極高,而訓(xùn)練數(shù)據(jù)集的多樣性卻較為有限。如何開(kāi)發(fā)無(wú)需大量重新訓(xùn)練就能適應(yīng)未知場(chǎng)景的模型,是一個(gè)亟待解決的挑戰(zhàn)。

控制與可編輯性

賦予用戶靈活的 4D 生成控制能力(如指定運(yùn)動(dòng)軌跡編輯動(dòng)態(tài)內(nèi)容)是一個(gè)具有挑戰(zhàn)性的問(wèn)題。當(dāng)前的方法往往缺乏細(xì)粒度控制,導(dǎo)致難以生成滿足特定需求的內(nèi)容。開(kāi)發(fā)直觀的交互式編輯界面高效的 4D 編輯算法,仍然是一個(gè)開(kāi)放研究領(lǐng)域。

高計(jì)算成本

4D 生成涉及同時(shí)建??臻g和時(shí)間維度,需要處理和存儲(chǔ)大量數(shù)據(jù)。這導(dǎo)致高昂的計(jì)算和內(nèi)存需求,使得實(shí)時(shí)或大規(guī)模 4D 生成變得困難。為了克服這一挑戰(zhàn),需要高效的壓縮技術(shù)可擴(kuò)展的架構(gòu)

6 結(jié)論

本綜述回顧了跨外觀(Appearance)、動(dòng)態(tài)(Dynamics)和幾何(Geometry)維度的多模態(tài)生成模型在模擬現(xiàn)實(shí)世界方面的最新進(jìn)展和挑戰(zhàn)。還總結(jié)了常用數(shù)據(jù)集、其特性以及從不同角度評(píng)估生成質(zhì)量的方法。

盡管該領(lǐng)域取得了重要進(jìn)展,但在可擴(kuò)展性(Scalability)、時(shí)間一致性(Temporal Coherence)和動(dòng)態(tài)適應(yīng)性(Dynamic Adaptability)方面仍然存在挑戰(zhàn)。提出了一些開(kāi)放性問(wèn)題,以引導(dǎo)未來(lái)的研究朝著更逼真的真實(shí)世界模擬方向發(fā)展。


本文轉(zhuǎn)自AI生成未來(lái) ,作者:AI生成未來(lái)


原文鏈接:??https://mp.weixin.qq.com/s/S19Hcgo8MpkpcjoVf3cMdA??


標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
社區(qū)精華內(nèi)容

目錄