一文詳解3D內(nèi)容生成算法(樸素/2D先驗(yàn)/混合型) 精華
文章鏈接:https://arxiv.org/pdf/2402.01166
近年來(lái),人工智能生成內(nèi)容(AIGC)方面取得了顯著進(jìn)展,涉及多種輸入形式,如文本、圖像、視頻、音頻和3D內(nèi)容。其中,3D內(nèi)容是最接近真實(shí)世界3D環(huán)境的視覺(jué)形式,并蘊(yùn)含著巨大的知識(shí)量。3D內(nèi)容生成展示了學(xué)術(shù)和實(shí)踐價(jià)值,同時(shí)也面臨著巨大的技術(shù)挑戰(zhàn)。本文旨在總結(jié)3D內(nèi)容生成領(lǐng)域的發(fā)展,提出了一個(gè)新的分類法,將現(xiàn)有方法分為三類:3D樸素生成方法、基于2D先驗(yàn)的3D生成方法和混合3D生成方法。這項(xiàng)調(diào)查涵蓋了大約60篇涉及主要技術(shù)領(lǐng)域的論文。此外討論了當(dāng)前3D內(nèi)容生成技術(shù)的局限性,并指出了未來(lái)工作的開(kāi)放挑戰(zhàn)和有前景的方向。
一個(gè)超棒的3D內(nèi)容生成資源地址:
介紹
生成模型在自然語(yǔ)言處理(NLP)和圖像生成領(lǐng)域取得了巨大的成功。最近的發(fā)展,如ChatGPT和Midjourney,已經(jīng)徹底改變了許多學(xué)術(shù)和工業(yè)領(lǐng)域。例如,AI寫作和設(shè)計(jì)助手顯著縮短了論文寫作和圖像設(shè)計(jì)的時(shí)間。在3D領(lǐng)域,隨著3D數(shù)據(jù)量的增加以及其他領(lǐng)域生成技術(shù)的成功,3D生成技術(shù)也取得了重大進(jìn)步。
由于其廣泛的應(yīng)用,3D內(nèi)容生成的研究越來(lái)越受到關(guān)注。典型的應(yīng)用包括:
- 「游戲和娛樂(lè)設(shè)計(jì)」比如角色和物品,需要多視角概念設(shè)計(jì)、3D模型創(chuàng)建和3D模型優(yōu)化。這個(gè)過(guò)程勞動(dòng)密集且耗時(shí)。3D內(nèi)容生成技術(shù)將大大減少時(shí)間和人力成本。
- 「建筑領(lǐng)域」通過(guò)3D內(nèi)容生成方法,設(shè)計(jì)師可以快速生成3D概念模型并與客戶進(jìn)行溝通。這將縮小設(shè)計(jì)師和客戶之間的gap,并改變建筑設(shè)計(jì)領(lǐng)域。
- 「工業(yè)設(shè)計(jì)」當(dāng)前的工業(yè)設(shè)計(jì)需要生成3D零部件模型,然后將它們組裝成一個(gè)完整的模型。這個(gè)過(guò)程耗時(shí)且可能造成大量的材料浪費(fèi)。3D內(nèi)容生成技術(shù)將虛擬生成所有的3D模型并將它們組裝成一個(gè)完整的模型。如果模型不滿意,設(shè)計(jì)師可以快速修訂設(shè)計(jì)而不會(huì)產(chǎn)生太大的成本。
過(guò)去幾年見(jiàn)證了3D樸素生成方法的許多進(jìn)展。這些方法的主要思想是首先使用3D數(shù)據(jù)集訓(xùn)練網(wǎng)絡(luò),然后以前饋方式生成3D資源。這一系列方法的一個(gè)局限性是需要大量的3D數(shù)據(jù)集,而3D數(shù)據(jù)的數(shù)量很少。
由于圖像文本對(duì)的數(shù)量遠(yuǎn)遠(yuǎn)大于3D對(duì)應(yīng)物,最近出現(xiàn)了一種新的研究方向,即基于大規(guī)模配對(duì)圖像文本數(shù)據(jù)集訓(xùn)練的2D擴(kuò)散模型構(gòu)建3D模型。一個(gè)代表性方法是DreamFusion,它通過(guò)使用分?jǐn)?shù)蒸餾采樣(SDS)損失來(lái)優(yōu)化NeRF。
最近還出現(xiàn)了混合3D生成方法,將3D樸素和基于2D先驗(yàn)的生成方法的優(yōu)勢(shì)結(jié)合起來(lái)。典型的例子是one2345++,它通過(guò)使用基于2D先驗(yàn)的多視角圖像輸入來(lái)訓(xùn)練3D擴(kuò)散模型生成3D模型。最近兩年見(jiàn)證了3D生成技術(shù)的顯著發(fā)展,特別是文本到3D和圖像到3D任務(wù)。這些進(jìn)展為3D內(nèi)容生成提供了許多潛在的解決方案,如3D樸素生成、基于2D先驗(yàn)的3D生成和混合3D生成。
根據(jù)最新了解,與本文的調(diào)查相關(guān)的只有兩篇綜述文章。[Shi等,2022]幾乎只涵蓋了形狀生成和單視圖重建的早期技術(shù)。[Li等,2023a]只包括了部分基于2D先驗(yàn)的3D生成方法,并沒(méi)有涵蓋最近的大部分3D樸素和混合生成方法。
然而,這個(gè)領(lǐng)域經(jīng)歷了快速的發(fā)展,包括3D樸素、基于2D先驗(yàn)的和混合生成方法。因此,迫切需要一份綜合性的調(diào)查來(lái)整合這些新進(jìn)展,并幫助從業(yè)者更好地探索不斷擴(kuò)展的研究前沿。
本文貢獻(xiàn)總結(jié)如下:
- 提出了一個(gè)新的分類法,系統(tǒng)地對(duì)3D內(nèi)容生成領(lǐng)域最新的進(jìn)展進(jìn)行分類。
- 提供了一份涵蓋60篇論文的全面回顧,涵蓋了3D生成的主要技術(shù)。
- 討論了幾個(gè)有前景的未來(lái)方向和開(kāi)放性挑戰(zhàn)。
初步
3D表示
有效地表示3D幾何數(shù)據(jù)對(duì)于生成3D內(nèi)容至關(guān)重要。介紹3D表示對(duì)于理解生成3D內(nèi)容至關(guān)重要。當(dāng)前的3D表示通常分為兩類,即顯式表示和隱式表示。
顯式表示
顯式表示通常指的是直接和明確地表示3D對(duì)象的幾何形狀或結(jié)構(gòu)。它涉及明確定義對(duì)象的表面或體積表示,例如通過(guò)使用點(diǎn)云、體素或網(wǎng)格。顯式表示的優(yōu)勢(shì)在于它能夠?qū)崿F(xiàn)更精確的幾何控制和多尺度編輯。
「點(diǎn)云」
點(diǎn)云是3D數(shù)據(jù)的基本表示,涉及從3D對(duì)象或環(huán)境中采樣表面點(diǎn)。點(diǎn)云通常直接從深度傳感器中獲取,因此在各種3D場(chǎng)景理解問(wèn)題中得到廣泛應(yīng)用。深度圖和法線圖可以視為點(diǎn)云范式的特定實(shí)例。鑒于獲取點(diǎn)云數(shù)據(jù)的便利性,在AIGC-3D領(lǐng)域,這種表示方法被廣泛使用。
「體素」
體素是另一種常見(jiàn)的3D表示,涉及在基于規(guī)則的柵格結(jié)構(gòu)上分配值。這使得一個(gè)體素可以編碼一個(gè)3D形狀或場(chǎng)景。由于體素的規(guī)則性質(zhì),它們與卷積神經(jīng)網(wǎng)絡(luò)的集成良好,并在深度幾何學(xué)習(xí)任務(wù)中得到廣泛應(yīng)用。由于與CNN的兼容性,體素也是利用深度神經(jīng)模型的生成3D內(nèi)容技術(shù)的常見(jiàn)選擇。
「網(wǎng)格」
網(wǎng)格表示使用一組頂點(diǎn)、邊和面來(lái)建模3D形狀和場(chǎng)景。這使得網(wǎng)格可以編碼表面的3D位置信息和拓?fù)浣Y(jié)構(gòu)。與體素相比,網(wǎng)格專門關(guān)注建模表面幾何,提供了更緊湊的存儲(chǔ)格式。與點(diǎn)云相比,網(wǎng)格提供了表面元素之間的顯式連接,從而使點(diǎn)之間的空間關(guān)系建模成為可能。由于這些優(yōu)勢(shì),網(wǎng)格長(zhǎng)期以來(lái)在經(jīng)典計(jì)算機(jī)圖形學(xué)領(lǐng)域(如幾何處理、動(dòng)畫和渲染)中被廣泛使用,其中準(zhǔn)確性、互操作性和效率是優(yōu)先考慮的因素。在這些維度上取得平衡,網(wǎng)格已經(jīng)成為3D內(nèi)容創(chuàng)建中主要的表示方法。
隱式表示
隱式表示將3D對(duì)象或形狀隱含地定義出來(lái)。通常采用代表對(duì)象表面的水平集或函數(shù)。它提供了一種緊湊而靈活的3D形狀表示,允許對(duì)對(duì)象、場(chǎng)景和具有復(fù)雜幾何和紋理的人物進(jìn)行建模。隱式表示的優(yōu)勢(shì)在于其與微分渲染管線的靈活嵌入。
「NeRF」
神經(jīng)輻射場(chǎng)(NeRF)是一種新興的神經(jīng)渲染方法,已經(jīng)在復(fù)雜場(chǎng)景的新視圖合成方面取得了令人印象深刻的結(jié)果。NeRF包括兩個(gè)主要組件,包括體積光線跟蹤器和多層感知器(MLP)。盡管NeRF在渲染輸出方面可能會(huì)較慢,但它通常被用作AIGC-3D應(yīng)用中的全局表示。
「3D Gaussian Splatting」
3D Gaussian Splatting(3D GS)引入了一種有效的方法,用一組位于3D空間中的加權(quán)高斯分布隱式地表示3D場(chǎng)景,從而實(shí)現(xiàn)了新視圖合成。通過(guò)將表面元素或點(diǎn)建模為高斯blobs,這種方法能夠使用少量分布來(lái)捕捉復(fù)雜的場(chǎng)景結(jié)構(gòu)。通過(guò)基于分布的范式隱式地編碼豐富的場(chǎng)景信息,3D Gaussian Splatting在新視圖合成中脫穎而出,成為一種創(chuàng)新的技術(shù)。盡管3D Gaussian Splatting能夠快速生成結(jié)果,但結(jié)果不穩(wěn)定,在AIGC-3D中最近也有了應(yīng)用。
「有符號(hào)距離函數(shù)」
有符號(hào)距離函數(shù)(SDF)將3D表面定義為距離場(chǎng)的零水平集,其中空間中的每個(gè)點(diǎn)被賦予一個(gè)值,該值對(duì)應(yīng)于其到表面的有符號(hào)最短距離。SDF通過(guò)利用距離值而無(wú)需顯式網(wǎng)格表示來(lái)實(shí)現(xiàn)高效的操作,例如構(gòu)造實(shí)體幾何。它們通過(guò)水平集方法實(shí)現(xiàn)了平滑的表面重建,并支持高級(jí)模擬。DMTet采用了一種混合表示方法,結(jié)合了有符號(hào)距離函數(shù)(SDF)和網(wǎng)格,通常用于優(yōu)化生成的3D幾何體。
2D擴(kuò)散模型
擴(kuò)散模型指的是一類基于去噪擴(kuò)散概率模型(DDPM)框架的生成技術(shù)。DDPM訓(xùn)練模型執(zhí)行逆擴(kuò)散過(guò)程——從一個(gè)噪聲信號(hào)開(kāi)始,并應(yīng)用迭代去噪步驟來(lái)恢復(fù)原始數(shù)據(jù)分布。從數(shù)學(xué)上講,這個(gè)過(guò)程可以表示為,其中是原始信號(hào)經(jīng)過(guò)t個(gè)擴(kuò)散步驟后的帶噪聲版本,加入了高斯噪聲? ~ N (0, σ
3D樸素生成方法
3D樸素生成方法直接在3D數(shù)據(jù)的監(jiān)督下生成3D表示,其中表示和監(jiān)督是生成質(zhì)量的兩個(gè)關(guān)鍵組成部分。現(xiàn)有的3D樸素生成方法可以分為三類:物體、場(chǎng)景和人物。下圖1中展示了幾個(gè)重要的里程碑方法。
物體
通過(guò)適當(dāng)?shù)臈l件輸入,3D樸素生成器可以被訓(xùn)練用于物體級(jí)別的生成。早期的嘗試,例如Text2Shape在語(yǔ)言和3D物理屬性之間建立了多對(duì)多的關(guān)系,實(shí)現(xiàn)了對(duì)顏色和形狀的生成控制。
然而,Text2Shape只收集了15K個(gè)椅子和桌子的75K個(gè)語(yǔ)言描述。ShapeCraft逐漸演變出更多短語(yǔ),構(gòu)建了一個(gè)包含369K個(gè)形狀-文本對(duì)的數(shù)據(jù)集,命名為Text2Shape++。為了支持遞歸生成,ShapeCraft 使用了矢量量化的深度隱式函數(shù)來(lái)捕獲局部細(xì)節(jié)。最近,SDFusion提出了將條件特征嵌入到擴(kuò)散訓(xùn)練的去噪層中,允許多模態(tài)輸入條件。
受到可用3D數(shù)據(jù)和相應(yīng)字幕的限制,先前的3D樸素生成模型只能處理有限的類別。為了支持大詞匯量的3D生成,先驅(qū)性工作Point-E和Shap-E收集了數(shù)百萬(wàn)個(gè)3D資源和相應(yīng)的文本字幕。Point-E 訓(xùn)練了一個(gè)圖像到點(diǎn)擴(kuò)散模型,其中將CLIP視覺(jué)潛在code輸入到Transformer中。Shap-E 進(jìn)一步引入了潛在投影,以實(shí)現(xiàn)SDF表示的重建。然而,提出的數(shù)據(jù)集并未向公眾發(fā)布。作為替代,最近的工作必須基于一個(gè)相對(duì)較小的數(shù)據(jù)集Objaverse進(jìn)行實(shí)驗(yàn)。
LRM提出了學(xué)習(xí)一個(gè)圖像到三面隱空間,然后重新塑造潛在特征以重建基于三面的隱式表示。DMV3D將LRM視為一個(gè)去噪層,進(jìn)一步提出了一個(gè)T步驟擴(kuò)散模型,以基于LRM生成高質(zhì)量的結(jié)果。TextField3D 提出了用于開(kāi)放詞匯生成的方法,其中文本潛在空間注入了動(dòng)態(tài)噪聲以擴(kuò)展?jié)撛谔卣鞯谋磉_(dá)范圍。
場(chǎng)景
早期方法利用生成對(duì)抗網(wǎng)絡(luò)(GAN),明確地融合了一個(gè)參數(shù)化函數(shù),稱為輻射場(chǎng)。該函數(shù)以3D坐標(biāo)和相機(jī)姿態(tài)作為輸入,并為3D空間中的每個(gè)點(diǎn)生成相應(yīng)的密度標(biāo)量和RGB值。然而,GAN存在訓(xùn)練病態(tài)問(wèn)題,包括模式崩潰,并且很難在不存在規(guī)范坐標(biāo)系的數(shù)據(jù)上進(jìn)行訓(xùn)練,這就是3D場(chǎng)景的情況。
為了克服這些問(wèn)題,GAUDI學(xué)習(xí)了一個(gè)適合于使用自動(dòng)解碼器學(xué)習(xí)的一組場(chǎng)景潛在變量的去噪擴(kuò)散模型。然而,這些模型都具有一個(gè)固有的缺點(diǎn),即試圖將整個(gè)場(chǎng)景捕捉到一個(gè)條件神經(jīng)輻射場(chǎng)中的單個(gè)向量中。這限制了擬合復(fù)雜場(chǎng)景分布的能力。
NeuralField-LDM首先將圖像和姿態(tài)對(duì)表示為潛在code ,并學(xué)習(xí)分層擴(kuò)散模型來(lái)完成場(chǎng)景生成。然而,當(dāng)前的方法耗時(shí)且分辨率相對(duì)較低。最近的采用了分層體素潛在擴(kuò)散,以粗到精的方式生成更高分辨率的3D表示。
虛擬人
早期的3D虛擬人生成方法依賴于參數(shù)化模型,這些模型使用一組預(yù)定義的參數(shù)來(lái)創(chuàng)建具有表現(xiàn)力的人臉或人體的3D網(wǎng)格。3D可變形模型(3DMM)是一種統(tǒng)計(jì)模型,將虛擬人面部的內(nèi)在屬性分解為身份、表情和反射。這些屬性被編碼為低維向量,可以用于從2D圖像或視頻素材生成逼真的3D人臉。
對(duì)于人體,最廣泛使用的參數(shù)化模型之一是皮膚多人線性(SMPL)模型,它使用線性和非線性變換的組合來(lái)創(chuàng)建逼真的人體3D網(wǎng)格。SMPL基于從大量身體掃描數(shù)據(jù)集中學(xué)習(xí)的統(tǒng)計(jì)身體形狀和姿勢(shì)模型。盡管參數(shù)化模型取得了成功,但它們具有一些限制,特別是在建模復(fù)雜幾何形狀,如頭發(fā)和寬松服裝方面。
近年來(lái),人們?cè)絹?lái)越多地采用基于學(xué)習(xí)的方法來(lái)建模3D虛擬人。這些方法使用深度學(xué)習(xí)算法從3D掃描或多視角圖像數(shù)據(jù)集中學(xué)習(xí)逼真而詳細(xì)的虛擬人。PIFu引入了像素對(duì)齊的隱式函數(shù),可以從單個(gè)圖像生成具有復(fù)雜形狀的高度詳細(xì)的著裝虛擬人3D模型。
HeadNeRF提出了基于NeRF的參數(shù)化頭部模型,可以生成具有高保真度的頭部圖像,并具有操縱渲染姿勢(shì)和各種語(yǔ)義屬性的能力。SMPLicit和gDNA使用來(lái)自已注冊(cè)的3D掃描數(shù)據(jù)的隱式函數(shù)訓(xùn)練著裝虛擬人的3D生成模型。最近,Rodin基于三面表示提出了一種滾動(dòng)擴(kuò)散網(wǎng)絡(luò),可以從大規(guī)模的合成多視角數(shù)據(jù)集中學(xué)習(xí)詳細(xì)的3D虛擬頭部。
基于2D先驗(yàn)的3D生成方法
先前,大多數(shù)3D樸素生成方法局限于像ShapeNet這樣的受限數(shù)據(jù)集,其中僅包含固定的物體類別。文本到圖像擴(kuò)散模型的最新進(jìn)展開(kāi)辟了新的可能性。DreamFusion利用分?jǐn)?shù)蒸餾抽樣技術(shù),將強(qiáng)大的2D擴(kuò)散模型的知識(shí)轉(zhuǎn)化為優(yōu)化3D表示,如NeRF,從而顯著提高了文本到3D合成質(zhì)量。這一范式將基于擴(kuò)散的方法的范圍迅速擴(kuò)展到了從物體到場(chǎng)景和虛擬人等其他領(lǐng)域。下圖2中展示了幾個(gè)重要的方法。
物體
DreamFusion開(kāi)創(chuàng)了根據(jù)每個(gè)文本輸入或每個(gè)圖像優(yōu)化唯一的3D表示的范式,受強(qiáng)大的預(yù)訓(xùn)練2D擴(kuò)散模型的指導(dǎo)。這種方法確立了一個(gè)新的基礎(chǔ),但也揭示了前進(jìn)的關(guān)鍵挑戰(zhàn) - 即在分辨率、幾何細(xì)節(jié)和紋理保真度方面實(shí)現(xiàn)高保真度質(zhì)量;確保在多種視角下生成一致,即“多面Janus問(wèn)題”;以及為交互應(yīng)用程序優(yōu)化合成速度。
為了實(shí)現(xiàn)高保真度質(zhì)量,Magic3D引入了一個(gè)兩階段的粗到精的優(yōu)化策略。這種方法提高了速度和質(zhì)量。Fantasia3D對(duì)幾何和外觀建模進(jìn)行了解耦,推進(jìn)了文本到3D的質(zhì)量。對(duì)于幾何部分,它依賴于混合場(chǎng)景表示,并將提取的表面法線編碼到圖像擴(kuò)散模型的輸入中。
在外觀方面,F(xiàn)antasia3D引入了空間變化的雙向反射分布函數(shù),用于學(xué)習(xí)生成幾何的表面材料,以實(shí)現(xiàn)照片般逼真的渲染。盡管早期方法存在過(guò)飽和和低多樣性的問(wèn)題,但ProlificDreamer引入了變分分?jǐn)?shù)蒸餾來(lái)解決這些挑戰(zhàn)。
然而,由于穩(wěn)定擴(kuò)散對(duì)2D前視圖的偏好,其3D輸出往往傾向于重復(fù)不同角度的前視圖,而不是生成連貫的3D對(duì)象。與在多視角3D數(shù)據(jù)上微調(diào)以緩解多面揚(yáng)尼斯問(wèn)題相反,一些工作探索了替代方法。
例如,DreamControl利用自適應(yīng)視角采樣和邊界完整性度量。雖然基于NeRF的以前的每個(gè)樣本優(yōu)化方法在3D生成任務(wù)中速度較慢,但3DGS的快速發(fā)展實(shí)現(xiàn)了突破。
DreamGaussian將3DGS整合到生成式3D內(nèi)容創(chuàng)建中,與基于NeRF的方法相比,實(shí)現(xiàn)了約10倍的加速。與NeRF中使用的占用剪枝相比,3D高斯的漸進(jìn)密集化對(duì)于這些3D生成問(wèn)題收斂速度顯著更快。DreamGaussian引入了一種高效的算法,將生成的高斯函數(shù)轉(zhuǎn)換為帶紋理的網(wǎng)格。這項(xiàng)開(kāi)創(chuàng)性的工作展示了3DGS如何實(shí)現(xiàn)AIGC-3D的更快訓(xùn)練。
除了聯(lián)合幾何和紋理生成之外,另一種范式涉及給定預(yù)定義幾何的紋理映射,稱為“紋理繪制” - 也是一種內(nèi)容創(chuàng)建形式。這一領(lǐng)域的代表工作包括TEXTure和TexFusion,它們利用預(yù)訓(xùn)練的深度到圖像擴(kuò)散模型,并應(yīng)用迭代方案將紋理繪制到從多個(gè)視角觀察的3D模型上。通過(guò)將紋理生成與幾何建模的分離挑戰(zhàn)分開(kāi),這些方法提供了一個(gè)值得探索的替代研究方向。
場(chǎng)景
基于2D先驗(yàn)的場(chǎng)景生成的主要思想是利用2D預(yù)訓(xùn)練大模型生成部分場(chǎng)景。然后,應(yīng)用修補(bǔ)策略來(lái)生成大規(guī)模場(chǎng)景。Text2room是使用2D預(yù)訓(xùn)練模型生成2D圖像深度的典型例子。然后,對(duì)圖像進(jìn)行了更深的修補(bǔ)。這些深度被合并以生成大規(guī)模場(chǎng)景。
LucidDreamer首先利用修補(bǔ)策略從輸入中生成多視角一致的圖像。然后,將修補(bǔ)后的圖像提升到3D空間并估計(jì)深度圖,將新的深度圖合并到3D場(chǎng)景中。SceneTex使用深度到圖像擴(kuò)散先驗(yàn)為室內(nèi)場(chǎng)景生成場(chǎng)景紋理。該方法的核心在于提出了一個(gè)隱式編碼網(wǎng)格外觀的多分辨率紋理場(chǎng)。然后,在相應(yīng)的RGB渲染中使用VSD損失對(duì)目標(biāo)紋理進(jìn)行優(yōu)化。
此外,SceneDreamer引入了鳥(niǎo)瞰視角(BEV)場(chǎng)景表示和神經(jīng)體積渲染器。該框架從2D圖像集合中學(xué)習(xí)一個(gè)無(wú)條件的生成模型。借助這個(gè)模型,可以從噪聲中生成無(wú)界的3D場(chǎng)景,而不需要任何特定的條件。
虛擬人
在文本引導(dǎo)的3D人物生成領(lǐng)域,參數(shù)模型被廣泛用作基本的3D先驗(yàn),因?yàn)樗鼈兛梢蕴峁?zhǔn)確的幾何初始化并顯著降低優(yōu)化難度。AvatarCLIP 是第一個(gè)將視覺(jué)語(yǔ)言模型與來(lái)自參數(shù)模型的隱式3D表示相結(jié)合,實(shí)現(xiàn)了全身虛擬人的零樣本文本驅(qū)動(dòng)生成。在使用預(yù)訓(xùn)練的2D潛在擴(kuò)散模型提供動(dòng)力的SDS生成3D對(duì)象取得成功后,最近的工作也將這些方法擴(kuò)展到了人物生成。
HeadSculpt通過(guò)將預(yù)訓(xùn)練的擴(kuò)散模型與從3D參數(shù)化頭部模型獲得的多視圖地標(biāo)圖進(jìn)行條件化,生成一致的3D頭像。遵循這一方案,DreamWaltz提出了考慮遮擋的SDS和骨架條件化,以保持3D一致性并在優(yōu)化過(guò)程中減少偽影。通過(guò)在imGHUM的語(yǔ)義簽名距離空間中優(yōu)化NeRF并使用多個(gè)細(xì)粒度損失,DreamHuman生成具有特定實(shí)例表面變形的可動(dòng)態(tài)變化的3D人物。HumanGaussian將SDS與SoTA 3DGS表示相結(jié)合,實(shí)現(xiàn)了更高效的文本驅(qū)動(dòng)3D虛擬人生成。
混合型3D生成方法
早期的3D樸素生成方法受限于稀缺的3D數(shù)據(jù)集,而2D先驗(yàn)方法只能提煉有限的3D幾何知識(shí),研究人員探索了將3D信息注入預(yù)訓(xùn)練的2D模型中。新興方法包括在多視角對(duì)象圖像上微調(diào)穩(wěn)定擴(kuò)散以生成一致的視角,以及從多個(gè)視圖進(jìn)行3D重建和生成。
這種范式轉(zhuǎn)變解決了上述的缺點(diǎn),通過(guò)利用豐富的2D視覺(jué)資源和有針對(duì)性的3D監(jiān)督來(lái)克服每種方法單獨(dú)的限制。下圖3中介紹了幾個(gè)具有里程碑意義的方法。
物體
第一次嘗試是Zero123,它應(yīng)用3D數(shù)據(jù)來(lái)微調(diào)預(yù)訓(xùn)練的2D擴(kuò)散模型,實(shí)現(xiàn)了基于單個(gè)輸入視角的新視角生成。這項(xiàng)具有洞察力的工作表明,穩(wěn)定擴(kuò)散本質(zhì)上包含了廣泛的3D知識(shí),可以通過(guò)多視角微調(diào)來(lái)解鎖。
在此基礎(chǔ)上,One-2-3-45利用Zero123生成多個(gè)視角。然后,它連接了一個(gè)重建模型,在短短45秒內(nèi)從單個(gè)圖像生成3D網(wǎng)格,并取得了令人滿意的結(jié)果。這種方法超越了先前依賴于2D先驗(yàn)的優(yōu)化,顯著提高了3D生成的速度。
雖然Zero123中新生成的視角與給定的視角一致,但在生成的新視角之間卻沒(méi)有保持一致性。作為回應(yīng),一些工作旨在同時(shí)產(chǎn)生具有面試一致性的多個(gè)視角。
SyncDreamer,MVDream都能夠同時(shí)生成多個(gè)視角,視角之間進(jìn)行信息交換以確保一致性。Wonder3D引入了一個(gè)法向模型,并通過(guò)對(duì)多視角穩(wěn)定擴(kuò)散模型進(jìn)行微調(diào),同時(shí)跨視角輸出RGB和法線圖。One-2-3-45++通過(guò)增強(qiáng)的Zero123模塊推進(jìn)了多視角3D生成,實(shí)現(xiàn)了同時(shí)的跨視角注意力,以及一個(gè)多視角條件化的3D擴(kuò)散模塊,隨著時(shí)間的推移進(jìn)行了粗到細(xì)的紋理網(wǎng)格預(yù)測(cè)。
隨后的幾項(xiàng)工作引入了3D先驗(yàn)初始化以提高3D生成內(nèi)容的質(zhì)量。Dreamcraft3d使用視角相關(guān)的擴(kuò)散模型對(duì)DMTet表示進(jìn)行初始化。Gsgen利用Point-E初始化3D高斯位置以進(jìn)行生成。通過(guò)提前合并不同形式的3D結(jié)構(gòu)信息,這些論文與缺乏初始化技術(shù)的先前方法相比,產(chǎn)生了更一致的3D輸出。
在像LRM這樣的大規(guī)模重建模型取得成功之后,Instant3d也采用了一個(gè)兩階段的方法。在第一階段,它進(jìn)行了多視圖生成。然后,第二階段通過(guò)基于Transformer的新型稀疏視圖重建器直接對(duì)生成的圖像回歸NeRF。結(jié)合多視角穩(wěn)定擴(kuò)散和大規(guī)模重建模型可以有效解決多面和生成速度的問(wèn)題。
場(chǎng)景
最近提出了幾種關(guān)于3D場(chǎng)景生成的方法。MVDiffusion同時(shí)生成所有圖像并具有全局意識(shí),有效解決了誤差積累的常見(jiàn)問(wèn)題。MVDiffusion的主要特點(diǎn)是其能夠使用預(yù)訓(xùn)練的文本到圖像擴(kuò)散模型并行處理透視圖像,同時(shí)結(jié)合新穎的對(duì)應(yīng)感知注意力層來(lái)增強(qiáng)跨視圖的交互作用。
ControlRoom3D是一種僅通過(guò)用戶提供的房間風(fēng)格文字描述和用戶定義的房間布局來(lái)生成高質(zhì)量3D房間網(wǎng)格的方法。簡(jiǎn)單的基于布局的3D房間生成方法不能產(chǎn)生合理的網(wǎng)格。為了解決幾何問(wèn)題并確保一致的風(fēng)格,ControlRoom3D利用了引導(dǎo)全景圖生成和幾何對(duì)齊模塊。
SceneWiz3D引入了一種從文本合成高保真度3D場(chǎng)景的方法。給定一段文字,首先生成布局。然后,應(yīng)用粒子群優(yōu)化技術(shù)根據(jù)布局自動(dòng)放置3D對(duì)象并隱式優(yōu)化3D場(chǎng)景。
SceneWiz3D還利用RGBD全景擴(kuò)散模型進(jìn)一步改善了場(chǎng)景幾何。
虛擬人
關(guān)于3D人物生成的幾項(xiàng)研究已經(jīng)利用了2D和3D數(shù)據(jù)/先驗(yàn),以實(shí)現(xiàn)更真實(shí)和普遍的3D人物合成,其中3D數(shù)據(jù)提供準(zhǔn)確的幾何信息,而2D數(shù)據(jù)提供多樣化的外觀。
SofGAN提出了一個(gè)可控的人臉生成器,其幾何和紋理的解耦潛空間是從未配對(duì)的2D圖像和3D面部掃描數(shù)據(jù)集中學(xué)習(xí)的。3D幾何信息被編碼到語(yǔ)義占用場(chǎng)中,以促進(jìn)一致的自由視角圖像生成。
類似地,SCULPT也提出了一種未配對(duì)的學(xué)習(xí)過(guò)程,有效地從中等規(guī)模的3D掃描數(shù)據(jù)集和大規(guī)模的2D圖像數(shù)據(jù)集中學(xué)習(xí)全身穿著人類的幾何和紋理的分離分布。
Get3DHuman通過(guò)結(jié)合兩個(gè)預(yù)訓(xùn)練網(wǎng)絡(luò),即StyleGAN-Human圖像生成器和3D重建器,避免了對(duì)3D訓(xùn)練數(shù)據(jù)的需求。
受近期文本到圖像合成模型的重大進(jìn)展的推動(dòng),研究人員已經(jīng)開(kāi)始利用3D人物數(shù)據(jù)來(lái)增強(qiáng)強(qiáng)大的2D擴(kuò)散模型,以合成具有高頻細(xì)節(jié)的逼真3D虛擬人。
DreamFace通過(guò)將視覺(jué)語(yǔ)言模型與可動(dòng)和基于物理的面部資源相結(jié)合,生成逼真的可動(dòng)3D頭像頭像。通過(guò)一個(gè)新穎的紋理擴(kuò)散模型和預(yù)先訓(xùn)練的擴(kuò)散先驗(yàn)相結(jié)合,實(shí)現(xiàn)了逼真的渲染質(zhì)量。
HumanNorm提出了一個(gè)用于3D人物生成的兩階段擴(kuò)散pipeline,首先通過(guò)一個(gè)適應(yīng)法線的擴(kuò)散模型生成詳細(xì)的幾何信息,然后使用一個(gè)與生成的幾何信息相對(duì)齊的擴(kuò)散模型合成逼真的紋理。這兩個(gè)擴(kuò)散模型都在一個(gè)包含2.9K個(gè)3D人物模型的數(shù)據(jù)集上進(jìn)行了微調(diào)。
動(dòng)態(tài)3D
動(dòng)態(tài)3D生成近來(lái)引起了廣泛關(guān)注,通過(guò)同時(shí)優(yōu)化2D、3D和視頻先驗(yàn)。開(kāi)創(chuàng)性工作MAV3D提出了生成靜態(tài)3D資源,然后通過(guò)文本到視頻擴(kuò)散來(lái)為其添加動(dòng)畫,其中,引入了一種名為六面體平面的4D表示,以擴(kuò)展具有時(shí)間維度的3D空間。在MAV3D之后,一系列工作基于靜態(tài)到動(dòng)態(tài)的pipeline創(chuàng)建了動(dòng)態(tài)3D內(nèi)容,同時(shí)提出了不同的4D表示和監(jiān)督方法以提高生成質(zhì)量。
Animate124引入了一個(gè)圖像到4D的框架,其中六面體平面被4D網(wǎng)格編碼替代。除了靜態(tài)和動(dòng)態(tài)階段外,進(jìn)一步提出了一個(gè)細(xì)化階段,用ControlNet引導(dǎo)圖像輸入和4D創(chuàng)建的語(yǔ)義對(duì)齊。
4D-fy提出了一種多分辨率哈希編碼,將3D和時(shí)間空間分開(kāi)表示。它強(qiáng)調(diào)了3D生成質(zhì)量的重要性,并利用3D先驗(yàn)來(lái)指導(dǎo)靜態(tài)階段的優(yōu)化。
最近的研究嘗試基于生成的視頻重建3D場(chǎng)景,引入了一種新的4Dpipeline,生成視頻然后補(bǔ)充其3D表示。
4DGen通過(guò)多視角擴(kuò)散先驗(yàn)生成偽多視角視頻,并基于多分辨率六面體平面優(yōu)化高斯分布的重建。
DreamGaussian4d利用3D感知擴(kuò)散先驗(yàn)監(jiān)督給定視頻的多視角重建,并使用視頻擴(kuò)散先驗(yàn)對(duì)相應(yīng)的場(chǎng)景進(jìn)行細(xì)化。
未來(lái)方向
盡管近年來(lái)在3D內(nèi)容生成方面取得了一些進(jìn)展,但仍然存在許多未解決的問(wèn)題,這些問(wèn)題將極大地影響3D內(nèi)容生成方法的質(zhì)量、效率和可控性。在本節(jié)中,我們總結(jié)了這些挑戰(zhàn),并提出了幾個(gè)未來(lái)的方向。
挑戰(zhàn)
就質(zhì)量而言,當(dāng)前的AIGC-3D方法存在一些局限性。在幾何方面,它們無(wú)法生成緊湊的網(wǎng)格,并且無(wú)法模擬合理的連線。在紋理方面,它們?nèi)狈ι韶S富細(xì)節(jié)貼圖的能力,并且很難消除光照和陰影的影響。材質(zhì)屬性也得不到很好的支持。
就可控性而言,現(xiàn)有的文本/圖像/素描到3D方法無(wú)法精確輸出符合條件要求的3D資源。編輯能力也不足。在速度方面,基于GS的前饋和SDS方法速度更快,但質(zhì)量比基于NeRF的優(yōu)化方法較低。總的來(lái)說(shuō),以生產(chǎn)級(jí)質(zhì)量、規(guī)模和精度生成3D內(nèi)容仍然沒(méi)有得到解決。
數(shù)據(jù)
關(guān)于數(shù)據(jù),一個(gè)挑戰(zhàn)在于收集包含數(shù)十億個(gè)3D對(duì)象、場(chǎng)景和人物的數(shù)據(jù)集。通過(guò)一個(gè)開(kāi)放世界的3D游戲平臺(tái)可能可以實(shí)現(xiàn)這一目標(biāo),用戶可以自由創(chuàng)建和上傳自己定制的3D模型。此外,從多視角圖像和視頻中提取豐富的隱式3D知識(shí)將是有價(jià)值的。具有這種多樣、無(wú)標(biāo)簽的大規(guī)模3D數(shù)據(jù)集具有推進(jìn)無(wú)監(jiān)督和自監(jiān)督學(xué)習(xí)方法在生成式3D內(nèi)容創(chuàng)建方面的巨大潛力。
模型
有必要探索更有效的3D表示和模型架構(gòu),能夠隨著數(shù)據(jù)集的增長(zhǎng)展現(xiàn)出規(guī)?;男阅堋_@提供了一個(gè)有前景的研究方向。在未來(lái)幾年,我們可能會(huì)看到專門用于3D內(nèi)容生成的基礎(chǔ)模型的出現(xiàn)。此外,未來(lái)的大型語(yǔ)言模型可能會(huì)實(shí)現(xiàn)高水平的多模態(tài)智能,例如GPT-5/6,可以理論上理解圖像、文本,甚至以專家級(jí)水平運(yùn)行3D建模軟件。然而,確保這種強(qiáng)大系統(tǒng)的有益發(fā)展將需要進(jìn)行大量研究。
基準(zhǔn)測(cè)試
目前,對(duì)3D內(nèi)容質(zhì)量的評(píng)估主要依賴于人工評(píng)分。引入了一種用于文本到3D生成的自動(dòng)化人工評(píng)估器。然而,全面評(píng)估3D輸出是具有挑戰(zhàn)性的,因?yàn)樗枰斫馕锢?D屬性和預(yù)期設(shè)計(jì)。3D生成的基準(zhǔn)測(cè)試在2D圖像生成基準(zhǔn)測(cè)試方面進(jìn)展緩慢?;诒普鏄?biāo)準(zhǔn)開(kāi)發(fā)能全面衡量幾何和紋理保真度的穩(wěn)健指標(biāo),可以推動(dòng)該領(lǐng)域的發(fā)展。
結(jié)論
在本調(diào)研中,對(duì)3D生成內(nèi)容技術(shù)進(jìn)行了全面的分析,包括3D本地生成、基于2D先驗(yàn)的3D生成和混合3D生成。介紹了一種新穎的分類方法,簡(jiǎn)潔地總結(jié)了近期用于生成3D內(nèi)容的方法的進(jìn)展。此外,還總結(jié)了該領(lǐng)域尚未解決的挑戰(zhàn),并提出了幾個(gè)有前景的研究方向。堅(jiān)信這項(xiàng)研究將成為一項(xiàng)寶貴的資源,引導(dǎo)著該領(lǐng)域的進(jìn)一步發(fā)展,研究人員將從本研究中汲取靈感,解決這個(gè)領(lǐng)域中引人注目的未解問(wèn)題。
本文轉(zhuǎn)自 AI生成未來(lái) ,作者:Jian Liu等
