自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

高質(zhì)量3D生成最有希望的一集?GaussianCube在三維生成中全面超越NeRF

發(fā)布于 2024-6-17 09:02
瀏覽
0收藏

在三維生成建模的研究領(lǐng)域,現(xiàn)行的兩大類 3D 表示方法要么基于擬合能力不足的隱式解碼器,要么缺乏清晰定義的空間結(jié)構(gòu)難以與主流的 3D 擴(kuò)散技術(shù)融合。來自中科大、清華和微軟亞洲研究院的研究人員提出了 GaussianCube,這是一種具有強(qiáng)大擬合能力的顯式結(jié)構(gòu)化三維表示,并且可以無縫應(yīng)用于目前主流的 3D 擴(kuò)散模型中。


GaussianCube 首先采用一種新穎的密度約束高斯擬合算法,該算法能夠?qū)?3D 資產(chǎn)進(jìn)行高精度擬合,同時(shí)確保使用固定數(shù)量的自由高斯。隨后,借助最優(yōu)傳輸算法,這些高斯被重新排列到一個(gè)預(yù)定義的體素網(wǎng)格之中。得益于 GaussianCube 的結(jié)構(gòu)化特性,研究者無需復(fù)雜的網(wǎng)絡(luò)設(shè)計(jì)就能直接應(yīng)用標(biāo)準(zhǔn)的 3D U-Net 作為擴(kuò)散建模的主干網(wǎng)絡(luò)。


更為關(guān)鍵的是,本文提出的新型擬合算法極大地增強(qiáng)了表示的緊湊性,在 3D 表示擬合質(zhì)量相似的情況下所需的參數(shù)量僅是傳統(tǒng)結(jié)構(gòu)化表示所需參數(shù)量的十分之一或百分之一。這種緊湊性大幅降低了 3D 生成建模的復(fù)雜性。研究人員在無條件和條件性 3D 對(duì)象生成、數(shù)字化身創(chuàng)建以及文本到 3D 內(nèi)容合成等多個(gè)方面開展了廣泛的實(shí)驗(yàn)。


數(shù)值結(jié)果表明,GaussianCube 相較之前的基線算法實(shí)現(xiàn)了最高達(dá) 74% 的性能提升。如下所示,GaussianCube 不僅能夠生成高質(zhì)量的三維資產(chǎn),而且還提供了極具吸引力的視覺效果,充分證明了其作為 3D 生成通用表示的巨大潛力。

高質(zhì)量3D生成最有希望的一集?GaussianCube在三維生成中全面超越NeRF-AI.x社區(qū)

圖 1. 無條件生成的結(jié)果。本文的方法可以生成高質(zhì)量、多樣化的三維模型。

高質(zhì)量3D生成最有希望的一集?GaussianCube在三維生成中全面超越NeRF-AI.x社區(qū)

圖 2. 基于輸入肖像進(jìn)行數(shù)字化身創(chuàng)建的結(jié)果。本文的方法可以極大程度上保留輸入肖像的身份特征信息,并且提供細(xì)致的發(fā)型、服裝建模。?

高質(zhì)量3D生成最有希望的一集?GaussianCube在三維生成中全面超越NeRF-AI.x社區(qū)

圖 3. 基于輸入文本創(chuàng)建三維資產(chǎn)的結(jié)果。本文的方法可以輸出與文本信息一致的結(jié)果,并且可以建模復(fù)雜的幾何結(jié)構(gòu)和細(xì)節(jié)材質(zhì)。

高質(zhì)量3D生成最有希望的一集?GaussianCube在三維生成中全面超越NeRF-AI.x社區(qū)

圖 4. 類別條件生成的結(jié)果。本文生成的三維資產(chǎn)語義明確,具有高質(zhì)量的幾何結(jié)構(gòu)和材質(zhì)。

高質(zhì)量3D生成最有希望的一集?GaussianCube在三維生成中全面超越NeRF-AI.x社區(qū)


  • 論文名稱:GaussianCube: A Structured and Explicit Radiance Representation for 3D Generative Modeling
  • 項(xiàng)目主頁:https://gaussiancube.github.io/
  • 論文鏈接:https://arxiv.org/pdf/2403.19655
  • 代碼開源:https://github.com/GaussianCube/GaussianCube
  • 演示視頻:https://www.bilibili.com/video/BV1zy411h7wB/?

都什么年代了

還在用傳統(tǒng) NeRF 進(jìn)行三維生成建模?


大多數(shù)先前的 3D 生成建模工作都使用了 Neural Radiance Field (NeRF) 的變體作為其底層的 3D 表示,這些表示通常結(jié)合了一個(gè)顯式的結(jié)構(gòu)化特征表示和一個(gè)隱式的特征解碼器。然而在三維生成建模中,所有三維物體不得不共享同一個(gè)隱式特征解碼器,這種做法在很大程度上削弱了 NeRF 的擬合能力。此外,NeRF 所依賴的體渲染技術(shù)具有非常高的計(jì)算復(fù)雜性,這導(dǎo)致了渲染速度緩慢,更需要消耗極高的 GPU 內(nèi)存。近期,另一種三維表示方法高斯濺射(3D Gaussian Splatting,簡稱 3DGS)備受矚目。雖然 3DGS 擬合能力強(qiáng)大、計(jì)算性能高效,還具備完全顯式的特性,在三維重建任務(wù)中得到了廣泛應(yīng)用。但是,3DGS 缺乏一個(gè)明確定義的空間結(jié)構(gòu),這使得其在無法直接應(yīng)用于目前主流生成建模框架中。


因此,研究團(tuán)隊(duì)提出了 GaussianCube。這是一種創(chuàng)新的三維表示方法,它既結(jié)構(gòu)化又完全顯式,具備強(qiáng)大的擬合能力。本文介紹的方法首先確保通過固定數(shù)量的自由高斯實(shí)現(xiàn)高精度的擬合,然后將這些高斯有效地組織到一個(gè)結(jié)構(gòu)化的體素網(wǎng)格中。這種顯式且結(jié)構(gòu)化的表示方法讓研究者能夠無縫地采用標(biāo)準(zhǔn)的 3D 網(wǎng)絡(luò)架構(gòu),例如 U-Net,無需進(jìn)行使用非結(jié)構(gòu)化或隱式解碼表示時(shí)所需的復(fù)雜和定制化的網(wǎng)絡(luò)設(shè)計(jì)。


同時(shí),通過最優(yōu)傳輸算法進(jìn)行的結(jié)構(gòu)化組織最大程度地保持了相鄰高斯核之間的空間結(jié)構(gòu)關(guān)系,使得研究者僅使用經(jīng)典的 3D 卷積網(wǎng)絡(luò)就能高效地提取特征。更為關(guān)鍵的是,鑒于先前研究中的發(fā)現(xiàn),擴(kuò)散模型在處理高維數(shù)據(jù)分布時(shí)表現(xiàn)不佳,本文提出的 GaussianCube 在保持高質(zhì)量重建的同時(shí),顯著減少了所需的參數(shù)量,極大地緩解了擴(kuò)散模型在分布建模上的壓力,為 3D 生成建模領(lǐng)域帶來了顯著的建模能力和效率提升。


方法 


高質(zhì)量3D生成最有希望的一集?GaussianCube在三維生成中全面超越NeRF-AI.x社區(qū)

圖 5. GaussianCube 框架總覽


本文的框架包括兩個(gè)主要階段:表示構(gòu)建和三維擴(kuò)散。在表示構(gòu)建階段,給定三維資產(chǎn)的多視角渲染圖,對(duì)其進(jìn)行密度約束的高斯擬合,以獲得具有固定數(shù)量的三維高斯。隨后,通過最優(yōu)化傳輸將三維高斯結(jié)構(gòu)化為 GaussianCube。在三維擴(kuò)散階段,研究人員對(duì)三維擴(kuò)散模型進(jìn)行訓(xùn)練,以便從高斯噪聲中生成 GaussianCube。


高質(zhì)量3D生成最有希望的一集?GaussianCube在三維生成中全面超越NeRF-AI.x社區(qū)

圖 6. 密度約束的高斯擬合算法示意圖


在表示構(gòu)建階段,研究人員需要為每個(gè)三維資產(chǎn)創(chuàng)建適合生成建模的表示。考慮到生成領(lǐng)域往往需要建模的數(shù)據(jù)有統(tǒng)一的固定長度,而原始 3DGS 擬合算法中的自適應(yīng)密度控制會(huì)導(dǎo)致擬合不同物體所使用的高斯核數(shù)量不同,這給生成建模帶來了極大挑戰(zhàn)。一種非常簡單的解決方案是直接去除自適應(yīng)密度控制,但研究人員發(fā)現(xiàn)這會(huì)嚴(yán)重降低擬合的精度。本文提出了一種新穎的密度約束擬合算法,保留原始自適應(yīng)密度控制中的剪枝操作,但對(duì)其中的分裂和克隆操作進(jìn)行了新的約束處理。


具體來說,假設(shè)當(dāng)前迭代包括

高質(zhì)量3D生成最有希望的一集?GaussianCube在三維生成中全面超越NeRF-AI.x社區(qū)

個(gè)高斯,研究人員通過選擇那些在視角空間位置梯度幅度超過預(yù)定義閾值 τ 的高斯來識(shí)別分裂或克隆操作的候選對(duì)象,這些候選對(duì)象的數(shù)量記為

高質(zhì)量3D生成最有希望的一集?GaussianCube在三維生成中全面超越NeRF-AI.x社區(qū)

。為了防止超出預(yù)定義的最大值

高質(zhì)量3D生成最有希望的一集?GaussianCube在三維生成中全面超越NeRF-AI.x社區(qū)

個(gè)高斯,從候選對(duì)象中選擇

高質(zhì)量3D生成最有希望的一集?GaussianCube在三維生成中全面超越NeRF-AI.x社區(qū)

個(gè)具有最大視角空間位置梯度的高斯進(jìn)行分裂或克隆。在完成擬合過程后,研究人員用 α=0 的高斯填充以達(dá)到目標(biāo)計(jì)數(shù)

高質(zhì)量3D生成最有希望的一集?GaussianCube在三維生成中全面超越NeRF-AI.x社區(qū)

而不影響渲染結(jié)果。得益于此策略,可以實(shí)現(xiàn)了與類似質(zhì)量的現(xiàn)有工作相比參數(shù)量減少了幾個(gè)量級(jí)的高質(zhì)量表示,顯著降低了擴(kuò)散模型的建模難度。

高質(zhì)量3D生成最有希望的一集?GaussianCube在三維生成中全面超越NeRF-AI.x社區(qū)

圖 7. 密度約束的高斯擬合算法示意圖


盡管如此,通過上述擬合算法得到的高斯仍然沒有明確的空間排列結(jié)構(gòu),這使得后續(xù)的擴(kuò)散模型無法高效地對(duì)數(shù)據(jù)進(jìn)行建模。為此,研究人員提出將高斯映射到預(yù)定義的結(jié)構(gòu)化體素網(wǎng)格中來使得高斯具有明確的空間結(jié)構(gòu)。直觀地說,這一步的目標(biāo)是在盡可能保持高斯的空間相鄰關(guān)系的同時(shí),將每個(gè)高斯 “移動(dòng)” 到一個(gè)體素中。


研究人員將其建模為一個(gè)最優(yōu)傳輸問題,使用 Jonker-Volgenant 算法來得到對(duì)應(yīng)的映射關(guān)系,進(jìn)而根據(jù)最優(yōu)傳輸?shù)慕鈦斫M織將高斯組織到對(duì)應(yīng)的體素中得到 GaussianCube,并且用當(dāng)前體素中心的偏移量替換了原始高斯的位置,以減少擴(kuò)散模型的解空間。最終的 GaussianCube 表示不僅結(jié)構(gòu)化,而且最大程度上保持了相鄰高斯之間的結(jié)構(gòu)關(guān)系,這為 3D 生成建模的高效特征提取提供了強(qiáng)有力的支持。


在三維擴(kuò)散階段,本文使用三維擴(kuò)散模型來建模 GaussianCube 的分布。得益于 GaussianCube 在空間上的結(jié)構(gòu)化組織關(guān)系,無需復(fù)雜的網(wǎng)絡(luò)或訓(xùn)練設(shè)計(jì),標(biāo)準(zhǔn)的 3D 卷積足以有效提取和聚合鄰近高斯的特征。于是,研究者利用了標(biāo)準(zhǔn)的 U-Net 網(wǎng)絡(luò)進(jìn)行擴(kuò)散,并直接地將原始的 2D 操作符(包括卷積、注意力、上采樣和下采樣)替換為它們的 3D 實(shí)現(xiàn)。


本文的三維擴(kuò)散模型也支持多種條件信號(hào)來控制生成過程,包括類別標(biāo)簽條件生成、根據(jù)圖像條件創(chuàng)建數(shù)字化身和根據(jù)文本生成三維數(shù)字資產(chǎn)?;诙嗄B(tài)條件的生成能力極大地?cái)U(kuò)展了模型的應(yīng)用范圍,并為未來的 3D 內(nèi)容創(chuàng)造提供了強(qiáng)大的工具。


實(shí)驗(yàn)結(jié)果 


研究人員首先在 ShapeNet Car 數(shù)據(jù)集上驗(yàn)證了 GaussianCube 的擬合能力。實(shí)驗(yàn)結(jié)果表明,與基線方法相比,GaussianCube 可以以最快的速度和最少的參數(shù)量實(shí)現(xiàn)高精度的三維物體擬合。


高質(zhì)量3D生成最有希望的一集?GaussianCube在三維生成中全面超越NeRF-AI.x社區(qū)

表 1. 在 ShapeNet Car 上不同的三維表示關(guān)于空間結(jié)構(gòu)、擬合質(zhì)量、相對(duì)擬合速度、使用參數(shù)量的數(shù)值比較。? 表示不同物體共享隱式特征解碼器。所有方法均以 30K 次迭代進(jìn)行評(píng)估。


高質(zhì)量3D生成最有希望的一集?GaussianCube在三維生成中全面超越NeRF-AI.x社區(qū)

圖 8. 在 ShapeNet Car 上不同的三維表示擬合能力的視覺比較。? 表示不同物體共享隱式特征解碼器。所有方法均以 30K 次迭代進(jìn)行評(píng)估。


研究人員其次在大量數(shù)據(jù)集上驗(yàn)證了基于 GaussianCube 的擴(kuò)散模型的生成能力,包括 ShapeNet、OmniObject3D、合成數(shù)字化身數(shù)據(jù)集和 Objaverse 數(shù)據(jù)集。實(shí)驗(yàn)結(jié)果表明,本文的模型在無條件和類別條件的對(duì)象生成、數(shù)字化身創(chuàng)建以及文本到 3D 合成從數(shù)值指標(biāo)到視覺質(zhì)量都取得了領(lǐng)先的結(jié)果。特別地,GaussianCube 相較之前的基線算法實(shí)現(xiàn)了最高達(dá) 74% 的性能提升。


高質(zhì)量3D生成最有希望的一集?GaussianCube在三維生成中全面超越NeRF-AI.x社區(qū)

表 2. 在 ShapeNet Car、Chair 上進(jìn)行無條件生成和在 OmniObject3D 上進(jìn)行類別條件生成的定量比較。


高質(zhì)量3D生成最有希望的一集?GaussianCube在三維生成中全面超越NeRF-AI.x社區(qū)

圖 9. 在 ShapeNet Car、Chair 上進(jìn)行無條件生成的定性比較。本文的方法可以生成精確幾何和細(xì)節(jié)材質(zhì)。


高質(zhì)量3D生成最有希望的一集?GaussianCube在三維生成中全面超越NeRF-AI.x社區(qū)

圖 10. 在 OmniObject3D 上進(jìn)行類別條件生成的定性比較。本文方法可以生成明確語義的復(fù)雜物體。


高質(zhì)量3D生成最有希望的一集?GaussianCube在三維生成中全面超越NeRF-AI.x社區(qū)

表 3. 基于輸入肖像進(jìn)行數(shù)字化身創(chuàng)建的定量比較。


高質(zhì)量3D生成最有希望的一集?GaussianCube在三維生成中全面超越NeRF-AI.x社區(qū)

圖 11. 基于輸入肖像進(jìn)行數(shù)字化身創(chuàng)建的定性比較。本文的方法能夠更準(zhǔn)確地還原輸入肖像的身份特征、表情、配飾和頭發(fā)細(xì)節(jié)。


高質(zhì)量3D生成最有希望的一集?GaussianCube在三維生成中全面超越NeRF-AI.x社區(qū)

表 4. 基于輸入文本創(chuàng)建三維資產(chǎn)的定量比較。推理時(shí)間使用單張 A100 進(jìn)行測試。Shap-E 和 LGM 與本文方法取得了相似的 CLIP Score,但它們分別使用了數(shù)百萬的訓(xùn)練數(shù)據(jù)(本文僅使用十萬三維數(shù)據(jù)訓(xùn)練),和二維文生圖擴(kuò)散模型先驗(yàn)。


高質(zhì)量3D生成最有希望的一集?GaussianCube在三維生成中全面超越NeRF-AI.x社區(qū)

圖 12. 基于輸入文本創(chuàng)建三維資產(chǎn)的定性比較。本文的方法可以根據(jù)輸入文本實(shí)現(xiàn)高質(zhì)量三維資產(chǎn)生成。


本文轉(zhuǎn)自 機(jī)器之心 ,作者:機(jī)器之心


原文鏈接:??https://mp.weixin.qq.com/s/zYX3npOCIxoof-leQ_FXYQ??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦