3D生成基礎(chǔ)模型來了!只需5秒,高質(zhì)量3D資產(chǎn)規(guī)?;?!南洋理工等重磅開源3DTopia-XL 精華
文章鏈接:https://arxiv.org/pdf/2409.12957
項目鏈接:https://3dtopia.github.io/3DTopia-XL/
今天AI生成未來和大家分享的是南洋理工、北大、上海AI Lab和港中文聯(lián)合發(fā)布的3D PBR資產(chǎn)生成最新工作3DTopia-XL。通過基于高效且表達(dá)力強(qiáng)的3D表示方法PrimX的擴(kuò)散Transformer(DiT),實現(xiàn)高質(zhì)量3D資產(chǎn)生成的規(guī)?;Hピ脒^程只需5秒鐘,就能從文本或圖像輸入生成可用于圖形pipeline的3D PBR(物理渲染)資產(chǎn)。
關(guān)鍵思想是一種新穎的3D表示,即PrimX。它明確地將紋理網(wǎng)格的3D形狀、紋理和材質(zhì)編碼為緊湊的N x D張量。此表示中的每個token都是一個體積圖元,通過體素化有效載荷anchor到形狀表面,以編碼SDF、RGB和材質(zhì)。
亮點(diǎn)直擊
- 提出了一種新穎的3D表示方法PrimX,用于高質(zhì)量3D內(nèi)容的創(chuàng)建,它高效、張量性強(qiáng)且可渲染。
- 引入了一個可擴(kuò)展的生成框架3DTopia-XL,只需5秒,專為生成具有高分辨率幾何圖形、紋理和材質(zhì)的高質(zhì)量3D資產(chǎn)而設(shè)計。
- 提出了實用的資產(chǎn)提取技術(shù),將3D表示轉(zhuǎn)化為實體資產(chǎn),以避免質(zhì)量損失。
- 展示了3DTopia-XL在圖像到3D和文本到3D任務(wù)中的卓越質(zhì)量和令人印象深刻的應(yīng)用。
解決的問題
3DTopia-XL主要解決的問題是現(xiàn)有3D生成模型在優(yōu)化速度、幾何細(xì)節(jié)保真度以及物理基礎(chǔ)渲染(PBR)資產(chǎn)生成方面的挑戰(zhàn)。它旨在提高3D內(nèi)容創(chuàng)作的效率和質(zhì)量,滿足游戲開發(fā)、電影制作、虛擬現(xiàn)實等各行各業(yè)對高質(zhì)量3D資產(chǎn)的日益增長的需求。
提出的方案
3DTopia-XL提出了一種可擴(kuò)展的原生3D生成模型,利用了一種新穎的基于原始的3D表示方法PrimX,該方法將詳細(xì)的形狀、反照率和材料場編碼為緊湊的張量格式,從而促進(jìn)了高分辨率幾何體與PBR資產(chǎn)的建模。此外,提出了一個基于擴(kuò)散Transformer(DiT)的生成框架,包括原始補(bǔ)丁壓縮和潛在原始擴(kuò)散,從文本或視覺輸入中學(xué)習(xí)生成高質(zhì)量的3D資產(chǎn)。
應(yīng)用的技術(shù)
- PrimX表示法:一種新穎的基于原語的3D表示方法,將3D物體的形狀、反照率(albedo)、材質(zhì)信息編碼到一個緊湊的張量格式中。
- 原始補(bǔ)丁壓縮:使用三維變分自編碼器(VAE)對每個原語的空間信息進(jìn)行壓縮,得到潛在的原語標(biāo)記。
- 潛在原語擴(kuò)散(Latent Primitive Diffusion):基于Diffusion Transformer(DiT)框架,模型學(xué)習(xí)了如何從隨機(jī)噪聲中逐步去除噪聲,生成符合輸入條件的潛在原語token。
- 可微分渲染:PrimX表示法支持可微分渲染,模型可以直接從二維圖像數(shù)據(jù)中學(xué)習(xí),提高了模型從現(xiàn)有圖像資源中學(xué)習(xí)的能力 。
達(dá)到的效果
3DTopia-XL在生成具有細(xì)致紋理和材料的高質(zhì)量3D資產(chǎn)方面顯著優(yōu)于現(xiàn)有方法,有效彌合了生成模型與現(xiàn)實世界應(yīng)用之間的質(zhì)量差距。生成的三維物體具有平滑的幾何形狀和空間變化的紋理和材質(zhì),接近真實物理材質(zhì)感。此外,模型能在五秒內(nèi)完成從輸入到三維模型的轉(zhuǎn)換,大幅提高創(chuàng)作效率 。
方法
PrimX:形狀、紋理和材質(zhì)的高效表示
在高質(zhì)量大規(guī)模3D生成模型的背景下,3D表示的以下設(shè)計原則:
- 參數(shù)高效:在近似誤差和參數(shù)數(shù)量之間提供良好的折衷;
- 快速張量化:可以高效地轉(zhuǎn)化為張量結(jié)構(gòu),這有助于利用現(xiàn)代神經(jīng)架構(gòu)進(jìn)行生成建模;
- 可微分渲染:與可微分渲染器兼容,使得可以從3D和2D數(shù)據(jù)中進(jìn)行學(xué)習(xí)。
定義
受Yariv等人的啟發(fā),其中馬賽克體素通過全局加權(quán)來獲得光滑的表面,紋理化網(wǎng)格的近似定義為原語的加權(quán)組合。
從紋理網(wǎng)格計算PrimX
原語補(bǔ)丁壓縮
本節(jié)介紹基于補(bǔ)丁的原語壓縮方案,主要有兩個目的:
- 融合幾何、顏色和材質(zhì)之間的通道相關(guān)性;
- 將 3D 原語壓縮為潛在令牌,以實現(xiàn)高效的潛在生成建模。
潛在原語擴(kuò)散
實驗
實現(xiàn)細(xì)節(jié)
數(shù)據(jù)標(biāo)準(zhǔn)化
條件信號
條件生成器。前面的條件生成公式與大多數(shù)模態(tài)兼容。本文主要探索了兩種模態(tài)的條件生成,即圖像和文本。
圖像。對于圖像條件模型,我們利用預(yù)訓(xùn)練的 DINOv2 模型,具體是“DINOv2-ViT-B/14”,從輸入圖像中提取視覺標(biāo)記,并將其作為輸入條件c 。得益于我們高質(zhì)量的表示 PrimX 及其高效渲染的能力,我們不需要經(jīng)歷像其他工作那樣復(fù)雜且昂貴的渲染過程,這些工作將所有原始網(wǎng)格渲染為 2D 圖像進(jìn)行訓(xùn)練。相反,選擇使用 Eq. 6 渲染的前視圖圖像,1) 計算上足夠高效,2) 與底層表示一致,相比于從原始網(wǎng)格渲染的結(jié)果。
文本標(biāo)題。從 Objaverse 中采樣 200,000 個數(shù)據(jù)點(diǎn)來生成文本標(biāo)題。對于每個物體,渲染六個不同的視圖,并以白色背景為背景。然后,使用 GPT-4V 根據(jù)這些圖像生成關(guān)鍵詞,重點(diǎn)關(guān)注幾何、紋理和風(fēng)格等方面。雖然我們?yōu)槊總€方面預(yù)定義了某些關(guān)鍵詞,但模型也鼓勵生成更多上下文特定的關(guān)鍵詞。一旦獲得關(guān)鍵詞,便使用 GPT-4 將其總結(jié)為一個完整的句子,開頭為“一個 3D 模型...”。這些文本標(biāo)題隨后被準(zhǔn)備為輸入條件。
模型細(xì)節(jié)
推理。默認(rèn)情況下,使用 25 步 DDIM采樣器和 CFG 縮放因子為 6 來評估我們的模型。我們發(fā)現(xiàn) DDIM 采樣步驟的最佳范圍是 25 到 100,而 CFG 縮放因子的最佳范圍是 4 到 10。推理過程可以在單個 A100 GPU 上高效完成,時間約為 5 秒。
表示評估
評估協(xié)議。首先在 3D 生成建模的背景下評估不同的 3D 表示設(shè)計。我們的評估原則集中在兩個方面:1) 從 GLB 網(wǎng)格到表示的運(yùn)行時,2) 在固定計算預(yù)算下,給定形狀、紋理和材料的近似誤差。我們隨機(jī)從訓(xùn)練數(shù)據(jù)集中抽取 30 個 GLB 網(wǎng)格,記錄至收斂的平均擬合時間作為運(yùn)行時,測量方式為在 A100 GPU 上的墻面時間。對于幾何質(zhì)量,我們評估真實網(wǎng)格與擬合后提取網(wǎng)格之間的 Chamfer 距離(CD),以及在形狀表面附近采樣的 500,000 個點(diǎn)的 SDF 值的峰值信噪比(PSNR)。對于外觀質(zhì)量,我們評估在表面附近采樣的 500,000 個點(diǎn)的 RGB(反照率)和材料值的 PSNR。
基線。給定PrimX的最終超參數(shù),其中N=2048,a=8,我們將所有表示的參數(shù)數(shù)量固定為2048 × 83 ≈ 1.05M,以便進(jìn)行比較。我們比較四種替代表示:1)MLP:一個純多層感知器,包含3層和1024個隱藏維度;2)帶PE的MLP:在輸入坐標(biāo)上添加位置編碼(PE)(Mildenhall等,2020)的MLP基線;3)三平面(Chan等,2022):三個正交的2D平面,分辨率為128 × 128和16個通道,隨后是一個具有512個隱藏維度的兩層MLP解碼器;4)密集體素:分辨率為100 × 100 × 100的密集3D體素。所有方法都使用與我們相同的目標(biāo)(方程7)和點(diǎn)采樣策略(第4.1.1節(jié))進(jìn)行訓(xùn)練。
結(jié)果。定量結(jié)果見下表1,顯示PrimX在所有方法中實現(xiàn)了最低的近似誤差,特別是在幾何方面(由CD指示)。除了最佳質(zhì)量外,所提議的表示在運(yùn)行時效率方面表現(xiàn)顯著,收斂速度比第二好的方法快近7倍,使其在大規(guī)模數(shù)據(jù)集上可擴(kuò)展。圖5展示了定性比較。基于MLP的隱式方法似乎存在周期性偽影,特別是在幾何方面。三平面和密集體素產(chǎn)生了凹凸不平的表面以及形狀表面周圍的網(wǎng)格偽影。相反,PrimX則產(chǎn)生了最佳質(zhì)量,具備光滑的幾何形狀和細(xì)致的細(xì)節(jié),如纖細(xì)而逐漸變細(xì)的胡須。
圖像到3D生成
本節(jié)將單視圖條件生成模型與適合圖像到3D合成的最先進(jìn)方法進(jìn)行比較。
比較方法。對兩種類型的方法進(jìn)行了評估:1)稀疏視圖重建模型和2)圖像條件擴(kuò)散模型?;谥亟ǖ姆椒?,如LGM、InstantMesh、Real3D和CRM,是確定性方法,旨在根據(jù)四個或六個輸入視圖重建3D對象。它們通過利用預(yù)訓(xùn)練的擴(kuò)散模型從輸入單一圖像生成多個視圖,從而實現(xiàn)單視圖到3D的合成。然而,重建方法嚴(yán)重依賴輸入的多視圖圖像,因此會受到前端2D擴(kuò)散模型導(dǎo)致的多視圖不一致性影響。前饋擴(kuò)散模型,如CraftsMan、Shap-E和LN3Diff,是概率方法,旨在根據(jù)輸入圖像條件生成3D對象。上述所有方法僅建模形狀和顏色,而不考慮粗糙度和金屬質(zhì)感,而我們的方法適合生成這些資產(chǎn)。
結(jié)果。下圖6展示了定性結(jié)果。為了公平比較生成適合渲染的3D資產(chǎn)的能力,我們將每種方法導(dǎo)出的紋理網(wǎng)格導(dǎo)入Blender并使用目標(biāo)環(huán)境貼圖進(jìn)行渲染。對于無法生成PBR材料的方法,我們分配默認(rèn)的漫反射材料?,F(xiàn)有的基于重建的模型未能產(chǎn)生良好的結(jié)果,可能受到多視圖不一致性和無法支持空間變化材料的影響。此外,這些重建模型基于三平面表示,這在參數(shù)效率上表現(xiàn)不佳。這一缺點(diǎn)限制了底層3D表示的空間分辨率,導(dǎo)致渲染法線指示的凹凸不平的表面。另一方面,現(xiàn)有的3D擴(kuò)散模型未能生成與輸入條件視覺對齊的對象。雖然CraftsMan是唯一與我們具有可比表面質(zhì)量的方法,但它們僅能生成沒有紋理和材料的3D形狀。相比之下,3DTopia-XL在所有方法中實現(xiàn)了最佳的視覺和幾何質(zhì)量。得益于我們生成空間變化的PBR資產(chǎn)(如金屬質(zhì)感和粗糙度)的能力,我們生成的網(wǎng)格即使在惡劣環(huán)境照明下也能產(chǎn)生生動的反射和鏡面高光。
用戶研究。我們進(jìn)行了一項廣泛的用戶研究,以定量評估圖像到3D的性能。我們選擇了輸出評估(Bylinskii等,2022)作為用戶研究,在該研究中,每位志愿者會看到一對結(jié)果,比較隨機(jī)方法與我們的方法,并被要求在四個方面選擇更好的一個:1)整體質(zhì)量,2)圖像對齊,3)表面光滑度和4)物理正確性。共提供48對樣本給27位志愿者進(jìn)行翻轉(zhuǎn)測試。我們在圖7中總結(jié)了所有四個維度的平均偏好百分比。3DTopia-XL在所有方法中表現(xiàn)最佳。盡管我們方法的圖像對齊僅比基于重建的方法(如CRM)有所改進(jìn),但幾何質(zhì)量的優(yōu)越性和建?;谖锢聿牧系哪芰κ亲罱K渲染中產(chǎn)生最佳整體質(zhì)量的關(guān)鍵。
文本到3D生成
展示了原生文本到3D生成的能力,如下圖4所示。作為一個3D原生擴(kuò)散模型,我們的文本驅(qū)動生成是通過直接對模型進(jìn)行文本輸入的條件,而不依賴于復(fù)雜的文本到多視圖再到重建模型的流程。
此外,還針對原生文本到3D生成模型進(jìn)行了定量評估。為此,我們采用CLIP評分作為評估指標(biāo),測量文本嵌入和圖像嵌入在CLIP模型的聯(lián)合文本-圖像空間中的余弦相似度。使用每種方法的前視圖渲染來計算圖像嵌入。主要比較了兩個具有開源實現(xiàn)的方法:Shap-E和3DTopia。Shap-E直接根據(jù)文本生成3D物體的隱式函數(shù),而3DTopia則采用了混合的2D和3D擴(kuò)散先驗,使用前饋三平面擴(kuò)散,然后進(jìn)行基于優(yōu)化的精煉。正如表5所示,我們的方法在輸入文本和生成資產(chǎn)的渲染之間實現(xiàn)了更好的對齊。
進(jìn)一步分析
原語的數(shù)量和分辨率
原語的數(shù)量N和每個原語的分辨率a是影響PrimX效率-質(zhì)量權(quán)衡的關(guān)鍵因素,既是結(jié)構(gòu)化的3D表示,也是序列化的表示。增加更多和更大的原語通常會導(dǎo)致更好的近似質(zhì)量;然而,這也會導(dǎo)致序列長度增加和特征維度更深,從而導(dǎo)致長上下文注意力計算效率低下和擴(kuò)散模型訓(xùn)練困難。
為了評估原語數(shù)量和分辨率的影響,在離表面500k個采樣點(diǎn)上評估了簽名距離函數(shù)(SDF)、反照率和材料值的PSNR。結(jié)果如下表2所示,給定固定的參數(shù)數(shù)量,較長的原語序列能更好地近似SDF、紋理和材料。此外,增加每個原語的分辨率可以減少近似誤差,但當(dāng)原語數(shù)量充足時,這種好處會變得邊際化。
下圖8中的可視化結(jié)果也支持這些發(fā)現(xiàn)。
例如,使用 N = 64, a = 32 的替代方案即使在參數(shù)數(shù)量較高的情況下也會產(chǎn)生較差的幾何形狀,因為較大的局部原語更容易在空白空間中浪費(fèi)參數(shù)。此外,較長的序列會增加擴(kuò)散模型(DiT)的GFlops,導(dǎo)致生成質(zhì)量更好(見下表3)。因此,我們的方法傾向于使用較長的原語序列,同時保持相對較小的局部分辨率。值得注意的是,我們的變分自編碼器(VAE)壓縮率也會影響PrimX的超參數(shù),我們將在下一節(jié)中進(jìn)一步探討。
patch壓縮率
基于原語的patch變分自編碼器(VAE)的壓縮率也是一個重要的設(shè)計選擇??傮w而言,作為一種patch壓縮方法,目標(biāo)是對每個原語進(jìn)行空間壓縮,以節(jié)省計算資源,而不是進(jìn)行語義壓縮。經(jīng)驗上,更高的壓縮率會導(dǎo)致更高效的潛在擴(kuò)散模型,在擴(kuò)大規(guī)模時可以指示更大的批量大小或更大的模型。相反,極端的壓縮往往伴隨著信息的丟失。
擴(kuò)展性
進(jìn)一步研究了3DTopia-XL的擴(kuò)展性規(guī)律,關(guān)注模型大小和迭代次數(shù)。作為指標(biāo),使用在沒有條件生成(CFG)指導(dǎo)下,對5000個隨機(jī)樣本計算的Fréchet Inception Distance(FID)。具體而言,考慮在VAE潛在空間中計算的Latent-FID和在使用公式6渲染的圖像提取的DINO嵌入上計算的Rendering-FID。下圖9展示了隨著模型規(guī)模的增加,Latent-FID和Rendering-FID的變化。觀察到隨著模型的加深和加寬,性能有了一致的提升。表3還表明,較長的序列(較小的patch)會導(dǎo)致更好的性能,這可能與原始DiT中的發(fā)現(xiàn)有關(guān),即增加GFlops會提高性能。
采樣多樣性
最后,展示了3DTopia-XL作為生成模型所展現(xiàn)出的令人印象深刻的采樣多樣性,如下圖10所示。給定相同的輸入圖像和不同的隨機(jī)種子,模型能夠生成多樣化的高質(zhì)量3D資產(chǎn),這些資產(chǎn)具有不同的幾何形狀和空間變化的PBR材料。
討論
3DTopia-XL,這是一個針對給定文本或視覺輸入的原生3D擴(kuò)散模型,用于PBR資產(chǎn)生成。方法的核心是PrimX,這是一種創(chuàng)新的基于原語的3D表示,具有參數(shù)高效、張量化和可渲染的特點(diǎn)。它將形狀、反照率和材質(zhì)編碼為一個緊湊的(NXD)張量,使得能夠?qū)哂蠵BR資產(chǎn)的高分辨率幾何體進(jìn)行建模。
為了適應(yīng)PrimX,引入了幾種訓(xùn)練和推理技術(shù),以確保生成的結(jié)果可以高質(zhì)量地打包到GLB文件中,便于在圖形引擎中的后續(xù)應(yīng)用。廣泛的評估表明,3DTopia-XL在文本到3D和圖像到3D的任務(wù)中表現(xiàn)優(yōu)越,展現(xiàn)了其作為3D生成基礎(chǔ)模型的巨大潛力。
本文轉(zhuǎn)自 AI生成未來 ,作者:AI生成未來
