革新3D材質(zhì)生成!Material Anything:端到端打造任意3D物體的高質(zhì)量材質(zhì)!
論文鏈接: https://arxiv.org/pdf/2411.15138
亮點(diǎn)直擊
- 提出了一種完全自動(dòng)化、穩(wěn)定且通用的模型,用于為多種3D對(duì)象生成物理材料,并達(dá)到了最先進(jìn)性能水平。
- 提出了一種具有光照置信度的材料擴(kuò)散模型,以便用一個(gè)模型處理各種光照條件。
- 提出了一種由置信度 mask 引導(dǎo)的漸進(jìn)材料生成方案,以及一種UV空間材料擴(kuò)散模型,以生成一致且UV就緒的材料。
總結(jié)速覽
解決的問(wèn)題
現(xiàn)有的3D對(duì)象材料生成方法通常依賴(lài)復(fù)雜的流程或特定案例的優(yōu)化,難以在各種光照條件下穩(wěn)定工作。需要一種能夠自動(dòng)生成基于物理的材料,并在不同光照條件下表現(xiàn)優(yōu)異的解決方案。
提出的方案
提出了Material Anything,這是一種全自動(dòng)的統(tǒng)一擴(kuò)散框架,能夠?yàn)?D對(duì)象生成基于物理的材料。該框架通過(guò)三頭架構(gòu)和渲染損失來(lái)增強(qiáng)穩(wěn)定性和材料質(zhì)量,并引入置信度 mask 作為動(dòng)態(tài)切換器,以處理不同光照條件下的有紋理和無(wú)紋理對(duì)象。
應(yīng)用的技術(shù)
- 預(yù)訓(xùn)練的圖像擴(kuò)散模型
- 三頭架構(gòu)與渲染損失
- 置信度 mask 作為動(dòng)態(tài)切換器
- 由置信度 mask 引導(dǎo)的漸進(jìn)材料生成策略
- UV空間材料精煉器
達(dá)到的效果
Material Anything 提供了一種穩(wěn)定、通用的端到端解決方案,能夠在各種光照條件下生成高質(zhì)量的物理材料。大量實(shí)驗(yàn)表明,該方法在廣泛的對(duì)象類(lèi)別和光照條件下優(yōu)于現(xiàn)有方法,確保了輸出材料的一致性和UV就緒性。
方法
Material Anything,如下圖2所示,是一個(gè)為3D對(duì)象生成高質(zhì)量物理材料的統(tǒng)一框架,能夠適應(yīng)各種光照和紋理場(chǎng)景。它有效地處理以下情況:(1) 無(wú)紋理對(duì)象,(2) 僅有反照率的對(duì)象(無(wú)光照效果),(3) 掃描對(duì)象(真實(shí)光照),以及 (4) 生成對(duì)象(非真實(shí)光照)。與現(xiàn)有方法將這些場(chǎng)景視為獨(dú)立任務(wù)不同,我們的方法將它們統(tǒng)一在一個(gè)框架下。為此,我們將3D材料生成重新表述為基于圖像的材料估計(jì)任務(wù),從而能夠使用預(yù)訓(xùn)練的圖像擴(kuò)散模型并簡(jiǎn)化整體流程。
我們的框架?chē)@兩個(gè)核心組件展開(kāi)。首先,我們采用一個(gè)基于擴(kuò)散的材料估計(jì)器,配備置信度 mask ,為輸入對(duì)象的每個(gè)視圖生成材料。接下來(lái),我們引入了一種漸進(jìn)材料生成策略,利用置信度 mask 確保生成材料在各視圖之間的一致性,并進(jìn)一步集成了用于材料細(xì)化的UV空間擴(kuò)散模型。最后,我們提供了Material3D數(shù)據(jù)集的構(gòu)建細(xì)節(jié)。
基于圖像的材料擴(kuò)散
- 通道差距:圖像擴(kuò)散模型通常在三個(gè)通道(RGB)上運(yùn)行,而PBR材料需要超過(guò)三個(gè)通道(在我們的方法中為八個(gè)通道)。這種差異可能導(dǎo)致材料表示不準(zhǔn)確,因?yàn)槟P捅仨氝m應(yīng)生成更復(fù)雜的輸出集。
- 域差距:PBR材料貼圖與自然圖像不同。這種顯著差異導(dǎo)致訓(xùn)練不穩(wěn)定和性能次優(yōu)。
- 多樣化光照:最后,我們的材料估計(jì)器必須在具有不同光照條件的圖像中保持穩(wěn)健,以確保一致的性能。
為了解決這些挑戰(zhàn),我們引入了幾個(gè)關(guān)鍵組件。
三頭擴(kuò)散:為了使三通道擴(kuò)散模型能夠處理多種材料特定通道,一種解決方案是訓(xùn)練一個(gè)材料VAE。然而,這種方法可能會(huì)丟棄擴(kuò)散模型的預(yù)訓(xùn)練先驗(yàn),并且在我們有限的PBR數(shù)據(jù)上訓(xùn)練定制的材料VAE具有挑戰(zhàn)性。受之前工作的啟發(fā),我們?cè)O(shè)計(jì)了一個(gè)三頭U-Net架構(gòu),如下圖3(a)所示。U-Net架構(gòu)包括初始卷積層和第一個(gè)下采樣塊的三個(gè)不同分支,隨后是共享的中間層,支持材料模態(tài)的并行去噪。最終的上采樣塊和輸出卷積層也分成三個(gè)分支。每個(gè)輸出頭生成一個(gè)特定的材料貼圖:一個(gè)反照率貼圖,一個(gè)組合的粗糙度-金屬度貼圖(R通道設(shè)為1,G為粗糙度,B為金屬度),以及一個(gè)凹凸貼圖。與將所有材料合并為一個(gè)輸出不同,這種三頭結(jié)構(gòu)確保每個(gè)材料貼圖在生成時(shí)不相互干擾,同時(shí)保持它們之間的一致性。
置信度自適應(yīng)生成:為了管理具有各種光照條件的輸入,我們將這些條件分為兩大類(lèi):高置信度(例如,掃描對(duì)象)和低置信度(例如,無(wú)光照和生成光照)。為了指導(dǎo)模型,我們引入了一個(gè)表示光照置信度的確定性 mask 。對(duì)于具有真實(shí)光照的輸入,置信度值設(shè)為1,鼓勵(lì)擴(kuò)散模型利用光照線索進(jìn)行材料估計(jì)。相反,對(duì)于缺乏光照或具有生成光照的輸入,置信度設(shè)為0,引導(dǎo)模型專(zhuān)注于材料生成而非估計(jì)。需要注意的是,對(duì)于具有生成光照的圖像, mask 可以在已知材料區(qū)域選擇性地分配值1,而在其他地方分配0,以增強(qiáng)多視圖材料一致性,如逐步材料生成中詳細(xì)說(shuō)明的。置信度 mask 使擴(kuò)散模型能夠在材料估計(jì)和生成之間無(wú)縫過(guò)渡,有效管理真實(shí)和合成光照?qǐng)鼍?。學(xué)習(xí)目標(biāo)是v-預(yù)測(cè)。
3D 對(duì)象的材料生成
雖然我們已經(jīng)成功地為圖像估計(jì)了材料,但將材料估計(jì)器應(yīng)用于3D對(duì)象的多個(gè)視圖會(huì)導(dǎo)致明顯的不一致。一個(gè)解決方案是訓(xùn)練一個(gè)材料估計(jì)器,以同時(shí)預(yù)測(cè)多個(gè)視圖的材料,類(lèi)似于多視圖擴(kuò)散。然而,增加的視圖和通道數(shù)量對(duì)生成高分辨率材料構(gòu)成了挑戰(zhàn)。為了使我們的2D材料估計(jì)器適應(yīng)3D對(duì)象,我們提出了一種漸進(jìn)生成策略,該策略基于前面提到的置信蒙版動(dòng)態(tài)估計(jì)不同視點(diǎn)的材料。我們進(jìn)一步將多視圖材料投影到UV空間,并應(yīng)用一個(gè)細(xì)化擴(kuò)散模型,該模型完成被遮擋區(qū)域并細(xì)化材料,確保無(wú)縫且一致的材料貼圖。
Material3D 數(shù)據(jù)集
為了訓(xùn)練Material Anything模型,我們構(gòu)建了一個(gè)名為Material3D的數(shù)據(jù)集,該數(shù)據(jù)集由從Objaverse 精選的80,000個(gè)高質(zhì)量3D對(duì)象組成。數(shù)據(jù)集構(gòu)建的詳細(xì)信息在補(bǔ)充材料中提供。對(duì)于每個(gè)模型,我們從10個(gè)固定的相機(jī)位置渲染了多視角材料圖像(反照率、粗糙度、金屬度、凸起)和法線貼圖。此外,還渲染了UV材料圖和CCM,以便于材料精煉器的訓(xùn)練。為了使模型能夠處理多樣的光照?qǐng)鼍?,我們?cè)阡秩据斎雸D像時(shí)加入了多種光照條件,包括點(diǎn)光源、區(qū)域光源、環(huán)境光照和無(wú)光照。此外,我們?cè)O(shè)計(jì)了一種策略來(lái)模擬推理過(guò)程中常見(jiàn)的不完善和不一致的光照條件。
模擬不一致的光照:我們隨機(jī)選擇在不同光照條件下拍攝的兩張圖像,用于一個(gè)相機(jī)視角,并在訓(xùn)練過(guò)程中將每張圖像的一部分拼接成一個(gè)復(fù)合圖像。這使得單張圖像能夠展示兩種不同的光照類(lèi)型,模擬多視角材料中的不一致性。此外,我們對(duì)其中一張圖像引入了降質(zhì)效果,應(yīng)用諸如模糊和色彩偏移等效果。使用信心 mask 來(lái)劃定降質(zhì)區(qū)域。材料估計(jì)器的最終輸入包括拼接圖像、信心 mask 和法線貼圖。為了訓(xùn)練材料精煉器,我們隨機(jī)遮蓋UV材料圖的某些區(qū)域,并將這些被遮蓋的材料圖作為輸入。CCM是從3D點(diǎn)坐標(biāo)的UV映射中導(dǎo)出的,也包含在內(nèi)。這些圖幫助指導(dǎo)需要修復(fù)的區(qū)域,并在擴(kuò)散過(guò)程中促進(jìn)3D鄰接信息的整合。
實(shí)驗(yàn)
我們將我們的方法與紋理生成方法進(jìn)行比較,包括 Text2Tex、SyncMVD 和 Paint3D 。此外,我們還將我們的方法與基于優(yōu)化的材料生成方法進(jìn)行評(píng)估,如 NvDiffRec 和 DreamMat ,以及一種基于檢索的方法 Make-it-Real 。最后,我們也包括與閉源方法 Rodin Gen-1 和 Tripo3D 的比較。
定性評(píng)估
與紋理生成方法的比較。 我們?cè)谙聢D5中將Material Anything與各種紋理生成方法進(jìn)行了比較。這些方法采用相似的策略,使用預(yù)訓(xùn)練的圖像擴(kuò)散模型為無(wú)紋理的網(wǎng)格上色。然而,擴(kuò)散模型生成的光照信息通常導(dǎo)致紋理中出現(xiàn)顯著的偽影,因?yàn)樗鼈兪艿蕉鄠€(gè)生成圖像中復(fù)雜光照條件的影響。相比之下,我們的方法生成的紋理更加清晰,并且固有地包含材料屬性,從而為下游應(yīng)用提供了強(qiáng)有力的支持。
與優(yōu)化方法的比較。 我們?cè)谙聢D6中將我們的方法與優(yōu)化方法進(jìn)行了比較。這些方法需要為每個(gè)對(duì)象進(jìn)行大量的優(yōu)化時(shí)間,并且難以準(zhǔn)確識(shí)別對(duì)象的材料。相比之下,我們的方法能夠有效地區(qū)分材料,如在桶的示例中,它準(zhǔn)確地表示了金屬箍和木板。這一能力突顯了我們的方法在生成逼真且多樣的材料圖方面的優(yōu)越性。
與檢索方法的比較。 對(duì)于已有紋理的輸入對(duì)象,我們與檢索方法Make-it-Real進(jìn)行了比較,如下圖7所示。Make-it-Real基于初始紋理的分割來(lái)檢索材料,這存在若干局限性。首先,分割過(guò)程難以準(zhǔn)確捕捉小區(qū)域,例如消防栓上的剝落油漆。此外,它在去除初始紋理中的陰影時(shí)遇到困難,如雕塑示例中陰影反照率所示。相比之下,我們的方法生成的材料更為準(zhǔn)確,更好地保留了細(xì)節(jié),并去除了諸如陰影之類(lèi)的偽影。
與Tripo3D和Rodin Gen-1的比較。 我們?cè)谙聢D8中將我們的方法與兩個(gè)閉源方法Tripo3D和Rodin Gen-1進(jìn)行了比較。我們使用Tripo3D生成的無(wú)紋理網(wǎng)格作為材質(zhì)生成的輸入。此外,我們通過(guò)圖像擴(kuò)散模型為Rodin Gen-1提供正視圖圖像,以確保生成相同的3D對(duì)象。盡管Tripo3D和Rodin Gen-1利用了顯著更大規(guī)模的訓(xùn)練數(shù)據(jù)集,我們的方法仍能產(chǎn)生可比的結(jié)果。
定量評(píng)估
我們的方法的定量評(píng)估結(jié)果如下表1所示。正如所示,我們的方法實(shí)現(xiàn)了更低的FID分?jǐn)?shù),這表明我們生成的紋理在分布上更接近Objaverse中的紋理。此外,我們方法的更高CLIP分?jǐn)?shù)顯示了其生成紋理與提示更準(zhǔn)確對(duì)齊的能力。
消融研究
三頭U-Net的有效性。 我們?cè)u(píng)估了使用普通U-Net架構(gòu)的方法性能,該架構(gòu)直接生成所有材料作為12通道潛變量,而不是使用三頭U-Net。如下表2所示,由于在輸出單個(gè)12通道潛變量時(shí)材料之間的耦合效應(yīng),性能下降。在下圖9中,這種耦合效應(yīng)很明顯,凸起由于反射率的干擾被錯(cuò)誤上色。相比之下,三頭U-Net有效地解耦了材料。此外,三個(gè)頭共享的主干網(wǎng)絡(luò)確保了不同材料圖之間的一致性。
渲染損失的有效性。 在上表2中,我們展示了在沒(méi)有渲染損失的情況下訓(xùn)練的方法的定量結(jié)果。值得注意的是,與包含渲染損失的變體相比,此消融實(shí)驗(yàn)中的性能更差。如上圖9所示,沒(méi)有渲染損失的版本表現(xiàn)出明顯的細(xì)節(jié)退化,材料視圖中出現(xiàn)可見(jiàn)的偽影。渲染損失作為圖像空間中的附加約束,確保了在不同光照條件下的一致性,提高了訓(xùn)練的穩(wěn)定性,并有助于捕捉更細(xì)微的材料特性。結(jié)果突顯了渲染損失在增強(qiáng)材料估計(jì)器的保真度和穩(wěn)定性方面的關(guān)鍵作用。
信心 mask 的有效性。 如下圖10所示,沒(méi)有信心 mask 的材料估計(jì)器在不同光照條件下難以生成高質(zhì)量的材料。相反,在信心 mask 的指導(dǎo)下,模型能夠很好地適應(yīng)這些輸入變化。下表3展示了在不同光照條件下,模型在Objaverse對(duì)象上沒(méi)有信心 mask 的定量結(jié)果,揭示了材料準(zhǔn)確度的顯著下降。此外,對(duì)于具有生成光照的對(duì)象,缺乏信心 mask 的漸進(jìn)生成也在材料圖中顯示出明顯的不一致,如下圖11所示。相反,使用信心 mask 后,模型能夠區(qū)分用于估計(jì)和生成的區(qū)域。通過(guò)引導(dǎo)訓(xùn)練過(guò)程專(zhuān)注于相關(guān)區(qū)域,我們的方法實(shí)現(xiàn)了更加一致、無(wú)偽影的材料。這些結(jié)果表明,信心 mask 改善了材料的一致性,并解決了光照變化問(wèn)題。
已知材料初始化的有效性。 上圖11展示了未使用其他視圖的已知材料進(jìn)行初始化的方法結(jié)果。如圖所示,預(yù)測(cè)的金屬特性在不同視圖中顯示出明顯的變化。相比之下,通過(guò)基于已知材料的漸進(jìn)生成,我們的方法在多個(gè)視圖中生成了更一致的材料。
UV空間材料精細(xì)化器的有效性。 在下圖12中,展示了沒(méi)有UV精細(xì)化的結(jié)果。如圖所示,由于自遮擋,預(yù)測(cè)的材料中出現(xiàn)了幾個(gè)孔洞,導(dǎo)致材料圖不完整。在應(yīng)用我們的材料精細(xì)化器后,這些孔洞被有效填補(bǔ),結(jié)果是更加無(wú)縫和完整的材料表示。我們的材料精細(xì)化器能夠處理遮擋并提高整體材料生成質(zhì)量。
結(jié)論
Material Anything,這是一個(gè)統(tǒng)一的框架,用于生成各種3D對(duì)象的PBR材質(zhì),包括無(wú)紋理、僅反照率、生成的和掃描的網(wǎng)格。通過(guò)利用精心設(shè)計(jì)的材質(zhì)擴(kuò)散模型,方法可以以前饋的方式生成高保真材質(zhì)。為了解決復(fù)雜光照條件下的各種輸入對(duì)象的統(tǒng)一性,引入了一種 mask 來(lái)指示不同光照的置信水平,這也增強(qiáng)了多視角材質(zhì)的一致性。大量實(shí)驗(yàn)表明,我們的方法可以為各種對(duì)象生成高質(zhì)量的PBR材料,并且明顯優(yōu)于現(xiàn)有方法。
本文轉(zhuǎn)自AI生成未來(lái) ,作者:AI生成未來(lái)
