CVPR 2025滿分論文:開(kāi)源三維生成框架Craftsman3D&Dora革新三維資產(chǎn)生成與編輯
香港科技大學(xué)譚平教授團(tuán)隊(duì)在 CVPR 2025 發(fā)表兩項(xiàng)三維生成技術(shù)框架,核心代碼全部開(kāi)源,助力三維生成技術(shù)的開(kāi)放與進(jìn)步。其中 Craftman3D 獲得三個(gè)評(píng)委一致滿分,并被全球多家知名企業(yè)如全球最大的多人在線游戲創(chuàng)作平臺(tái) Roblox, 騰訊混元 Hunyuan3D-2,XR 實(shí)驗(yàn)室的 XR-3DGen 和海外初創(chuàng)公司 CSM 的 3D 創(chuàng)作平臺(tái)等重量級(jí)項(xiàng)目的引用與認(rèn)可。
相關(guān)技術(shù)已融入光影煥像的三維生成平臺(tái)及產(chǎn)品,用戶只需簡(jiǎn)單操作,就能開(kāi)啟專(zhuān)屬三維創(chuàng)作之旅。
- 光影煥像 3D 生成平臺(tái)(主站):https://triverse.ai/zh-cn/
- 光影煥像 3D 生成平臺(tái)(國(guó)內(nèi)備用):https://triverse.lightillusions.com/zh-cn/
本文中 Craftman3D 的共同一作李威宇、劉嘉瑞和閻鴻禹均為香港科技大學(xué)博士研究生。Dora 的第一作者為香港科技大學(xué)博士陳銳。均為香港科技大學(xué)譚平教授組的在讀博士生。
三維內(nèi)容的創(chuàng)建對(duì)于游戲、影視、AR/VR 乃至具身智能的環(huán)境仿真中具備關(guān)鍵作用。不過(guò),傳統(tǒng)三維建模方式要求建模者掌握大量專(zhuān)業(yè)知識(shí),且需投入大量人工操作,這使得建模過(guò)程極為耗時(shí),極具挑戰(zhàn)性,對(duì)于非專(zhuān)業(yè)用戶而言更是如此。過(guò)高的時(shí)間與人力成本,已然成為限制這些領(lǐng)域發(fā)展的主要瓶頸。近年來(lái),基于 AI 的三維內(nèi)容生成技術(shù)逐步改變了這一局面。借助自動(dòng)化生成技術(shù),三維內(nèi)容創(chuàng)建的門(mén)檻大幅降低,讓更廣泛的用戶群體能夠高效地構(gòu)建三維數(shù)字內(nèi)容。
當(dāng)前原生三維生成模型主要由兩部分構(gòu)成:一是 3D-VAE(3D Variational Auto Encoder)變分自編碼器,它通過(guò) Encoder 網(wǎng)絡(luò)將三維模型壓縮編碼至潛在空間(latent space),并通過(guò) Decoder 網(wǎng)絡(luò)解碼重構(gòu)出三維模型;二是基于 3D-VAE 構(gòu)建的潛在擴(kuò)散模型(latent diffusion model)用于處理文本或圖像輸入的三維模型生成。三維生成大模型所呈現(xiàn)的細(xì)節(jié)上限,在很大程度上取決于 3D-VAE 對(duì)三維幾何的編碼與重建能力。為提升三維模型編解碼過(guò)程中的幾何細(xì)節(jié)豐富度,香港科技大學(xué)譚平團(tuán)隊(duì)聯(lián)合字節(jié)跳動(dòng)豆包大模型團(tuán)隊(duì)與光影煥像團(tuán)隊(duì),共同提出了 Dora 模型來(lái)改進(jìn)三維原生 VAE。
在 3D-VAE 模型的基礎(chǔ)上,香港科技大學(xué)與光影煥像團(tuán)隊(duì)進(jìn)一步提出了 Craftsman3D 算法方案,該方案借鑒了傳統(tǒng)建模流程,能夠快速生成高質(zhì)量的 3D 模型,以進(jìn)一步生成滿足設(shè)計(jì)師對(duì)高質(zhì)量三維模型的生成要求。此方法在 CVPR 中獲得審稿人一致滿分評(píng)價(jià),它融合了原生 3D 大模型以及實(shí)時(shí)幾何細(xì)節(jié)優(yōu)化兩大部分:首先由原生三維大模型生成初始模型,隨后通過(guò)實(shí)時(shí)可交互幾何細(xì)化操作,短短幾十秒內(nèi)即可生成具備高質(zhì)量幾何細(xì)節(jié)的三維模型。
- Dora 開(kāi)源代碼:https://github.com/Seed3D/Dora/
- Dora 項(xiàng)目主頁(yè):https://aruichen.github.io/Dora/
本文提出的 Dora-VAE,創(chuàng)新性地將顯著邊緣采樣算法與雙交叉注意力機(jī)制相結(jié)合,極大地提升了三維變分自編碼器(3D-VAE)的重建質(zhì)量與壓縮性能。在訓(xùn)練階段,該方法能夠精準(zhǔn)識(shí)別出具有較高幾何復(fù)雜性的區(qū)域,并對(duì)其優(yōu)先處理,從而有效改善了對(duì)精細(xì)幾何特征的保留情況,讓變分自編碼器能夠著重關(guān)注那些傳統(tǒng)均勻采樣方式容易忽視的關(guān)鍵幾何細(xì)節(jié)。在實(shí)現(xiàn)高質(zhì)量重建的同時(shí),相較于當(dāng)前 SOTA 方法(Xcube),Dora-VAE 在 3D 形狀壓縮率方面實(shí)現(xiàn)了超過(guò) 8 倍的提升 。
當(dāng)前,三維變分自編碼器的運(yùn)行機(jī)制是:通過(guò)在三維網(wǎng)格表面進(jìn)行點(diǎn)采樣來(lái)完成形狀編碼,而后利用解碼器對(duì)原始三維網(wǎng)格進(jìn)行重建。經(jīng)過(guò)深入且細(xì)致的研究,研究人員察覺(jué)現(xiàn)有方法普遍采用均勻采樣(uniform sampling)策略,從而導(dǎo)致重建性能受限。為了驗(yàn)證這一發(fā)現(xiàn),研究人員選取了具有復(fù)雜幾何細(xì)節(jié)的鍵盤(pán)(如下圖 (a) 所示)作為實(shí)驗(yàn)對(duì)象,對(duì)其進(jìn)行點(diǎn)云采樣,并將不同采樣策略在多種采樣密度下的點(diǎn)云分布情況進(jìn)行了可視化呈現(xiàn)(如下圖 (b)(c) 所示)。實(shí)驗(yàn)結(jié)果清晰地顯示:即便提升了采樣率,采用均勻采樣方式(如下圖 (b) 所示)依舊無(wú)法有效地保留鍵盤(pán)按鍵等銳利特征(sharp feature)。這一簡(jiǎn)潔直觀的實(shí)驗(yàn)有力地證實(shí)了,均勻采樣在本質(zhì)上對(duì)幾何細(xì)節(jié)的捕捉能力形成了制約,而這種制約進(jìn)一步對(duì)變分自編碼器的重建精度以及所訓(xùn)練擴(kuò)散模型的生成質(zhì)量產(chǎn)生了不良影響。
受重要性采樣理念的啟發(fā),研究人員設(shè)計(jì)了顯著邊緣采樣(Sharp Edge Sampling, SES)算法,該算法能夠基于幾何顯著性實(shí)現(xiàn)自適應(yīng)點(diǎn)采樣。具體而言,SES 算法首先識(shí)別網(wǎng)格中具有顯著二面角的邊緣(這些邊緣所在區(qū)域往往對(duì)應(yīng)高幾何復(fù)雜度區(qū)域),并沿顯著區(qū)域進(jìn)行點(diǎn)采樣。與此同時(shí),為了保證三維模型表面的覆蓋完整性,研究人員依舊會(huì)進(jìn)行表面均勻點(diǎn)采樣。因此,最終生成的采樣點(diǎn)云由表面均勻采樣點(diǎn)
與顯著區(qū)域采樣點(diǎn)
聯(lián)合構(gòu)成:
。
顯著邊緣檢測(cè)(Salient Edges Detection)
給定一個(gè)三維網(wǎng)格,研究人員通過(guò)計(jì)算相鄰面間的二面角獲得顯著邊緣集合。對(duì)于每條由相鄰面
和
共享的邊
,研究人員通過(guò)下式計(jì)算其二面角
:
其中和
分別表示面
和
的法向量。顯著邊緣集合
包含所有二面角超過(guò)預(yù)設(shè)閾值
的邊:
,令
表示顯著邊緣的數(shù)量。
顯著點(diǎn)采樣(Salient Points Sampling)
針對(duì)每條顯著邊緣,研究人員將其兩個(gè)頂點(diǎn)
和
納入顯著頂點(diǎn)集合
,相連邊緣產(chǎn)生的重復(fù)頂點(diǎn)僅保留一份:
。令
表示該集合中唯一幾何頂點(diǎn)的數(shù)量。給定顯著區(qū)域目標(biāo)點(diǎn)數(shù)
,當(dāng)顯著頂點(diǎn)過(guò)多時(shí),通過(guò)最遠(yuǎn)點(diǎn)采樣法 (Farthest Point Sampling, FPS) 進(jìn)行頂點(diǎn)下采樣;當(dāng)顯著頂點(diǎn)不足,通過(guò)對(duì)顯著邊緣增加采樣來(lái)補(bǔ)充數(shù)據(jù),從而得到顯著區(qū)域采樣點(diǎn)
。
基于 SES 算法,研究人員提出 Dora-VAE,在保持緊湊潛在表征的同時(shí)實(shí)現(xiàn)了高保真度的三維重建。為充分利用 SES 采樣獲得的富含細(xì)節(jié)的點(diǎn)云數(shù)據(jù),研究人員設(shè)計(jì)了雙交叉注意力編碼架構(gòu),該架構(gòu)在特征編碼過(guò)程中能有效融合顯著區(qū)域與均勻區(qū)域的特征表達(dá)。具體而言,研究人員沿用 3DShape2VecSet 的做法,首先分別對(duì)均勻采樣點(diǎn)云和顯著區(qū)域采樣點(diǎn)云
進(jìn)行最遠(yuǎn)點(diǎn)下采樣:
其中與
分別表示來(lái)自均勻采樣點(diǎn)云
和顯著區(qū)域采樣點(diǎn)云
的下采樣點(diǎn)云數(shù)量。研究人員隨后分別計(jì)算均勻點(diǎn)與顯著點(diǎn)的交叉注意力特征:
最終點(diǎn)云特征 C 通過(guò)融合雙向注意力計(jì)算結(jié)果獲得:
遵循 3DShape2VecSet,研究人員利用特征 C 通過(guò)自注意力模塊預(yù)測(cè)占據(jù)區(qū)域,整個(gè)模型
通過(guò)最小化均方誤差損失進(jìn)行優(yōu)化:
研究人員通過(guò)三個(gè)指標(biāo)評(píng)估重建質(zhì)量:使用 1M 采樣點(diǎn)對(duì)比輸入網(wǎng)格與不同 3D VAEs 解碼結(jié)果的差異,包括:1) F-score;2) 倒角距離 (CD);3) 尖銳法線誤差 (SNE)。為公平比較,研究人員同時(shí)給出潛在編碼長(zhǎng)度 (LCL)。結(jié)果表明,Dora-VAE 在 Dora-bench 中所有的指標(biāo)都達(dá)到了最佳。
- Craftman3d開(kāi)源代碼:https://github.com/wyysf-98/CraftsMan3D/
- Craftman3d項(xiàng)目主頁(yè):https://craftsman3d.github.io/
在訓(xùn)練 3D-VAE 的基礎(chǔ)上,CraftsMan3D 通過(guò)汲取傳統(tǒng)建模流程的經(jīng)驗(yàn),精心設(shè)計(jì)了兩階段的技術(shù)方案:第一階段使用原生三維大模型進(jìn)行初始模型生成。算法先使用 multi-view image diffusion 進(jìn)行多視圖生成,然后將多視圖輸入到 3D-DiT 擴(kuò)散模型中來(lái)生成拓?fù)湟?guī)則的幾何和紋理。第二階段為幾何細(xì)化階段,團(tuán)隊(duì)使用法向圖超分的方案實(shí)現(xiàn)高質(zhì)量法向估計(jì),然后通過(guò)可微渲染實(shí)現(xiàn)法線圖引導(dǎo)的幾何細(xì)節(jié)優(yōu)化。
階段一:基于 DiT 的原生三維大模型
團(tuán)隊(duì)提出了將三維擴(kuò)散模型與多視圖擴(kuò)散模型相結(jié)合的原生三維生成方案。具體來(lái)說(shuō),算法使用 3D-VAE 將幾何壓縮到潛在空間,然后使用 3D-DiT 擴(kuò)散模型在潛在空間進(jìn)行生成。對(duì)于單個(gè)參考圖像或文本提示輸入,首先將其輸入到多視圖擴(kuò)散模型中以獲得多視圖圖像作為三維擴(kuò)散模型的輸入,然后使用三維擴(kuò)散模型從中學(xué)習(xí)生成三維幾何圖形。
團(tuán)隊(duì)設(shè)計(jì)了完善的數(shù)據(jù)篩選 - 幾何水密化 - 渲染等數(shù)據(jù)處理流程,形成了強(qiáng)大的數(shù)據(jù)處理平臺(tái)以支撐原生三維大模型的訓(xùn)練數(shù)據(jù)。
階段二:高質(zhì)量幾何細(xì)節(jié)優(yōu)化
受限于 3D 大模型常用的隱式表達(dá)方案和 VAE 的壓縮特性,原生三維生成的物體往往難以具備很高頻的幾何細(xì)節(jié)。因此,論文提出了第二階段交互式幾何細(xì)節(jié)優(yōu)化,通過(guò)法相貼圖生成和反向 “烘焙” 優(yōu)化的方式捕捉高頻的幾何細(xì)節(jié),從而產(chǎn)生高質(zhì)量的三維資產(chǎn)。
具體來(lái)說(shuō),該部分通過(guò)基于表面法線貼圖的擴(kuò)散模型來(lái)實(shí)現(xiàn)法線圖細(xì)節(jié)增強(qiáng),并通過(guò)顯式三角網(wǎng)格優(yōu)化增加三維幾何細(xì)節(jié)。團(tuán)隊(duì)在原版 stable diffusion 的基礎(chǔ)上使用法線數(shù)據(jù)集微調(diào),并借助 tile 插件實(shí)現(xiàn)法相貼圖的超分辨率生成。通過(guò)這種方式模型既擁有幾何細(xì)節(jié)生成能力,還保留了原有的泛化能力。進(jìn)一步基于法線貼圖優(yōu)化直接優(yōu)化三維網(wǎng)格頂點(diǎn),只需 10 秒,即可在用戶繪制的區(qū)域添加幾何細(xì)節(jié),并完全保持其他區(qū)域的幾何形狀。
該技術(shù)還支持趣味擴(kuò)展功能:以人物照片為輸入,可生成與輸入圖像面部特征匹配的 3D 模型,實(shí)現(xiàn) 3D 資產(chǎn)快速換臉。
使用Craftman3D三維生成技術(shù)方案,普通用戶無(wú)需復(fù)雜操作即可快速搭建出精美的三維模型和場(chǎng)景。無(wú)論是游戲開(kāi)發(fā)、影視制作還是建筑室內(nèi)設(shè)計(jì)、具身感知虛擬場(chǎng)景,各類(lèi)創(chuàng)意都能輕松實(shí)現(xiàn)。如下圖所示,場(chǎng)景中的所有物體均由 Craftman3D 自動(dòng)生成。