牛津&Meta最新!PartGen:基于多視圖擴(kuò)散模型的多模態(tài)部件級(jí)3D生成和重建!
文章鏈接:https://arxiv.org/pdf/2412.18608
項(xiàng)目鏈接:?https://silent-chen.github.io/PartGen/
總結(jié)速覽
解決的問(wèn)題
當(dāng)前的3D生成與掃描技術(shù)能夠生成具有高質(zhì)量形狀和紋理的3D資產(chǎn),但這些資產(chǎn)通常是單一的、不具備結(jié)構(gòu)的整體表示(如隱式神經(jīng)場(chǎng)、高斯混合體或網(wǎng)格)。然而,專業(yè)應(yīng)用與創(chuàng)意工作流中需要結(jié)構(gòu)化的3D資產(chǎn),這些資產(chǎn)由具有獨(dú)立意義的部分組成,便于重用、編輯與動(dòng)畫(huà)制作。
提出的方案
本文提出了PartGen,能夠?qū)o(wú)結(jié)構(gòu)的3D對(duì)象轉(zhuǎn)化為具有語(yǔ)義意義的組成部分。方法分為兩個(gè)關(guān)鍵階段:
- 部分分割:通過(guò)多視圖擴(kuò)散模型生成多個(gè)視角的一致分割圖,將3D對(duì)象分割為多個(gè)部分。
- 部分補(bǔ)全與重建:利用第二個(gè)多視圖擴(kuò)散模型補(bǔ)全各部分的遮擋區(qū)域,并通過(guò)3D重建網(wǎng)絡(luò)生成完整的3D部件,確保部件間的無(wú)縫整合。
應(yīng)用的技術(shù)
- 多視圖擴(kuò)散模型:用于生成視角一致的分割圖,并捕捉多種可能的分割方案,符合藝術(shù)家分割對(duì)象的習(xí)慣。
- 生成式補(bǔ)全:通過(guò)上下文信息完成遮擋部件,甚至在信息缺失的情況下進(jìn)行“合理幻覺(jué)”,生成完整的不可見(jiàn)部分。
- 3D重建網(wǎng)絡(luò):將補(bǔ)全的視圖轉(zhuǎn)換為高質(zhì)量的3D部件,實(shí)現(xiàn)模型的整體性和一致性。
達(dá)到的效果
- 提升分割與重建質(zhì)量:相比現(xiàn)有分割與部件提取baseline,PartGen在分割精度和部件完整性上表現(xiàn)出色。
- 多輸入支持:支持從文本、圖像或無(wú)結(jié)構(gòu)3D對(duì)象生成具有部分結(jié)構(gòu)的3D資產(chǎn)。
- 下游任務(wù)應(yīng)用:支持3D部分編輯任務(wù),例如部件替換、移除、獨(dú)立編輯等,滿足動(dòng)畫(huà)制作、游戲開(kāi)發(fā)和機(jī)器人應(yīng)用需求。
- 語(yǔ)義一致性:生成的部件語(yǔ)義清晰,整體結(jié)構(gòu)完整,為3D理解和空間智能提供支持。
方法
PartGen是一個(gè)能夠?qū)?3D 對(duì)象完全分解為完整 3D 部件的框架。每個(gè)部件都是獨(dú)立的、可供人類理解的、自包含的元素,組成了 3D 對(duì)象的組合表示。PartGen 能夠接受不同的輸入模態(tài)(文本提示、圖像提示或 3D 資產(chǎn)),并通過(guò)重新利用一個(gè)強(qiáng)大的多視角擴(kuò)散模型來(lái)執(zhí)行部件分割和補(bǔ)全任務(wù)。PartGen 的概述如下圖 2 所示。
本節(jié)簡(jiǎn)要介紹了 3D 生成的多視角擴(kuò)散模型背景,以及 PartGen 如何應(yīng)用于文本、圖像或 3D 模型輸入。然后,描述了 PartGen 如何自動(dòng)分割、補(bǔ)全和重建 3D 部件。
3D 生成的背景
多視角擴(kuò)散模型方法通常采用兩階段的 3D 生成方法。
多視角部件分割
通過(guò)多視角擴(kuò)散的視角處理 3D 對(duì)象分割有以下幾個(gè)優(yōu)勢(shì):
- 它能輕松集成到現(xiàn)有的多視角框架中。
- 將對(duì)象分解為部件本質(zhì)上是一個(gè)非確定性、模糊的任務(wù),因?yàn)樗Q于所需的詳細(xì)程度、個(gè)人偏好以及藝術(shù)意圖。
實(shí)現(xiàn)細(xì)節(jié)
上下文部件補(bǔ)全
部件重建
訓(xùn)練數(shù)據(jù)
根據(jù)三種需要微調(diào)的模型,對(duì)數(shù)據(jù)進(jìn)行了不同的預(yù)處理:
多視角生成器數(shù)據(jù)
實(shí)驗(yàn)
評(píng)估協(xié)議
首先分別評(píng)估pipeline中的兩個(gè)主要組件:部件分割和部件補(bǔ)全與重建。然后,評(píng)估分解后的重建結(jié)果與原始對(duì)象的匹配程度。所有實(shí)驗(yàn)均使用數(shù)據(jù)集中的 100 個(gè)保留對(duì)象。
部件分割
評(píng)估協(xié)議
為分割任務(wù)設(shè)置了以下兩種場(chǎng)景:
排序列表通過(guò)對(duì)候選區(qū)域評(píng)分并移除冗余部分生成。隨后,將這些分割與真實(shí)分割Mk進(jìn)行匹配,并報(bào)告平均精度均值(mAP)。
由于問(wèn)題本身的不確定性,該精度在實(shí)際應(yīng)用中可能較低:算法預(yù)測(cè)的許多部件可能無(wú)法完全匹配特定藝術(shù)家的選擇。
Baselines
采用原始的和微調(diào)后的 SAM2 作為多視角分割的基線方法,并使用以下兩種方式對(duì) SAM2 進(jìn)行微調(diào):
- mask解碼器微調(diào):在本文的數(shù)據(jù)集上使用真實(shí)mask和隨機(jī)選擇的種子點(diǎn)微調(diào) SAM2 的mask解碼器,針對(duì)不同視角進(jìn)行訓(xùn)練。
- 多視角拼接微調(diào):將四個(gè)正交視角拼接為多視角圖像I,并微調(diào) SAM2 以預(yù)測(cè)多視角mask M(此情況下,種子點(diǎn)隨機(jī)落在某一視角中)。
對(duì)于每個(gè)輸入圖像和種子點(diǎn),SAM2 生成三個(gè)區(qū)域:
- 自動(dòng)分割:在對(duì)象上分布一組查詢點(diǎn)作為種子點(diǎn),獲得每個(gè)種子點(diǎn)的三個(gè)不同區(qū)域。
- 種子分割:直接返回給定種子點(diǎn)的分割結(jié)果。
此外,與最新工作 Part123 進(jìn)行了比較。
結(jié)果
如下表 1 所示,本文的方法在 mAP 指標(biāo)上的結(jié)果顯著高于其他方法,包括微調(diào)后的 SAM2。這主要?dú)w因于分割任務(wù)的模糊性,基于生成器的方法能夠更好地捕捉這種模糊性。定性結(jié)果如下圖 4 所示。
部件補(bǔ)全與重建
對(duì)于每個(gè)模型,隨機(jī)選擇一個(gè)部件索引k,以下表示中省略k以簡(jiǎn)化符號(hào)。
評(píng)估協(xié)議
如下表 2 所示,本文的方法在性能上大幅超越基線方法。聯(lián)合多視角推理和上下文部件補(bǔ)全對(duì)取得良好性能至關(guān)重要。定性結(jié)果見(jiàn)前面圖 5。
部件重組
應(yīng)用
基于部件的文本到 3D 生成
將 PartGen 應(yīng)用于基于部件的文本到 3D 生成。訓(xùn)練的文本到多視角生成器類似于 [76],接受文本提示作為輸入,輸出四視圖網(wǎng)格。
- 示例中使用了DreamFusion的提示。
- 下圖 6 表明,PartGen 即使在高度遮擋(如橡皮糖熊)等具有挑戰(zhàn)性的情況下,也能有效生成具有清晰和完整部件的 3D 對(duì)象。
基于部件的圖像到 3D 生成
進(jìn)一步擴(kuò)展 PartGen 到基于部件的圖像到 3D 生成,在文本到多視角生成器的基礎(chǔ)上,通過(guò)類似于 [95] 的策略微調(diào)生成器以接受圖像作為輸入。上圖 6 的結(jié)果表明,PartGen 在這一任務(wù)中同樣表現(xiàn)出色。
真實(shí)世界 3D 對(duì)象分解
PartGen 還可以分解真實(shí)世界的 3D 對(duì)象。使用 Google Scanned Objects (GSO) 的對(duì)象進(jìn)行實(shí)驗(yàn)。
- 對(duì)于每個(gè) GSO 3D 對(duì)象,渲染不同視角以獲得圖像網(wǎng)格,并按上述方式應(yīng)用 PartGen。
- 上圖 6 的最后一行展示了 PartGen 在分解真實(shí)世界 3D 對(duì)象方面的效果。
3D 部件編輯
展示了分解后的 3D 部件可以通過(guò)文本輸入進(jìn)一步修改。
- 如下圖 7 所示,方法的變體使得能夠基于文本提示有效編輯部件的形狀和紋理。
- 3D 編輯模型的詳細(xì)信息見(jiàn)補(bǔ)充材料。
結(jié)論
PartGen,一種從文本、圖像或非結(jié)構(gòu)化 3D 對(duì)象生成或重建組成性 3D 對(duì)象的新方法。PartGen 可以重建即使是僅部分可見(jiàn)或完全不可見(jiàn)的 3D 部件,利用特制的多視角擴(kuò)散先驗(yàn)進(jìn)行引導(dǎo)。還展示了 PartGen 的幾個(gè)應(yīng)用,包括基于文本的部件編輯。這是朝著生成更適用于專業(yè)工作流的 3D 資產(chǎn)邁出的重要一步。
本文轉(zhuǎn)自AI生成未來(lái) ,作者:AI生成未來(lái)
