3D版"裁縫"開源來襲!Tailor3D:自定義3D編輯和資產(chǎn)生成(港大&上海AI-Lab&港中文)
文章鏈接:https://arxiv.org/pdf/2407.06191
github鏈接:https://tailor3d-2024.github.io/
Huggingface:https://huggingface.co/spaces/alexzyqi/Tailor3D
亮點(diǎn)直擊:
- 提出了Tailor3D,一種快速的3D編輯pipeline。通過結(jié)合2D圖像編輯和快速3D重建技術(shù),它顯著提高了3D對(duì)象編輯的效率。
- 雙面LRM結(jié)合了LoRA Triplane Transformer,有效處理了前后視圖之間的不一致性,提升了整體重建質(zhì)量。
- Tailor3D在各種3D編輯和定制任務(wù)中表現(xiàn)出色,特別是在局部3D生成填充、整體風(fēng)格遷移和對(duì)象風(fēng)格融合方面,展示了極大的實(shí)用價(jià)值。
3D AIGC(人工智能生成內(nèi)容)的最新進(jìn)展展示了直接從文本和圖像創(chuàng)建3D對(duì)象的潛力,在動(dòng)畫和產(chǎn)品設(shè)計(jì)中帶來了顯著的成本節(jié)約。然而,詳細(xì)編輯和定制3D資產(chǎn)仍然是一個(gè)長(zhǎng)期存在的挑戰(zhàn)。具體來說,3D生成方法在遵循精細(xì)的指令方面還無法像2D圖像生成那樣精確。想象一下,你可以通過3D AIGC得到一個(gè)玩具,但其配件和裝飾可能不符合你的期望。為了解決這個(gè)問題,本文提出了一種名為Tailor3D的新型pipeline,可以迅速?gòu)目删庉嫷碾p面圖像中創(chuàng)建定制的3D資產(chǎn)。本文的目標(biāo)是模仿裁縫的能力,能夠局部改變對(duì)象或執(zhí)行整體風(fēng)格遷移。與從多個(gè)視角創(chuàng)建3D資產(chǎn)不同,使用雙面圖像消除了編輯單個(gè)視角時(shí)出現(xiàn)的重疊區(qū)域沖突。
具體而言,它首先編輯正視圖,然后通過多視圖擴(kuò)散生成對(duì)象的背視圖。之后,再編輯背視圖。最后,提出了一種雙面LRM,用于無縫地將前后3D特征拼接在一起,就像裁縫將衣服的前后部分縫合在一起。雙面LRM修正了前后視圖之間的不完美一致性,增強(qiáng)了編輯能力,減少了內(nèi)存負(fù)擔(dān),同時(shí)通過LoRA Triplane Transformer將它們無縫集成到統(tǒng)一的3D表示中。實(shí)驗(yàn)結(jié)果表明,Tailor3D在各種3D生成和編輯任務(wù)中都有效,包括3D生成填充和風(fēng)格遷移。它提供了一種用戶友好且高效的3D資產(chǎn)編輯解決方案,每一步編輯只需幾秒鐘即可完成。
方法
本節(jié)介紹Tailor3D的pipeline和模型架構(gòu)。首先,介紹大規(guī)模重建模型(LRM)和多視圖擴(kuò)散。接下來,概述了Tailor3D的過程,展示了2D編輯和快速重建3D對(duì)象的方法。再深入探討了雙面LRM,解釋如何處理輸入的前后視圖不完全一致的問題。還解釋了LoRA Triplane Transformer如何減少內(nèi)存使用以及視點(diǎn)交叉注意力如何融合前后視圖的3D三平面。
初步
Tailor3D的pipeline
本節(jié)概述了Tailor3D的pipeline,如下圖1下部所示。
對(duì)于自注意力,qkv由共享線性層生成,將所有輸入和輸出線性層替換為L(zhǎng)oRA結(jié)構(gòu)。對(duì)于交叉注意力,qkv由不同的線性層生成,將所有qkv和輸出線性層替換為L(zhǎng)oRA結(jié)構(gòu)。具體細(xì)節(jié)如下。
這里,i表示第i個(gè)Transformer層。對(duì)于自注意力,tp表示輸入和輸出的線性投影。對(duì)于交叉注意力,tp表示q、k、v和輸出的線性投影。
實(shí)驗(yàn)
數(shù)據(jù)集:Gobjaverse-LVIS
實(shí)現(xiàn)細(xì)節(jié)
實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)展示了Tailor3D在3D生成方面的能力,包括幾何對(duì)象填充、紋理合成和風(fēng)格遷移。后面將本文的方法與現(xiàn)有技術(shù)進(jìn)行了比較。并進(jìn)行了消融實(shí)驗(yàn),以驗(yàn)證Tailor3D的每個(gè)模塊。
Tailor3D應(yīng)用
展示了其在3D生成幾何/圖案填充方面的多功能性,涵蓋局部幾何形狀和紋理圖案填充。突出了其風(fēng)格遷移和融合能力,允許進(jìn)行如風(fēng)格轉(zhuǎn)移和將兩種風(fēng)格融合到一個(gè)對(duì)象上的操作。Tailor3D使用戶能夠編輯對(duì)象的正面和背面,擴(kuò)展了定制3D對(duì)象的編輯可能性。
3D生成幾何/圖案填充。在這里,展示了Tailor3D的局部3D對(duì)象填充能力,如下圖4所示。通過文本或圖像提示逐步展示對(duì)象填充和編輯。在第2行,從盔甲開始,通過逐步添加頭部、手和斗篷生成了一個(gè)中世紀(jì)將軍。第3行展示了其他對(duì)象的操作,包括添加郵箱、氣球、花叢和籃球框。
3D風(fēng)格遷移和融合。Tailor3D還展示了其對(duì)各種風(fēng)格的轉(zhuǎn)移和融合能力。與以往的方法不同,Tailor3D確保了知識(shí)產(chǎn)權(quán)的完整性,同時(shí)提供了通過圖像或文本指導(dǎo)指定風(fēng)格的靈活性。特別是,它利用Midjourney進(jìn)行2D圖像生成和編輯。此外,Tailor3D能夠?qū)⒉煌娘L(fēng)格注入到對(duì)象的正面和背面,展示了雙面LRM的融合能力的有效性。
與現(xiàn)有的3D圖像到3D生成方法的比較
將本文的方法與Wonder3D、TriplaneGaussian和 LGM在由Stable Diffusion生成的100張圖像的測(cè)試集上進(jìn)行了比較。下圖5中的定性結(jié)果展示了Tailor3D利用雙面LRM增強(qiáng)背面信息的能力。
Wonder3D和TriplaneGaussian在處理復(fù)雜對(duì)象時(shí)表現(xiàn)不佳,整體質(zhì)量較低。使用高斯表示的LGM存在重影效應(yīng),并且在樹葉等特征上缺乏細(xì)節(jié)。下表1中提供了定量結(jié)果以及生成時(shí)間,突顯了本文方法的實(shí)用價(jià)值。
消融研究
對(duì)雙面LRM進(jìn)行了消融研究,重點(diǎn)關(guān)注三個(gè)方面:雙面3D特征的融合、LoRA Transformer的等級(jí),以及前后圖像的外部相機(jī)參數(shù)。結(jié)果如下表2所示。
雙面特征融合方法。使用視點(diǎn)交叉注意力來融合前后兩面的特征。此外,嘗試使用多層2D卷積層和直接相加來融合雙面的三平面特征。結(jié)果表明,使用視點(diǎn)交叉注意力產(chǎn)生了最佳效果。
LoRA三平面Transformer的等級(jí)。對(duì)LoRA三平面Transformer的等級(jí)進(jìn)行了消融實(shí)驗(yàn),分別設(shè)置為2、4和8。實(shí)驗(yàn)結(jié)果表明,等級(jí)為4時(shí)性能最佳。
限制與結(jié)論
本文介紹了Tailor3D,這是一種通過可編輯的雙面圖像快速創(chuàng)建定制3D資產(chǎn)的方法,類似于裁縫的工作方式。通過利用2D圖像編輯技術(shù)和快速3D重建,Tailor3D允許用戶對(duì)對(duì)象進(jìn)行迭代性地調(diào)整。雙面LRM和LoRA三平面Transformer充當(dāng)“裁縫”,無縫地將前后視圖結(jié)合起來,處理不一致性并提高重建質(zhì)量。實(shí)驗(yàn)結(jié)果驗(yàn)證了Tailor3D在3D生成填充和風(fēng)格定制等任務(wù)中的有效性。它提供了一個(gè)用戶友好、成本高效的解決方案,用于快速的3D編輯,適用于動(dòng)畫、游戲開發(fā)等領(lǐng)域,簡(jiǎn)化了生產(chǎn)過程并使內(nèi)容創(chuàng)作更加普及。
限制與未來方向然而,僅依賴前后視圖進(jìn)行物體重建可能會(huì)遇到某些厚度的物體帶來的挑戰(zhàn)。此外,生成的3D物體網(wǎng)格可能具有較低的分辨率,添加的幾何特征可能對(duì)網(wǎng)格的變化不大。將在未來的工作中進(jìn)一步研究解決厚側(cè)輪廓物體的生成與重建問題的方法,旨在提高網(wǎng)格的質(zhì)量和分辨率。
本文轉(zhuǎn)自 AI生成未來 ,作者:Zhangyang Qi等
