超越Magic3D、ProlificDreamer,更靈活更可控的Text-to-3D擴(kuò)散
論文鏈接:https://arxiv.org/pdf/2310.05375
代碼鏈接:https://github.com/zengbohan0217/IPDreamer
最近文本到3D生成以及單張圖片到3D生成驚艷的生成結(jié)果引來(lái)了越來(lái)越多研究者們的關(guān)注,然而這兩個(gè)方向都存在有各自小小的局限性,首先文本到3D生成的結(jié)果難以準(zhǔn)確地控制生成結(jié)果的外觀,而單張圖片到3D生成雖然可以確定生成3D結(jié)果的外觀,但是目前主要的單張圖片到3D生成方法還是只能處理主體比較明確的圖片,難以處理復(fù)雜的圖片,并且約束比較強(qiáng),無(wú)法靈活地控制生成結(jié)果。
圖1
基于以上問(wèn)題,本文工作向3D生成過(guò)程中引入了image prompt adaption,能夠利用圖片提示詞的特征來(lái)優(yōu)化3D物體的幾何細(xì)節(jié)以及材質(zhì)顏色,從而實(shí)現(xiàn)靈活、可控且高質(zhì)量的3D生成。如圖1所示,我們可以將主體并不明確的復(fù)雜圖片風(fēng)格高質(zhì)量地遷移到粗糙的3D物體上。并且在文本到3D生成的效果上,我們的方法比DreamFusion、Magic3D、Fantasia3D以及ProlificDreamer等SOTA方法表現(xiàn)更好。
IPDreamer框架圖
下面舉一個(gè)例子展示優(yōu)化過(guò)程:
我們提出image prompt score distillation(IPSD),分別利用復(fù)雜圖片的法向圖以及圖片本身對(duì)應(yīng)的圖片提示詞特征來(lái)優(yōu)化3D物體的幾何細(xì)節(jié)以及顏色質(zhì)地。
同時(shí)我們分析了為什么image prompt adaption可以很好地將復(fù)雜圖片提示詞的特征有效地定位到3D物體上。在優(yōu)化過(guò)程中,圖片提示詞所對(duì)應(yīng)的交叉注意力機(jī)制層計(jì)算得到的注意力圖會(huì)一一將復(fù)雜圖片提示詞不同部分的特征定位到3D物體2D渲染圖最合適的位置上。經(jīng)過(guò)多輪的優(yōu)化,復(fù)雜圖片的特征可以非常好地定位到3D物體上。
同一個(gè)3D物體使用不同的圖片提示詞進(jìn)行編輯可以展現(xiàn)出更豐富的效果,大大擴(kuò)充了3D生成的豐富性。
甚至當(dāng)被編輯的3D物體與提供的圖片提示詞形象上差異比較大的時(shí)候也可以很好地實(shí)現(xiàn)生成
我們還發(fā)現(xiàn),當(dāng)被引導(dǎo)的粗糙的NeRF模型與復(fù)雜圖片提示詞有巨大差異時(shí),僅僅使用交叉注意力機(jī)制曾進(jìn)行特征定位難以生成理想的3D物體,為此我們提出了local editing with partial images(LEPI)策略來(lái)改進(jìn)特征定位,從而更加靈活可控地生成理想的3D物體。我們借助多模態(tài)大模型以及SAM將復(fù)雜圖片提示詞分為若干個(gè)“部分圖片”,如圖5所示,同時(shí)每一個(gè)“部分圖片”被提供了一個(gè)單詞描述,我們借助這個(gè)描述在交叉注意力層中計(jì)算對(duì)應(yīng)的mask,利用這個(gè)mask將對(duì)應(yīng)的“部分圖片”的特征定位到3D物體上。
圖5
一些極端情況下,利用LEPI確實(shí)能產(chǎn)生更好的效果
更多的生成結(jié)果,證明了LEPI,即我們IPDreamer方法的穩(wěn)定性與泛化性
此外我們的方法還可以完成文本到3D生成,如圖8所示,我們的方法相較于以往的文本到3D生成方法,可以生成更加高質(zhì)量的復(fù)雜的3D物體。
圖8
本文轉(zhuǎn)自 AI生成未來(lái) ,作者:大仲馬
