首個檢索增強(qiáng)3D生成模型!實現(xiàn)各種模態(tài)生成大一統(tǒng):文&圖&3D都可以
3D生成也能支持檢索增強(qiáng)(RAG)了。
有了檢索到的參考模型之后,3D生成效果更好,還具有極強(qiáng)的泛化性和可控性。
圖片
比如像這張,它生成幾何質(zhì)量得到了極大的改善。
圖片
還可以實現(xiàn)主題一致的3D到3D生成,僅需自參考輸入的3D模型即可支持該功能。之前的相關(guān)研究需要約1小時,現(xiàn)在壓縮不到10秒。
圖片
來自香港城市大學(xué)、上海人工智能實驗室、香港中文大學(xué)和南洋理工大學(xué)S-Lab的研究人員提出了一種名為Phidias的新3D生成框架。
該框架將語言和圖像生成領(lǐng)域中常見的檢索增強(qiáng)生成(RAG)引入3D生成。
Phidias是一種參考增強(qiáng)的擴(kuò)散生成模型。
該模型統(tǒng)一了文生3D、圖生3D和3D到3D生成等任務(wù),其利用檢索到的或用戶提供的3D參考模型來指導(dǎo)3D生成過程,從而提高了生成質(zhì)量、泛化能力和可控性。
Phidias包含三個關(guān)鍵組件:
- 1)用于動態(tài)調(diào)節(jié)控制強(qiáng)度的元控制網(wǎng)絡(luò)(meta-ControlNet);
- 2)用于減輕輸入圖像和3D參考模型沖突的動態(tài)參考路由模塊(dynamic reference routing);
- 3)用于支持高效自監(jiān)督學(xué)習(xí)的自我參考增強(qiáng)模塊(self-reference augmentation)。
圖片
首個檢索增強(qiáng)3D生成模型
本文主要貢獻(xiàn)包括:
- 提出了首個基于3D參考的、3D感知的多視圖擴(kuò)散生成模型。
- 提出了三個關(guān)鍵組件以增強(qiáng)算法的性能。
- 本文用單個算法統(tǒng)一了可控的文生3D、圖生3D和3D到3D生成等任務(wù),支持各種可控3D生成的下游任務(wù)。
- 大量實驗表明,本文提出的算法在定量和定性的比較評估中都顯著優(yōu)于已有算法。
圖片
Phidias通過兩階段來生成3D模型:1)基于參考增強(qiáng)的多視圖生成;2)基于稀疏視角的3D重建。
給定一張概念圖,Phidias利用額外的3D參考模型來緩解3D生成過程中存在的3D不一致和幾何不確定性等問題。
基于不同的應(yīng)用場景,算法所使用的3D參考模型可以由用戶提供,也可以從大型3D數(shù)據(jù)庫中獲取。
第一階段: 基于參考增強(qiáng)的多視圖生成
在第一階段,Phidias的目標(biāo)是將額外的3D參考模型引入預(yù)訓(xùn)練的多視圖生成模型,以提高多視圖生成的3D一致性、泛化性和可控性。為了將3D參考模型集成到擴(kuò)散模型的去噪過程中,研究人員將其轉(zhuǎn)化成多視圖正則坐標(biāo)圖(Canonical Coordinate Maps, CCMs)來約束擴(kuò)散模型。CCM將3D參考模型表面點的3D位置坐標(biāo)保存為RGB,僅保留了參考模型的幾何信息而移除了紋理信息。
選擇CCM作為3D表示主要出于兩點原因:
1)相比于3D網(wǎng)格和體素,多視圖圖片自帶與輸出圖片相同的相機(jī)角度,因此將其作為2D擴(kuò)散模型的輸入條件具有更好的效能和兼容性;
2)3D參考模型通常與概念圖在幾何結(jié)構(gòu)上相似,但在紋理上不同。
為了充分利用預(yù)訓(xùn)練的多視圖生成模型,研究人員將預(yù)訓(xùn)練網(wǎng)絡(luò)參數(shù)凍結(jié),僅需訓(xùn)練用于處理參考模型CCMs的條件網(wǎng)絡(luò)。該階段的一大挑戰(zhàn)是:3D參考模型在大部分情況下并不嚴(yán)格對齊于概念圖片,尤其是在局部細(xì)節(jié)上會有很大不同。
而傳統(tǒng)的ControlNet被設(shè)計用于嚴(yán)格對齊的圖像到圖像生成任務(wù),并不適用于本文中基于3D參考的生成任務(wù)。
為了解決該問題,研究人員提出了三個關(guān)鍵組件來提升模型性能:
1)用于自適應(yīng)控制強(qiáng)度的元控制網(wǎng)絡(luò)(meta-ControlNet);
2)用于動態(tài)調(diào)整3D參考模型的動態(tài)參考路由模塊(dynamic reference routing);
3)用于支持高效自監(jiān)督學(xué)習(xí)的自我參考增強(qiáng)模塊(self-reference augmentation)。
圖片
△元控制網(wǎng)絡(luò)(Meta-ControlNet)示意圖
Meta-ControlNet由兩個協(xié)作的子網(wǎng)絡(luò)構(gòu)成,即一個基礎(chǔ)控制網(wǎng)絡(luò)(Base ControlNet)和一個額外的元控制器(Meta-Controller)。
基礎(chǔ)控制網(wǎng)絡(luò)具有原始ControlNet的結(jié)構(gòu),其以參考模型的CCMs作為輸入來產(chǎn)生指導(dǎo)預(yù)訓(xùn)練擴(kuò)散模型的控制信號。元控制器具有跟基礎(chǔ)控制網(wǎng)絡(luò)相似的結(jié)構(gòu),但參數(shù)不同。它的工作機(jī)制是作為基礎(chǔ)控制網(wǎng)絡(luò)的“開關(guān)”,動態(tài)地根據(jù)概念圖和3D參考模型的相似度來調(diào)節(jié)控制信號強(qiáng)度。
元控制器的輸入是概念圖和3D參考的正面CCM,其輸出在兩方面控制基礎(chǔ)控制網(wǎng)絡(luò):1)基礎(chǔ)控制網(wǎng)絡(luò)的多尺度下采樣塊;2)基礎(chǔ)控制網(wǎng)絡(luò)最終的輸出信號。
△參考路由模塊示意圖
參考模型通常在粗略形狀上與概念圖大致對齊,但在局部細(xì)節(jié)上存在顯著差異。由于生成過程同時依賴于概念圖和參考模型,他們之間的局部不一致性可能會導(dǎo)致混淆和沖突。
如上圖所示,為了解決該問題,研究人員提出了動態(tài)參考路由策略,其核心是基于擴(kuò)散模型的去噪時間步,動態(tài)調(diào)整參考模型的分辨率。低分辨率的CCMs提供了較少的細(xì)節(jié),但與概念圖的不一致性較低。通過在初始去噪階段(高噪聲水平)運用低分辨率的CCMs,可以保證參考模型被用于輔助生成3D對象的全局結(jié)構(gòu),而不會產(chǎn)生重大沖突。之后,隨著去噪過程進(jìn)入中、低噪聲水平,研究人員逐漸提高參考CCMs的分辨率,從而幫助細(xì)化3D對象的局部細(xì)節(jié),例如,尾巴隨去噪過程從直變彎。這種設(shè)計選擇可確保在多視角圖像生成過程中有效利用概念圖和3D參考,同時避免因沖突而導(dǎo)致生成質(zhì)量下降。
此外,研究人員還提出自參考增強(qiáng),以有效利用3D參考模型進(jìn)行自監(jiān)督訓(xùn)練。該方案使用3D模型的渲染作為概念圖,并使用原3D模型本身作為參考模型和目標(biāo)模型。
研究人員通過對原3D模型進(jìn)行增強(qiáng)來模擬參考模型和概念圖之間未對齊的情況,并設(shè)計了漸進(jìn)式的課程學(xué)習(xí)策略來訓(xùn)練模型。這種方法解決了基于檢索的訓(xùn)練集中參考模型與目標(biāo)模型差異過大導(dǎo)致的學(xué)習(xí)困難問題,同時避免了直接使用自監(jiān)督訓(xùn)練無法模擬未對齊情況的問題。一旦訓(xùn)練完成,本文的擴(kuò)散生成模型在使用各種參考模型時都表現(xiàn)良好,即使是那些不太相似的來自檢索的參考模型。
第二階段:基于稀疏視角的3D重建
在第一階段生成的多視圖圖像的基礎(chǔ)上,本文通過基于稀疏視角的3D重建來獲得最終的3D模型。該階段可以建立在任意的稀疏視圖重建方法上。
更多效果
檢索增強(qiáng)的圖生3D
圖片
圖片
檢索增強(qiáng)的文生3D
圖片
主題一致的3D到3D生成
圖片
交互式3D生成:通過自定義的粗略3D形狀作為參考,用戶可以不斷調(diào)整所生成的3D模型的幾何結(jié)構(gòu)。
圖片
高保真3D模型補(bǔ)全:預(yù)測和填充不完整3D模型的缺失部分,同時通過自參考原始3D模型來保持原有結(jié)構(gòu)的完整性和細(xì)節(jié)。
項目主頁:
https://RAG-3D.github.io/代碼:
https://github.com/3DTopia/Phidias-Diffusion