首個檢索增強(qiáng)3D生成模型！實現(xiàn)各種模態(tài)生成大一統(tǒng)：文&圖&3D都可以

2024-09-27 17:58:26

人工智能

高保真3D模型補(bǔ)全：預(yù)測和填充不完整3D模型的缺失部分，同時通過自參考原始3D模型來保持原有結(jié)構(gòu)的完整性和細(xì)節(jié)。

3D生成也能支持檢索增強(qiáng)（RAG）了。

有了檢索到的參考模型之后，3D生成效果更好，還具有極強(qiáng)的泛化性和可控性。

圖片

比如像這張，它生成幾何質(zhì)量得到了極大的改善。

圖片

還可以實現(xiàn)主題一致的3D到3D生成，僅需自參考輸入的3D模型即可支持該功能。之前的相關(guān)研究需要約1小時，現(xiàn)在壓縮不到10秒。

圖片

來自香港城市大學(xué)、上海人工智能實驗室、香港中文大學(xué)和南洋理工大學(xué)S-Lab的研究人員提出了一種名為Phidias的新3D生成框架。

該框架將語言和圖像生成領(lǐng)域中常見的檢索增強(qiáng)生成（RAG）引入3D生成。

Phidias是一種參考增強(qiáng)的擴(kuò)散生成模型。

該模型統(tǒng)一了文生3D、圖生3D和3D到3D生成等任務(wù)，其利用檢索到的或用戶提供的3D參考模型來指導(dǎo)3D生成過程，從而提高了生成質(zhì)量、泛化能力和可控性。

Phidias包含三個關(guān)鍵組件：

1）用于動態(tài)調(diào)節(jié)控制強(qiáng)度的元控制網(wǎng)絡(luò)（meta-ControlNet）；
2）用于減輕輸入圖像和3D參考模型沖突的動態(tài)參考路由模塊（dynamic reference routing）;
3）用于支持高效自監(jiān)督學(xué)習(xí)的自我參考增強(qiáng)模塊（self-reference augmentation）。

圖片

首個檢索增強(qiáng)3D生成模型

本文主要貢獻(xiàn)包括:

提出了首個基于3D參考的、3D感知的多視圖擴(kuò)散生成模型。
提出了三個關(guān)鍵組件以增強(qiáng)算法的性能。
本文用單個算法統(tǒng)一了可控的文生3D、圖生3D和3D到3D生成等任務(wù)，支持各種可控3D生成的下游任務(wù)。
大量實驗表明，本文提出的算法在定量和定性的比較評估中都顯著優(yōu)于已有算法。

圖片

Phidias通過兩階段來生成3D模型：1）基于參考增強(qiáng)的多視圖生成；2）基于稀疏視角的3D重建。

給定一張概念圖，Phidias利用額外的3D參考模型來緩解3D生成過程中存在的3D不一致和幾何不確定性等問題。

基于不同的應(yīng)用場景，算法所使用的3D參考模型可以由用戶提供，也可以從大型3D數(shù)據(jù)庫中獲取。

第一階段: 基于參考增強(qiáng)的多視圖生成

在第一階段，Phidias的目標(biāo)是將額外的3D參考模型引入預(yù)訓(xùn)練的多視圖生成模型，以提高多視圖生成的3D一致性、泛化性和可控性。為了將3D參考模型集成到擴(kuò)散模型的去噪過程中，研究人員將其轉(zhuǎn)化成多視圖正則坐標(biāo)圖（Canonical Coordinate Maps, CCMs）來約束擴(kuò)散模型。CCM將3D參考模型表面點的3D位置坐標(biāo)保存為RGB，僅保留了參考模型的幾何信息而移除了紋理信息。

選擇CCM作為3D表示主要出于兩點原因：

1）相比于3D網(wǎng)格和體素，多視圖圖片自帶與輸出圖片相同的相機(jī)角度，因此將其作為2D擴(kuò)散模型的輸入條件具有更好的效能和兼容性；

2）3D參考模型通常與概念圖在幾何結(jié)構(gòu)上相似，但在紋理上不同。

為了充分利用預(yù)訓(xùn)練的多視圖生成模型，研究人員將預(yù)訓(xùn)練網(wǎng)絡(luò)參數(shù)凍結(jié)，僅需訓(xùn)練用于處理參考模型CCMs的條件網(wǎng)絡(luò)。該階段的一大挑戰(zhàn)是：3D參考模型在大部分情況下并不嚴(yán)格對齊于概念圖片，尤其是在局部細(xì)節(jié)上會有很大不同。

而傳統(tǒng)的ControlNet被設(shè)計用于嚴(yán)格對齊的圖像到圖像生成任務(wù)，并不適用于本文中基于3D參考的生成任務(wù)。

為了解決該問題，研究人員提出了三個關(guān)鍵組件來提升模型性能：

1）用于自適應(yīng)控制強(qiáng)度的元控制網(wǎng)絡(luò)（meta-ControlNet）；
2）用于動態(tài)調(diào)整3D參考模型的動態(tài)參考路由模塊（dynamic reference routing）；
3）用于支持高效自監(jiān)督學(xué)習(xí)的自我參考增強(qiáng)模塊（self-reference augmentation）。

圖片

△元控制網(wǎng)絡(luò)（Meta-ControlNet）示意圖

Meta-ControlNet由兩個協(xié)作的子網(wǎng)絡(luò)構(gòu)成，即一個基礎(chǔ)控制網(wǎng)絡(luò)（Base ControlNet）和一個額外的元控制器（Meta-Controller）。

基礎(chǔ)控制網(wǎng)絡(luò)具有原始ControlNet的結(jié)構(gòu)，其以參考模型的CCMs作為輸入來產(chǎn)生指導(dǎo)預(yù)訓(xùn)練擴(kuò)散模型的控制信號。元控制器具有跟基礎(chǔ)控制網(wǎng)絡(luò)相似的結(jié)構(gòu)，但參數(shù)不同。它的工作機(jī)制是作為基礎(chǔ)控制網(wǎng)絡(luò)的“開關(guān)”，動態(tài)地根據(jù)概念圖和3D參考模型的相似度來調(diào)節(jié)控制信號強(qiáng)度。

元控制器的輸入是概念圖和3D參考的正面CCM，其輸出在兩方面控制基礎(chǔ)控制網(wǎng)絡(luò)：1）基礎(chǔ)控制網(wǎng)絡(luò)的多尺度下采樣塊；2）基礎(chǔ)控制網(wǎng)絡(luò)最終的輸出信號。

△參考路由模塊示意圖

參考模型通常在粗略形狀上與概念圖大致對齊，但在局部細(xì)節(jié)上存在顯著差異。由于生成過程同時依賴于概念圖和參考模型，他們之間的局部不一致性可能會導(dǎo)致混淆和沖突。

如上圖所示，為了解決該問題，研究人員提出了動態(tài)參考路由策略，其核心是基于擴(kuò)散模型的去噪時間步，動態(tài)調(diào)整參考模型的分辨率。低分辨率的CCMs提供了較少的細(xì)節(jié)，但與概念圖的不一致性較低。通過在初始去噪階段（高噪聲水平）運用低分辨率的CCMs，可以保證參考模型被用于輔助生成3D對象的全局結(jié)構(gòu)，而不會產(chǎn)生重大沖突。之后，隨著去噪過程進(jìn)入中、低噪聲水平，研究人員逐漸提高參考CCMs的分辨率，從而幫助細(xì)化3D對象的局部細(xì)節(jié)，例如，尾巴隨去噪過程從直變彎。這種設(shè)計選擇可確保在多視角圖像生成過程中有效利用概念圖和3D參考，同時避免因沖突而導(dǎo)致生成質(zhì)量下降。

此外，研究人員還提出自參考增強(qiáng)，以有效利用3D參考模型進(jìn)行自監(jiān)督訓(xùn)練。該方案使用3D模型的渲染作為概念圖，并使用原3D模型本身作為參考模型和目標(biāo)模型。

研究人員通過對原3D模型進(jìn)行增強(qiáng)來模擬參考模型和概念圖之間未對齊的情況，并設(shè)計了漸進(jìn)式的課程學(xué)習(xí)策略來訓(xùn)練模型。這種方法解決了基于檢索的訓(xùn)練集中參考模型與目標(biāo)模型差異過大導(dǎo)致的學(xué)習(xí)困難問題，同時避免了直接使用自監(jiān)督訓(xùn)練無法模擬未對齊情況的問題。一旦訓(xùn)練完成，本文的擴(kuò)散生成模型在使用各種參考模型時都表現(xiàn)良好，即使是那些不太相似的來自檢索的參考模型。