自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

首個檢索增強(qiáng)3D生成模型!實現(xiàn)各種模態(tài)生成大一統(tǒng):文&圖&3D都可以

人工智能
高保真3D模型補(bǔ)全:預(yù)測和填充不完整3D模型的缺失部分,同時通過自參考原始3D模型來保持原有結(jié)構(gòu)的完整性和細(xì)節(jié)。

3D生成也能支持檢索增強(qiáng)(RAG)了。

有了檢索到的參考模型之后,3D生成效果更好,還具有極強(qiáng)的泛化性和可控性。

圖片圖片

比如像這張,它生成幾何質(zhì)量得到了極大的改善。

圖片圖片

還可以實現(xiàn)主題一致的3D到3D生成,僅需自參考輸入的3D模型即可支持該功能。之前的相關(guān)研究需要約1小時,現(xiàn)在壓縮不到10秒。

圖片圖片

來自香港城市大學(xué)、上海人工智能實驗室、香港中文大學(xué)和南洋理工大學(xué)S-Lab的研究人員提出了一種名為Phidias的新3D生成框架。

該框架將語言和圖像生成領(lǐng)域中常見的檢索增強(qiáng)生成(RAG)引入3D生成。

Phidias是一種參考增強(qiáng)的擴(kuò)散生成模型。

該模型統(tǒng)一了文生3D、圖生3D和3D到3D生成等任務(wù),其利用檢索到的或用戶提供的3D參考模型來指導(dǎo)3D生成過程,從而提高了生成質(zhì)量、泛化能力和可控性。

Phidias包含三個關(guān)鍵組件:

  • 1)用于動態(tài)調(diào)節(jié)控制強(qiáng)度的元控制網(wǎng)絡(luò)(meta-ControlNet);
  • 2)用于減輕輸入圖像和3D參考模型沖突的動態(tài)參考路由模塊(dynamic reference routing);
  • 3)用于支持高效自監(jiān)督學(xué)習(xí)的自我參考增強(qiáng)模塊(self-reference augmentation)。

圖片圖片

首個檢索增強(qiáng)3D生成模型

本文主要貢獻(xiàn)包括:

  • 提出了首個基于3D參考的、3D感知的多視圖擴(kuò)散生成模型。
  • 提出了三個關(guān)鍵組件以增強(qiáng)算法的性能。
  • 本文用單個算法統(tǒng)一了可控的文生3D、圖生3D和3D到3D生成等任務(wù),支持各種可控3D生成的下游任務(wù)。
  • 大量實驗表明,本文提出的算法在定量和定性的比較評估中都顯著優(yōu)于已有算法。

圖片圖片

Phidias通過兩階段來生成3D模型:1)基于參考增強(qiáng)的多視圖生成;2)基于稀疏視角的3D重建。

給定一張概念圖,Phidias利用額外的3D參考模型來緩解3D生成過程中存在的3D不一致和幾何不確定性等問題。

基于不同的應(yīng)用場景,算法所使用的3D參考模型可以由用戶提供,也可以從大型3D數(shù)據(jù)庫中獲取。

第一階段: 基于參考增強(qiáng)的多視圖生成

在第一階段,Phidias的目標(biāo)是將額外的3D參考模型引入預(yù)訓(xùn)練的多視圖生成模型,以提高多視圖生成的3D一致性、泛化性和可控性。為了將3D參考模型集成到擴(kuò)散模型的去噪過程中,研究人員將其轉(zhuǎn)化成多視圖正則坐標(biāo)圖(Canonical Coordinate Maps, CCMs)來約束擴(kuò)散模型。CCM將3D參考模型表面點的3D位置坐標(biāo)保存為RGB,僅保留了參考模型的幾何信息而移除了紋理信息。

選擇CCM作為3D表示主要出于兩點原因:

1)相比于3D網(wǎng)格和體素,多視圖圖片自帶與輸出圖片相同的相機(jī)角度,因此將其作為2D擴(kuò)散模型的輸入條件具有更好的效能和兼容性;

2)3D參考模型通常與概念圖在幾何結(jié)構(gòu)上相似,但在紋理上不同。

為了充分利用預(yù)訓(xùn)練的多視圖生成模型,研究人員將預(yù)訓(xùn)練網(wǎng)絡(luò)參數(shù)凍結(jié),僅需訓(xùn)練用于處理參考模型CCMs的條件網(wǎng)絡(luò)。該階段的一大挑戰(zhàn)是:3D參考模型在大部分情況下并不嚴(yán)格對齊于概念圖片,尤其是在局部細(xì)節(jié)上會有很大不同。

而傳統(tǒng)的ControlNet被設(shè)計用于嚴(yán)格對齊的圖像到圖像生成任務(wù),并不適用于本文中基于3D參考的生成任務(wù)。

為了解決該問題,研究人員提出了三個關(guān)鍵組件來提升模型性能:

1)用于自適應(yīng)控制強(qiáng)度的元控制網(wǎng)絡(luò)(meta-ControlNet);
2)用于動態(tài)調(diào)整3D參考模型的動態(tài)參考路由模塊(dynamic reference routing);
3)用于支持高效自監(jiān)督學(xué)習(xí)的自我參考增強(qiáng)模塊(self-reference augmentation)。

圖片圖片

△元控制網(wǎng)絡(luò)(Meta-ControlNet)示意圖

Meta-ControlNet由兩個協(xié)作的子網(wǎng)絡(luò)構(gòu)成,即一個基礎(chǔ)控制網(wǎng)絡(luò)(Base ControlNet)和一個額外的元控制器(Meta-Controller)。

基礎(chǔ)控制網(wǎng)絡(luò)具有原始ControlNet的結(jié)構(gòu),其以參考模型的CCMs作為輸入來產(chǎn)生指導(dǎo)預(yù)訓(xùn)練擴(kuò)散模型的控制信號。元控制器具有跟基礎(chǔ)控制網(wǎng)絡(luò)相似的結(jié)構(gòu),但參數(shù)不同。它的工作機(jī)制是作為基礎(chǔ)控制網(wǎng)絡(luò)的“開關(guān)”,動態(tài)地根據(jù)概念圖和3D參考模型的相似度來調(diào)節(jié)控制信號強(qiáng)度。

元控制器的輸入是概念圖和3D參考的正面CCM,其輸出在兩方面控制基礎(chǔ)控制網(wǎng)絡(luò):1)基礎(chǔ)控制網(wǎng)絡(luò)的多尺度下采樣塊;2)基礎(chǔ)控制網(wǎng)絡(luò)最終的輸出信號。

△參考路由模塊示意圖△參考路由模塊示意圖

參考模型通常在粗略形狀上與概念圖大致對齊,但在局部細(xì)節(jié)上存在顯著差異。由于生成過程同時依賴于概念圖和參考模型,他們之間的局部不一致性可能會導(dǎo)致混淆和沖突。

如上圖所示,為了解決該問題,研究人員提出了動態(tài)參考路由策略,其核心是基于擴(kuò)散模型的去噪時間步,動態(tài)調(diào)整參考模型的分辨率。低分辨率的CCMs提供了較少的細(xì)節(jié),但與概念圖的不一致性較低。通過在初始去噪階段(高噪聲水平)運用低分辨率的CCMs,可以保證參考模型被用于輔助生成3D對象的全局結(jié)構(gòu),而不會產(chǎn)生重大沖突。之后,隨著去噪過程進(jìn)入中、低噪聲水平,研究人員逐漸提高參考CCMs的分辨率,從而幫助細(xì)化3D對象的局部細(xì)節(jié),例如,尾巴隨去噪過程從直變彎。這種設(shè)計選擇可確保在多視角圖像生成過程中有效利用概念圖和3D參考,同時避免因沖突而導(dǎo)致生成質(zhì)量下降。

此外,研究人員還提出自參考增強(qiáng),以有效利用3D參考模型進(jìn)行自監(jiān)督訓(xùn)練。該方案使用3D模型的渲染作為概念圖,并使用原3D模型本身作為參考模型和目標(biāo)模型。

研究人員通過對原3D模型進(jìn)行增強(qiáng)來模擬參考模型和概念圖之間未對齊的情況,并設(shè)計了漸進(jìn)式的課程學(xué)習(xí)策略來訓(xùn)練模型。這種方法解決了基于檢索的訓(xùn)練集中參考模型與目標(biāo)模型差異過大導(dǎo)致的學(xué)習(xí)困難問題,同時避免了直接使用自監(jiān)督訓(xùn)練無法模擬未對齊情況的問題。一旦訓(xùn)練完成,本文的擴(kuò)散生成模型在使用各種參考模型時都表現(xiàn)良好,即使是那些不太相似的來自檢索的參考模型。

第二階段:基于稀疏視角的3D重建

在第一階段生成的多視圖圖像的基礎(chǔ)上,本文通過基于稀疏視角的3D重建來獲得最終的3D模型。該階段可以建立在任意的稀疏視圖重建方法上。

更多效果

檢索增強(qiáng)的圖生3D

圖片圖片

圖片圖片

檢索增強(qiáng)的文生3D

圖片圖片

主題一致的3D到3D生成

圖片圖片

交互式3D生成:通過自定義的粗略3D形狀作為參考,用戶可以不斷調(diào)整所生成的3D模型的幾何結(jié)構(gòu)。

圖片圖片

高保真3D模型補(bǔ)全:預(yù)測和填充不完整3D模型的缺失部分,同時通過自參考原始3D模型來保持原有結(jié)構(gòu)的完整性和細(xì)節(jié)。

圖片

項目主頁:
https://RAG-3D.github.io/代碼:
https://github.com/3DTopia/Phidias-Diffusion

責(zé)任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2024-07-16 12:02:11

2021-09-14 10:11:46

谷歌3D舞蹈生成模型FACT

2024-03-20 15:51:00

AI數(shù)據(jù)

2024-12-04 14:00:00

機(jī)器人AI

2024-12-10 15:17:11

2025-03-13 10:18:42

2023-07-14 09:41:01

3DAI

2023-12-14 12:51:28

LLM3D場景

2024-01-29 06:50:00

3D模型

2024-12-23 15:46:59

2022-09-19 19:16:42

輪播圖has

2024-07-04 09:26:16

2024-07-31 15:30:05

2025-01-10 14:00:00

3D模型生成

2024-07-03 14:29:38

2025-01-14 09:24:46

2025-01-07 13:19:48

模型AI訓(xùn)練

2025-01-09 12:32:18

2011-09-22 10:07:52

奧圖碼投影儀

2024-09-20 16:20:00

點贊
收藏

51CTO技術(shù)棧公眾號