超逼真3D生成模型!華南理工賈奎團隊ICCV'23新作:支持重新照明、編輯和物理仿真
受益于預訓練的大型語言模型和圖像擴散模型(Satble Diffusion等)的可用性,自動化三維內(nèi)容生成近期取得了快速進展。
現(xiàn)有的文本到三維模型的生成方法通常使用NeRF等隱式表達,通過體積渲染將幾何和外觀耦合在一起,但在恢復更精細的幾何結構和實現(xiàn)逼真渲染方面存在不足,所以在生成高質量三維資產(chǎn)方面效果較差。
在這項研究中,華南理工大學提出了一種用于高質量文本到三維內(nèi)容創(chuàng)建的新方法Fantasia3D,關鍵之處在于對幾何和外觀進行解耦的建模和學習。
圖片
項目地址:https://fantasia3d.github.io/
對于幾何學習,F(xiàn)antasia3D依賴于顯隱式結合的表達,并提出將渲染的表面法線圖編碼為Satble Diffusion的輸入;對于外觀建模,F(xiàn)antasia3D引入了空間變化的雙向反射率分布函數(shù)(BRDF)到文本生成三維模型的任務中,并學習生成表面的逼真渲染所需的表面材質。
解耦框架兼容目前的圖形引擎,支持生成的三維資源的重新照明、編輯和物理仿真。
研究人員也進行了全面的實驗,展示了該方法在不同的文本到三維生成任務設置下相對于現(xiàn)有方法的優(yōu)勢。
模型效果
對于給定的文本,F(xiàn)antasia3D能夠生成具有不同拓撲形狀的三維模型以及具有照片級真實感的渲染表面。
同時,如下圖1中右上角的獅子所示,由于使用了BRDF建模表面,F(xiàn)antasia3D能產(chǎn)生較強的金屬反射效果。
圖1:三維模型生成效果
同時,F(xiàn)antasia3D支持根據(jù)用戶給定的粗糙三維物體和文本進行生成。
如下圖2所示,給定一個粗糙的三維模型,F(xiàn)antasia3D可將輸入的粗糙模型作為初始化生成三維模型,這種優(yōu)化方式可讓生成過程更加快速和穩(wěn)定,緩解文本到三維模型生成中的多面問題(Janus Problem)。
圖2:根據(jù)用戶給定的粗糙三維模型和文本進行生成。
另外,不同于現(xiàn)有的基于隱式表達(NeRF等)的方法,F(xiàn)antasia3D采用了顯隱式相結合的表達,生成的3D資產(chǎn)可以很好地與現(xiàn)有的圖形渲染和仿真引擎相結合。
如下圖3 (a) (b) 所示,生成的三維模型可以導入Blender中進行布料和軟體的物理仿真,圖3 (c) 則展示了用Blender替換生成材質的實驗結果。
圖3: 在Blender中進行編輯。
如下圖4 (a) 所示,F(xiàn)antasia3D生成的模型還可在Blender中替換不同的光照,從而產(chǎn)生不同的渲染效果。
(b) 中展示了將Fantasia3D生成的物體插入其他場景中的能力,插入的物體能與原環(huán)境中的光照環(huán)境進行交互,從而產(chǎn)生自然的反射效果。
圖4: 給生成物體進行重新打光。
原理方法
Fantasia3D的方法概覽如下圖5所示。我們的方法可以根據(jù)文本提示生成解耦的幾何和外觀(見圖 (a) ),二者分別通過 (b) 幾何建模和 (c) 外觀建模生成。
在 (b) 中,我們采用DMTet作為我們的三維幾何表示,這里初始化為一個三維橢球體。
為了優(yōu)化DMTet的參數(shù),我們將從DMTet提取的網(wǎng)格的法線貼圖(在早期訓練階段還會同時使用物體掩碼)渲染為Stable Diffusion的形狀編碼。
在 (c) 中,對于外觀建模,我們引入了空間變化的雙向反射率分布函數(shù)(BRDF)建模,并學習預測外觀的三個分量(即kd、krm和kn)。幾何和外觀建模都由分數(shù)蒸餾采樣損失函數(shù)(SDS loss)進行監(jiān)督。
圖5: Fantasia3D流程圖。
總結
本文介紹了一種名為Fantasia3D的自動化文本到三維生成的新方法,基于DMTet的混合表達,采用幾何和外觀的解耦建模和學習,能夠生成精細的表面和豐富的材質/紋理。
對于幾何學習,研究人員提出將渲染的法線貼圖編碼,并將法線的形狀編碼作為預訓練的Stable Diffusion的輸入。
對于外觀建模,引入了空間變化的BRDF到文本生成三維對任務中,從而實現(xiàn)對學習表面的逼真渲染所需的材質的學習。
除了文本提示外,該方法還可以根據(jù)自定義的三維形狀來生成,這對用戶來說更加靈活,可以更好地控制生成的內(nèi)容。
另外,該方法還方便支持生成的三維資產(chǎn)的重新照明、編輯和物理仿真。
作者介紹
陳銳是一名華南理工大學的在讀研一學生,導師是賈奎教授。他的研究興趣在于計算機視覺和計算機圖形學的結合,特別是使用生成模型和基于物理的渲染技術創(chuàng)建高質量的3D資產(chǎn)領域。
個人主頁:https://cyw-3d.github.io/
陳永煒,華南理工大學GorillaLab研究生三年級。師從賈奎教授,研究方向為三維視覺,多模態(tài)學習,可微渲染,擴散模型等,相關研究工作曾在CVPR、ECCV、NeurIPS、ICCV等計算機視覺和人工智能頂級會議上發(fā)表。近期研究方向側重探索能夠自動生成3D資產(chǎn)的AI模型,包括材質、形狀、動作和其他相關參數(shù)。
個人主頁:http://kuijia.site/
賈奎,華南理工大學教授,幾何感知與智能實驗室主任,廣東省「珠江人才計劃」創(chuàng)新創(chuàng)業(yè)團隊帶頭人。曾先后于中科院深圳先進技術研究院、香港中文大學、伊利諾伊大學香檳分校先進數(shù)字科學研究中心、及澳門大學從事教學和科研工作。
研究領域包括計算機視覺、機器學習、人工智能等,近年來主要側重于深度學習理論與泛化、幾何深度學習、以及3D AIGC等研究;成果發(fā)表于TPAMI/CVPR/ICML/NeurIPS等頂級期刊和會議。擔任TMLR/TIP等期刊副主編及ICML/ICCV/NeurIPS等會議領域主席。
幾何感知與智能實驗室(Gorilla Lab)聚焦機器學習、計算機視覺、三維感知等人工智能核心方向,側重從語義感知和內(nèi)容生成等角度,以學習數(shù)據(jù)內(nèi)在的幾何規(guī)律性和外在的幾何表征為核心方法指導,對圖像、視頻、點云等高維數(shù)據(jù)進行智能處理,以推進相關領域發(fā)展和產(chǎn)業(yè)化落地。自成立以來,實驗室先后獲得來自國家自然科學基金委、廣東省科技廳、華為技術有限公司等數(shù)千萬的經(jīng)費支持。
賈奎教授實驗室提供多個博士后、博士、研究型碩士及研究助理崗位,有興趣從事人工智能、計算機視覺、三維感知與生成研究的同學,請發(fā)信至 kuijia@gmail.com 。