3D資產(chǎn)生成領域福音:自動化所、北郵團隊聯(lián)合打造材質(zhì)生成新范式
在當今數(shù)字化時代,3D 資產(chǎn)在元宇宙的建構、數(shù)字孿生的實現(xiàn)以及虛擬現(xiàn)實和增強現(xiàn)實的應用中扮演著重要角色,促進了技術創(chuàng)新和用戶體驗的提升。
現(xiàn)有的 3D 資產(chǎn)生成方法通常利用生成式模型基于空間變化雙向反射分布函數(shù)(SVBRDF, Spatially Varying Bidirectional Reflectance Distribution Function)在預設光照條件下推斷表面位置的材質(zhì)屬性特征。然而,這些方法很少考慮到人們對身邊常見物體的表面材質(zhì)認知構建出的強大且豐富的先驗知識(如汽車輪胎應為外緣的橡膠胎面包裹住金屬的輪轂),且忽略了材質(zhì)應該與物體本身的 RGB 色彩進行解耦。
因此,如何將人類對物體表面材質(zhì)的先驗知識有效地融入到材質(zhì)生成過程中,從而提高現(xiàn)有 3D 資產(chǎn)的整體質(zhì)量,成為了當前研究的重要課題。
針對這一問題,近日,中國科學院自動化研究所、北京郵電大學及香港理工大學等京港兩地的研究團隊發(fā)布了名為《MaterialSeg3D: Segmenting Dense Materials from 2D Priors for 3D Assets》的論文,構造了首個針對多種類復雜材質(zhì)物體的 2D 材質(zhì)分割數(shù)據(jù)集 MIO,其包含了多種語義類別下的、單一物體的、各個相機視角的像素級材質(zhì)標簽。該研究提出了一種能夠利用 2D 語義先驗在 UV 空間中推斷出 3D 資產(chǎn)表面材質(zhì)的材質(zhì)生成方案 ——MaterialSeg3D。
- 論文:https://arxiv.org/pdf/2404.13923
- 代碼地址:https://github.com/PROPHETE-pro/MaterialSeg3D_
- 項目網(wǎng)站:https://materialseg3d.github.io/
3D 建模師通常根據(jù)生活常識或真實世界的物體原型來定義資產(chǎn)表面的材質(zhì)。相比之下,基于生成式模型構建 3D 資產(chǎn)的方法使用 SVBRDF 來推斷材質(zhì)信息,但由于缺乏準確的高質(zhì)量 3D 資產(chǎn)樣本,這些方法難以生成高泛化性和高保真度的物理材質(zhì)通道信息。此外,這類方法也未能利用公開網(wǎng)站中的海量 Web Image 數(shù)據(jù)來豐富物體表面材質(zhì)信息的先驗知識。
因此,本文聚焦于如何將 2D 圖片中關于材質(zhì)的先驗知識引入解決 3D 資產(chǎn)材質(zhì)信息定義的任務中。
MIO 數(shù)據(jù)集
這篇論文首先嘗試從現(xiàn)有 3D 資產(chǎn)數(shù)據(jù)集中提取材質(zhì)分類的先驗知識,但由于數(shù)據(jù)集樣本過少且風格單一,分割模型難以學習到正確的先驗知識。
相比 3D 資產(chǎn),2D 圖像則更為廣泛地存在于公開網(wǎng)站或數(shù)據(jù)集上。然而,現(xiàn)有的帶注釋 2D 圖像數(shù)據(jù)集與 3D 資產(chǎn)渲染圖的分布存在較大差距,無法直接提供足夠的材質(zhì)先驗知識。
因此,本文構建了一個定制數(shù)據(jù)集 MIO(Materialized Individual Objects),是目前最大的多類別單一復雜材質(zhì)資產(chǎn)的 2D 材質(zhì)分割數(shù)據(jù)集,包含了從各種相機角度采樣的圖像,并由專業(yè)團隊精確注釋。
材質(zhì)類注釋和 PBR 材質(zhì)球體映射的可視化示例。
在構造該數(shù)據(jù)集時,本文遵循以下規(guī)則:
- 每張采樣圖像中只包含一個突出的前景物體
- 收集相似數(shù)量的真實場景 2D 圖片和 3D 資產(chǎn)渲染圖
- 收集各個相機角度的圖像樣本,包括頂視圖和仰視圖等特殊視角
MIO 數(shù)據(jù)集的獨到之處在于,它不僅僅構造了每種材質(zhì)類別的像素級標簽,還單獨構建了每個材質(zhì)類別與 PBR 材質(zhì)取值間的一一映射關系。這些映射關系是由 9 名專業(yè) 3D 建模師經(jīng)過討論后確定的。本文從公共材質(zhì)庫收集了超過 1000 個真實的 PBR 材質(zhì)球作為備選材質(zhì),并依據(jù)建模師的專業(yè)知識進行篩選與指定,最終確定了 14 個材質(zhì)類別并將其與 PBR 材質(zhì)的映射關系作為數(shù)據(jù)集的標注空間。
MIO 數(shù)據(jù)集共包含 23,062 張單個復雜物體的多視角圖像,分為 5 個大的元類:家具、汽車、建筑、樂器和植物,具體又可以分為 20 種具體的類別,特別值得一提的是,MIO 數(shù)據(jù)集中包含大約 4000 張俯視圖圖像,提供了在現(xiàn)有 2D 數(shù)據(jù)集中很少出現(xiàn)的獨特視角。
MaterialSeg3D
有了 MIO 數(shù)據(jù)集作為可靠的材質(zhì)信息先驗知識來源,這篇論文隨后提出了名為 MaterialSeg3D 的全新 3D 資產(chǎn)表面材質(zhì)預測新范式,為給定的資產(chǎn)表面生成合理的 PBR 材質(zhì),從而能夠真實地模擬物體的物理特性,包括光照、陰影和反射,使 3D 物體在各種環(huán)境下都表現(xiàn)出高度的真實性和一致性,為現(xiàn)有 3D 資產(chǎn)缺乏材質(zhì)信息的問題提出有效解決方案。
MaterialSeg3D 整個處理流程中包括三個部分:3D 資產(chǎn)的多視圖渲染、多視圖下的材質(zhì)預測和 3D 材質(zhì) UV 生成。在多視圖渲染階段,確定了俯視圖、側視圖和 12 個環(huán)繞角度的相機姿勢,以及隨機的俯仰角度,生成 2D 渲染圖像。在材質(zhì)預測階段,利用基于 MIO 數(shù)據(jù)集訓練的材質(zhì)分割模型,對多視角渲染圖進行像素級的材質(zhì)標簽預測。在材質(zhì) UV 生成階段,將材質(zhì)預測結果映射到臨時 UV 圖上,通過加權投票機制處理得到最終的材質(zhì)標簽 UV,并轉化為 PBR 材質(zhì)貼圖。
可視化的效果與實驗
為評估 MaterialSeg3D 的有效性,本文進行了與近期相似工作的定量與定性實驗分析,重點關注單圖像到 3D 資產(chǎn)的生成方法、紋理生成以及公共 3D 資產(chǎn)三個方面。對于單圖像到 3D 資產(chǎn)的生成方法,與 Wonder3D、TripoSR 和 OpenLRM 進行了比較,這些方法將資產(chǎn)的某一參照視圖作為輸入,直接生成具有紋理特征的 3D 對象。通過可視化圖片觀察到,MaterialSeg3D 處理后的資產(chǎn)在渲染的真實性方面相較之前的工作有顯著改善。論文還比較了現(xiàn)有的紋理生成方法,如 Fantasia3D、Text2Tex 以及 Meshy 網(wǎng)站提供的在線功能,這些方法可以根據(jù)文本提示信息生成紋理結果。
在此基礎上,MaterialSeg3D 在不同的光照條件下能夠生成精確的 PBR 材質(zhì)信息,使渲染效果更加真實。
定量實驗采用 CLIP Similarity、PSNR、SSIM 作為評價指標,選擇 Objaverse-1.0 數(shù)據(jù)集中的資產(chǎn)作為測試樣本,并隨機選擇三個相機角度作為新視圖。
這些實驗證明了 MaterialSeg3D 的有效性。其能夠生成公共 3D 資產(chǎn)缺失的 PBR 材質(zhì)信息,為建模師和后續(xù)的研究工作提供更多優(yōu)質(zhì)資產(chǎn)。
總結與展望
這篇論文針對 3D 資產(chǎn)表面材質(zhì)生成問題進行了探索,構建了定制的 2D 材質(zhì)分割數(shù)據(jù)集 MIO。在這一可靠數(shù)據(jù)集的支持下,提出了新的 3D 資產(chǎn)表面材質(zhì)生成范式 MaterialSeg3D,能夠為單個 3D 資產(chǎn)生成可解耦的獨立 PBR 材質(zhì)信息,顯著增強了現(xiàn)有 3D 資產(chǎn)在不同光照條件下的渲染真實性和合理性。
作者指出,未來的研究將專注于擴展數(shù)據(jù)集中物體元類的數(shù)量、通過生成偽標簽擴大數(shù)據(jù)集規(guī)模以及對材質(zhì)分割模型進行自訓練,以便該生成范式能夠直接應用于絕大多數(shù)種類的 3D 資產(chǎn)。
本文轉自機器之心 ,作者:機器之心
