不到60秒就能生成3D「手辦」,Meta發(fā)力3D生成,ChatGPT時刻要來了嗎?
一直以來,創(chuàng)作 3D 內容是設計和開發(fā)視頻游戲、增強現(xiàn)實、虛擬現(xiàn)實以及影視特效中最重要的部分。
然而,3D 生成具有獨特而艱巨的挑戰(zhàn),這是圖像和視頻等其他生成內容所不具備的。
- 首先,3D 內容在藝術質量、生成速度、3D 網(wǎng)格結構和拓撲質量、UV 貼圖結構以及紋理清晰度和分辨率方面具有嚴格的標準;
- 其次,與其他研究相比,可用的數(shù)據(jù)量少。雖然該領域有數(shù)十億張圖像和視頻可供學習,但可用于訓練的 3D 內容數(shù)量要少三到四個數(shù)量級。因此,現(xiàn)階段的3D 生成還必須從非 3D 的圖像和視頻中學習,而且需要從部分 2D 觀察中推斷出 3D 信息;
- 傳統(tǒng)方法生成的3D 資源通常難以實現(xiàn)逼真的照明和材質屬性,從而限制了它們在專業(yè)工作流程中的實用性;
- 3D生成是一個非常耗費算力的過程,主要因為它涉及到復雜的計算和大量的數(shù)據(jù)處理,如實時渲染、細節(jié)處理。并且由于算力不夠,可能會導致生成速度非常慢。
在生成式AI爆發(fā)的當下,很多研究者開始嘗試針對以上問題提出解決方案。
剛剛,Meta發(fā)布了最新系統(tǒng)Meta 3D Gen (3DGen),其用不到一分鐘的時間,就能直接從文本生成3D資產。
- 論文地址:https://ai.meta.com/research/publications/meta-3d-gen/?cnotallow=24428397aaeb0cc6751570d48a532d36
3DGen支持基于物理的渲染 (PBR),這是在實際應用中重新照明 3D 資產所必需的。此外,3DGen 還支持使用用戶提供的額外文本輸入對先前生成的(或藝術家創(chuàng)建的)3D 形狀進行重新紋理化。
比如下面所展示的,借助3DGen,研究者渲染出了一只金屬色的小狗:
未來感滿滿的機器人:
3DGen還能對生成的對象紋理進行進一步編輯和定制,同樣的方法也可以應用于藝術家創(chuàng)建的3D網(wǎng)格紋理而不需要修改。如下所示,3DGen將藝術家創(chuàng)建的3D資產渲染成彩色的蝴蝶。
蝴蝶「變身」為用粉色和綠色紗線編織的蝴蝶玩具。
通過展示可以看出,即使是復雜的文本提示,3DGen也能很好地遵循指令,生成的3D形狀和紋理質量也比較好。
以下是論文中的具體信息。
Meta 3D Gen基本原理
Meta 3D Gen 是一種兩階段方法,包括兩個關鍵組件:用于創(chuàng)建 3D 網(wǎng)格的 Meta 3D AssetGen 和用于生成紋理的 Meta 3D TextureGen。
這些技術協(xié)同工作,可生成具有高分辨率紋理和PBR材質的 3D 資產。Meta表示,該流程的速度是現(xiàn)有解決方案的 3 到 10 倍。
第一階段為3D 資產生成階段。在這一階段,根據(jù)用戶提供的文本提示,Meta 3D AssetGen(簡稱 AssetGen)創(chuàng)建初始 3D 資產。此步驟生成具有紋理和 PBR 材質貼圖的 3D 網(wǎng)格。推理時間約為 30 秒。
接下來是第二階段。給定第一階段生成的 3D 資產和用于生成的初始文本提示,第二階段將基于該資產和提示生成更高質量的紋理和 PBR 貼圖。第二階段用到了文本到紋理生成器 Meta 3D TextureGen(簡稱為 TextureGen)。推理時間約為 20 秒。
此外,給定一個無紋理的 3D 網(wǎng)格和描述其所需外觀的提示,第二階段還可用于從頭開始為該 3D 資產生成紋理(網(wǎng)格可以是先前生成的,也可以是藝術家創(chuàng)建的)。推理時間約為 20 秒。
下圖為第一階段和第二階段可視化對比。后者往往具有更高的視覺美感,看起來更逼真,細節(jié)頻率更高。
我們不難發(fā)現(xiàn),3DGen 以 AssetGen 和 TextureGen 為基礎,將3D 對象的三個關鍵信息進行了很好的互補:視圖空間(對象的圖像)、體積空間(3D 形狀和外觀)和 UV 空間(紋理)。
此過程從 AssetGen 開始,通過使用一個多視角和多通道的文本到圖像生成器,生成關于物體的幾個相對一致的視圖。接著,AssetGen中的一個重建網(wǎng)絡會在體積空間中提取出3D對象的第一個版本。此過程接著進行網(wǎng)格提取,建立對象的3D形狀和其紋理的初步版本,這一系列步驟構成了從文本描述到3D模型的轉換過程。最后,TextureGen 組件利用視圖空間和 UV 空間生成的組合來重新生成紋理,提高紋理質量和分辨率,同時保持對初始提示的保真度。
實驗對比
運行時間和功能上的對比
論文將3DGen的性能與業(yè)界領先的文本到3D生成模型進行了比較,包括 CSM、Tripo3D、Rodin Gen-1 V0.5、Meshy v3等。
在時間上,stage1最快的是Tripo3D(經(jīng)過筆者實測,Tripo3D線上版本目前stage1為10秒,stage2是2分鐘);stage2最快的是Meta 3D Gen,Tripo3D緊隨其后,Rodin Gen-1 V0.5排名第三,用了2-30分鐘完成。
在功能上,除了Rodin支持重拓撲之外,筆者實測Tripo3D也支持retopology。
定量評測指標
表2主要表現(xiàn)了不同模型遵循 prompt的結果。主要關注text-to-3D,實驗中用了來自2023 Google DreamFusion論文中的404個prompt,細分為物體(156)、角色(106) ,組合角色物體 (141),難度由低到高。定量對比部分全部是user study(用戶偏好)。
結果表明:在text-to-3D比較重要的prompt fidelity指標上:
- 綜合排序為:Meta 3D Gen > Third-party T23D generator > Tripo3D > Meshy v3 > CSM Cube 2.0 > Rodin Gen-1 。其中前三名差距很?。?個點的差距,404個prompt中的12個)。CSM和Rodin相較其他方法有明顯差異,Rodin和3DGen相比,兩者相差 21.8個點。
- 分項評測方面,最簡單的objects中表現(xiàn)最好的是Meshy v3。角色類和復雜組合概念的表現(xiàn)代表了技術水準,也是3D產業(yè)應用中最重要的部分,Meta在復雜組合上排名第一,Tripo3D則是難度越高表現(xiàn)越強,僅次于Meta,和第一名差距很小。
表3比較了Meta和其他方法的A/B win rate和loss rate結果,數(shù)字win rate越低代表所對比方法越強,loss rate越高代表所對比方法越強,可以得出:
- Meshy v3紋理分最高、Rodin紋理分最低;
- Rodin幾何分比較高;
- 在綜合性一致性、整體質量方面,Rodin表現(xiàn)不佳;
- All users和專業(yè)用戶打分標準可以看出略有不同,但排名趨勢是一樣的:對幾何和紋理的正確性給予了更多的權重;
上圖橫坐標是前面提到的prompt復雜度,縱坐標是Meta win rate,低于50%說明對比方法比Meta好,折線越低說明方法越好。圖中比較了多個維度,包括prompt還原度、綜合視覺質量、幾何視覺質量、紋理細節(jié)、紋理瑕疵等指標。
Meta在論文中談到越復雜的prompt,他們的方法優(yōu)勢越明顯,這個其實和前面Table 2中Tripo3D的趨勢和優(yōu)勢是一致的??梢酝茰y如果這里加上Tripo3D,Tripo和Meta應該不分伯仲。
定性質量對比
在這篇論文中,Meta還給出了幾個模型的定性結果對比圖,我們可以從這些圖中看出一些差別。
從prompt遵循程度來看,3DGen表現(xiàn)優(yōu)秀,比如對于第一行的羊駝雕塑,它可以把prompt中提到的logo文字寫上。但以第三行的case為例,CSM的語義理解較弱,Tripo則展現(xiàn)了其他模型都失敗的「被鍛造的錘子」,甚至還基于推理生成了3DGen沒有考慮到的炭火。
但綜合幾何細節(jié)和紋理細節(jié)來看,3DGen的紋理細節(jié)略顯粗糙,Meshy和Rodin的第一行幾乎沒什么紋理,而Tripo3D的紋理結果則要好得多,幾何細節(jié)非常豐富,人、物也更保真,不像3DGen一樣有時候臉會垮掉。
圖7表現(xiàn)了同一場景下的比較結果,包括 Tripo3D 、Meshy v3 、以及 3DGen。綜合來看,Meshy方法生成的紋理瑕疵多一些、生成的幾何粗糙一些;放大來看,Tripo和3DGen效果不相上下,但Tripo生成結果更形象、靈動一些。
筆者用Tripo嘗試了測試集中的龍蛋效果
3D生成來到「ChatGPT時刻」前夜
3D生成賽道其實一直是資本市場的寵兒。A16Z接連對3D生成賽道出手,除了最近名聲大噪的Luma Labs之外,Meta論文中提到的CSM,Google系的Yellow,還有曾經(jīng)爭議較大的Kaedim都是A16Z的被投明星企業(yè)。
在Meta論文中參與比較的工作中Meshy出自知名學者胡淵鳴的團隊,Tripo則出自之前和Stability AI發(fā)布TripoSR的團隊VAST。
Meta此篇論文中引用了不少VAST團隊的論文,不僅包括TripoSR,也包括剛被ECCV收錄的UniDream、曾經(jīng)爆火的Wonder3D、Triplane meets Gaussian splatting等等。
據(jù)筆者根據(jù)Tripo官方海外媒體信息,全球開發(fā)者已經(jīng)基于TRIPO生成了近四百萬個3D模型,TripoSR上線一周就在Github上拿到了3K+的star量。基于這種人氣,Tripo社區(qū)也推出了全球第一個AI 3D全球渲染大賽。
據(jù)筆者調研,不管是CG還是3D打印領域都有許多目前的落地探索,不管是全球最大的3D素材交易網(wǎng)站CG模型網(wǎng)定向邀請創(chuàng)作者測試,還是3D打印龍頭開始探索AI,都體現(xiàn)出比想象中更快的商業(yè)化落地速度。
VAST上線Anycubic的模型社區(qū)網(wǎng)站Makeronline和CG模型網(wǎng)
Keadim則選擇和初創(chuàng)團隊Nakkara一起探索3D打印業(yè)務:
總體來看,3D生成技術在學術和行業(yè)落地層面都不斷取得突破性進展,我們有理由相信,3D大模型會釋放更多潛力。