騰訊、上??拼箝_(kāi)源InstantMesh,圖片直接生成3D模型
騰訊PCG ARC實(shí)驗(yàn)室和上??萍即髮W(xué)的研究人員聯(lián)合開(kāi)源了創(chuàng)新模型——InstantMesh。
用戶通過(guò)InstantMesh上傳一張圖片,只需要十秒的時(shí)間就能將圖片變成360度全視角的3D模型。并且可以下載模型將其放在3D Max、瑪雅等專業(yè)軟件中,以簡(jiǎn)化游戲、廣告、家居、虛擬現(xiàn)實(shí)等開(kāi)發(fā)流程。
研究人員在公開(kāi)數(shù)據(jù)集Google Scanned Objects、OmniObject3D等InstantMesh進(jìn)行了綜合測(cè)試。
結(jié)果顯示,其生成的3D模型在視覺(jué)質(zhì)量和幾何精度上都顯著優(yōu)于現(xiàn)有最新方法,如LGM、CRM等。在多視角的合成任務(wù)上,InstantMesh也明顯優(yōu)于SV3D等知名擴(kuò)散模型。
開(kāi)源地址:https://github.com/TencentARC/InstantMesh
在線demo:https://huggingface.co/spaces/TencentARC/InstantMesh
論文地址:https://arxiv.org/abs/2404.07191
InstantMesh的技術(shù)創(chuàng)新在于,將多視圖擴(kuò)散模型和稀疏視圖重建模型相結(jié)合使用。
首先利用多視角擴(kuò)散模型生成一組一致的多視角圖像,然后利用稀疏視圖重建模型直接預(yù)測(cè)3D網(wǎng)格,整個(gè)過(guò)程只需要十幾秒甚至幾秒就能完成。
為了提高訓(xùn)練效率,并在3D網(wǎng)格表示上應(yīng)用幾何監(jiān)督信息,InstantMesh還引入了一個(gè)可微分的等值面提取模塊。這種方法能夠直接在網(wǎng)格表面上進(jìn)行優(yōu)化,從而提高訓(xùn)練效率和模型生成的質(zhì)量。
多視圖擴(kuò)散模型
?
多視圖擴(kuò)散模型的主要作用是將一張靜態(tài)的2D圖片中生成一系列新的視角圖像,這些圖像覆蓋了目標(biāo)物體的多個(gè)方向。
首先,接收用戶輸入的圖片,并利用Zero123++模型生成一系列的新視角圖像,包括了物體的正面、側(cè)面、上面、下面和背面等360度視角圖片。
這可以幫助InstantMesh捕捉到圖片的全方位信息,為后續(xù)的3D網(wǎng)格預(yù)測(cè)打下堅(jiān)實(shí)的基礎(chǔ)。
簡(jiǎn)單來(lái)說(shuō),整個(gè)過(guò)程就像玩拼圖游戲一樣,例如,需要從一張完整的圖片中找到所有可能的視角,然后將它們拼湊起來(lái),形成一個(gè)完整的立體圖像。
所以,也可以把多視圖擴(kuò)散模型理解成InstantMesh的“眼睛”,幫助它深度剖析每一張上傳的圖片。
稀疏視圖重建模型
?
稀疏視圖重建模型則主要負(fù)責(zé)將,多視圖擴(kuò)散模型生成的視圖拼裝成3D模型。首先通過(guò)其內(nèi)部的神經(jīng)網(wǎng)絡(luò)架構(gòu),提取輸入圖像的特征,并將其與先前的知識(shí)結(jié)合起來(lái),以便更好地理解物體的結(jié)構(gòu)和外觀。
利用提取到的特征和輔助知識(shí),稀疏視圖重建模型能預(yù)測(cè)出一個(gè)初步的3D網(wǎng)格模型,包含了物體的基本形狀和結(jié)構(gòu),但是在質(zhì)量和細(xì)節(jié)方面還差很多。
所以,研究人員使用了可微分的等值面提取模塊對(duì)網(wǎng)格表面進(jìn)行幾何監(jiān)督,大幅度優(yōu)化3D模型的細(xì)節(jié)和平滑度。
此外,這種直接在網(wǎng)格表面進(jìn)行監(jiān)督訓(xùn)練的優(yōu)化方法,避免了體素渲染的高計(jì)算消耗,同時(shí)能利用全分辨率的RGB圖像、深度圖和法線圖作為訓(xùn)練監(jiān)督,也使得生成的3D模型更加適合于后續(xù)的渲染、編輯和分析等應(yīng)用。
本文轉(zhuǎn)自 AIGC開(kāi)放社區(qū) ,作者:AIGC開(kāi)放社區(qū)
