自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

騰訊、上??拼箝_(kāi)源InstantMesh,圖片直接生成3D模型

發(fā)布于 2024-5-9 09:58
瀏覽
0收藏

騰訊PCG ARC實(shí)驗(yàn)室和上??萍即髮W(xué)的研究人員聯(lián)合開(kāi)源了創(chuàng)新模型——InstantMesh。


用戶通過(guò)InstantMesh上傳一張圖片,只需要十秒的時(shí)間就能將圖片變成360度全視角的3D模型。并且可以下載模型將其放在3D Max、瑪雅等專業(yè)軟件中,以簡(jiǎn)化游戲、廣告、家居、虛擬現(xiàn)實(shí)等開(kāi)發(fā)流程。


研究人員在公開(kāi)數(shù)據(jù)集Google Scanned Objects、OmniObject3D等InstantMesh進(jìn)行了綜合測(cè)試。


結(jié)果顯示,其生成的3D模型在視覺(jué)質(zhì)量和幾何精度上都顯著優(yōu)于現(xiàn)有最新方法,如LGM、CRM等。在多視角的合成任務(wù)上,InstantMesh也明顯優(yōu)于SV3D等知名擴(kuò)散模型。


開(kāi)源地址:https://github.com/TencentARC/InstantMesh

在線demo:https://huggingface.co/spaces/TencentARC/InstantMesh

論文地址:https://arxiv.org/abs/2404.07191

騰訊、上??拼箝_(kāi)源InstantMesh,圖片直接生成3D模型-AI.x社區(qū)

InstantMesh的技術(shù)創(chuàng)新在于,將多視圖擴(kuò)散模型和稀疏視圖重建模型相結(jié)合使用。


首先利用多視角擴(kuò)散模型生成一組一致的多視角圖像,然后利用稀疏視圖重建模型直接預(yù)測(cè)3D網(wǎng)格,整個(gè)過(guò)程只需要十幾秒甚至幾秒就能完成。


為了提高訓(xùn)練效率,并在3D網(wǎng)格表示上應(yīng)用幾何監(jiān)督信息,InstantMesh還引入了一個(gè)可微分的等值面提取模塊。這種方法能夠直接在網(wǎng)格表面上進(jìn)行優(yōu)化,從而提高訓(xùn)練效率和模型生成的質(zhì)量。


多視圖擴(kuò)散模型

?

多視圖擴(kuò)散模型的主要作用是將一張靜態(tài)的2D圖片中生成一系列新的視角圖像,這些圖像覆蓋了目標(biāo)物體的多個(gè)方向。


首先,接收用戶輸入的圖片,并利用Zero123++模型生成一系列的新視角圖像,包括了物體的正面、側(cè)面、上面、下面和背面等360度視角圖片。


這可以幫助InstantMesh捕捉到圖片的全方位信息,為后續(xù)的3D網(wǎng)格預(yù)測(cè)打下堅(jiān)實(shí)的基礎(chǔ)。

騰訊、上??拼箝_(kāi)源InstantMesh,圖片直接生成3D模型-AI.x社區(qū)

簡(jiǎn)單來(lái)說(shuō),整個(gè)過(guò)程就像玩拼圖游戲一樣,例如,需要從一張完整的圖片中找到所有可能的視角,然后將它們拼湊起來(lái),形成一個(gè)完整的立體圖像。


所以,也可以把多視圖擴(kuò)散模型理解成InstantMesh的“眼睛”,幫助它深度剖析每一張上傳的圖片。


稀疏視圖重建模型

?

稀疏視圖重建模型則主要負(fù)責(zé)將,多視圖擴(kuò)散模型生成的視圖拼裝成3D模型。首先通過(guò)其內(nèi)部的神經(jīng)網(wǎng)絡(luò)架構(gòu),提取輸入圖像的特征,并將其與先前的知識(shí)結(jié)合起來(lái),以便更好地理解物體的結(jié)構(gòu)和外觀。

騰訊、上??拼箝_(kāi)源InstantMesh,圖片直接生成3D模型-AI.x社區(qū)

利用提取到的特征和輔助知識(shí),稀疏視圖重建模型能預(yù)測(cè)出一個(gè)初步的3D網(wǎng)格模型,包含了物體的基本形狀和結(jié)構(gòu),但是在質(zhì)量和細(xì)節(jié)方面還差很多。


所以,研究人員使用了可微分的等值面提取模塊對(duì)網(wǎng)格表面進(jìn)行幾何監(jiān)督,大幅度優(yōu)化3D模型的細(xì)節(jié)和平滑度

騰訊、上海科大開(kāi)源InstantMesh,圖片直接生成3D模型-AI.x社區(qū)

此外,這種直接在網(wǎng)格表面進(jìn)行監(jiān)督訓(xùn)練的優(yōu)化方法,避免了體素渲染的高計(jì)算消耗,同時(shí)能利用全分辨率的RGB圖像、深度圖和法線圖作為訓(xùn)練監(jiān)督,也使得生成的3D模型更加適合于后續(xù)的渲染、編輯和分析等應(yīng)用。


本文轉(zhuǎn)自 AIGC開(kāi)放社區(qū)  ,作者:AIGC開(kāi)放社區(qū)


原文鏈接:??https://mp.weixin.qq.com/s/PtKWx6mWvWDH95ifa946dw??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦