自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

文本直接生成多視角3D圖像,Meta推出創(chuàng)新模型

發(fā)布于 2024-4-16 12:26
瀏覽
0收藏

隨著擴(kuò)散模型的不斷創(chuàng)新,文生圖領(lǐng)域出現(xiàn)了Midjourney、Stable Diffusion、DALL-E 3等一系列知名產(chǎn)品。


但在文本生成多視角3D圖像方面一直存在諸多技術(shù)難點(diǎn),Meta和德國慕尼黑工業(yè)大學(xué)的研究人員聯(lián)合開發(fā)了創(chuàng)新模型——ViewDiff。


用戶通過文本、圖像或二者結(jié)合使用,就能生成高質(zhì)量多視角3D圖像,可幫助游戲開發(fā)、元宇宙等行業(yè)快速構(gòu)建模型。


根據(jù)測試數(shù)據(jù)顯示,ViewDiff生成的圖像在一致性和視覺質(zhì)量方面非常出色,并將FID、KID的數(shù)據(jù),分別提升了30%和37%。


論文地址:https://arxiv.org/abs/2403.01807

項目地址:https://lukashoel.github.io/ViewDiff/

文本直接生成多視角3D圖像,Meta推出創(chuàng)新模型-AI.x社區(qū)


目前,文本生成一致性、多視角3D圖像主要有三大難點(diǎn):通常無法生成真實的背景環(huán)境,大多數(shù)只能在簡單或純色背景上渲染3D物體模型,缺乏與自然環(huán)境的融合;


生成圖像的質(zhì)量和多樣性不理想,由于受限于訓(xùn)練數(shù)據(jù)的規(guī)模,一些方法只能產(chǎn)生質(zhì)量有限、風(fēng)格單一的輸出;


缺乏多視角和一致性,大多數(shù)方法都是獨(dú)立生成單一視角,無法確保同一物體在不同視角下的幾何和外觀的一致性,這極大限制了3D圖像的實用性。

文本直接生成多視角3D圖像,Meta推出創(chuàng)新模型-AI.x社區(qū)

而ViewDiff使用了一種創(chuàng)新架構(gòu),先使用文生圖模型作為先驗知識和圖像流生成器,然后通過顯式的3D建模為圖像賦予生成一致性、多視角3D圖像的能力。


增強(qiáng)U-Net架構(gòu)


為了使文生圖模型能夠有效捕獲3D幾何和全局風(fēng)格,研究人員對原有U-Net架構(gòu)進(jìn)行了創(chuàng)新,添加了兩種新的層:跨幀注意力層和投影層。

文本直接生成多視角3D圖像,Meta推出創(chuàng)新模型-AI.x社區(qū)

1)跨幀注意力層:主要替換了U-Net中的標(biāo)準(zhǔn)自注意力層。不同于只關(guān)注單個圖像內(nèi)部的特征,跨幀注意力層將每個圖像的特征與其他所有圖像的特征進(jìn)行交互,實現(xiàn)了跨圖像的風(fēng)格匹配。


2)投影層:雖然跨幀注意力層能協(xié)調(diào)全局風(fēng)格,但它無法顯式地對3D幾何知識進(jìn)行建模。

因此,研究人員又開發(fā)了投影層,將多視圖2D特征集成為一個顯式的3D體素特征,再將其渲染回2D特征,保證了輸出圖像的3D幾何一致性。

文本直接生成多視角3D圖像,Meta推出創(chuàng)新模型-AI.x社區(qū)

原U-Net架構(gòu)在跨幀注意力層和投影層的增強(qiáng)下,使得ViewDiff能夠在各個尺度上對2D特征進(jìn)行3D感知建模,并實現(xiàn)多視圖圖像的風(fēng)格協(xié)調(diào),最終生成一致性、高質(zhì)量的3D圖像。


自回歸生成

?

為了在任意視角上生成更多的3D一致性圖像,ViewDiff開發(fā)了自回歸生成模塊,將允許從已生成的圖像繼續(xù)生成更多的圖像,以呈現(xiàn)不同的視角。

首先,給定一個初始圖像,可以是輸入的多視角生成的圖像中的任意一個。這個初始圖像將作為生成過程的起點(diǎn)。

文本直接生成多視角3D圖像,Meta推出創(chuàng)新模型-AI.x社區(qū)

然后初始圖像通過編碼器網(wǎng)絡(luò),提取出特征表示。編碼器網(wǎng)絡(luò)通常由卷積層和池化層組成,用于逐漸減小特征圖的尺寸和提取高級語義特征。

文本直接生成多視角3D圖像,Meta推出創(chuàng)新模型-AI.x社區(qū)

接著編碼器的特征表示被送入解碼器網(wǎng)絡(luò),解碼器網(wǎng)絡(luò)的結(jié)構(gòu)與編碼器相反。解碼器逐漸增加特征圖的尺寸,并通過反卷積等操作生成更高分辨率的圖像。


解碼器的每個步驟都會生成一個新的圖像,并將其與之前生成的圖像進(jìn)行疊加,形成一個新的輸入。

文本直接生成多視角3D圖像,Meta推出創(chuàng)新模型-AI.x社區(qū)

這個新的輸入將作為下一個步驟的輸入,以生成下一個新的圖像。通過不斷迭代生成新的圖像,使得ViewDiff能夠在任意視角上生成更多的3D一致性圖像。


本文轉(zhuǎn)自 AIGC開放社區(qū) ,作者:AIGC開放社區(qū)


原文鏈接:??https://mp.weixin.qq.com/s/Qz1fkpwQJx5fQjnDXsPRxw??

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦