文本直接生成多視角3D圖像,Meta推出創(chuàng)新模型
隨著擴(kuò)散模型的不斷創(chuàng)新,文生圖領(lǐng)域出現(xiàn)了Midjourney、Stable Diffusion、DALL-E 3等一系列知名產(chǎn)品。
但在文本生成多視角3D圖像方面一直存在諸多技術(shù)難點(diǎn),Meta和德國慕尼黑工業(yè)大學(xué)的研究人員聯(lián)合開發(fā)了創(chuàng)新模型——ViewDiff。
用戶通過文本、圖像或二者結(jié)合使用,就能生成高質(zhì)量多視角3D圖像,可幫助游戲開發(fā)、元宇宙等行業(yè)快速構(gòu)建模型。
根據(jù)測試數(shù)據(jù)顯示,ViewDiff生成的圖像在一致性和視覺質(zhì)量方面非常出色,并將FID、KID的數(shù)據(jù),分別提升了30%和37%。
論文地址:https://arxiv.org/abs/2403.01807
項目地址:https://lukashoel.github.io/ViewDiff/
目前,文本生成一致性、多視角3D圖像主要有三大難點(diǎn):通常無法生成真實的背景環(huán)境,大多數(shù)只能在簡單或純色背景上渲染3D物體模型,缺乏與自然環(huán)境的融合;
生成圖像的質(zhì)量和多樣性不理想,由于受限于訓(xùn)練數(shù)據(jù)的規(guī)模,一些方法只能產(chǎn)生質(zhì)量有限、風(fēng)格單一的輸出;
缺乏多視角和一致性,大多數(shù)方法都是獨(dú)立生成單一視角,無法確保同一物體在不同視角下的幾何和外觀的一致性,這極大限制了3D圖像的實用性。
而ViewDiff使用了一種創(chuàng)新架構(gòu),先使用文生圖模型作為先驗知識和圖像流生成器,然后通過顯式的3D建模為圖像賦予生成一致性、多視角3D圖像的能力。
增強(qiáng)U-Net架構(gòu)
為了使文生圖模型能夠有效捕獲3D幾何和全局風(fēng)格,研究人員對原有U-Net架構(gòu)進(jìn)行了創(chuàng)新,添加了兩種新的層:跨幀注意力層和投影層。
1)跨幀注意力層:主要替換了U-Net中的標(biāo)準(zhǔn)自注意力層。不同于只關(guān)注單個圖像內(nèi)部的特征,跨幀注意力層將每個圖像的特征與其他所有圖像的特征進(jìn)行交互,實現(xiàn)了跨圖像的風(fēng)格匹配。
2)投影層:雖然跨幀注意力層能協(xié)調(diào)全局風(fēng)格,但它無法顯式地對3D幾何知識進(jìn)行建模。
因此,研究人員又開發(fā)了投影層,將多視圖2D特征集成為一個顯式的3D體素特征,再將其渲染回2D特征,保證了輸出圖像的3D幾何一致性。
原U-Net架構(gòu)在跨幀注意力層和投影層的增強(qiáng)下,使得ViewDiff能夠在各個尺度上對2D特征進(jìn)行3D感知建模,并實現(xiàn)多視圖圖像的風(fēng)格協(xié)調(diào),最終生成一致性、高質(zhì)量的3D圖像。
自回歸生成
?
為了在任意視角上生成更多的3D一致性圖像,ViewDiff開發(fā)了自回歸生成模塊,將允許從已生成的圖像繼續(xù)生成更多的圖像,以呈現(xiàn)不同的視角。
首先,給定一個初始圖像,可以是輸入的多視角生成的圖像中的任意一個。這個初始圖像將作為生成過程的起點(diǎn)。
然后初始圖像通過編碼器網(wǎng)絡(luò),提取出特征表示。編碼器網(wǎng)絡(luò)通常由卷積層和池化層組成,用于逐漸減小特征圖的尺寸和提取高級語義特征。
接著編碼器的特征表示被送入解碼器網(wǎng)絡(luò),解碼器網(wǎng)絡(luò)的結(jié)構(gòu)與編碼器相反。解碼器逐漸增加特征圖的尺寸,并通過反卷積等操作生成更高分辨率的圖像。
解碼器的每個步驟都會生成一個新的圖像,并將其與之前生成的圖像進(jìn)行疊加,形成一個新的輸入。
這個新的輸入將作為下一個步驟的輸入,以生成下一個新的圖像。通過不斷迭代生成新的圖像,使得ViewDiff能夠在任意視角上生成更多的3D一致性圖像。
本文轉(zhuǎn)自 AIGC開放社區(qū) ,作者:AIGC開放社區(qū)
