一句話一張圖秒變3D動(dòng)畫,4K級(jí)超清畫質(zhì)!英偉達(dá)祭出新作,游戲生成世界成真
不滿足于只是自己在紙上照著自己的想法去寫寫畫畫,但是又沒(méi)精力去學(xué)習(xí)專業(yè)的3D建模技能,怎么破?
你有曾想過(guò),僅僅通過(guò)文字描述自己的想象,就可以將其創(chuàng)造為分辨率高達(dá)4K的實(shí)體3D模型嗎?
現(xiàn)在,你可以通過(guò)Nvidia發(fā)布的Edify 3D實(shí)現(xiàn)你的奇思妙想了!只要你具有足夠好的創(chuàng)意,甚至可以利用Edify 3D來(lái)創(chuàng)造出經(jīng)典的游戲、電影的3D模型實(shí)體,例如有趣的小黃人。
請(qǐng)看官方視頻展示,用戶只是進(jìn)行文字描述,Edify 3D就可以即時(shí)生成高清的3D布景、頭骨、烏龜?shù)?D實(shí)體。
由于創(chuàng)建3D內(nèi)容需要相關(guān)的專業(yè)技能和專業(yè)知識(shí),這使得此類資產(chǎn)比圖像和視頻等其他視覺(jué)媒體稀缺得多。這種稀缺性引出一個(gè)關(guān)鍵的研究問(wèn)題,即如何設(shè)計(jì)可擴(kuò)展的模型以有效地從這些數(shù)據(jù)中生成高質(zhì)量的3D資產(chǎn)。
Edify 3D可在2分鐘內(nèi)根據(jù)文本描述或者前景圖像生成高質(zhì)量的3D資產(chǎn),其提供詳細(xì)的幾何圖形、清晰的形狀拓?fù)?、井然有序的UV映射、高達(dá)4K分辨率的紋理以及基于物理的材質(zhì)渲染。與其他文本到3D方法相比,Edify 3D始終如一地生成卓越的3D形狀和紋理,在效率和可擴(kuò)展性方面都有顯著改進(jìn)。
Edify 3D的流程
Edify 3D的流程為:在給定對(duì)于3D實(shí)體對(duì)象的文字描述后,多視圖擴(kuò)散模型會(huì)合成描述對(duì)象的RGB外觀。然后,生成的多視圖RGB圖像被用作使用多視圖ControlNet合成表面法線的條件。接下來(lái),重建模型將多視圖RGB和正常圖像作為輸入,并使用一組潛在標(biāo)記預(yù)測(cè)神經(jīng)3D表示。然后進(jìn)行等值面提取和隨后的網(wǎng)格后處理,以獲得網(wǎng)格幾何。放大的ControlNet用于提高紋理分辨率,對(duì)網(wǎng)格光柵化進(jìn)行調(diào)節(jié)以生成高分辨率多視圖RGB圖像,然后將其反向投影到紋理貼圖上。
多視圖擴(kuò)散模型
創(chuàng)建多視圖圖像的過(guò)程類似于視頻生成的設(shè)計(jì)的我們通過(guò)使用相機(jī)姿勢(shì)調(diào)節(jié)文本到圖像模型,將它們微調(diào)為姿勢(shì)感知多視圖擴(kuò)散模型。這些模型將文本提示和攝像機(jī)姿勢(shì)作為輸入,并從不同的視點(diǎn)合成對(duì)象的外觀。
跨視圖注意力
研究者在模型訓(xùn)練時(shí),訓(xùn)練了以下模型:
- 基于多視圖擴(kuò)散模型,該模型根據(jù)輸入文本提示合成RGB外觀以及相機(jī)姿態(tài)。
- 多視圖ControlNet模型,該模型基于多視圖RGB合成和文本提示來(lái)合成物體的表面法線。
- 多視圖上采樣控制網(wǎng)絡(luò),該網(wǎng)絡(luò)在給定3D網(wǎng)格的柵格化紋理和表面法線條件下,將多視圖RGB圖像超分辨率提升至更高分辨率。
研究者使用Edify Image模型作為基礎(chǔ)擴(kuò)散模型架構(gòu),結(jié)合一個(gè)具有27億參數(shù)的U-Net,在像素空間中進(jìn)行擴(kuò)散操作。ControlNet編碼器使用U-Net的權(quán)重進(jìn)行初始化。他們通過(guò)一種新機(jī)制擴(kuò)展了原始文本到圖像擴(kuò)散模型中的自注意力層,以關(guān)注不同視圖,從而使得其作為具有相同權(quán)重的視頻擴(kuò)散模型。通過(guò)一個(gè)輕量級(jí)MLP對(duì)相機(jī)姿態(tài)(旋轉(zhuǎn)和平移)進(jìn)行編碼,隨后將這些編碼作為時(shí)間嵌入添加到視頻擴(kuò)散模型架構(gòu)中。
研究者在3D對(duì)象的渲染圖上微調(diào)文本到圖像模型。在訓(xùn)練過(guò)程中,他們同時(shí)使用自然2D圖像以及隨機(jī)數(shù)量(1、4和8)的視圖的3D對(duì)象渲染圖進(jìn)行聯(lián)合訓(xùn)練。使用參數(shù)對(duì)損失進(jìn)行訓(xùn)練,與基礎(chǔ)模型訓(xùn)練中使用的方法一致。對(duì)于多視圖ControlNets,首先使用多視圖表面法線圖像訓(xùn)練基礎(chǔ)模型。隨后,我們添加一個(gè)以RGB圖像為輸入的ControlNet編碼器,并在凍結(jié)基模型的同時(shí)對(duì)其進(jìn)行訓(xùn)練。
關(guān)于視圖數(shù)量擴(kuò)展的消融研究
在訓(xùn)練過(guò)程中,研究者會(huì)對(duì)每個(gè)訓(xùn)練對(duì)象抽取1、4或8個(gè)視圖,為每個(gè)視圖分配不同的抽樣比例。雖然可以在推理過(guò)程中采樣任意數(shù)量的視圖,以使用不同數(shù)量的視圖進(jìn)行訓(xùn)練,但最好還是將訓(xùn)練視圖與推理過(guò)程中預(yù)期的視圖數(shù)量相匹配。這有助于最大限度地縮小訓(xùn)練和推理性能之間的差距。
研究者對(duì)比了兩個(gè)模型:一個(gè)主要在4視圖圖像上訓(xùn)練,另一個(gè)在8視圖圖像上訓(xùn)練,并在相同視角采樣10視圖圖像。如下圖所示,與使用4視圖圖像訓(xùn)練的模型相比,使用8視圖圖像訓(xùn)練的模型生成的圖像更自然,各視圖之間的多視圖一致性更好。
使用四個(gè)視圖的圖像進(jìn)行訓(xùn)練的模型
使用八個(gè)視圖的圖像進(jìn)行訓(xùn)練的模型
重建模型
從圖像觀測(cè)中提取3D結(jié)構(gòu)通常被稱為攝影測(cè)量,該技術(shù)已被廣泛應(yīng)用于許多3D重建任務(wù)中。研究者使用基于Transformer的重建模型從多視圖圖像中生成3D網(wǎng)格幾何形狀、紋理圖和材質(zhì)圖。他們發(fā)現(xiàn),基于Transformer的模型對(duì)未見(jiàn)過(guò)的物體圖像表現(xiàn)出強(qiáng)大的泛化能力,包括從2D多視角擴(kuò)散模型合成的輸出。
研究者使用僅解碼器的Transformer模型,以三平面作為潛在3D表示。輸入的RGB和法線圖像作為重建模型的條件,在三平面標(biāo)記和輸入條件之間應(yīng)用交叉注意力層。三平面標(biāo)記通過(guò)MLP處理以預(yù)測(cè)用于簽名距離函數(shù)(SDF)和PBR屬性的神經(jīng)網(wǎng)絡(luò)場(chǎng),用于基于SDF的體積渲染。神經(jīng)網(wǎng)絡(luò)SDF通過(guò)等值面提取轉(zhuǎn)換為3D網(wǎng)格。PBR屬性通過(guò)UV映射烘焙到紋理和材質(zhì)圖中,包括漫反射顏色和如粗糙度和金屬通道等材質(zhì)屬性。
研究團(tuán)隊(duì)使用大規(guī)模圖像和3D資產(chǎn)數(shù)據(jù)來(lái)訓(xùn)練重建模型。該模型通過(guò)基于SDF的體積渲染在深度、法線、掩碼、反射率和材質(zhì)通道上進(jìn)行監(jiān)督,輸出由藝術(shù)家生成的網(wǎng)格渲染。由于表面法線計(jì)算相對(duì)昂貴,所以需要僅在表面計(jì)算法線并對(duì)真實(shí)情況進(jìn)行監(jiān)督。
他們發(fā)現(xiàn)將SDF的不確定性與其對(duì)應(yīng)的渲染分辨率對(duì)齊可以提高最終輸出的視覺(jué)效果。此外,還需要在損失計(jì)算期間屏蔽物體邊緣以避免由混疊引起的噪聲樣本。為了平滑樣本間的噪聲梯度,他們對(duì)最終重建模型權(quán)重應(yīng)用了指數(shù)移動(dòng)平均(EMA)。
重建模型方面的消融研究
研究者發(fā)現(xiàn),重建模型在恢復(fù)輸入視圖方面始終比新視圖更準(zhǔn)確。該模型在視點(diǎn)數(shù)量方面具有良好的擴(kuò)展性,即隨著提供更多信息,其性能得到提升。
輸入視圖數(shù)量的比較
對(duì)角線單元格表示輸入視圖與驗(yàn)證視圖匹配的情況。這些對(duì)角線條目通常顯示每行的最佳結(jié)果,表明模型最準(zhǔn)確地復(fù)制了輸入視圖。此外,隨著輸入視圖數(shù)量從4增加到16,結(jié)果持續(xù)改善。這表明重建模型從額外的輸入信息中受益,同時(shí)也證明了Edify 3D的重建模型的可擴(kuò)展性。
受模型隨視點(diǎn)數(shù)量擴(kuò)展的啟發(fā),研究者進(jìn)一步研究訓(xùn)練視點(diǎn)數(shù)量是否影響重建質(zhì)量。他們使用固定的8視圖設(shè)置評(píng)估模型,其中模型使用4、6、8和10個(gè)視圖進(jìn)行訓(xùn)練。
結(jié)果如下圖(a)所示。盡管隨機(jī)采樣相機(jī)姿態(tài)在訓(xùn)練過(guò)程中提供了多樣化的視圖,但隨著同一訓(xùn)練步驟中訓(xùn)練視圖數(shù)量的增加,重建質(zhì)量仍在持續(xù)提高。圖(b)為標(biāo)記數(shù)量的比較,它表明了在參數(shù)數(shù)量固定的情況下,模型需要更多的計(jì)算資源來(lái)處理更多的標(biāo)記。
數(shù)據(jù)處理
Edify 3D在非公開的大規(guī)模圖像、預(yù)渲染的多視圖圖像和3D形狀數(shù)據(jù)集的組合上進(jìn)行訓(xùn)練。原始3D數(shù)據(jù)經(jīng)過(guò)幾個(gè)預(yù)處理步驟,以達(dá)到模型訓(xùn)練所需的品質(zhì)和格式。
數(shù)據(jù)處理流程的第一步是將所有三維圖形轉(zhuǎn)換為統(tǒng)一格式。首先對(duì)網(wǎng)格進(jìn)行三角化處理,打包所有紋理文件,丟棄紋理或材質(zhì)已損壞的圖形,并將材質(zhì)轉(zhuǎn)換為金屬粗糙度格式。通過(guò)這一過(guò)程,用戶將得到一組三維圖形,可以按照其意圖進(jìn)行渲染。
對(duì)于數(shù)據(jù)來(lái)講,必要的一環(huán)是進(jìn)行數(shù)據(jù)質(zhì)量篩查。研究者從大型三維數(shù)據(jù)集中過(guò)濾掉非以物體為中心的數(shù)據(jù),且從多個(gè)視角渲染形狀,并使用分類器去除部分三維掃描、大型場(chǎng)景、形狀拼貼以及包含輔助結(jié)構(gòu)(如背景和地平面)的形狀。為確保質(zhì)量,這一過(guò)程通過(guò)多輪主動(dòng)學(xué)習(xí)進(jìn)行,由人類專家不斷制作具有挑戰(zhàn)性的示例來(lái)完善分類器。此外,他們還采用基于規(guī)則的過(guò)濾方法,去除明顯存在問(wèn)題的形狀,如過(guò)于單薄或缺乏紋理的形狀。
為了將3D數(shù)據(jù)渲染成圖像以用于擴(kuò)散和重建模型,研究團(tuán)隊(duì)需要使用自研的光照追蹤器進(jìn)行逼真渲染。他們采用多種采樣技術(shù)來(lái)處理相機(jī)參數(shù)。一半的圖像以固定的仰角和一致的內(nèi)參進(jìn)行渲染,而剩余的圖像則使用隨機(jī)的相機(jī)姿態(tài)和內(nèi)參進(jìn)行渲染。這種方法既適用于文本到 3D 用例,也適用于圖像到 3D 用例。
而對(duì)于3D實(shí)體的動(dòng)作模擬來(lái)講,則需要將模型和真實(shí)的實(shí)體進(jìn)行標(biāo)準(zhǔn)姿勢(shì)對(duì)齊。姿勢(shì)對(duì)齊是通過(guò)主動(dòng)學(xué)習(xí)實(shí)現(xiàn)的。研究者通過(guò)手動(dòng)策劃少量示例,來(lái)訓(xùn)練姿勢(shì)預(yù)測(cè)器,并在完整數(shù)據(jù)集中不斷利用困難示例來(lái)完成循環(huán)訓(xùn)練。
為了給3D形狀添加字幕,團(tuán)隊(duì)為每個(gè)形狀渲染一張圖像,并使用視覺(jué)語(yǔ)言模型(VLM)為圖像生成長(zhǎng)句和短句字幕。為了提高字幕的全面性,他們還向VLM提供形狀的元數(shù)據(jù)(例如標(biāo)題、描述、分類樹)。
結(jié)果
團(tuán)隊(duì)通過(guò)輸入文本提示以及渲染,使得生成的3D模型包含詳細(xì)的幾何形狀和清晰的紋理,具有良好分解的反射顏色,使其適用于各種下游編輯和渲染應(yīng)用。
文本到3D生成結(jié)果
對(duì)于圖像到3D生成,Edify 3D不僅能夠準(zhǔn)確恢復(fù)參考對(duì)象的底層3D結(jié)構(gòu),而且還能在輸入圖像中未直接觀察到的表面區(qū)域生成詳細(xì)的紋理。
圖像到3D生成結(jié)果
Edify 3D生成的資產(chǎn)以四邊形網(wǎng)格的形式呈現(xiàn),拓?fù)浣Y(jié)構(gòu)組織良好,如下圖所示。這些結(jié)構(gòu)化網(wǎng)格便于操作和精確調(diào)整,非常適合各種下游編輯任務(wù)和渲染應(yīng)用。這使它們能夠無(wú)縫集成到需要視覺(jué)真實(shí)性和靈活性的3D工作流程中。
四邊形網(wǎng)格拓?fù)?/span>
總的來(lái)說(shuō),Edify 3D是一種針對(duì)高質(zhì)量3D資產(chǎn)生成的解決方案。其研究團(tuán)隊(duì)致力于推進(jìn)和發(fā)展3D資產(chǎn)自動(dòng)化生成的新工具,使3D內(nèi)容創(chuàng)作更加易于。