自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

視覺(jué)效果超贊!隨意畫個(gè)草圖就能生成3D交互游戲場(chǎng)景!騰訊XR出品

發(fā)布于 2024-8-12 08:10
瀏覽
0收藏

視覺(jué)效果超贊!隨意畫個(gè)草圖就能生成3D交互游戲場(chǎng)景!騰訊XR出品-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2408.04567
項(xiàng)目地址:https://xrvisionlabs.github.io/Sketch2Scene/

視覺(jué)效果超贊!隨意畫個(gè)草圖就能生成3D交互游戲場(chǎng)景!騰訊XR出品-AI.x社區(qū)

亮點(diǎn)直擊

  • 可控的、基于草圖指導(dǎo)的2D isometric圖像生成流程。
  • 一個(gè)基底圖修補(bǔ)模型,通過(guò)在新數(shù)據(jù)集上進(jìn)行逐步展開(kāi)的去噪擴(kuò)散訓(xùn)練。
  • 基于學(xué)習(xí)的組合式3D場(chǎng)景理解模塊。
  • 一個(gè)程序化生成流程,用于使用上述場(chǎng)景理解模塊獲得的場(chǎng)景參數(shù)渲染互動(dòng)3D場(chǎng)景。


3D內(nèi)容生成是許多計(jì)算機(jī)圖形應(yīng)用的核心,包括視頻游戲、電影制作、虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)等。本文提出了一種基于深度學(xué)習(xí)的創(chuàng)新方法,用于從用戶的隨意提示(如手繪草圖)自動(dòng)生成互動(dòng)和可玩的3D游戲場(chǎng)景?;诓輬D的輸入提供了一種自然且便捷的方式,以傳達(dá)用戶在內(nèi)容創(chuàng)作過(guò)程中的設(shè)計(jì)意圖。為了克服學(xué)習(xí)中的數(shù)據(jù)不足挑戰(zhàn)(即缺乏大量的3D場(chǎng)景訓(xùn)練數(shù)據(jù)),

本文的方法利用了預(yù)訓(xùn)練的2D去噪擴(kuò)散模型來(lái)生成場(chǎng)景的2D圖像作為概念指導(dǎo)。在這個(gè)過(guò)程中,采用isometric投影模式來(lái)去除未知的相機(jī)姿態(tài),同時(shí)獲取場(chǎng)景布局。通過(guò)生成的isometric圖像,使用預(yù)訓(xùn)練的圖像理解方法將圖像分割成有意義的部分,如地面物體、樹木和建筑,并提取2D場(chǎng)景布局。這些分割和布局隨后被輸入到程序化內(nèi)容生成(PCG)引擎中,如Unity或Unreal等3D視頻游戲引擎,以創(chuàng)建3D場(chǎng)景。生成的3D場(chǎng)景可以無(wú)縫集成到游戲開(kāi)發(fā)環(huán)境中,并且可以直接進(jìn)行游戲。廣泛的測(cè)試表明,我們的方法能夠高效地生成高質(zhì)量和互動(dòng)性強(qiáng)的3D游戲場(chǎng)景,其布局與用戶的意圖緊密相關(guān)。

方法

下圖2提供了流程的概述,該流程包括三個(gè)關(guān)鍵模塊:草圖指導(dǎo)的isometric生成、視覺(jué)場(chǎng)景理解和程序化3D場(chǎng)景生成。

視覺(jué)效果超贊!隨意畫個(gè)草圖就能生成3D交互游戲場(chǎng)景!騰訊XR出品-AI.x社區(qū)

A. 草圖指導(dǎo)的isometric生成

1)2D isometric圖像生成:從用戶的隨意草圖開(kāi)始,首要任務(wù)是生成3D場(chǎng)景的2D概念圖。為此,本文提出使用預(yù)訓(xùn)練的2D圖像(去噪)擴(kuò)散模型,通過(guò)isometric投影模型生成3D場(chǎng)景的斜視圖。isometric投影是一種特殊的正交相機(jī)投影,其中具有相同維度的坐標(biāo)軸長(zhǎng)度相等,且每對(duì)坐標(biāo)軸之間的角度為120°主要使用這種投影方式,因?yàn)樗谔幚碚趽鯐r(shí)更為簡(jiǎn)單。采用ControlNet來(lái)為用戶提供對(duì)生成場(chǎng)景布局的精確控制。ControlNet允許預(yù)訓(xùn)練的文本到圖像擴(kuò)散模型在去噪步驟中進(jìn)行額外的空間條件化。用N通道的獨(dú)熱編碼進(jìn)行草圖基礎(chǔ)條件化,其中每個(gè)通道對(duì)應(yīng)一個(gè)獨(dú)特的草圖類別(例如建筑、道路、水體、橋梁等)。與更常用的RGB像素域條件化相比,獨(dú)熱表示具有較簡(jiǎn)單的訓(xùn)練復(fù)雜度,并且允許類別重疊。


本文的方法只需用戶提供一個(gè)包含任意數(shù)量類別的手繪草圖。一旦草圖提供后,本文的方法應(yīng)該能夠用合適和兼容的內(nèi)容填補(bǔ)空白區(qū)域。例如,如果用戶畫了一些房子,模型應(yīng)該能夠生成與這些房子自然對(duì)齊的道路網(wǎng)絡(luò)和樹木,從而形成和諧的場(chǎng)景。為了使輸入草圖具備這種靈活性,模型應(yīng)該使用具有多樣化組合的草圖進(jìn)行訓(xùn)練。例如,相同的水域圖可以與不同的道路關(guān)聯(lián),或者相同的道路可以與不同的建筑結(jié)合。因此,進(jìn)行了草圖類別過(guò)濾,通過(guò)隨機(jī)刪除每個(gè)類別來(lái)增強(qiáng)草圖。如下圖3所示,通過(guò)去除其他類別但保留道路,參考圖像的草圖被增強(qiáng)為新的草圖。

視覺(jué)效果超贊!隨意畫個(gè)草圖就能生成3D交互游戲場(chǎng)景!騰訊XR出品-AI.x社區(qū)

上述增強(qiáng)數(shù)據(jù)的訓(xùn)練不能直接進(jìn)行,因?yàn)樗性鰪?qiáng)的草圖都對(duì)應(yīng)于相同的真實(shí)值,如上圖3所示。為了解決這個(gè)問(wèn)題,本文引入了一個(gè)新的損失函數(shù),即草圖感知損失(SAL)。為每個(gè)草圖創(chuàng)建一個(gè)soft-mask,并將其作為損失權(quán)重矩陣應(yīng)用,以鼓勵(lì)ControlNet的監(jiān)督關(guān)注草圖中的有效區(qū)域。權(quán)重通過(guò)使用高斯核卷積草圖mask 獲得,如上圖3中間列所示。這意味著靠近用戶草圖的區(qū)域應(yīng)用更高的權(quán)重,反之亦然。設(shè)ω,最終的mask 被納入到以下?lián)p失中。

視覺(jué)效果超贊!隨意畫個(gè)草圖就能生成3D交互游戲場(chǎng)景!騰訊XR出品-AI.x社區(qū)

視覺(jué)效果超贊!隨意畫個(gè)草圖就能生成3D交互游戲場(chǎng)景!騰訊XR出品-AI.x社區(qū)


2) 2D 空白地形提取:為了恢復(fù)場(chǎng)景中對(duì)應(yīng)的 3D 地形,需要一張干凈的空白地形參考圖像(即“基底圖”)。在生成的 2D isometric圖像中,由于前景物體的存在,仍然有一些地形的遮擋區(qū)域。例如,建筑物遠(yuǎn)側(cè)的地面不可見(jiàn)。與一般的修補(bǔ)任務(wù)不同,這一任務(wù)具有挑戰(zhàn)性,因?yàn)樾扪a(bǔ)區(qū)域不得包含任何前景物體。現(xiàn)有的基于上下文的修補(bǔ)方法由于缺乏先驗(yàn)知識(shí)而難以填補(bǔ)如此大的ma s k。盡管基于擴(kuò)散的生成修補(bǔ)方法展現(xiàn)了潛力,當(dāng)前的最先進(jìn)(SOTA)方法,如 RePaint、EditBench 和 Stable Diffusion XL Inpaint (SDXL-Inpaint),即使使用精心設(shè)計(jì)的提示,也未能產(chǎn)生令人滿意的結(jié)果。(參見(jiàn)下圖6)

視覺(jué)效果超贊!隨意畫個(gè)草圖就能生成3D交互游戲場(chǎng)景!騰訊XR出品-AI.x社區(qū)

為了解決這個(gè)問(wèn)題,本文對(duì) SDXL-Inpaint 進(jìn)行 LoRA 微調(diào),以學(xué)習(xí)基底圖和前景mask 的分布。為了克服缺乏isometric基底數(shù)據(jù)集進(jìn)行訓(xùn)練的障礙,從三種類型的數(shù)據(jù)源中收集了訓(xùn)練數(shù)據(jù)集:具有前景物體的isometric圖像、空白地形的透視圖像和地形紋理圖像。在使用具有前景物體的isometric圖像進(jìn)行訓(xùn)練時(shí),修補(bǔ)mask 的設(shè)計(jì)要求與前景物體沒(méi)有重疊。另一方面,另外兩種類型的訓(xùn)練數(shù)據(jù)使用從其他isometric圖像中隨機(jī)提取的前景mask ,與隨機(jī)形狀交叉。

a) 訓(xùn)練目標(biāo):原始的 SDXL-Inpaint 構(gòu)建自一個(gè) 9 通道輸入的 UNet,損失函數(shù)定義為:

視覺(jué)效果超贊!隨意畫個(gè)草圖就能生成3D交互游戲場(chǎng)景!騰訊XR出品-AI.x社區(qū)

其中

視覺(jué)效果超贊!隨意畫個(gè)草圖就能生成3D交互游戲場(chǎng)景!騰訊XR出品-AI.x社區(qū)

視覺(jué)效果超贊!隨意畫個(gè)草圖就能生成3D交互游戲場(chǎng)景!騰訊XR出品-AI.x社區(qū)

視覺(jué)效果超贊!隨意畫個(gè)草圖就能生成3D交互游戲場(chǎng)景!騰訊XR出品-AI.x社區(qū)

在修補(bǔ)模型的訓(xùn)練階段,所有三種類型的訓(xùn)練數(shù)據(jù)都會(huì)被徹底打亂并隨機(jī)抽樣。


另一個(gè)阻礙修補(bǔ)性能的障礙是訓(xùn)練和推理之間去噪分布的偏移。這種偏移有兩種表現(xiàn)方式:在訓(xùn)練期間,mask區(qū)域是背景,而在推理期間,mask區(qū)域是前景。此外,盡管通過(guò)將偽前景mask與隨機(jī)形狀相交來(lái)模擬真實(shí)的前景mask,但仍存在輕微的差異。Step-Unrolled Denoising (SUD) 擴(kuò)散技術(shù)旨在解決這個(gè)問(wèn)題。在修補(bǔ)過(guò)程中適配了這一技術(shù),如下面算法1所述。需要注意的是,SUD 步驟僅在訓(xùn)練的后期階段應(yīng)用,因?yàn)樗鼉H在預(yù)測(cè)能夠產(chǎn)生合理結(jié)果時(shí)有效。

視覺(jué)效果超贊!隨意畫個(gè)草圖就能生成3D交互游戲場(chǎng)景!騰訊XR出品-AI.x社區(qū)

B. 視覺(jué)場(chǎng)景理解

將3D場(chǎng)景分解為三個(gè)主要組成部分:地形高度圖、紋理貼圖圖和前景物體。高度圖控制地形的形狀。紋理貼圖圖及其相應(yīng)的紋理磚塊決定地形的紋理和顏色。貼圖圖通常在游戲引擎中使用,作為瓦片紋理的透明合成,以獲得紋理化的地形。前景物體的實(shí)例和姿態(tài)確定了放置在場(chǎng)景中的3D物體的類型、位置和方向。


1)地形高度圖:在基底圖修補(bǔ)之后,場(chǎng)景中仍有一些區(qū)域部分被遮擋,例如山的背面。從修補(bǔ)后的2D地形圖中重建一個(gè)粗略但密封的3D地形網(wǎng)格。這個(gè)網(wǎng)格將成為解析游戲地形參數(shù)的基礎(chǔ),使得在游戲環(huán)境中生成高保真場(chǎng)景成為可能。與依賴增量場(chǎng)景重建的先前方法不同,本文的方法利用了isometric視角,這提供了環(huán)境的全面概述,最小化了遮擋。這能夠僅使用一張圖像恢復(fù)場(chǎng)景的大部分顏色和深度信息。為了推斷場(chǎng)景深度,采用 Depth-Anything 方法,然后將 RGB-D 圖像重新投影到空間中以獲得有色點(diǎn)云。接著,使用 Poisson 重建技術(shù)重建完整的網(wǎng)格。


視覺(jué)效果超贊!隨意畫個(gè)草圖就能生成3D交互游戲場(chǎng)景!騰訊XR出品-AI.x社區(qū)


粗略的顏色參考還包括水域區(qū)域,這些區(qū)域按前述方法進(jìn)行分割。對(duì)于水域類別,不僅在場(chǎng)景中添加水體資產(chǎn),還降低這些區(qū)域的地形高度,以確保地形位于水位以下。


2)紋理貼圖圖:粗略的地形網(wǎng)格在旋轉(zhuǎn)到 BEV 時(shí)提供了粗略的顏色參考。然而,直接使用這圖像作為地形的紋理將導(dǎo)致游戲中視覺(jué)效果模糊、質(zhì)量低下。流行的游戲引擎(例如 Unity、UE)使用 N 種紋理磚塊和 N 通道貼圖圖來(lái)處理地形紋理,其中貼圖圖作為對(duì)應(yīng)紋理磚塊的透明合成。具體來(lái)說(shuō),通過(guò)使用 Segment Everything 對(duì) BEV 中地形網(wǎng)格的渲染 RGB 圖像進(jìn)行分割來(lái)獲取紋理貼圖圖,并使用 Osprey 為每個(gè)分割mask(例如草地、巖石、道路)獲得語(yǔ)義類別。然后,我們從相應(yīng)類別的紋理磚塊列表中自動(dòng)挑選,并將其分配給地形。這確保了地形紋理即使在近距離查看時(shí)也保持清晰。


視覺(jué)效果超贊!隨意畫個(gè)草圖就能生成3D交互游戲場(chǎng)景!騰訊XR出品-AI.x社區(qū)

視覺(jué)效果超贊!隨意畫個(gè)草圖就能生成3D交互游戲場(chǎng)景!騰訊XR出品-AI.x社區(qū)

C. 程序化 3D 場(chǎng)景生成

通過(guò)利用前一模塊中獲得的語(yǔ)義和幾何理解,我們可以結(jié)合程序生成技術(shù)進(jìn)行場(chǎng)景創(chuàng)建,使用 3D 資產(chǎn)檢索或生成。最后,3D 場(chǎng)景在現(xiàn)成的 3D 游戲引擎(如 Unity 或 Unreal Engine)中組成并渲染。在此工作中,使用 Unity 游戲引擎來(lái)構(gòu)建3D 互動(dòng)環(huán)境,因?yàn)?Unity 提供了寶貴的優(yōu)化功能,用于地形、植被和動(dòng)畫,確保優(yōu)化的運(yùn)行時(shí)性能。其他游戲引擎或 3D 平臺(tái)(如 Blender)也可以輕松使用。


鑒于高度圖、貼圖圖和選定的紋理磚塊,可以輕松將它們應(yīng)用到 Unity 地形資產(chǎn)中。這提供了一個(gè)具有高分辨率紋理的基本 3D 地形。根據(jù)紋理類型,可以指定可以在其上放置或生長(zhǎng)的植被和小物體。例如,草地紋理可能包括草、花和巖石等資產(chǎn),這些資產(chǎn)使用已建立的程序內(nèi)容生成技術(shù)遍布地形。對(duì)于較大的物體,使用前景物體的分割實(shí)例(例如建筑物、橋梁)來(lái)執(zhí)行物體檢索或 3D 物體生成。對(duì)于前者,通過(guò)比較 CLIP 分?jǐn)?shù),從 Objaverse 數(shù)據(jù)集中搜索最相似的 3D 物體實(shí)例。對(duì)于后者,使用最新的 2D 到 3D 資產(chǎn)生成 AI 模型(如 LRM 或其他 [3]、[38]、[39])生成 3D 資產(chǎn)。這些生成的 3D 物體然后按照前面步驟中估計(jì)的前景物體姿態(tài)放置到場(chǎng)景中,完成 3D 場(chǎng)景。

結(jié)果

A. 訓(xùn)練和推理細(xì)節(jié)

視覺(jué)效果超贊!隨意畫個(gè)草圖就能生成3D交互游戲場(chǎng)景!騰訊XR出品-AI.x社區(qū)


研究者們收集了數(shù)據(jù)集分別訓(xùn)練ControlNet和修復(fù)模型。ControlNet數(shù)據(jù)集包括10,000個(gè)由SDXL生成的isometric視角游戲場(chǎng)景圖像,這些圖像與來(lái)自InstructBlip的相應(yīng)文本提示和相關(guān)草圖配對(duì)。這些草圖是通過(guò)結(jié)合多個(gè)StoA基礎(chǔ)模型的結(jié)果生成的,包括Grounding DINO、Segment Anything和Osprey。由于沒(méi)有isometric底圖作為真實(shí)值,從三個(gè)來(lái)源策劃了一個(gè)修復(fù)數(shù)據(jù)集:5,000張帶有前景物體的isometric圖像,4,000張手動(dòng)過(guò)濾的空地透視圖像,以及1,000張純紋理圖像。

B. isometric2D圖像生成

下圖5展示了使用ControlNet和修復(fù)模型在多種用戶草圖和提示下生成的代表性結(jié)果。這些結(jié)果展示了ControlNet準(zhǔn)確跟隨草圖布局并應(yīng)用提示指示的場(chǎng)景風(fēng)格的能力。即使前景mask 覆蓋了圖像的大部分區(qū)域,修復(fù)模型也生成了與完整的isometric圖像一致的干凈底圖。


如圖5所示,ControlNet為用戶的草圖提供了靈活性,可以適應(yīng)如圖5a和5b中的單一水類場(chǎng)景,以及圖5c中的三種不同類別場(chǎng)景。在使用相同草圖的情況下,圖5a和5b通過(guò)應(yīng)用不同的文本風(fēng)格生成了不同的場(chǎng)景。如何平衡草圖條件和文本提示指導(dǎo)的影響是關(guān)鍵。SAL增強(qiáng)版ControlNet通過(guò)允許不精確的用戶草圖簡(jiǎn)化了這一平衡過(guò)程。它偶爾會(huì)添加額外的物體或擴(kuò)展區(qū)域,以實(shí)現(xiàn)用戶的設(shè)計(jì)意圖。例如,在圖5b中,河流和瀑布自然地結(jié)合在一起,滿足了文本和草圖的要求。在圖5c中,增加了八棟建筑,以符合“擁有許多建筑的城鎮(zhèn)”這一短語(yǔ),同時(shí)尊重了用戶繪制的原始草圖。

視覺(jué)效果超贊!隨意畫個(gè)草圖就能生成3D交互游戲場(chǎng)景!騰訊XR出品-AI.x社區(qū)

C. 修復(fù)對(duì)比

我們將修復(fù)結(jié)果與SDXL-Inpaint在前面圖6中的isometric圖像進(jìn)行了對(duì)比。本文使用的正向提示是“一個(gè)空的地形圖,表面上沒(méi)有任何突出的東西。這是一片沒(méi)有建筑物、植被或橋梁的景觀。”負(fù)向提示為“建筑物、植被、樹木、橋梁、偽影、低質(zhì)量”。我們的模型成功生成了干凈且一致的底圖,而SDXL-Inpaint則傾向于用偽影替代建筑物和樹木。

D. 視覺(jué)場(chǎng)景理解

在給定2Disometric圖和空白底圖的情況下,視覺(jué)場(chǎng)景理解模塊恢復(fù)了前景物體的實(shí)例級(jí)語(yǔ)義分割,估算了isometric深度,恢復(fù)了粗略的地形網(wǎng)格,渲染了鳥瞰高度圖和彩色圖像,分割了紋理圖,并恢復(fù)了前景物體的位置。下圖7顯示了生成的高度圖、鳥瞰物體位置和提取的物體參考圖像的示例。

視覺(jué)效果超贊!隨意畫個(gè)草圖就能生成3D交互游戲場(chǎng)景!騰訊XR出品-AI.x社區(qū)

E. 程序化3D場(chǎng)景生成

下圖8展示了從前面圖1、圖5a和圖5c的isometric圖像生成的三個(gè)3D場(chǎng)景。結(jié)果顯示,這些3D場(chǎng)景的布局和紋理風(fēng)格與相關(guān)的草圖和isometric圖像高度一致。第一個(gè)場(chǎng)景中的物體是從Objaverse中檢索的,而第二個(gè)和第三個(gè)場(chǎng)景中的物體是通過(guò)使用從isometric圖像提取的物體實(shí)例圖像生成的。這些物體不僅與場(chǎng)景的紋理風(fēng)格和諧匹配,而且根據(jù)鳥瞰圖(BEV)的足跡在3D場(chǎng)景中自動(dòng)且準(zhǔn)確地縮放、定向和定位。需要注意的是,由于材質(zhì)組成和光照動(dòng)態(tài)的變化,導(dǎo)致3D場(chǎng)景的渲染圖像與參考圖像之間存在輕微的顏色差異。更多示例結(jié)果見(jiàn)圖9和圖10。

視覺(jué)效果超贊!隨意畫個(gè)草圖就能生成3D交互游戲場(chǎng)景!騰訊XR出品-AI.x社區(qū)

視覺(jué)效果超贊!隨意畫個(gè)草圖就能生成3D交互游戲場(chǎng)景!騰訊XR出品-AI.x社區(qū)

視覺(jué)效果超贊!隨意畫個(gè)草圖就能生成3D交互游戲場(chǎng)景!騰訊XR出品-AI.x社區(qū)

F. 局限性

本文目前的實(shí)現(xiàn)采用了一個(gè)多階段的pipeline,涉及許多中間階段。錯(cuò)誤很容易累積,有時(shí)需要用戶從不同的噪聲種子重新開(kāi)始。一種潛在的解決方案是同時(shí)生成多種模式,如RGB、語(yǔ)義、深度、表面材質(zhì)和物體足跡,并融合這些中間結(jié)果,直到獲得連貫的最終結(jié)果。同時(shí)生成前景和背景層也是一個(gè)可能的解決方案,例如應(yīng)用新提出的LayerDiffusion方法。目前,在本文的pipeline中,地形紋理和地形材料僅通過(guò)檢索地形數(shù)據(jù)庫(kù)獲得,這限制了地形紋理的多樣性。未來(lái)計(jì)劃開(kāi)發(fā)基于擴(kuò)散的紋理生成模型,類似于[45]、[46]。

視覺(jué)效果超贊!隨意畫個(gè)草圖就能生成3D交互游戲場(chǎng)景!騰訊XR出品-AI.x社區(qū)

結(jié)論

本文提出了一種名為Sketch2Scene的新方法,用于根據(jù)用戶的隨意草圖和文本提示生成3D互動(dòng)場(chǎng)景。為了解決3D場(chǎng)景缺乏大規(guī)模訓(xùn)練數(shù)據(jù)的主要挑戰(zhàn),利用并改進(jìn)了預(yù)訓(xùn)練的大規(guī)模2D擴(kuò)散模型。為現(xiàn)有的擴(kuò)散模型提供了兩個(gè)創(chuàng)新:(1) SAL增強(qiáng)的ControlNet,(2) 逐步展開(kāi)的擴(kuò)散修復(fù)。與其他用于3D場(chǎng)景生成的最新生成技術(shù)(例如,使用SDS損失或直接三平面回歸)相比,本文的方法生成了高質(zhì)量的互動(dòng)3D場(chǎng)景,并且可以將生動(dòng)的3D資產(chǎn)無(wú)縫集成到現(xiàn)有的游戲引擎中,為許多下游應(yīng)用做好準(zhǔn)備。


本文轉(zhuǎn)自 AI生成未來(lái) ,作者:Yongzhi Xu等


原文鏈接:??https://mp.weixin.qq.com/s/mMXp9sVgQ2Njia1pyyFFmw??

標(biāo)簽
已于2024-8-12 08:14:06修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦