單圖創(chuàng)造虛擬世界只需10秒!斯坦福&MIT聯(lián)合發(fā)布WonderWorld:高質(zhì)量交互生成 精華
文章鏈接:https://arxiv.org/pdf/2406.09394
項(xiàng)目地址: https://WonderWorld-2024.github.io/
今天推薦一種新穎的框架—— WonderWorld,它可以進(jìn)行交互式三維場(chǎng)景外推,使用戶能夠基于單張輸入圖像和用戶指定的文本探索和塑造虛擬環(huán)境。盡管現(xiàn)有方法在場(chǎng)景生成的視覺(jué)質(zhì)量上有了顯著改進(jìn),但這些方法通常是離線運(yùn)行的,生成一個(gè)場(chǎng)景需要幾十分鐘到幾個(gè)小時(shí)。通過(guò)利用快速高斯曲面(Fast Gaussian Surfels)和基于引導(dǎo)擴(kuò)散的深度估計(jì)方法,WonderWorld 在顯著減少計(jì)算時(shí)間的同時(shí),生成了幾何一致的外推場(chǎng)景。本文的框架在單個(gè) A6000 GPU 上生成相關(guān)且多樣的三維場(chǎng)景用時(shí)不到10秒,實(shí)現(xiàn)了實(shí)時(shí)用戶交互和探索。展示了 WonderWorld 在虛擬現(xiàn)實(shí)、游戲和創(chuàng)意設(shè)計(jì)中的潛力,用戶可以從單張圖像快速生成和導(dǎo)航身臨其境的、可能無(wú)限的虛擬世界。本文的方法代表了交互式三維場(chǎng)景生成的重大進(jìn)展,為用戶驅(qū)動(dòng)的內(nèi)容創(chuàng)建和虛擬環(huán)境中的探索開辟了新的可能性。
介紹
在過(guò)去的一年中,3D場(chǎng)景生成變得非常熱門,許多研究成功地探索了強(qiáng)大的生成圖像先驗(yàn)和單目深度估計(jì)的改進(jìn)。這些工作大大提高了生成場(chǎng)景的視覺(jué)質(zhì)量、可能的視角和多樣性。然而,所有這些工作都是離線完成的,用戶提供單個(gè)起始圖像或文本提示后,系統(tǒng)在幾十分鐘到幾小時(shí)后返回一個(gè)固定的3D場(chǎng)景或特定攝像路徑的視頻。雖然離線生成可能適用于小型、離散的場(chǎng)景或視頻,但這種設(shè)置對(duì)于許多場(chǎng)景生成的使用場(chǎng)景來(lái)說(shuō)是有問(wèn)題的。例如,在游戲開發(fā)中,世界設(shè)計(jì)師希望逐步構(gòu)建3D世界,能夠控制生成過(guò)程,并能夠低延遲地查看中間步驟。在虛擬現(xiàn)實(shí)和視頻游戲中,用戶期望可擴(kuò)展、多樣化的內(nèi)容,這些內(nèi)容比當(dāng)前生成的場(chǎng)景更大、更豐富。在未來(lái),用戶可能會(huì)希望更多:一個(gè)系統(tǒng)允許他們自由探索和塑造動(dòng)態(tài)演變的、無(wú)限的虛擬世界。所有這些都促使了交互式3D場(chǎng)景生成的問(wèn)題,在這種情況下,用戶可以低延遲地控制場(chǎng)景外推的內(nèi)容(例如,通過(guò)文本提示),并且可以控制場(chǎng)景外推的位置(例如,通過(guò)相機(jī)控制)。
為了理解阻礙交互性的技術(shù)問(wèn)題,本文檢查了幾種最先進(jìn)的3D場(chǎng)景生成方法,并確定了兩個(gè)主要限制。首先,場(chǎng)景生成速度太慢,無(wú)法實(shí)現(xiàn)交互性。每個(gè)生成的場(chǎng)景需要幾十分鐘進(jìn)行多次生成圖像修補(bǔ)和深度估計(jì)。其次,生成的場(chǎng)景在場(chǎng)景邊界處存在強(qiáng)烈的幾何失真,阻礙了從生成場(chǎng)景進(jìn)行外推。
本文提出了一個(gè)名為WonderWorld的框架,用于交互式場(chǎng)景生成。輸入是一張單一的圖像,輸出是一組相互連接但多樣化的3D場(chǎng)景。為了解決速度問(wèn)題,本文的核心技術(shù)涉及快速高斯表面(Fast Gaussian Surfels),其優(yōu)化由于采用了原理性、基于幾何的初始化而需要不到1秒的時(shí)間,以及分層場(chǎng)景生成,其中每個(gè)場(chǎng)景都解析可能發(fā)生遮擋的區(qū)域,然后預(yù)先生成內(nèi)容以填充這些特殊區(qū)域。為了解決幾何失真問(wèn)題,本文引入了一種引導(dǎo)擴(kuò)散的深度估計(jì)方法,確保外推場(chǎng)景和現(xiàn)有場(chǎng)景之間的幾何對(duì)齊。
使用本文的框架,外推或生成一個(gè)場(chǎng)景在單個(gè)A6000 GPU上花費(fèi)不到10秒的時(shí)間。這一突破解鎖了交互式場(chǎng)景生成的潛力,使用戶能夠?qū)我粓D像外推成一個(gè)廣闊而身臨其境的虛擬世界。本文的方法為虛擬現(xiàn)實(shí)、游戲和創(chuàng)意設(shè)計(jì)中的應(yīng)用開啟了新的可能性,用戶可以快速生成和探索多樣化的3D場(chǎng)景。
實(shí)現(xiàn)
本文的目標(biāo)是生成一組多樣但連貫連接的3D場(chǎng)景,形成一個(gè)潛在的無(wú)限虛擬世界。為此提出了WonderWorld,這是一個(gè)允許快速場(chǎng)景外推和實(shí)時(shí)渲染的框架,并提供了交互式視覺(jué)體驗(yàn)。概覽下圖2展示了本文的WonderWorld框架的示意圖。其主要思想是從輸入圖像生成3D場(chǎng)景,并通過(guò)外推現(xiàn)有場(chǎng)景逐步擴(kuò)展。用戶可以提供文本來(lái)指定要生成的場(chǎng)景內(nèi)容,也可以將其留給大型語(yǔ)言模型(LLM)處理。
主要的技術(shù)挑戰(zhàn)包括場(chǎng)景生成速度和外推場(chǎng)景中的幾何失真問(wèn)題。為了加快場(chǎng)景生成速度,本文采用了傳統(tǒng)的surfels思想,將其擴(kuò)展為3DGS,并展示這種擴(kuò)展允許基于幾何的原則初始化,顯著降低了優(yōu)化時(shí)間至小于1秒。針對(duì)生成場(chǎng)景中的透視洞(disocclusion holes),本文引入了逐層場(chǎng)景生成策略,不再依賴多視角圖像生成。因此,WonderWorld能夠在單個(gè)GPU上實(shí)現(xiàn)快速場(chǎng)景生成(不超過(guò)10秒)和實(shí)時(shí)渲染。為了解決幾何失真問(wèn)題,本文提出利用引導(dǎo)式深度擴(kuò)散來(lái)生成新場(chǎng)景的幾何形狀。引導(dǎo)式深度擴(kuò)散具有魯棒性和靈活性,可以指定各種幾何約束。
快速高斯面
渲染化和阿爾法混合渲染過(guò)程與 3D 高斯分割(3DGS) 相同。
基于幾何的初始化 本文的快速優(yōu)化核心思想是,因?yàn)閺膯我晥D圖像生成快速高斯表面,因此可以假設(shè)圖像中的每個(gè)像素揭示了底層 3D 場(chǎng)景中的一個(gè)表面。因此,可以利用對(duì)應(yīng)像素的信息來(lái)直接求解或近似表面的參數(shù),而不是隨機(jī)初始化和優(yōu)化。這樣,優(yōu)化過(guò)程得以簡(jiǎn)化、加速并適當(dāng)正則化。
具體來(lái)說(shuō),給定一個(gè)HxW像素的輸入圖像I,目標(biāo)是生成HxW個(gè)表面來(lái)表示底層 3D 場(chǎng)景。表面的顏色c初始化為像素的 RGB 值。表面的位置p可以通過(guò)反投影估計(jì):
分層場(chǎng)景生成
為了填補(bǔ)生成場(chǎng)景中的遮擋空洞,本文引入了一種分層場(chǎng)景生成策略。其主要思想是解析場(chǎng)景的幾何層結(jié)構(gòu),發(fā)現(xiàn)可能出現(xiàn)顯著遮擋的區(qū)域,通過(guò)去除遮擋內(nèi)容來(lái)顯露這些區(qū)域,并生成內(nèi)容以填補(bǔ)這些區(qū)域。本文稱這一過(guò)程為深度引導(dǎo)的層分解。上圖2頂部展示了一個(gè)示例。
給定層分割后,本文首先通過(guò)擴(kuò)散模型對(duì)天空層進(jìn)行修復(fù),并使用修復(fù)后的天空?qǐng)D像來(lái)訓(xùn)練相應(yīng)的FGS。然后,對(duì)背景層進(jìn)行修復(fù),并在固定的天空FGS之上訓(xùn)練背景FGS。最后,本文在固定的背景FGS和天空FGS之上訓(xùn)練前景FGS。
引導(dǎo)深度擴(kuò)散
為了生成一個(gè)無(wú)限的世界,本文需要將現(xiàn)有的場(chǎng)景推廣到未探索的空間。一個(gè)基本的挑戰(zhàn)是在推廣過(guò)程中的幾何扭曲,即新生成的場(chǎng)景內(nèi)容可能與現(xiàn)有場(chǎng)景內(nèi)容存在顯著的幾何差距,因此在從除了外部觀點(diǎn)以外的視角看時(shí)會(huì)顯得不連貫。這是由于估計(jì)的深度與現(xiàn)有幾何之間的不一致造成的。
特別地,設(shè) 是從外部觀點(diǎn)渲染的現(xiàn)有內(nèi)容的深度圖,大小為 ,使用二進(jìn)制mask 表示可見(jiàn)區(qū)域; 是外推新圖像 的估計(jì)深度。本文觀察到 和 之間存在明顯的差異,其中 表示逐元素乘積。本文在下圖6中展示了一個(gè)例子來(lái)說(shuō)明這個(gè)問(wèn)題。
簡(jiǎn)單的后處理啟發(fā)式方法,例如通過(guò)計(jì)算全局平移和縮放來(lái)對(duì)齊,或者微調(diào)深度估計(jì)器以匹配估計(jì)的深度與現(xiàn)有幾何體,都不足以解決問(wèn)題,因?yàn)樗鼈儫o(wú)法減少在估計(jì)新場(chǎng)景深度時(shí)存在的固有歧義。
本文通過(guò)修改去噪器來(lái)注入可見(jiàn)深度作為引導(dǎo)信息,具體做法是
解決地面平面失真問(wèn)題 本文注意到引入的導(dǎo)向深度擴(kuò)散公式非常靈活,可以允許指定不同的深度約束。例如,另一個(gè)重要的幾何失真是地面平面通常是彎曲的。因此,對(duì)于所有生成的場(chǎng)景,本文通過(guò)以下方式添加地面平面的深度指導(dǎo):在公式中,將mask 替換為從語(yǔ)義分割中獲得的地面mask ,并用從分析計(jì)算出的平坦地面深度 替換可見(jiàn)內(nèi)容的深度 。
結(jié)果
在本節(jié)中,本文展示了WonderWorld的結(jié)果。由于不知道任何允許交互式場(chǎng)景生成的基準(zhǔn)方法,因此本文專注于展示生成大規(guī)模3D場(chǎng)景的質(zhì)量。為此,本文考慮了開源基準(zhǔn)方法,并使用它們的官方代碼。本文展示了交互式場(chǎng)景生成的示例視頻,并強(qiáng)烈建議讀者先觀看視頻。
本文的基準(zhǔn)方法包括WonderJourney,這是一種最新的永久視角生成方法,以及LucidDreamer,一種最近的3D場(chǎng)景生成方法。WonderJourney接受單張圖像作為輸入,并通過(guò)繪制圖像和反投影像素來(lái)生成一系列點(diǎn)云。LucidDreamer接受單張圖像作為輸入,并從中合成多視角圖像來(lái)訓(xùn)練3DGS。本文在示例中使用了公開可用的真實(shí)和合成圖像。
實(shí)現(xiàn)細(xì)節(jié)
在本文的實(shí)現(xiàn)中,使用了Stable Diffusion修復(fù)模型作為本文的出畫模型。并且還將它用于修復(fù)背景和天空層。本文使用 OneFormer 對(duì)天空、地面和前景對(duì)象進(jìn)行分割。在初始場(chǎng)景中,本文使用 SyncDiffusion 離線生成整個(gè)天空。本文使用 Marigold 法作為深度擴(kuò)散模型,并估計(jì)法線使用 Marigold 法。在本文的引導(dǎo)深度擴(kuò)散中,設(shè)置了引導(dǎo)權(quán)重St,使得引導(dǎo)信號(hào)的范數(shù)與預(yù)測(cè)更新的范數(shù)成比例。本文使用 Euler 調(diào)度器進(jìn)行深度擴(kuò)散,共進(jìn)行 30 步,其中在最后 8 步應(yīng)用本文的引導(dǎo)。本文使用高效的 SAM 對(duì)估計(jì)的深度進(jìn)行后處理,類似于 WonderJourney 。本文還遵循 WonderJourney 的做法,當(dāng)用戶未提供文本時(shí),使用 GPT-4 生成提示,并根據(jù)場(chǎng)景名稱添加可能的對(duì)象和背景文本來(lái)豐富提示。
定性結(jié)果
本文在下圖10中使用相同的輸入圖像展示了WonderWorld和基線方法的定性比較結(jié)果。請(qǐng)注意,本文的WonderWorld結(jié)果包括9個(gè)場(chǎng)景,而LucidDreamer方法的結(jié)果只有一個(gè)場(chǎng)景。WonderJourney方法僅支持在兩個(gè)連續(xù)場(chǎng)景之間提取3D點(diǎn);本文在此擴(kuò)展了代碼,以支持生成多達(dá)4個(gè)場(chǎng)景的點(diǎn)。
從上圖10中可以看到,像LucidDreamer 這樣的單一3D場(chǎng)景生成方法不會(huì)超出預(yù)定義的場(chǎng)景范圍,并且在生成場(chǎng)景邊界處存在嚴(yán)重的幾何失真。雖然WonderJourney 允許生成多個(gè)場(chǎng)景,在特定視角下這些場(chǎng)景看起來(lái)是連貫的,但在不同的攝像機(jī)角度渲染時(shí),幾何失真問(wèn)題顯著。與基線方法相比,本文的WonderWorld顯著減輕了幾何失真問(wèn)題,生成了連貫的大規(guī)模3D場(chǎng)景。本文在下圖8、下圖12和下圖13中展示了更多示例。
由于WonderWorld允許選擇不同的文本提示來(lái)改變內(nèi)容,生成的場(chǎng)景在每次運(yùn)行時(shí)可以是多樣化和不同的。本文在下圖9中展示了從同一輸入圖像生成的多樣化結(jié)果的示例。WonderWorld還允許用戶在同一生成的虛擬世界中指定不同的風(fēng)格,例如Minecraft、繪畫和樂(lè)高風(fēng)格,如下圖11所示。
生成速度
由于本文的重點(diǎn)是使3D場(chǎng)景生成具有互動(dòng)性,本文報(bào)告了從開始生成到可以看到結(jié)果的場(chǎng)景生成時(shí)間成本。在下表1中顯示了單個(gè)場(chǎng)景的生成時(shí)間。從下表1可以看出,即使是現(xiàn)有最快的方法WonderJourney,生成單個(gè)場(chǎng)景也需要超過(guò)700秒,大部分時(shí)間花在生成多個(gè)視圖以填補(bǔ)現(xiàn)有場(chǎng)景和新生成場(chǎng)景之間的空隙上。LucidDreamer從輸入圖像生成稍微擴(kuò)展的場(chǎng)景,并花費(fèi)大部分時(shí)間生成多個(gè)視圖,調(diào)整這些視圖的深度,并訓(xùn)練一個(gè)3DGS以適應(yīng)這些視圖??偟膩?lái)說(shuō),以往的方法需要生成或提取多個(gè)視圖,并花費(fèi)大量時(shí)間優(yōu)化其3D場(chǎng)景表示。本文通過(guò)使用基于幾何的初始化原則的FGS加速了表示優(yōu)化,并通過(guò)分層場(chǎng)景生成策略減少了所需的圖像數(shù)量。共同提升快速場(chǎng)景生成的能力。本文在下表2中展示了時(shí)間成本的分析。由于擴(kuò)散模型推理(外繪、層內(nèi)繪、深度和法線估計(jì))花費(fèi)了最多時(shí)間,本文的方法將受益于未來(lái)在加速擴(kuò)散推理方面的進(jìn)展。
結(jié)論
本文介紹了WonderWorld,一個(gè)用于交互3D場(chǎng)景生成的系統(tǒng),具有顯著加快生成時(shí)間和提升大規(guī)模多樣場(chǎng)景性能的技術(shù)改進(jìn)。WonderWorld允許用戶以互動(dòng)方式生成和探索他們想要的場(chǎng)景部分,并按其需求生成內(nèi)容。
限制:WonderWorld的一個(gè)局限性是場(chǎng)景密度較低,因?yàn)槊總€(gè)場(chǎng)景最多只有HxW個(gè)高斯表面。另一個(gè)局限性是處理細(xì)節(jié)對(duì)象(如樹木)的困難,這可能導(dǎo)致深度估計(jì)不準(zhǔn)確,從而在視點(diǎn)改變時(shí)出現(xiàn)“空洞”或“浮動(dòng)物”。本文在視頻中展示了一個(gè)失敗案例。因此,一個(gè)令人興奮的未來(lái)方向是利用WonderWorld互動(dòng)地原型化一個(gè)粗略的世界結(jié)構(gòu),然后通過(guò)較慢的單場(chǎng)景多視圖擴(kuò)散模型進(jìn)行細(xì)化,以提高場(chǎng)景密度、填補(bǔ)空洞和去除浮動(dòng)物。
本文轉(zhuǎn)自 AI生成未來(lái) ,作者:Hong-Xing Yu等
