ECCV 2024 | 新夢(mèng)幻場(chǎng)景生成方法,高質(zhì)量、視角一致、可編輯3D場(chǎng)景
數(shù)據(jù)空間研究中心是中國(guó)科學(xué)技術(shù)大學(xué)網(wǎng)絡(luò)空間安全學(xué)院布局建設(shè)的創(chuàng)新型科研平臺(tái)。中心于 2021 年 9 月 20 日正式揭牌成立,由吳曼青院士領(lǐng)銜、中青年教師為骨干,聚焦從數(shù)據(jù)到網(wǎng)絡(luò)空間(From Data to Cyberspace),以數(shù)據(jù)重構(gòu)網(wǎng)絡(luò)空間為使命,瞄準(zhǔn)網(wǎng)絡(luò)空間、智能感知、大數(shù)據(jù)等領(lǐng)域的前沿問(wèn)題,探索打造一支結(jié)構(gòu)合理、優(yōu)勢(shì)互補(bǔ)的科技力量,服務(wù)國(guó)家重大需求。
來(lái)自中國(guó)科學(xué)技術(shù)大學(xué)數(shù)據(jù)空間研究中心、香港科技大學(xué)、香港理工大學(xué)以及奧胡斯大學(xué)的研究者們提出一種新的場(chǎng)景生成方法 DreamScene,只需要提供場(chǎng)景的文本就可以生成高質(zhì)量,視角一致和可編輯的 3D 場(chǎng)景。
- 項(xiàng)目主頁(yè):https://dreamscene-project.github.io/
- 論文地址:https://arxiv.org/abs/2404.03575
- 代碼開(kāi)源:https://github.com/DreamScene-Project/DreamScene
關(guān)鍵問(wèn)題
基于蒸餾的文本生成 3D 方法通常采用預(yù)訓(xùn)練的 2D 文本到圖像模型如 Stable Diffusion 作為先驗(yàn),通過(guò)朝向物體中心的相機(jī)渲染優(yōu)化生成物體的可微分 3D 表示。而文本生成 3D 場(chǎng)景方法需要從預(yù)定義的相機(jī)位置向外渲染,以生成這些有限視角的場(chǎng)景。
目前的文本生成 3D 場(chǎng)景方法(如下圖所示)面臨幾個(gè)關(guān)鍵挑戰(zhàn),包括:
- 低效的生成過(guò)程,常導(dǎo)致低質(zhì)量的生成和較長(zhǎng)的生成時(shí)間。
- 不一致的 3D 場(chǎng)景視角,僅在有限視角下有著良好的渲染結(jié)果。
- 無(wú)法將物體與環(huán)境分離,無(wú)法對(duì)單個(gè)物體進(jìn)行靈活編輯。
技術(shù)方案
DreamScene 主要由形成模式采樣(Formation Pattern Sampling)和相機(jī)采樣 (Camera Sampling) 兩部分組成,其中形成模式采樣根據(jù) 3D 模型生成的規(guī)律由多時(shí)間步采樣(Multi-timestep Sampling)、3D 高斯過(guò)濾(3D Gaussian Filtering)以及重建式生成(Reconstructive Generation)三種操作組成;
相機(jī)采樣通過(guò)三階段的策略逐步生成 3D 環(huán)境,保證場(chǎng)景全局的視角一致性??傮w的算法流程如圖所示,DreamScene 首先利用大語(yǔ)言模型(LLM)根據(jù)文本描述(prompt)分離出場(chǎng)景中的物體描述和環(huán)境描述。首先生成場(chǎng)景中的單個(gè)物體,DreamScene 利用 Point-E 得到相應(yīng)的初始化點(diǎn)云,之后使用形成模式采樣方法生成對(duì)應(yīng)文本的 3D 表示;再將生成的物體根據(jù)布局放置在對(duì)應(yīng)的位置上;最后對(duì)四周環(huán)境進(jìn)行生成,DreamScene 將室內(nèi)場(chǎng)景初始化為長(zhǎng)方體,將室外場(chǎng)景初始化為半球體,通過(guò)三階段優(yōu)化,逐步優(yōu)化遠(yuǎn)處環(huán)境,近處地面和整體的場(chǎng)景。
形成模式采樣(Formation Pattern Sampling)主要使用多時(shí)間步采樣(Multi-timestep Sampling),多時(shí)間步采樣每次迭代過(guò)程中混合了多個(gè) 2D 擴(kuò)散模型時(shí)間步長(zhǎng)提供的指導(dǎo)信息,而這些時(shí)間步長(zhǎng)通過(guò)在一個(gè)線性遞減的滑動(dòng)窗口上進(jìn)行分層抽樣得到,這種優(yōu)化策略不僅保證了在優(yōu)化過(guò)程中對(duì) 3D 內(nèi)容的形狀約束,同時(shí)可以豐富語(yǔ)義信息。
此外,生成的過(guò)量 3D 高斯會(huì)阻礙優(yōu)化過(guò)程,因此 DreamScene 使用 3D 高斯過(guò)濾(3D Gaussian Filtering)在優(yōu)化過(guò)程中過(guò)濾掉冗余的 3D 高斯,保留距離渲染平面較近且體積較大的 3D 高斯。在優(yōu)化的后期階段,使用較小步長(zhǎng) t 的信息可以提供一致但是精細(xì)紋理的信息,所以 DreamScene 使用重建式生成(Reconstructive Generation)方法來(lái)加速生成 3D 內(nèi)容的合理表面紋理。
對(duì)于場(chǎng)景中的環(huán)境,DreamScene 使用一個(gè)漸進(jìn)式的三階段相機(jī)采樣(Camera Sampling)策略優(yōu)化環(huán)境生成。在相機(jī)采樣的第一階段,DreamScene 在場(chǎng)景中心的一定范圍內(nèi)進(jìn)行相機(jī)位姿采樣以生成周?chē)h(huán)境(室內(nèi)的墻壁、室外遠(yuǎn)處環(huán)境)的粗略表示(MTS 指導(dǎo)優(yōu)化);在第二階段,DreamScene 通過(guò)采樣一些特定區(qū)域的相機(jī)位姿來(lái)生成粗糙的地面,并且會(huì)盡可能保證地面與周?chē)h(huán)境接觸部分的連貫性;在第三階段,DreamScene 使用在前兩階段中所有的相機(jī)位姿來(lái)優(yōu)化所有的的環(huán)境元素(MTS 指導(dǎo)優(yōu)化),之后使用 3D 重建的方法以獲得更合理的紋理和細(xì)節(jié)。
實(shí)驗(yàn)評(píng)估
對(duì)比試驗(yàn) 下圖展示了 DreamScene 場(chǎng)景生成的定性對(duì)比實(shí)驗(yàn),上半部分圖像采用生成時(shí)出現(xiàn)的相機(jī)位姿渲染的,下圖是在場(chǎng)景中隨機(jī)選擇的相機(jī)位姿渲染的。我們可以看到,Text2Room 和 Text2NeRF 只能在生成過(guò)程中遇到的相機(jī)位姿下生成令人滿意的結(jié)果,DreamScene 實(shí)現(xiàn)了最佳的 3D 一致性,同時(shí)有著很高的生成質(zhì)量。
下圖展示了形成模式采樣可以在短時(shí)間內(nèi)根據(jù)文本提示生成高質(zhì)量的 3D 表示,DreamGaussian 的速度更快但生成質(zhì)量太低。
作者計(jì)算了環(huán)境生成階段的生成時(shí)間。如下表的左側(cè)顯示,具有編輯功能的環(huán)境生成方法中 DreamScene 的時(shí)間最短,右側(cè)顯示了用戶研究,其中 DreamScene 在一致性和合理性方面明顯優(yōu)于其他 SOTA 方法,生成質(zhì)量最高。
一致性 如下圖所示 DreamScene 的生成結(jié)果在較高生成質(zhì)量的同時(shí),保證了較好的 3D 一致性。
編輯性 DreamScene 可以添加或刪除對(duì)象或者通過(guò)調(diào)整對(duì)象的仿射變量的值來(lái)重新設(shè)計(jì)其在場(chǎng)景中的位置。在進(jìn)行這些編輯時(shí),用戶需要在物體的原始位置和新位置重新采樣相機(jī)姿勢(shì),重新優(yōu)化地面和周?chē)较颉4送?,用戶還可以改變文本提示來(lái)改變場(chǎng)景中的環(huán)境或?qū)ο蟮臉邮健?/span>
消融實(shí)驗(yàn) 在 “A DSLR photo of Iron Man” 提示下,經(jīng)過(guò) 30 分鐘優(yōu)化后的結(jié)果。如下圖所示,與 DreamTime 和 DreamFusion 中提到的分?jǐn)?shù)蒸餾采樣 (SDS) 相比,多時(shí)間步采樣形成了更好的幾何結(jié)構(gòu)和紋理。形成模式采樣是在多時(shí)間步采樣的基礎(chǔ)上建立起來(lái)的,采用重建式生成的方法來(lái)創(chuàng)建更加合理的紋理結(jié)構(gòu),在指導(dǎo) 3D 內(nèi)容優(yōu)化方面十分具有優(yōu)越性。
總結(jié)
本文介紹了一種新穎的文本到 3D 場(chǎng)景生成策略 DreamScene。通過(guò)生成模式采樣和相機(jī)采樣策略,將物體和環(huán)境整合在一起,解決了目前文本到 3D 場(chǎng)景生成方法中存在的低效、不一致和可編輯性有限等問(wèn)題。廣泛的實(shí)驗(yàn)證明,DreamScene 是三維場(chǎng)景生成領(lǐng)域的一項(xiàng)里程碑式成就,在眾多領(lǐng)域,如游戲、影視和房屋設(shè)計(jì)中有著巨大的應(yīng)用潛力。