自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

10秒創(chuàng)造一個世界!吳佳俊團隊新作實時交互式3D世界生成,比現(xiàn)有技術(shù)快100倍

人工智能 新聞
要讓用戶來控制生成一個3D世界,最核心的難點在于生成速度

斯坦福吳佳俊團隊與MIT攜手打造的最新研究成果,讓我們離實時生成開放世界游戲又近了一大步。

從單一圖像出發(fā),在用戶的實時交互下生成無限延展的3D場景:

圖片

只需上傳一張圖片,就能踏入一個由AI創(chuàng)造的虛擬世界。用戶可以通過移動視角和輸入文本提示,實時決定接下來要探索的方向和場景內(nèi)容:

圖片

從鳥瞰圖的視角,可以清晰看到虛擬世界的生成過程:

圖片

無論是魔幻森林、現(xiàn)實都市,還是寧靜鄉(xiāng)村,WonderWorld都能在眨眼間為你呈現(xiàn):

圖片

圖片

這項工作名為WonderWorld,由斯坦福吳佳俊團隊和MIT聯(lián)合打造。

圖片

WonderWorld的項目主頁上還有能以第一視角移動的交互式場景

圖片

資深游戲創(chuàng)業(yè)者,GOAT Gamin的首席AI官興奮地表示:“它還能對非真實感的圖片work。有無限多的可能性!”

圖片

在硅谷廣受歡迎的Hacker News上,WonderWorld也一度被放在頭版討論:

圖片

要知道,之前的生成式AI方法都需要數(shù)十分鐘甚至若干小時才能生成一個單獨的場景,WonderWorld的速度可謂打開了交互式新世界的大門。

那這究竟是如何做到的?

交互式生成 3D 世界

要讓用戶來控制生成一個3D世界,最核心的難點在于生成速度。先前的AI生成3D場景的方法大都需要先逐步生成許多目標場景的2D圖片來補全被遮擋的部分,然后再優(yōu)化得到一個3D場景的表示。這個過程耗時頗多。

圖片

WonderWorld的核心突破在于其驚人的速度。

研究團隊開發(fā)的FLAGS (Fast LAyered Gaussian Surfels) 場景表示方法,使得系統(tǒng)能在短短10秒內(nèi)生成一個新場景。這一速度比現(xiàn)有方法快了近100倍,真正將交互式3D世界生成推向了實時的門檻。

具體來說,WonderWorld生成新場景時,會先生成一張場景的2D圖片(對于第一個場景則是直接使用輸入圖片),從圖片中生成三張layer images,再從layer images來生成 FLAGS 表示。

圖片

FLAGS表示由三層Gaussian surfels組成:天空層,背景層,以及前景層。每一層都從對應(yīng)的layer image中生成。天空和背景的layer image 都單獨進行了遮擋的補全,因此WonderWorld不需要逐步生成多張圖片。

另外,F(xiàn)LAGS表示的每個Gaussian surfel都唯一對應(yīng)一個layer image 上的像素,因此它可以使用估計的像素級別幾何信息(如單目深度和單目法向量)來初始化Gaussian surfels的參數(shù),從而加速其優(yōu)化過程。

圖片

最后,WonderWorld 還針對多個3D場景之間經(jīng)常出現(xiàn)幾何“裂縫”的問題,提出了Guided depth diffusion。核心想法是,利用已經(jīng)生成的 3D 場景的深度信息作為 guidance,使新生成場景的深度與其一致。只要新舊場景在連接處的深度一致,那么場景的裂縫就得以彌合。

圖片

值得一提的是,無論是2D圖片生成還是深度估計模塊,都可以直接采用預(yù)訓(xùn)練模型,因此整個框架不需要任何訓(xùn)練。

實驗測試

由于先前沒有任何方法可以做到交互式3D場景生成,研究人員采用了連貫3D場景生成的方法WonderJourney,單一場景生成的Text2Room以及LucidDreamer作對比。由于缺乏現(xiàn)有可用評估數(shù)據(jù)集,研究人員生成了28個場景作為測試。

研究人員首先展示了更多的交互式生成的場景,從而說明WonderWorld可以在應(yīng)用到不同場景類型以及不同視覺風(fēng)格:

圖片

與基準方法的比較表明,WonderWorld明顯優(yōu)于各個方法:

圖片

從人類偏好評估的角度,WonderWorld 也顯著更受青睞:

圖片

此外,從一張輸入圖片,WonderWorld能夠接受不同的用戶控制,生成不同的場景內(nèi)容:

圖片

作者簡介

該篇論文主要作者來自斯坦福大學(xué)吳佳俊團隊。

論文一作俞洪興,斯坦福大學(xué)五年級博士生。

圖片

主要研究領(lǐng)域為重建可交互的物理世界。他曾獲得 SIGGRAPH Asia 最佳論文獎,高通獎學(xué)金,以及 Meta 獎學(xué)金和 NVIDIA 獎學(xué)金的提名。

吳佳俊,現(xiàn)任斯坦福大學(xué)助理教授,隸屬于斯坦福視覺與學(xué)習(xí)實驗室(SVL)和斯坦福人工智能實驗室(SAIL)。

圖片

在麻省理工學(xué)院完成博士學(xué)位,本科畢業(yè)于清華大學(xué)姚班,曾被譽為“清華十大學(xué)神”之一。

論文鏈接:https://arxiv.org/pdf/2406.09394

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2023-12-14 12:57:00

模型數(shù)據(jù)

2021-03-11 17:11:28

人工智能機器學(xué)習(xí)技術(shù)

2014-09-16 10:52:38

瀏覽器

2023-12-14 12:51:28

LLM3D場景

2022-09-14 09:23:51

Java3D引擎

2025-04-10 09:10:00

模型AI評測

2025-03-20 14:24:21

2025-01-16 10:05:00

3D模型代碼

2019-12-23 10:22:05

AI 數(shù)據(jù)人工智能

2024-12-09 07:15:00

世界模型AILLM

2024-11-13 14:40:00

2024-11-11 08:30:00

2020-04-06 20:47:42

FishShellLinux

2023-10-12 16:37:36

模型學(xué)習(xí)

2024-11-15 09:36:07

2015-11-25 14:39:51

LiFiWiFi

2025-01-09 12:32:18

2019-11-29 09:30:37

Three.js3D前端

2025-03-25 12:44:24

2022-01-24 08:00:00

元宇宙數(shù)字環(huán)境技術(shù)
點贊
收藏

51CTO技術(shù)棧公眾號