自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

ICML 2024|復(fù)雜組合3D場景生成,LLMs對(duì)話式3D可控生成編輯框架來了

人工智能 新聞
最近,來自北京大學(xué)王選計(jì)算機(jī)研究所的 VDIG 研究團(tuán)隊(duì)與其合作者公布了最新研究成果 GALA3D。

該論文的第一作者和通訊作者均來自北京大學(xué)王選計(jì)算機(jī)研究所的 VDIG (Visual Data Interpreting and Generation) 實(shí)驗(yàn)室,第一作者為博士生周嘯宇,通訊作者為博士生導(dǎo)師王勇濤。VDIG 實(shí)驗(yàn)室近年來在 IJCV、CVPR、AAAI、ICCV、ICML、ECCV 等頂會(huì)上有多項(xiàng)代表性成果發(fā)表,多次榮獲國內(nèi)外 CV 領(lǐng)域重量級(jí)競賽的冠亞軍獎(jiǎng)項(xiàng),和國內(nèi)外知名高校、科研機(jī)構(gòu)廣泛開展合作。

近年來,針對(duì)單個(gè)物體的 Text-to-3D 方法取得了一系列突破性進(jìn)展,但是從文本生成可控的、高質(zhì)量的復(fù)雜多物體 3D 場景仍然面臨巨大挑戰(zhàn)。之前的方法在生成場景的復(fù)雜度、幾何質(zhì)量、紋理一致性、多物體交互關(guān)系、可控性和編輯性等方面均存在較大缺陷。

最近,來自北京大學(xué)王選計(jì)算機(jī)研究所的 VDIG 研究團(tuán)隊(duì)與其合作者公布了最新研究成果 GALA3D。針對(duì)多物體復(fù)雜 3D 場景生成,該工作提出了 LLM 引導(dǎo)的復(fù)雜三維場景可控生成框架 GALA3D,能夠生成高質(zhì)量、高一致性、具有多物體和復(fù)雜交互關(guān)系的 3D 場景,支持對(duì)話式交互的可控編輯,論文已被 ICML 2024 錄用。

圖片

  • 論文標(biāo)題:GALA3D: Towards Text-to-3D Complex Scene Generation via Layout-guided Generative Gaussian Splatting
  • 論文鏈接:https://arxiv.org/pdf/2402.07207
  • 論文代碼:https://github.com/VDIGPKU/GALA3D
  • 項(xiàng)目網(wǎng)站:https://gala3d.github.io/

圖片

GALA3D 是一個(gè)高質(zhì)量的 Text-to-3D 復(fù)雜組合場景生成與可控編輯框架。用戶輸入一段描述文本,GALA3D 能夠 zero-shot 地生成相應(yīng)的具有多物體和復(fù)雜交互關(guān)系的三維場景。GALA3D 在保證生成 3D 場景與文本高度對(duì)齊的同時(shí),展現(xiàn)了其在生成場景質(zhì)量、多物體復(fù)雜交互、場景幾何一致性等方面的卓越性能。此外,GALA3D 還支持用戶友好的端到端生成和可控編輯,使得普通用戶能夠在對(duì)話式的交談中輕松定制和編輯 3D 場景。在與用戶的交流中,GALA3D 可以精準(zhǔn)地實(shí)現(xiàn)復(fù)雜三維場景對(duì)話式的可控編輯,并根據(jù)用戶的對(duì)話實(shí)現(xiàn)復(fù)雜三維場景的布局變換、數(shù)字資產(chǎn)嵌入、裝修風(fēng)格改變等多樣化的可控編輯需求。

方法介紹

GALA3D 的整體架構(gòu)如下圖所示:

圖片

GALA3D 利用大型語言模型(LLMs)生成初始布局,并提出布局引導(dǎo)的生成式 3D 高斯表示構(gòu)建復(fù)雜 3D 場景。GALA3D 設(shè)計(jì)通過自適應(yīng)幾何控制優(yōu)化 3D 高斯的形狀和分布,以生成具有一致幾何、紋理、比例和精確交互的 3D 場景。此外,GALA3D 還提出了一種組合優(yōu)化機(jī)制,結(jié)合條件擴(kuò)散先驗(yàn)和文生圖模型,協(xié)作生成具有一致風(fēng)格的 3D 多物體場景,同時(shí)迭代優(yōu)化從 LLMs 提取的初始布局先驗(yàn),以獲得更加逼真準(zhǔn)確的真實(shí)場景空間布局。廣泛的定量實(shí)驗(yàn)和定性研究表明 GALA3D 在文本到復(fù)雜三維場景生成方面取得了顯著效果,超越現(xiàn)有文生 3D 場景方法。

a、基于 LLMs 的場景布局先驗(yàn)

大語言模型展現(xiàn)了優(yōu)異的自然語言理解和推理能力,本文進(jìn)一步探索了 LLMs 大語言模型在 3D 復(fù)雜場景的推理和布局生成能力。如何在沒有人工設(shè)計(jì)的情況下獲得相對(duì)合理的布局先驗(yàn)有助于減少場景建模和生成的代價(jià)。對(duì)此,我們使用 LLMs (例如 GPT-3.5) 對(duì)文本輸入的實(shí)例及其空間關(guān)系進(jìn)行抽取,并生成相應(yīng)的 Layout 布局先驗(yàn)。然而,通過 LLMs 解讀的場景 3D 空間布局和 Layout 先驗(yàn)與實(shí)際場景存在一定差距,通常表現(xiàn)生成懸浮 / 穿模的物體,比例差異過大的物體組合等。進(jìn)一步地,我們提出了 Layout Refinement 模塊,通過基于視覺的 Diffusion 先驗(yàn)和 Layout 引導(dǎo)的生成式 3D 高斯對(duì)上述生成的粗糙布局先驗(yàn)進(jìn)行調(diào)整和優(yōu)化。

b、Layout Refinement

GALA3D 使用基于 Diffusion 先驗(yàn)的 Layout 布局優(yōu)化模塊對(duì)上述 LLMs 生成的布局先驗(yàn)進(jìn)行優(yōu)化。具體地,我們將 Layout 引導(dǎo)的 3D 高斯空間布局的梯度優(yōu)化加入 3D 生成過程,通過 ControlNet 對(duì) LLM-generated Layouts 進(jìn)行空間位置、旋轉(zhuǎn)角度和尺寸比例的調(diào)整,如圖展示了優(yōu)化前后 3D 場景和 Layout 的對(duì)應(yīng)關(guān)系。經(jīng)過優(yōu)化的 Layout 具有更加準(zhǔn)確的空間位置和比例尺度,并且使得 3D 場景中多物體的交互關(guān)系更加合理。

圖片

c、布局引導(dǎo)的生成式 3D 高斯表示

我們首次將 3D-Layout 約束引入 3D 高斯表示,提出了布局引導(dǎo)的生成式 3D 高斯,用于復(fù)雜文生 3D 場景。Layout-guided 3D 高斯表示包含多個(gè)語義抽取的實(shí)例物體,其中每個(gè)實(shí)例物體的 Layout 先驗(yàn)可以參數(shù)化為:

圖片

其中,N 代表場景中實(shí)例物體的總數(shù)。具體地,每一個(gè)實(shí)例 3D 高斯通過自適應(yīng)幾何控制進(jìn)行優(yōu)化,得到實(shí)例級(jí)的物體 3D 高斯表示。進(jìn)一步地,我們將多個(gè)物體高斯根據(jù)相對(duì)位置關(guān)系組合到全場景中,生成布局引導(dǎo)的全局 3D 高斯并通過全局 Gaussian Splatting 渲染整個(gè)場景。

d、自適應(yīng)幾何控制

為了更好地控制 3D 高斯在生成過程中的空間分布和幾何形狀,我們提出了針對(duì)生成式 3D 高斯的自適應(yīng)幾何控制方法。首先給定一組初始高斯,為了將 3D 高斯約束在 Layout 范圍內(nèi),GALA3D 使用一組密度分布函數(shù)來約束高斯橢球的空間位置。我們接著對(duì) Layout 表面附近的高斯進(jìn)行采樣來擬合分布函數(shù)。之后,我們提出使用形狀正則化控制 3D 高斯的幾何形狀。在 3D 生成的過程中,自適應(yīng)幾何控制不斷優(yōu)化高斯的分布和幾何,從而生成更具紋理細(xì)節(jié)和規(guī)范幾何的 3D 多物體與場景。自適應(yīng)幾何控制還保證了布局引導(dǎo)的生成式 3D 高斯具有更高的可控性和一致性。

實(shí)驗(yàn)結(jié)果

與現(xiàn)有 Text-to-3D 生成方法相比,GALA3D 展現(xiàn)了更加優(yōu)異的 3D 場景生成質(zhì)量和一致性,定量實(shí)驗(yàn)結(jié)果如下表所示:

圖片

我們還進(jìn)行了廣泛且有效的用戶調(diào)研,邀請(qǐng) 125 位參與者(其中 39.2% 為相關(guān)領(lǐng)域的專家和從業(yè)人員)對(duì)本文方法和現(xiàn)有方法的生成場景進(jìn)行多角度評(píng)估,結(jié)果如下表所示:

圖片

實(shí)驗(yàn)結(jié)果表明 GALA3D 在生成場景質(zhì)量、幾何保真度、文本一致性、場景一致性等多維度的測評(píng)指標(biāo)中均超越現(xiàn)有方法,取得了最優(yōu)的生成質(zhì)量。

如下圖定性實(shí)驗(yàn)結(jié)果所示,GALA3D 能夠 zero-shot 地生成復(fù)雜多物體組合 3D 場景,并且具有良好的一致性:

圖片

下圖展示了 GALA3D 能夠支持用戶友好的、對(duì)話式的可控生成和編輯:

圖片

更多研究細(xì)節(jié),可參考原論文。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-01-14 09:24:46

2024-07-04 09:26:16

2024-07-16 12:02:11

2024-12-10 15:17:11

2012-11-26 12:51:44

木材3D打

2025-01-07 13:19:48

模型AI訓(xùn)練

2023-12-14 12:51:28

LLM3D場景

2011-08-26 14:50:23

2024-08-14 16:30:00

3D AIGC

2015-04-27 15:35:42

Cocos3D場景編輯器

2025-01-09 12:32:18

2021-09-14 10:11:46

谷歌3D舞蹈生成模型FACT

2023-07-14 09:41:01

3DAI

2024-12-23 15:46:59

2024-09-20 16:20:00

2024-10-08 09:25:00

3D模型生成

2024-01-29 06:50:00

3D模型

2025-01-10 14:00:00

3D模型生成

2024-03-20 15:51:00

AI數(shù)據(jù)

2011-10-06 13:30:45

宏碁投影儀
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)