自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

LLM一句話瞬間生成3D世界,未公布代碼已獲141星!或?qū)⒁l(fā)3D建模行業(yè)革命

人工智能 新聞
最近,來自澳國立、牛津和智源的研究人員提出了一個由LLM驅(qū)動,用文字提示就能生成復(fù)雜3D場景的智能體框架。無所不能的大模型真的要開始創(chuàng)造3D世界了嗎?

繼火爆全網(wǎng)的AI文生圖,文生視頻之后,文生3D場景的技術(shù)也來了!

圖片

只要不到30個字的提示詞,瞬間就能生成這樣的3D場景。

場景效果和文字的要求幾乎分毫不差——「平靜如玻璃的湖面,倒映出無云的天空,周圍的山和水鳥的倒影呈現(xiàn)在湖中。」

「烈日照耀在無垠的沙漠之上,倔強生長的植物投下了明顯的陰影。大風(fēng)把小沙丘雕刻成一片金色的土地?!?/span>

而且針對生成的場景,還支持對不同的元素進行連續(xù)地修改和編輯!

網(wǎng)友看到效果之后驚呼,「我一輩子就在等這一刻了!」

研究團隊計劃在論文被接受后就在Github上公布項目的代碼,但是在代碼還未公布之時,這個項目就已經(jīng)獲得141顆星!

圖片

這個項目是由澳國立、牛津和智源研究院的科研人員開發(fā)的「3D-GPT」系統(tǒng),它可以簡單地根據(jù)用戶提供的文本描述生成各種各樣的3D模型和場景。

項目地址:https://chuny1.github.io/3DGPT/3dgpt.html

和文生圖依賴的獨立模型不同,3D-GPT依然還是利用了大型語言模型(LLM)的多模態(tài)和推理能力,將3D建模任務(wù)分解成多個子任務(wù),由不同的代理完成,包括任務(wù)調(diào)度代理、概念化代理和建模代理。

研究人員表示,3D-GPT 將LLM定位為熟練的問題解決者,將程序性3D建模任務(wù)分解為可訪問的部分,并為每個任務(wù)指定合適的代理。

而且整套系統(tǒng)無需任何訓(xùn)練,無需訓(xùn)練即可完成從文本到參數(shù)提取再到3D建模的過程。

具體來說,任務(wù)調(diào)度代理負責(zé)根據(jù)指令選擇適當?shù)某绦蛏珊瘮?shù)。概念化代理對文本描述進行推理,補充缺失的細節(jié)。

建模代理推斷函數(shù)參數(shù),生成Python代碼,通過API控制3D建模軟件Blender來進行建模。

這套系統(tǒng)與Blender無縫集成,支持物體變形、材質(zhì)調(diào)整、網(wǎng)格編輯、物理模擬等多種操作。

而且3D GPT框架可以增強用戶提供的簡短場景描述,使之變得更加詳細,更加符合上下文。同時整合了程序生成方法,從豐富的文本中提取參數(shù)控制3D建模軟件。

而且因為LLM能夠提供優(yōu)秀的語意理解和上下文能力,使得3D GPT能夠生成各種各樣的3D資產(chǎn),而且支持連續(xù)地,有針對性地編輯和修改能力。

3D-GPT可以進行精細的對象控制,包括形狀、曲線和細節(jié)的捕捉,從而產(chǎn)生細節(jié)豐富的建模。同時也可以操控大場景的生成。

而且3D GPT支持連續(xù)的指令輸入,可以進行場景的編輯和修改。系統(tǒng)能夠記住之前的修改,使新指令與場景上下文相連結(jié),讓使用者可以對已經(jīng)生成的場景進行持續(xù)的編輯和修改。

而且,3D-GPT還支持通過自然語言針對某一項單獨元素和功能的持續(xù)編輯,例如下圖表明,用戶可以通過變換輸入的要求,單獨針對天氣效果進行修改。

3D-GPT

任務(wù)定義

整體目標是基于一系列自然語言指令來生成3D內(nèi)容。

其中,初始指令L0充當了對3D場景的全面描述,比如“一個多霧的春天早晨,露水親吻的花朵點綴在被新發(fā)芽的樹木環(huán)繞的郁郁蔥蔥的草地上”。

后續(xù)的指令用于修改現(xiàn)有的場景,例如指令如“將白色花朵變?yōu)辄S色花朵”或“將場景轉(zhuǎn)換為冬季環(huán)境”。

為了完成這一目標,研究人員引入了一個名為3D-GPT的框架,它使大型語言模型(LLM)能夠充當解決問題的代理。

模型準備

研究人員指出,讓LLM直接創(chuàng)建每一個3D內(nèi)容的元素面臨重大挑戰(zhàn)。由于缺乏專門的預(yù)訓(xùn)練數(shù)據(jù),LLM在熟練的3D建模方面可能存在困難,因此,它們可能難以準確判斷基于給定指令應(yīng)該修改哪些元素以及如何修改它們。

為了應(yīng)對這個問題,在研究人員的框架中,他們利用之前研究中的一個基于Python-Blender的過程生成器Infinigen,它配備了豐富的生成函數(shù)庫。

為了使LLMs能夠熟練地運用Infinigen,研究人員為每一個函數(shù)提供關(guān)鍵提示。這些提示包括函數(shù)文檔,容易理解的代碼,所需信息,以及用法示例。

通過為LLM提供這些資源,研究人員使它們能夠發(fā)揮其在規(guī)劃、推理和工具利用方面的核心能力。因此,LLMs能夠有效地利用Infinigen進行基于語言指令的3D生成,這一過程是無縫和高效的。

用于3D推理、規(guī)劃和工具使用的多代理系統(tǒng)

在工具準備完成后,3D-GPT采用一個多代理系統(tǒng)來處理過程式3D建模任務(wù)。

該系統(tǒng)包含三個核心代理:任務(wù)調(diào)度代理、概念化代理和建模代理,如下圖1所示。

它們共同將過程式3D建模任務(wù)分解為可管理的部分,每個代理專注于不同方面:3D推理、規(guī)劃和工具使用。

任務(wù)調(diào)度代理在規(guī)劃過程中起到關(guān)鍵作用。它利用用戶指令查詢函數(shù)文檔,并隨后選擇必要的函數(shù)進行執(zhí)行。

一旦選擇了函數(shù),概念化代理就會通過推理來豐富用戶提供的文本描述。

在此基礎(chǔ)上,建模代理推斷出每個選定函數(shù)的參數(shù),并生成Python代碼腳本以調(diào)用Blender的API,從而促進相應(yīng)3D內(nèi)容的創(chuàng)建。此外,還可以使用Blender的渲染功能來生成圖像。

任務(wù)調(diào)度代理用于規(guī)劃

任務(wù)調(diào)度代理掌握了所有可用函數(shù)F的全面信息,能夠高效地識別每個指令輸入所需的函數(shù)。例如,當出現(xiàn)“將場景轉(zhuǎn)換為冬季環(huán)境”的指令時,它會精確地找到像add_snow_layer()和update_trees()這樣的函數(shù)。

任務(wù)調(diào)度代理的這一關(guān)鍵角色有助于在概念化代理和建模代理之間進行高效的任務(wù)協(xié)調(diào)。

如果沒有它,概念化和建模代理必須為每個給定指令分析所有提供的函數(shù)F,這不僅增加了這些代理的工作量,還延長了處理時間,并可能導(dǎo)致意外出現(xiàn)的修改。

LLM系統(tǒng)、用戶和任務(wù)調(diào)度代理之間的通信流程如下:

概念化代理用于推理

描述可能沒有明確提供用于建模所需的詳細外觀描述。例如,考慮描述:“一個多霧的春天早晨,露水親吻的花朵點綴在被新發(fā)芽的樹木環(huán)繞的郁郁蔥蔥的草地上?!?/span>

當使用需要如樹枝長度、樹大小和葉子類型這樣的參數(shù)的樹建模函數(shù)時,很明顯,這些具體細節(jié)并沒有直接在給定文本中說明。

當指示建模代理直接推斷參數(shù)時,它往往會提供簡單的解決方案,比如從參數(shù)文檔中使用默認或合理的值,或者從提示示例中復(fù)制值。這降低了生成的多樣性并參數(shù)推斷的過程更加復(fù)雜了。

建模代理可以使用工具

在概念化之后,3D建模處理目標是將詳細的人類語言轉(zhuǎn)換為機器可理解的語言。

Blender渲染

建模代理最終提供了帶有推斷參數(shù)的Python函數(shù)調(diào)用,這些參數(shù)用于Blender節(jié)點控制和渲染,從而生成最終的3D網(wǎng)格和RGB結(jié)果。

生成效果編輯和修改實驗

研究人員的實驗首先通過展示3D-GPT在一致生成與用戶指令對應(yīng)的結(jié)果方面的高效性來開始,涵蓋了涉及大型場景和單個對象的各種情境。

隨后,研究人員深入探討了特定實例,以說明研究人員的代理如何有效地理解工具功能、獲取必要的知識,并將其用于精確控制。為了深化研究人員的理解,研究人員進行了消融研究,系統(tǒng)地檢查了研究人員多代理系統(tǒng)中每個代理的貢獻。

3D建模

大型場景生成

研究人員調(diào)查了3D-GPT基于場景描述控制建模工具的能力。

為了進行這個實驗,研究人員使用ChatGPT生成了100個場景描述,提示如下:“你是一名優(yōu)秀的作家,請為我提供10個不同的自然場景描述?!?/span>

研究人員收集了對這一提示的10次回應(yīng)以形成他們的數(shù)據(jù)集。在下圖2中,研究人員展示了3D-GPT的多視圖渲染結(jié)果。

結(jié)果表明,研究人員的方法能夠生成與提供的文本描述大致一致的大型3D場景,并展示了顯著的多樣性。

值得注意的是,所有3D成果都是直接使用Blender渲染的,確保所有網(wǎng)格都是真實的,從而使研究人員的方法能夠?qū)崿F(xiàn)絕對的3D一致性,并生成真實的光線追蹤渲染結(jié)果。

單一類別的細節(jié)控制

除了從簡潔描述中生成大型場景外,研究人員還評估了3D-GPT在建模對象方面的能力。研究人員評估了諸如曲線建模、形狀控制和對對象外觀深入理解等關(guān)鍵因素。

為此,研究人員展現(xiàn)了細粒度對象控制的結(jié)果。這包括從輸入文本描述中派生的細微方面,如對象曲線、關(guān)鍵外觀特征和顏色。

研究人員使用隨機提示來指導(dǎo)GPT生成各種現(xiàn)實世界中的花朵類型。如圖下3所示,研究人員的方法熟練地為每種花朵類型進行了建模,忠實地捕捉了它們不同的外觀。

這項研究強調(diào)了3D-GPT在實現(xiàn)精確對象建模和細粒度屬性控制方面的潛力。

子序列指令編輯

研究人員測試了3D-GPT在有效的人-代理通信和任務(wù)操縱方面的能力。

在下圖4中,研究人員觀察到研究人員的方法能夠理解子序列指令并做出準確的場景修改決策。

值得注意的是,與現(xiàn)有的文本到3D方法不同,3D-GPT保留了所有先前修改的記憶,從而有助于將新指令與場景的上下文連接起來。

此外,研究人員的方法消除了對可控編輯的額外網(wǎng)絡(luò)的需要。這項研究強調(diào)了3D-GPT在熟練處理復(fù)雜子序列指令用于3D建模方面的效率和多功能性。

單一函數(shù)控制

為了評估3D-GPT在工具使用方面的有效性,研究人員展示了一個說明性示例,突出了研究人員的方法在控制單一函數(shù)和推斷參數(shù)方面的能力。

下圖5舉例說明了3D-GPT基于輸入文本描述來建模天空外觀的能力。

負責(zé)生成天空紋理的函數(shù)并不直接將顏色信息與天空外觀相關(guān)聯(lián)。相反,它依賴于Nishita天空建模方法,該方法需要對現(xiàn)實世界的天空和天氣狀況有深刻的理解,并考慮輸入?yún)?shù)。

研究人員的方法熟練地從文本輸入中提取關(guān)鍵信息,并理解每個參數(shù)如何影響最終的天空外觀,如圖5(c)和(d)所示。這些結(jié)果表明,研究人員的方法可以有效地使用單一函數(shù)以及推斷相應(yīng)的參數(shù)。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2023-05-08 15:44:23

3D數(shù)字人

2023-12-14 12:51:28

LLM3D場景

2023-05-12 14:13:23

3D建模OpenAI

2023-08-28 00:53:03

AI3D

2021-12-30 10:00:07

3DAI 人工智能

2023-10-09 12:45:09

數(shù)據(jù)訓(xùn)練

2025-01-03 11:37:13

2025-03-17 08:55:00

AI開源模型

2024-12-12 13:00:00

2024-07-16 12:02:11

2022-02-25 10:38:19

開源3D建模免費

2023-08-25 17:10:14

LLM人工智能

2023-09-05 23:34:52

Kubernetes云原生

2015-08-03 10:21:04

設(shè)計模式表達

2020-11-27 09:57:11

Python代碼PyPy

2023-12-22 09:29:07

模型3D

2025-03-27 09:26:30

2011-10-06 13:30:45

宏碁投影儀

2012-11-26 12:51:44

木材3D打

2022-11-22 15:21:43

模型3D
點贊
收藏

51CTO技術(shù)棧公眾號