一句話爆改三維場(chǎng)景!斯坦福吳佳俊團(tuán)隊(duì)新作:場(chǎng)景語(yǔ)言,智能補(bǔ)全文本到3D的場(chǎng)景理解
從文字生成三維世界的場(chǎng)景有多難?
試想一下,如果我們要 “生成復(fù)活節(jié)島的摩艾石像”,AI 怎么才能理解我們的需求,然后生成一個(gè)精美的三維場(chǎng)景?
斯坦福的研究團(tuán)隊(duì)提出了一個(gè)創(chuàng)新性解決方案:就像人類使用自然語(yǔ)言(natural language)進(jìn)行交流,三維場(chǎng)景的構(gòu)建需要場(chǎng)景語(yǔ)言(Scene Language)。
- 項(xiàng)目主頁(yè):https://ai.stanford.edu/~yzzhang/projects/scene-language/
- 文章地址:https://arxiv.org/abs/2410.16770
這個(gè)新語(yǔ)言不僅能讓 AI 理解我們的需求,更讓它能夠細(xì)致地將人類的描述轉(zhuǎn)化為三維世界的場(chǎng)景。同時(shí),它還具備編輯功能,一句簡(jiǎn)單指令就能改變場(chǎng)景中的元素!物體的位置、風(fēng)格,現(xiàn)在都可以隨意調(diào)整。
智能的場(chǎng)景理解
再比如,輸入 “初始狀態(tài)的國(guó)際象棋盤”,模型可以自動(dòng)識(shí)別并生成如下特征:
- 64 個(gè)黑白相間的格子
- 按規(guī)則排列的 32 個(gè)棋子
- 每個(gè)棋子的獨(dú)特造型
最終生成的 3D 場(chǎng)景完美還原了這些細(xì)節(jié)。
這個(gè)方法支持多種渲染方式,能適應(yīng)不同的應(yīng)用場(chǎng)景:
更具吸引力的是其編輯能力:只需一句指令,就能調(diào)整場(chǎng)景中的元素:
支持圖片輸入
動(dòng)態(tài)生成
不僅限于靜態(tài),Scene Language 還能生成動(dòng)態(tài)場(chǎng)景,讓 3D 世界生動(dòng)起來(lái)。
技術(shù)亮點(diǎn)
Scene Language 的核心在于三大組件的融合:
1. 程序語(yǔ)言(program):用于精確描述場(chǎng)景結(jié)構(gòu),包括物體間的重復(fù)、層次關(guān)系;
2. 自然語(yǔ)言(word):定義場(chǎng)景中的物體類別,提供語(yǔ)義層面的信息;
3. 神經(jīng)網(wǎng)絡(luò)表征(embedding):捕捉物體的內(nèi)在視覺細(xì)節(jié)。
這種組合就像給 AI 配備了一套完整的 “建筑工具”,既能整體規(guī)劃,又能雕琢細(xì)節(jié)。
對(duì)比傳統(tǒng)方法的優(yōu)勢(shì)
與現(xiàn)有技術(shù)相比,Scene Language 展現(xiàn)出顯著優(yōu)勢(shì):
- 用戶偏好測(cè)試中獲得 85.65% 的偏好,相比現(xiàn)有方法提高了近 7 倍;
- 在物體數(shù)量控制方面,測(cè)試集中的準(zhǔn)確率達(dá)到 100%,而現(xiàn)有方法只有 11%。
這一研究展示了 AI 理解和創(chuàng)造 3D 世界的全新可能性,期待它在游戲開發(fā)、建筑設(shè)計(jì)等領(lǐng)域引領(lǐng)新一輪的創(chuàng)新!
作者簡(jiǎn)介
該篇論文主要作者來(lái)自斯坦福大學(xué)吳佳俊團(tuán)隊(duì)。
論文一作張?zhí)N之,斯坦福大學(xué)博士生。主要研究為視覺表征及生成。
吳佳俊,現(xiàn)任斯坦福大學(xué)助理教授。在麻省理工學(xué)院完成博士學(xué)位,本科畢業(yè)于清華大學(xué)姚班。