自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

一句話爆改三維場(chǎng)景!斯坦福吳佳俊團(tuán)隊(duì)新作:場(chǎng)景語(yǔ)言,智能補(bǔ)全文本到3D的場(chǎng)景理解

人工智能 新聞
斯坦福的研究團(tuán)隊(duì)提出了一個(gè)創(chuàng)新性解決方案:就像人類使用自然語(yǔ)言(natural language)進(jìn)行交流,三維場(chǎng)景的構(gòu)建需要場(chǎng)景語(yǔ)言(Scene Language)。

從文字生成三維世界的場(chǎng)景有多難?

試想一下,如果我們要 “生成復(fù)活節(jié)島的摩艾石像”,AI 怎么才能理解我們的需求,然后生成一個(gè)精美的三維場(chǎng)景?

斯坦福的研究團(tuán)隊(duì)提出了一個(gè)創(chuàng)新性解決方案:就像人類使用自然語(yǔ)言(natural language)進(jìn)行交流,三維場(chǎng)景的構(gòu)建需要場(chǎng)景語(yǔ)言(Scene Language)。

圖片

  • 項(xiàng)目主頁(yè):https://ai.stanford.edu/~yzzhang/projects/scene-language/
  • 文章地址:https://arxiv.org/abs/2410.16770

這個(gè)新語(yǔ)言不僅能讓 AI 理解我們的需求,更讓它能夠細(xì)致地將人類的描述轉(zhuǎn)化為三維世界的場(chǎng)景。同時(shí),它還具備編輯功能,一句簡(jiǎn)單指令就能改變場(chǎng)景中的元素!物體的位置、風(fēng)格,現(xiàn)在都可以隨意調(diào)整。

圖片

智能的場(chǎng)景理解

再比如,輸入 “初始狀態(tài)的國(guó)際象棋盤”,模型可以自動(dòng)識(shí)別并生成如下特征:

  • 64 個(gè)黑白相間的格子
  • 按規(guī)則排列的 32 個(gè)棋子
  • 每個(gè)棋子的獨(dú)特造型

最終生成的 3D 場(chǎng)景完美還原了這些細(xì)節(jié)。

圖片 

這個(gè)方法支持多種渲染方式,能適應(yīng)不同的應(yīng)用場(chǎng)景:

圖片

更具吸引力的是其編輯能力:只需一句指令,就能調(diào)整場(chǎng)景中的元素:

圖片

支持圖片輸入

圖片

動(dòng)態(tài)生成

不僅限于靜態(tài),Scene Language 還能生成動(dòng)態(tài)場(chǎng)景,讓 3D 世界生動(dòng)起來(lái)。

圖片

技術(shù)亮點(diǎn)

圖片

Scene Language 的核心在于三大組件的融合:

1. 程序語(yǔ)言(program):用于精確描述場(chǎng)景結(jié)構(gòu),包括物體間的重復(fù)、層次關(guān)系;

2. 自然語(yǔ)言(word):定義場(chǎng)景中的物體類別,提供語(yǔ)義層面的信息;

3. 神經(jīng)網(wǎng)絡(luò)表征(embedding):捕捉物體的內(nèi)在視覺細(xì)節(jié)。

這種組合就像給 AI 配備了一套完整的 “建筑工具”,既能整體規(guī)劃,又能雕琢細(xì)節(jié)。

對(duì)比傳統(tǒng)方法的優(yōu)勢(shì)

與現(xiàn)有技術(shù)相比,Scene Language 展現(xiàn)出顯著優(yōu)勢(shì):

  • 用戶偏好測(cè)試中獲得 85.65% 的偏好,相比現(xiàn)有方法提高了近 7 倍;
  • 在物體數(shù)量控制方面,測(cè)試集中的準(zhǔn)確率達(dá)到 100%,而現(xiàn)有方法只有 11%。

這一研究展示了 AI 理解和創(chuàng)造 3D 世界的全新可能性,期待它在游戲開發(fā)、建筑設(shè)計(jì)等領(lǐng)域引領(lǐng)新一輪的創(chuàng)新!

作者簡(jiǎn)介

該篇論文主要作者來(lái)自斯坦福大學(xué)吳佳俊團(tuán)隊(duì)。

論文一作張?zhí)N之,斯坦福大學(xué)博士生。主要研究為視覺表征及生成。

圖片

吳佳俊,現(xiàn)任斯坦福大學(xué)助理教授。在麻省理工學(xué)院完成博士學(xué)位,本科畢業(yè)于清華大學(xué)姚班。

圖片

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2023-12-14 12:51:28

LLM3D場(chǎng)景

2023-12-14 12:57:00

模型數(shù)據(jù)

2023-05-08 15:44:23

3D數(shù)字人

2023-10-09 12:45:09

數(shù)據(jù)訓(xùn)練

2023-08-28 00:53:03

AI3D

2021-12-30 10:00:07

3DAI 人工智能

2025-01-15 13:30:00

2022-11-01 09:26:55

模型三維

2023-09-05 23:34:52

Kubernetes云原生

2023-05-12 14:13:23

3D建模OpenAI

2024-11-29 16:35:50

模型訓(xùn)練

2015-08-03 10:21:04

設(shè)計(jì)模式表達(dá)

2020-11-27 09:57:11

Python代碼PyPy

2011-11-01 07:23:59

喬布斯悼文

2023-10-25 14:17:00

2010-03-29 11:55:12

無(wú)線上網(wǎng)報(bào)錯(cuò)

2024-11-11 14:30:00

2014-05-07 10:47:51

移動(dòng)金融互聯(lián)網(wǎng)金融GMIC

2018-01-15 10:45:43

社交網(wǎng)絡(luò)互聯(lián)網(wǎng)巨頭百度

2020-12-16 10:43:44

PythonPyPy代碼
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)