自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="madmd"></sub>

<s id="madmd"><li id="madmd"></li></s>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

谷歌世界模型爆發(fā)：?jiǎn)螐垐D生成可玩3D世界，還要和馬斯克一起做AI游戲

2024-12-05 10:54:19

Google DeepMind 震撼宣布了他們的新一代世界模型 Genie 2，其可根據(jù)一張圖生成可供人類(lèi)或 AI 智能體游玩的無(wú)限 3D 世界。

昨晚，世界模型向前邁出了一大步！

Google DeepMind 震撼宣布了他們的新一代世界模型 Genie 2，其可根據(jù)一張圖生成可供人類(lèi)或 AI 智能體游玩的無(wú)限 3D 世界。

消息發(fā)布后，好評(píng)與震驚如潮水般涌現(xiàn)。有人被這技術(shù)進(jìn)步的速度震撼，稱(chēng)之為視頻游戲的未來(lái)，甚至還有人看到了一切都被虛擬化的世界模型的更長(zhǎng)遠(yuǎn)未來(lái)。

有趣的是，Genie 2 剛一發(fā)布，DeepMind CEO 哈薩比斯宣傳完之后直接邀請(qǐng)馬斯克一起來(lái)用世界模型制作 AI 游戲，馬斯克居然欣然同意了：

可見(jiàn) AI 大佬對(duì)于自己的技術(shù)很有信心，馬斯克也很重視。

Genie 2：劃時(shí)代的世界模型

Genie 2 是一個(gè)基礎(chǔ)世界模型（foundation world model），有能力生成無(wú)限多種可控制動(dòng)作、可玩的 3D 環(huán)境，而這些 3D 環(huán)境又可用于訓(xùn)練和評(píng)估具身智能體。

DeepMind 表示，Genie 2 只需使用單張?zhí)崾緢D像，就能生成可供人類(lèi)或 AI 智能使用鍵鼠輸入游玩的環(huán)境。

我們知道，在 AI 研究領(lǐng)域，游戲扮演著一個(gè)重要角色。游戲需要玩家參與、具有不同的難度、游戲進(jìn)度也易于衡量，因此成為了安全測(cè)試和推進(jìn) AI 發(fā)展的理想環(huán)境。

事實(shí)上，自 Google DeepMind 成立以來(lái)，AI 與游戲結(jié)合的研究就一直很重要。機(jī)器之心也一直在跟進(jìn)報(bào)道他們?cè)谟螒蛳嚓P(guān) AI 研究中的進(jìn)展，從早期的 Atari 游戲，到吸引全世界眼球的 AlphaGo 和 AlphaStar，再到他們上半年與游戲開(kāi)發(fā)者合作開(kāi)發(fā)的通用智能體 —— 參閱《智能體的ChatGPT時(shí)刻！DeepMind通用AI向人類(lèi)玩家進(jìn)化，開(kāi)始理解游戲》。

但 DeepMind 也指出，訓(xùn)練更通用的具身智能體有一個(gè)瓶頸：難以獲得足夠豐富和多樣化的訓(xùn)練環(huán)境。

Genie 2 似乎就能填補(bǔ)這一空白，其能創(chuàng)造一個(gè)用于訓(xùn)練和評(píng)估智能體的無(wú)限新世界。DeepMind 表示：「我們的研究還為構(gòu)建交互式體驗(yàn)原型設(shè)計(jì)的全新創(chuàng)意工作流程鋪平了道路。」

與李飛飛的空間智能相比如何？

前些天，我們剛剛報(bào)道了著名學(xué)者李飛飛的創(chuàng)業(yè)公司 World Labs 的首個(gè)項(xiàng)目。從描述上看，其與 Genie 2 似乎具有一樣的能力，都能基于單張圖像生成可交互的 3D 場(chǎng)景，參閱報(bào)道《剛剛，李飛飛創(chuàng)業(yè)首個(gè)項(xiàng)目引圍觀：?jiǎn)螆D生成交互 3D 場(chǎng)景，空間智能來(lái)了》。

但這兩者也存在一些區(qū)別。普林斯頓AI創(chuàng)新中心創(chuàng)始人、主任，終身教授王夢(mèng)迪告訴機(jī)器之心：「飛飛的 World Labs 和 Google 的 Genie2 看上去都是從一張圖片生成可以交互的三維場(chǎng)景，但有本質(zhì)區(qū)別。Genie2 還是 video diffusion（視頻擴(kuò)散），每一幀的生成都是 pixel prediction（像素預(yù)測(cè)），并通過(guò)額外的用戶輸入的 guidance（引導(dǎo)）來(lái)影響下一幀的概率分布。而飛飛的 World Labs 是更進(jìn)一步挖掘世界的物理本質(zhì)：從圖片出發(fā)，估計(jì)圖片中不同景物的深度和相對(duì)關(guān)系，生成了更加物理世界的 3D 環(huán)境建模，不僅僅是可互動(dòng)視頻。」

World Labs 的單圖生成 3D 場(chǎng)景的效果演示

從這個(gè)描述看，李飛飛的研究項(xiàng)目似乎更接近真正的世界模型一些。不管怎樣，這些新技術(shù)的碰撞都是進(jìn)步的過(guò)程，王夢(mèng)迪教授也表達(dá)了這樣的期待：「期待看到更多不同技術(shù)思路的進(jìn)展和對(duì)決。新范式快來(lái)吧?！?/span>

Genie 2 基礎(chǔ)世界模型的涌現(xiàn)能力

到目前為止，世界模型在很大程度上局限在建模范圍狹窄的領(lǐng)域。

在上一代 Genie 1 中，DeepMind 提出了一種生成多種 2D 世界的方法。Genie 2 則是通用性方面的一次飛躍！其可生成豐富多樣的 3D 世界。

Genie 2 是一個(gè)世界模型，這就意味著它可以模擬虛擬世界，包括采取任何動(dòng)作（例如跳躍、游泳等）的后果。它是在大型視頻數(shù)據(jù)集上訓(xùn)練得到的，因此，Genie 2 與其他生成模型一樣具有各種大規(guī)模涌現(xiàn)能力，例如物體交互、復(fù)雜角色動(dòng)畫(huà)、物理以及建模和預(yù)測(cè)其他智能體行為的能力。

下面展示了一些人們與 Genie 2 交互的例子。對(duì)于每個(gè)示例，模型都會(huì)使用 Imagen 3（DeepMind 最先進(jìn)的文生圖模型）生成的單張圖像作為提示。這意味著任何人都可以用文字描述他們想要的世界，選擇他們最喜歡的渲染方法，然后進(jìn)入這個(gè)新創(chuàng)建的世界并與之互動(dòng)（或在其中訓(xùn)練或評(píng)估 AI 智能體）。

在每個(gè)步驟中，都由一個(gè)人或智能體提供鍵盤(pán)和鼠標(biāo)操作，Genie 2 模擬下一個(gè)觀察結(jié)果。Genie 2 可以生成長(zhǎng)達(dá)一分鐘的一致世界，大多數(shù)示例持續(xù) 10-20 秒。

動(dòng)作控制

Genie 2 能智能地響應(yīng)鍵盤(pán)按鍵對(duì)應(yīng)的動(dòng)作，識(shí)別角色并正確地移動(dòng)它。例如，模型必須要明白，箭頭鍵應(yīng)該移動(dòng)機(jī)器人而不是樹(shù)木或云。

生成反事實(shí)視頻幀

Genie 2 可以從同一起始幀生成不同的軌跡，這意味著可以為訓(xùn)練智能體來(lái)模擬反事實(shí)體驗(yàn)。如下兩行動(dòng)圖所示，每個(gè)視頻都從同一幀開(kāi)始，但人類(lèi)玩家采取了不同的行動(dòng)。

長(zhǎng)跨度記憶

Genie 2 能夠記住視野中消失的部分世界，然后在它們?cè)俅慰梢?jiàn)時(shí)準(zhǔn)確地呈現(xiàn)它們。

使用新的生成內(nèi)容來(lái)生成長(zhǎng)視頻

Genie 2 可以即時(shí)地生成新的合理可信內(nèi)容，并在長(zhǎng)達(dá)一分鐘的時(shí)間內(nèi)保持一致性的世界。

多樣性環(huán)境

Genie 2 可以創(chuàng)建不同的視角，例如第一人稱(chēng)視角、等距視角或者第三人稱(chēng)駕駛視角。

3D 結(jié)構(gòu)

Genie 2 學(xué)會(huì)了創(chuàng)建復(fù)雜的 3D 視覺(jué)場(chǎng)景。

物體可供性和交互

Genie 2 能夠模擬各種物體之間的交互，例如爆破氣球、打開(kāi)門(mén)和用槍射擊炸藥桶。

角色動(dòng)畫(huà)

Genie 2 學(xué)會(huì)了為執(zhí)行不同活動(dòng)的各種角色制作動(dòng)畫(huà)。

NPC

Genie 2 能夠模擬其他智能體，甚至與它們進(jìn)行復(fù)雜的交互。

物理效果

Genie 2 能夠建模水面效果。

煙霧效果

Genie 2 能夠建模各種煙霧效果。

重力效果

Genie 2 能夠建模各種重力效果。

照明效果

Genie 2 能夠建模點(diǎn)式和定向照明效果。

反射效果

Genie 2 能夠建模反射、綻放和彩色燈光效果。

以現(xiàn)實(shí)世界的圖像為提示

Genie 2 還可以將現(xiàn)實(shí)世界的圖像作為提示，比如它可以模擬風(fēng)中飄動(dòng)的草或流動(dòng)的河水。

Genie 2 支持快速原型設(shè)計(jì)

Genie 2 可以輕松快速地為各種交互式體驗(yàn)制作原型，使研究人員能夠快速試驗(yàn)新環(huán)境，從而訓(xùn)練和測(cè)試具身 AI 智能體。

下圖用 Imagen 3 生成的不同圖像作為 Genie 2 的提示圖像，以模擬紙飛機(jī)、龍、鷹或降落傘飛行之間的差異，并測(cè)試 Genie 對(duì)不同化身的動(dòng)畫(huà)效果。

得益于 Genie 2 的分布式泛化能力，概念藝術(shù)和繪畫(huà)可以轉(zhuǎn)化為完全交互式的環(huán)境。這使得藝術(shù)家和設(shè)計(jì)師們能夠快速制作原型，從而啟動(dòng)環(huán)境設(shè)計(jì)的創(chuàng)作，進(jìn)一步加速研究。下圖展示了概念藝術(shù)家制作的「研究環(huán)境概念」示例。

在世界模型中行動(dòng)的 AI 智能體

通過(guò)使用 Genie 2 快速為 AI 智能體創(chuàng)建豐富多樣的環(huán)境，研究人員還可以生成智能體在訓(xùn)練期間未見(jiàn)過(guò)的評(píng)估任務(wù)。

下圖展示了與游戲開(kāi)發(fā)者合作開(kāi)發(fā)的 SIMA 智能體示例，該智能體通過(guò)單個(gè)圖像提示來(lái)遵循 Genie 2 合成的未見(jiàn)過(guò)環(huán)境的指令。

提示詞：第三人稱(chēng)開(kāi)放世界探索游戲的截圖。玩家扮演一名正在探索森林的冒險(xiǎn)者。左邊有一棟房子，門(mén)是紅色的，右邊有一棟房子，門(mén)是藍(lán)色的。攝像機(jī)位于玩家正后方。照片級(jí)真實(shí)、沉浸式。

SIMA 智能體通過(guò)遵循自然語(yǔ)言指令來(lái)完成一系列 3D 游戲世界中的任務(wù)。下圖中使用 Genie 2 生成一個(gè)有兩扇門(mén)（藍(lán)門(mén)和紅門(mén)）的 3D 環(huán)境，并向 SIMA 智能體提供打開(kāi)每扇門(mén)的指令。在該示例中，SIMA 通過(guò)鍵盤(pán)和鼠標(biāo)輸入控制化身，而 Genie 2 生成游戲幀。

另外還可以使用 SIMA 來(lái)幫助評(píng)估 Genie 2 的功能。下圖中指示 SIMA 環(huán)顧四周并探索房屋后面，來(lái)測(cè)試 Genie 2 生成一致環(huán)境的能力。

雖然這項(xiàng)研究仍處于早期階段，智能體和環(huán)境生成能力還有很大的改進(jìn)空間，但谷歌相信 Genie 2 是解決安全訓(xùn)練具身智能體結(jié)構(gòu)性問(wèn)題的一大途徑，同時(shí)也能提供邁向 AGI 所需的廣度和通用性。

下圖為 Imagen 3 生成的電腦游戲圖像，提示詞為「一張電腦游戲圖片，展示了一個(gè)粗糙的石洞或礦井內(nèi)部場(chǎng)景。觀看者的位置是第三人稱(chēng)視角，位于玩家頭像上方，向下看向頭像。玩家頭像是一個(gè)手持寶劍的騎士。騎士頭像前面有 3 個(gè)石拱門(mén)，騎士可以選擇穿過(guò)其中任何一扇門(mén)。穿過(guò)第一扇門(mén)和內(nèi)部，我們可以看到隧道兩旁長(zhǎng)滿了奇異的綠色植物和發(fā)光的花朵。在第二個(gè)門(mén)的內(nèi)部和外部，有一條走廊，走廊上鉚接著釘在洞穴墻壁上的帶刺鐵板，通向遠(yuǎn)處不祥的光芒。穿過(guò)第三扇門(mén)，我們可以看到一組粗糙的石階，通往一個(gè)神秘的目的地。」

下面為根據(jù)上圖生成的游戲幀。

背后的技術(shù)：擴(kuò)散世界模型

作為一個(gè)自回歸潛在擴(kuò)散模型，Genie 2 在大型視頻數(shù)據(jù)集上進(jìn)行訓(xùn)練。在通過(guò)一個(gè)自動(dòng)編碼器后，視頻中的潛在幀被傳遞到大型 transformer 動(dòng)態(tài)模型中，該模型使用與大型語(yǔ)言模型類(lèi)似的因果掩碼進(jìn)行訓(xùn)練。

在推理時(shí)，Genie 2 能夠以自回歸方式進(jìn)行采樣，逐幀采取單個(gè)動(dòng)作和過(guò)去的潛在幀。谷歌使用無(wú)分類(lèi)器指導(dǎo)（classifier-free guidance）來(lái)提高動(dòng)作可控性。

本文的示例由未蒸餾的基礎(chǔ)模型生成，以展示其多種可能性。當(dāng)然也可以實(shí)時(shí)運(yùn)行蒸餾版本，但輸出質(zhì)量會(huì)降低。

負(fù)責(zé)任地開(kāi)發(fā)技術(shù)

谷歌表示，Genie 2 展示了基礎(chǔ)世界模型在創(chuàng)建多樣化 3D 環(huán)境和加速智能體研究方面的潛力。不過(guò)，鑒于該研究方向尚處于早期階段，未來(lái)將繼續(xù)提高 Genie 在通用性和一致性方面的世界生成能力。

與 SIMA 一樣，谷歌的研究正在朝著更通用 AI 系統(tǒng)和智能體的方向發(fā)展，它們可以理解并安全地執(zhí)行各種任務(wù)，從而對(duì)線上和現(xiàn)實(shí)世界中的人們提供幫助。

順帶一提，DeepMind 同時(shí)還發(fā)布了 AI 天氣預(yù)測(cè)模型 GenCast，當(dāng)然，它的天氣預(yù)測(cè)表現(xiàn)也達(dá)到了當(dāng)前最佳水平。

參考內(nèi)容：

https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/。

https://news.ycombinator.com/item?id=42317903。

責(zé)任編輯：姜華來(lái)源：機(jī)器之心

Genie 2 AI 人工智能

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<cite id="ve26h"><track id="ve26h"></track></cite>