自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

看了30000小時視頻,谷歌模型發(fā)現(xiàn)不同于Sora的新方法,可與虛擬世界沉浸交互,向世界模型再進(jìn)一步

原創(chuàng) 精選
人工智能
DeepMind在Genie項(xiàng)目的公告頁面上展示了許多從靜態(tài)起始圖像生成的簡單平臺風(fēng)格游戲樣本GIF,這些起始圖像包括兒童的草圖、真實(shí)世界的照片等,甚至通過ImageGen2處理過的文本提示也能生成游戲的GIF示例。

撰稿丨今日晴

出品 | 51CTO技術(shù)棧(微信號:blog51cto)

當(dāng)下,生成式AI的高速發(fā)展讓人們已經(jīng)逐漸習(xí)慣了各種可以生成文本、圖像、音頻乃至視頻的AI工具。

而最近谷歌DeepMind推出的Genie模型則實(shí)現(xiàn)了一種完全不同的功能,它能將圖像轉(zhuǎn)化為“可交互、可玩的環(huán)境”。

DeepMind在Genie項(xiàng)目的公告頁面上展示了許多從靜態(tài)起始圖像生成的簡單平臺風(fēng)格游戲樣本GIF,這些起始圖像包括兒童的草圖、真實(shí)世界的照片等,甚至通過ImageGen2處理過的文本提示也能生成游戲的GIF示例。

圖片圖片

1.基礎(chǔ)世界模型

Genie提供了一種生成式AI的新范式。Genie 能夠接受其從未見過的圖像提示,從而讓人們能夠與其想象中的虛擬世界互動,實(shí)質(zhì)上扮演了基礎(chǔ)世界模型的角色。

雖然 Genie 的輸出乍一看與基本 2D 游戲引擎的輸出相似,但該模型實(shí)際上并不像人類游戲開發(fā)人員那樣繪制精靈并編寫可玩的平臺游戲。相反,系統(tǒng)將其起始圖像(或多個圖像)視為視頻中的幀,并在接收到特定輸入時生成對整個下一幀(或多個幀)應(yīng)該是什么樣子的最佳猜測。

Genie在訓(xùn)練過程中沒有使用任何動作標(biāo)簽,而是從大量公開可用的互聯(lián)網(wǎng)視頻數(shù)據(jù)集訓(xùn)練而來的。

通過這種方法,Genie模型能夠在觀察到有限的靜態(tài)視覺信息或文本描述后,基于大量訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到的游戲規(guī)則和動態(tài)規(guī)律,推斷并生成連續(xù)的、具有互動性的游戲環(huán)境。

這意味著用戶上傳一張簡單的圖畫或一段描述,Genie就能夠嘗試構(gòu)建出一個與之相關(guān)的、可供玩家探索和交互的虛擬游戲場景。

2.無需動作標(biāo)簽的學(xué)習(xí)

Genie 的獨(dú)特之處在于它能夠?qū)iT從互聯(lián)網(wǎng)視頻中學(xué)習(xí)細(xì)粒度的控制。這是一個挑戰(zhàn),因?yàn)榛ヂ?lián)網(wǎng)視頻通常沒有關(guān)于正在執(zhí)行哪個動作,甚至應(yīng)該控制圖像的哪一部分的標(biāo)簽。值得注意的是,Genie 不僅了解觀察的哪些部分通常是可控的,而且還推斷出在生成的環(huán)境中一致的各種潛在動作。

為了建立這個模型,Genie 從 200000 小時的公共互聯(lián)網(wǎng)游戲視頻開始,從“數(shù)百個 2D 游戲”中篩選出 30000 小時的標(biāo)準(zhǔn)化視頻。然后,這些視頻中的各個幀被標(biāo)記為一個包含 2 億個參數(shù)的模型,機(jī)器學(xué)習(xí)算法可以輕松使用該模型。

從這里開始,系統(tǒng)生成了一個“潛在動作模型”來預(yù)測哪種交互“動作”(即按下按鈕)可以切實(shí)且一致地生成所有這些令牌中看到的逐幀變化。建立潛在動作模型后,Genie 會生成一個“動態(tài)模型”,該模型可以采用任意數(shù)量的任意幀和潛在動作,并在給定任何潛在輸入的情況下生成關(guān)于下一幀應(yīng)該是什么樣子的有根據(jù)的猜測。最終模型在 9420 億個令牌上訓(xùn)練了 107 億個參數(shù),盡管 Genie 的結(jié)果表明更大的模型會產(chǎn)生更好的結(jié)果。

之前使用生成式人工智能生成類似交互模型的工作依賴于使用“真實(shí)動作標(biāo)簽”或訓(xùn)練數(shù)據(jù)的文本描述來幫助指導(dǎo)他們的機(jī)器學(xué)習(xí)算法。Genie 與這項(xiàng)工作的區(qū)別在于它能夠“在沒有動作或文本注釋的情況下進(jìn)行訓(xùn)練”,只使用標(biāo)記化視頻幀的幾個小時來推斷視頻背后的潛在動作。

Genie 團(tuán)隊(duì)在其研究論文中寫道:“泛化到如此顯著的[離分布]輸入的能力突顯了我們方法的穩(wěn)健性以及大規(guī)模數(shù)據(jù)訓(xùn)練的價值,而如果采用真實(shí)的動作作為輸入,則這樣的訓(xùn)練方式在可行性上將受到極大挑戰(zhàn)?!?/p>

學(xué)會控制學(xué)會控制

草圖生成草圖生成

圖片圖片

手臂運(yùn)動手臂運(yùn)動

3.不得不提的重大限制

在你對僅憑粗略的草圖就可以生成無盡的平臺游戲感到興奮之前,需要記住一些重要的限制。

最重要的是,該系統(tǒng)目前僅以每秒一幀的速度運(yùn)行,這比實(shí)時播放的內(nèi)容至少慢 20 到 30 倍。在幾幀上顯示更流暢動畫的示例 GIF 只是將一系列幀拼接在一起,而這些幀需要花費(fèi)一分鐘的時間才能實(shí)時生成。

Genie團(tuán)隊(duì)承認(rèn),其系統(tǒng)也會像其他AI模型那樣“產(chǎn)生不切實(shí)際的未來預(yù)測”。這一點(diǎn)在他們分享的一些示例GIF動畫中表現(xiàn)得尤為明顯。例如,在其中一個演示中,原本并行飛行的兩只鳥突然合并成一個實(shí)體,這是違背物理規(guī)律的現(xiàn)象;而在另一個例子中,角色在完成簡單跳躍動作后,并未遵循重力下落,而是開始漂浮起來。

這些現(xiàn)象表明,盡管Genie能夠基于已有的游戲素材創(chuàng)造動態(tài)情境,但受限于其學(xué)習(xí)和理解真實(shí)世界規(guī)則的能力,它在某些情況下生成的結(jié)果可能出現(xiàn)邏輯上的不一致性和不真實(shí)性。

此外,你可能也注意到,Genie團(tuán)隊(duì)迄今為止公開展示的樣本僅顯示了少數(shù)幾個(有時非常模糊)的動作幀,然后就會回到起點(diǎn)循環(huán)播放。這很可能是因?yàn)楫?dāng)前系統(tǒng)僅限于分析最多“16幀內(nèi)存”,團(tuán)隊(duì)表示,這“使得在較長時間范圍內(nèi)獲取一致的環(huán)境變得具有挑戰(zhàn)性”。

換句話說,由于系統(tǒng)的內(nèi)存限制,Genie目前生成的互動環(huán)境在超過16幀后可能會出現(xiàn)重復(fù)或不連貫的情況,因此無法展現(xiàn)出更長連續(xù)的游戲場景。

4.邁向“世界模型”的一步

盡管目前的 Genie 擁有許多的不足,但 Genie 的能力不應(yīng)該被低估,尤其是它對通向“世界模型的意義”。

自Sora的出現(xiàn)之后,人們更加關(guān)注與好奇AI何時能從物理層面上模擬和理解環(huán)境的運(yùn)作規(guī)律。Meta首席科學(xué)家LeCun堅(jiān)持認(rèn)為,Sora走不通“世界模型”,無論生成多么逼真的視頻,都不意味著Sora理解了物理世界。

但Genie則不同,僅從一個靜態(tài)圖像開始,Genie 似乎能夠區(qū)分玩家角色和游戲背景,因此它能了解觀察對象的哪些部分通常是可控的,還能推斷出在生成環(huán)境中一致的各種潛在動作。對于沒有任何人工指導(dǎo)或動作標(biāo)記幫助來解釋視頻訓(xùn)練數(shù)據(jù)的模型來說,這是一項(xiàng)重大的突破。

Genie 團(tuán)隊(duì)提到,研究人員希望這項(xiàng)技術(shù)可以用于“為機(jī)器人技術(shù)創(chuàng)建一個基礎(chǔ)世界模型,并具有可用于各種應(yīng)用的低級可控模擬”。可見,Genie技術(shù)+具身智能可能會爆發(fā)出無限的想象力。 

DeepMind 的研究人員已經(jīng)在展望這種強(qiáng)大的世界模型能力對整個人工智能領(lǐng)域意味著什么。DeepMind 研究科學(xué)家 Jack Parker-Holder 在X上興奮地表示道,Genie 代表著“有了一條可行的路徑來生成訓(xùn)練AGI所需的豐富多樣性環(huán)境?!?/p>

圖片圖片

DeepMind 的 Richard Song補(bǔ)充說,Genie 可能會導(dǎo)致研究人員需要生成“訓(xùn)練通用(強(qiáng)化學(xué)習(xí))智能體所需的大量多樣化視頻游戲環(huán)境”所需的“無限生成器”。

該項(xiàng)目也開始在谷歌之外引起轟動。Nvidia AI 研究員 Jim Fan 指出,Genie在某種程度上改進(jìn)了OpenAI 的 Sora 視頻模型,因?yàn)樗皩?shí)際上是一個具有推斷動作的正確的動作驅(qū)動的世界模型”。

無論這些預(yù)測是否成功,該項(xiàng)目在那些近距離觀察過它的人中所產(chǎn)生的興奮感都難以忽視?!爱?dāng)我看到這個項(xiàng)目時,我的反應(yīng)是‘哦,這是我最近見過的最酷的項(xiàng)目,超級令人興奮!‘’” DeepMind 的 Lucas Beyer寫道。

圖片圖片

5.寫在最后

現(xiàn)代認(rèn)知科學(xué)認(rèn)為,人類會在頭腦中構(gòu)建關(guān)于周圍真實(shí)世界的抽象模型,即我們通常所說的“世界模型”。關(guān)于“世界模型”的問題一直是人工智能研究的焦點(diǎn)。然而,大模型究竟能對世界有多深的理解,引發(fā)了兩極分化的激烈爭論。

自Sora的出現(xiàn)之后,人們更加關(guān)注與好奇AI何時能從物理層面上模擬和理解環(huán)境的運(yùn)作規(guī)律。Meta首席科學(xué)家LeCun堅(jiān)持認(rèn)為,Sora走不通“世界模型”,無論生成多么逼真的視頻,都不意味著Sora理解了物理世界。

現(xiàn)在Genie誕生了。如果說Sora可以顛覆好萊塢,那么Genie讓我們看到了AI正面交鋒暴雪和任天堂的可能。

Tik Tok通過算法推薦內(nèi)容成為了上個時代的王者。未來將至,今后的內(nèi)容產(chǎn)和消費(fèi)會是一個完全由AI掌控的時代嗎?

圖片

參考鏈接:

https://sites.google.com/view/genie-2024/home

https://arstechnica.com/gadgets/2024/03/googles-genie-model-creates-interactive-2d-worlds-from-a-single-image/

責(zé)任編輯:武曉燕 來源: 51CTO技術(shù)棧
相關(guān)推薦

2020-12-10 20:00:04

數(shù)字貨幣比特幣區(qū)塊鏈

2024-02-27 09:19:13

谷歌AI

2015-12-14 11:42:27

指紋安全指紋掃描指紋識別

2010-05-07 14:22:43

SpringSourcGemStoneSpring

2020-12-17 09:48:35

人工智能開發(fā)醫(yī)療

2011-07-29 15:02:22

LifeSize視頻協(xié)作

2015-03-10 10:43:26

微波無線輸電

2015-10-23 10:53:54

OpenStackNFV網(wǎng)絡(luò)功能虛擬化

2023-04-12 16:12:09

2021-04-05 18:06:36

谷歌安卓Google Play

2025-01-26 11:00:00

2009-08-26 14:48:05

C#委托與事件

2011-07-27 12:58:43

Android MarAndroid應(yīng)用商店

2011-08-15 23:49:22

2013-11-07 09:07:58

Windows PhoWindows8開發(fā)者

2025-01-02 09:12:34

2011-03-07 15:20:28

思科網(wǎng)真系統(tǒng)數(shù)碼

2023-09-01 18:20:43

Chrome代碼測試版

2019-03-22 10:20:39

加速Windows 10啟動

2024-02-19 08:58:00

模型AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號