自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

谷歌發(fā)布基礎(chǔ)世界模型:11B參數(shù),能生成可交互虛擬世界

人工智能 新聞
谷歌定義了生成式 AI 的全新范式 —— 生成式交互環(huán)境(Genie,Generative Interactive Environments)。

Sora 問世才不到兩個星期,谷歌的世界模型也來了,能力看起來更強(qiáng)大:它生成的虛擬世界「自主可控」。

剛剛,谷歌定義了生成式 AI 的全新范式 —— 生成式交互環(huán)境(Genie,Generative Interactive Environments)。Genie 是一個 110 億參數(shù)的基礎(chǔ)世界模型,可以通過單張圖像提示生成可玩的交互式環(huán)境。

我們可以用它從未見過的圖像進(jìn)行提示,然后與自己想象中的虛擬世界進(jìn)行互動。

不管是合成圖像、照片甚至手繪草圖,Genie 都可以從中生成無窮無盡的可玩世界。

圖片

Genie 由三個部分組成:一個潛在動作模型,用于推斷每對幀之間的潛在動作;一個視頻 tokenizer,用于將原始視頻幀轉(zhuǎn)換為離散 token;一個動態(tài)模型,用于在給定潛在動作和過去幀 token 的情況下,預(yù)測視頻的下一幀。

看到這項技術(shù)發(fā)布,很多人表示:谷歌又要來領(lǐng)導(dǎo) AI 技術(shù)了。

谷歌還提出,Genie 學(xué)到的潛在動作可以轉(zhuǎn)移到真實的人類設(shè)計的環(huán)境中。在這個假設(shè)基礎(chǔ)上,谷歌針對機(jī)器人視頻訓(xùn)練了一個 Genie 模型,作為機(jī)器人領(lǐng)域潛在世界模型應(yīng)用的概念驗證。

被顛覆的游戲、設(shè)計、XR、機(jī)器人行業(yè)……

我們可以從四個維度來理解 Genie 的革命性意義。

首先,Genie 可以在沒有動作標(biāo)簽時學(xué)習(xí)控制。

具體來說,Genie 借助大量公開的互聯(lián)網(wǎng)視頻數(shù)據(jù)集進(jìn)行了訓(xùn)練,沒有任何動作標(biāo)簽數(shù)據(jù)。

這本來是一個挑戰(zhàn),因為互聯(lián)網(wǎng)視頻通常沒有關(guān)于正在執(zhí)行哪個動作、應(yīng)該控制圖像哪一部分的標(biāo)簽,但 Genie 能夠?qū)iT從互聯(lián)網(wǎng)視頻中學(xué)習(xí)細(xì)粒度的控制。

對于 Genie 而言,它不僅了解觀察到的哪些部分通常是可控的,而且還能推斷出在生成環(huán)境中一致的各種潛在動作。需要注意的是,相同的潛在動作如何在不同的 prompt 圖像中產(chǎn)生相似的行為。

其次,Genie 可以培養(yǎng)下一代「創(chuàng)作者」(creator)。

只需要一張圖像就可以創(chuàng)建一個全新的交互環(huán)境,這為生成和進(jìn)入虛擬世界的各種新方法打開了大門。例如,我們可以使用最先進(jìn)的文本生成圖像模型來生成起始幀,然后與 Genie 一起生成動態(tài)交互環(huán)境。

在如下動圖中,谷歌使用 Imagen2 生成了圖像,再使用 Genie 將它們變?yōu)楝F(xiàn)實:

Genie 能做到的不止如此,它還可以應(yīng)用到草圖等人類設(shè)計相關(guān)的創(chuàng)作領(lǐng)域。

圖片

或者,應(yīng)用在真實世界的圖像中:

再次,谷歌認(rèn)為 Genie 是實現(xiàn)通用智能體的基石之作。以往的研究表明,游戲環(huán)境可以成為開發(fā) AI 智能體的有效測試平臺,但常常受到可用游戲數(shù)量的限制。

現(xiàn)在借助 Genie,未來的 AI 智能體可以在新生成世界的無休止的 curriculum 中接受訓(xùn)練。谷歌提出一個概念證明,即 Genie 學(xué)到的潛在動作可以轉(zhuǎn)移到真實的人類設(shè)計的環(huán)境中。

最后,谷歌表示,Genie 是一種通用方法,可以應(yīng)用于多個領(lǐng)域,而不需要任何額外的領(lǐng)域知識。

盡管所用數(shù)據(jù)更多是 2D Platformer 游戲游戲和機(jī)器人視頻,但該方法具備通用性,適用于任何類型的領(lǐng)域,并可擴(kuò)展到更大的互聯(lián)網(wǎng)數(shù)據(jù)集。

谷歌在 RT1 的無動作視頻上訓(xùn)練了一個較小的 2.5B 模型。與 Platformers 的情況一樣,具有相同潛在動作序列的軌跡通常會表現(xiàn)出相似的行為。

這表明 Genie 能夠?qū)W習(xí)一致的動作空間,這可能適合訓(xùn)練機(jī)器人,打造通用化的具身智能。

技術(shù)揭秘:論文《Genie: Generative Interactive Environments》已公布

谷歌 DeepMind 已經(jīng)放出了 Genie 論文。


  • 論文地址:https://arxiv.org/pdf/2402.15391.pdf
  • 項目主頁:https://sites.google.com/view/genie-2024/home?pli=1

論文的共同一作多達(dá) 6 人,其中包括華人學(xué)者石宇歌(Yuge (Jimmy) Shi)。她目前是谷歌 DeepMind 研究科學(xué)家, 2023 年獲得牛津大學(xué)機(jī)器學(xué)習(xí)博士學(xué)位。

圖片

方法介紹

Genie 架構(gòu)中的多個組件基于 Vision Transformer (ViT) 構(gòu)建而成。值得注意的是,由于 Transformer 的二次內(nèi)存成本給視頻領(lǐng)域帶來了挑戰(zhàn),視頻最多可以包含 ??(10^4 ) 個 token。因此,谷歌在所有模型組件中采用內(nèi)存高效的 ST-transformer 架構(gòu)(見圖 4),以此平衡模型容量與計算約束。

圖片

Genie 包含三個關(guān)鍵組件(如下圖所示):

1) 潛在動作模型(Latent Action Model ,LAM),用于推理每對幀之間的潛在動作 ??;

2) 視頻分詞器(Tokenizer),用于將原始視頻幀轉(zhuǎn)換為離散 token ??;

3) 動態(tài)模型,給定潛在動作和過去幀的 token,用來預(yù)測視頻的下一幀。

具體而言:

潛在動作模型:為了實現(xiàn)可控的視頻生成,谷歌將前一幀所采取的動作作為未來幀預(yù)測的條件。然而,此類動作標(biāo)簽在互聯(lián)網(wǎng)的視頻中可用的很少,并且獲取動作注釋的成本會很高。相反,谷歌以完全無監(jiān)督的方式學(xué)習(xí)潛在動作(見圖 5)。

視頻分詞器:在之前研究的基礎(chǔ)上,谷歌將視頻壓縮為離散 token,以降低維度并實現(xiàn)更高質(zhì)量的視頻生成(見圖 6)。實現(xiàn)過程中,谷歌使用了 VQ-VAE,其將視頻的 ?? 幀圖片作為輸入,從而為每個幀生成離散表示:圖片,其中?? 是離散潛在空間大小。分詞器在整個視頻序列上使用標(biāo)準(zhǔn)的 VQ-VQAE 進(jìn)行訓(xùn)練。

動態(tài)模型:是一個僅解碼器的 MaskGIT transformer(圖 7)。

Genie 的推理過程如下所示

實驗結(jié)果

擴(kuò)展結(jié)果

為了研究模型的擴(kuò)展行為,谷歌對參數(shù)量為 2.7B 到 41M 的模型進(jìn)行了實驗來探討模型大小和批大小的影響,實驗結(jié)果如下圖 9 所示。

可以觀察到,模型大小增加,最終訓(xùn)練損失會減少。這有力地表明 Genie 方法受益于擴(kuò)展。同時,增加批大小也會給模型性能帶來增益。

定性結(jié)果

谷歌展示了在 Platformers 數(shù)據(jù)集上訓(xùn)練的 Genie 11B 參數(shù)模型和在 Robotics 數(shù)據(jù)集上訓(xùn)練的較小模型的定性實驗結(jié)果。結(jié)果表明,Genie 模型可以生成跨不同領(lǐng)域的高質(zhì)量、可控視頻。值得注意的是,谷歌僅使用分布外(OOD)圖像 prompt 來定性評估其平臺訓(xùn)練模型,這表明 Genie 方法的穩(wěn)健性和大規(guī)模數(shù)據(jù)訓(xùn)練的價值。

智能體訓(xùn)練?;蛟S有一天,Genie 可以被用作訓(xùn)練多任務(wù)智能體的基礎(chǔ)世界模型。在圖 14 中,作者展示了該模型已經(jīng)可以用于在給定起始幀的全新 RL 環(huán)境中生成不同的軌跡。

作者在程序生成的 2D 平臺游戲環(huán)境 CoinRun 中進(jìn)行評估,并與能夠訪問專家操作作為上限的預(yù)言機(jī)行為克隆 (BC) 模型進(jìn)行比較。

消融研究。選擇在設(shè)計潛在動作模型時,作者仔細(xì)考慮了要使用的輸入類型。雖然最終選擇使用原始圖像(像素),但作者在設(shè)計 Genie 時針對使用標(biāo)記化圖像的替代方案(在圖 5 中用 z 替換 x)來評估這一選擇。這種替代方法稱為「token 輸入」模型(參見表 2)。

分詞器架構(gòu)消融。作者比較了三種分詞器選擇的性能,包括 1)(僅空間)ViT、2)(時空)ST-ViViT 和 3)(時空)CViViT(表 3)。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-03-07 13:23:20

谷歌模型Sora

2024-12-05 10:54:19

2024-11-01 16:37:02

Oasis大模型AI

2009-05-20 08:13:50

谷歌施密特大學(xué)生

2025-04-21 09:20:00

2025-02-14 09:30:00

視頻生成模型開源機(jī)器人

2024-05-24 12:53:06

AI訓(xùn)練

2023-10-12 16:37:36

模型學(xué)習(xí)

2010-06-09 11:42:08

世界杯虛擬化

2025-03-13 12:39:22

2024-10-16 09:50:32

2025-03-13 10:26:45

2024-09-26 14:07:30

2013-08-08 17:19:40

2025-01-26 11:00:00

2017-04-19 20:40:28

谷歌操作系統(tǒng)

2015-12-15 14:11:12

2022-10-19 08:39:46

?可?分布式集群

2023-12-20 14:54:29

谷歌Gen-2視頻
點贊
收藏

51CTO技術(shù)棧公眾號