谷歌發(fā)布基礎(chǔ)世界模型:11B參數(shù),能生成可交互虛擬世界
Sora 問世才不到兩個星期,谷歌的世界模型也來了,能力看起來更強(qiáng)大:它生成的虛擬世界「自主可控」。
剛剛,谷歌定義了生成式 AI 的全新范式 —— 生成式交互環(huán)境(Genie,Generative Interactive Environments)。Genie 是一個 110 億參數(shù)的基礎(chǔ)世界模型,可以通過單張圖像提示生成可玩的交互式環(huán)境。
我們可以用它從未見過的圖像進(jìn)行提示,然后與自己想象中的虛擬世界進(jìn)行互動。
不管是合成圖像、照片甚至手繪草圖,Genie 都可以從中生成無窮無盡的可玩世界。
Genie 由三個部分組成:一個潛在動作模型,用于推斷每對幀之間的潛在動作;一個視頻 tokenizer,用于將原始視頻幀轉(zhuǎn)換為離散 token;一個動態(tài)模型,用于在給定潛在動作和過去幀 token 的情況下,預(yù)測視頻的下一幀。
看到這項技術(shù)發(fā)布,很多人表示:谷歌又要來領(lǐng)導(dǎo) AI 技術(shù)了。
谷歌還提出,Genie 學(xué)到的潛在動作可以轉(zhuǎn)移到真實的人類設(shè)計的環(huán)境中。在這個假設(shè)基礎(chǔ)上,谷歌針對機(jī)器人視頻訓(xùn)練了一個 Genie 模型,作為機(jī)器人領(lǐng)域潛在世界模型應(yīng)用的概念驗證。
被顛覆的游戲、設(shè)計、XR、機(jī)器人行業(yè)……
我們可以從四個維度來理解 Genie 的革命性意義。
首先,Genie 可以在沒有動作標(biāo)簽時學(xué)習(xí)控制。
具體來說,Genie 借助大量公開的互聯(lián)網(wǎng)視頻數(shù)據(jù)集進(jìn)行了訓(xùn)練,沒有任何動作標(biāo)簽數(shù)據(jù)。
這本來是一個挑戰(zhàn),因為互聯(lián)網(wǎng)視頻通常沒有關(guān)于正在執(zhí)行哪個動作、應(yīng)該控制圖像哪一部分的標(biāo)簽,但 Genie 能夠?qū)iT從互聯(lián)網(wǎng)視頻中學(xué)習(xí)細(xì)粒度的控制。
對于 Genie 而言,它不僅了解觀察到的哪些部分通常是可控的,而且還能推斷出在生成環(huán)境中一致的各種潛在動作。需要注意的是,相同的潛在動作如何在不同的 prompt 圖像中產(chǎn)生相似的行為。
其次,Genie 可以培養(yǎng)下一代「創(chuàng)作者」(creator)。
只需要一張圖像就可以創(chuàng)建一個全新的交互環(huán)境,這為生成和進(jìn)入虛擬世界的各種新方法打開了大門。例如,我們可以使用最先進(jìn)的文本生成圖像模型來生成起始幀,然后與 Genie 一起生成動態(tài)交互環(huán)境。
在如下動圖中,谷歌使用 Imagen2 生成了圖像,再使用 Genie 將它們變?yōu)楝F(xiàn)實:
Genie 能做到的不止如此,它還可以應(yīng)用到草圖等人類設(shè)計相關(guān)的創(chuàng)作領(lǐng)域。
或者,應(yīng)用在真實世界的圖像中:
再次,谷歌認(rèn)為 Genie 是實現(xiàn)通用智能體的基石之作。以往的研究表明,游戲環(huán)境可以成為開發(fā) AI 智能體的有效測試平臺,但常常受到可用游戲數(shù)量的限制。
現(xiàn)在借助 Genie,未來的 AI 智能體可以在新生成世界的無休止的 curriculum 中接受訓(xùn)練。谷歌提出一個概念證明,即 Genie 學(xué)到的潛在動作可以轉(zhuǎn)移到真實的人類設(shè)計的環(huán)境中。
最后,谷歌表示,Genie 是一種通用方法,可以應(yīng)用于多個領(lǐng)域,而不需要任何額外的領(lǐng)域知識。
盡管所用數(shù)據(jù)更多是 2D Platformer 游戲游戲和機(jī)器人視頻,但該方法具備通用性,適用于任何類型的領(lǐng)域,并可擴(kuò)展到更大的互聯(lián)網(wǎng)數(shù)據(jù)集。
谷歌在 RT1 的無動作視頻上訓(xùn)練了一個較小的 2.5B 模型。與 Platformers 的情況一樣,具有相同潛在動作序列的軌跡通常會表現(xiàn)出相似的行為。
這表明 Genie 能夠?qū)W習(xí)一致的動作空間,這可能適合訓(xùn)練機(jī)器人,打造通用化的具身智能。
技術(shù)揭秘:論文《Genie: Generative Interactive Environments》已公布
谷歌 DeepMind 已經(jīng)放出了 Genie 論文。
- 論文地址:https://arxiv.org/pdf/2402.15391.pdf
- 項目主頁:https://sites.google.com/view/genie-2024/home?pli=1
論文的共同一作多達(dá) 6 人,其中包括華人學(xué)者石宇歌(Yuge (Jimmy) Shi)。她目前是谷歌 DeepMind 研究科學(xué)家, 2023 年獲得牛津大學(xué)機(jī)器學(xué)習(xí)博士學(xué)位。
方法介紹
Genie 架構(gòu)中的多個組件基于 Vision Transformer (ViT) 構(gòu)建而成。值得注意的是,由于 Transformer 的二次內(nèi)存成本給視頻領(lǐng)域帶來了挑戰(zhàn),視頻最多可以包含 ??(10^4 ) 個 token。因此,谷歌在所有模型組件中采用內(nèi)存高效的 ST-transformer 架構(gòu)(見圖 4),以此平衡模型容量與計算約束。
Genie 包含三個關(guān)鍵組件(如下圖所示):
1) 潛在動作模型(Latent Action Model ,LAM),用于推理每對幀之間的潛在動作 ??;
2) 視頻分詞器(Tokenizer),用于將原始視頻幀轉(zhuǎn)換為離散 token ??;
3) 動態(tài)模型,給定潛在動作和過去幀的 token,用來預(yù)測視頻的下一幀。
具體而言:
潛在動作模型:為了實現(xiàn)可控的視頻生成,谷歌將前一幀所采取的動作作為未來幀預(yù)測的條件。然而,此類動作標(biāo)簽在互聯(lián)網(wǎng)的視頻中可用的很少,并且獲取動作注釋的成本會很高。相反,谷歌以完全無監(jiān)督的方式學(xué)習(xí)潛在動作(見圖 5)。
視頻分詞器:在之前研究的基礎(chǔ)上,谷歌將視頻壓縮為離散 token,以降低維度并實現(xiàn)更高質(zhì)量的視頻生成(見圖 6)。實現(xiàn)過程中,谷歌使用了 VQ-VAE,其將視頻的 ?? 幀作為輸入,從而為每個幀生成離散表示:
,其中?? 是離散潛在空間大小。分詞器在整個視頻序列上使用標(biāo)準(zhǔn)的 VQ-VQAE 進(jìn)行訓(xùn)練。
動態(tài)模型:是一個僅解碼器的 MaskGIT transformer(圖 7)。
Genie 的推理過程如下所示
實驗結(jié)果
擴(kuò)展結(jié)果
為了研究模型的擴(kuò)展行為,谷歌對參數(shù)量為 2.7B 到 41M 的模型進(jìn)行了實驗來探討模型大小和批大小的影響,實驗結(jié)果如下圖 9 所示。
可以觀察到,模型大小增加,最終訓(xùn)練損失會減少。這有力地表明 Genie 方法受益于擴(kuò)展。同時,增加批大小也會給模型性能帶來增益。
定性結(jié)果
谷歌展示了在 Platformers 數(shù)據(jù)集上訓(xùn)練的 Genie 11B 參數(shù)模型和在 Robotics 數(shù)據(jù)集上訓(xùn)練的較小模型的定性實驗結(jié)果。結(jié)果表明,Genie 模型可以生成跨不同領(lǐng)域的高質(zhì)量、可控視頻。值得注意的是,谷歌僅使用分布外(OOD)圖像 prompt 來定性評估其平臺訓(xùn)練模型,這表明 Genie 方法的穩(wěn)健性和大規(guī)模數(shù)據(jù)訓(xùn)練的價值。
智能體訓(xùn)練?;蛟S有一天,Genie 可以被用作訓(xùn)練多任務(wù)智能體的基礎(chǔ)世界模型。在圖 14 中,作者展示了該模型已經(jīng)可以用于在給定起始幀的全新 RL 環(huán)境中生成不同的軌跡。
作者在程序生成的 2D 平臺游戲環(huán)境 CoinRun 中進(jìn)行評估,并與能夠訪問專家操作作為上限的預(yù)言機(jī)行為克隆 (BC) 模型進(jìn)行比較。
消融研究。選擇在設(shè)計潛在動作模型時,作者仔細(xì)考慮了要使用的輸入類型。雖然最終選擇使用原始圖像(像素),但作者在設(shè)計 Genie 時針對使用標(biāo)記化圖像的替代方案(在圖 5 中用 z 替換 x)來評估這一選擇。這種替代方法稱為「token 輸入」模型(參見表 2)。
分詞器架構(gòu)消融。作者比較了三種分詞器選擇的性能,包括 1)(僅空間)ViT、2)(時空)ST-ViViT 和 3)(時空)CViViT(表 3)。