自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<s id="4ld8u"><li id="4ld8u"></li></s>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

谷歌發(fā)布基礎(chǔ)世界模型：11B參數(shù)，能生成可交互虛擬世界

作者：機(jī)器之心 2024-02-27 09:19:13

人工智能新聞

谷歌定義了生成式 AI 的全新范式 —— 生成式交互環(huán)境（Genie，Generative Interactive Environments）。

Sora 問世才不到兩個星期，谷歌的世界模型也來了，能力看起來更強(qiáng)大：它生成的虛擬世界「自主可控」。

剛剛，谷歌定義了生成式 AI 的全新范式 —— 生成式交互環(huán)境（Genie，Generative Interactive Environments）。Genie 是一個 110 億參數(shù)的基礎(chǔ)世界模型，可以通過單張圖像提示生成可玩的交互式環(huán)境。

我們可以用它從未見過的圖像進(jìn)行提示，然后與自己想象中的虛擬世界進(jìn)行互動。

不管是合成圖像、照片甚至手繪草圖，Genie 都可以從中生成無窮無盡的可玩世界。

Genie 由三個部分組成：一個潛在動作模型，用于推斷每對幀之間的潛在動作；一個視頻 tokenizer，用于將原始視頻幀轉(zhuǎn)換為離散 token；一個動態(tài)模型，用于在給定潛在動作和過去幀 token 的情況下，預(yù)測視頻的下一幀。

看到這項技術(shù)發(fā)布，很多人表示：谷歌又要來領(lǐng)導(dǎo) AI 技術(shù)了。

谷歌還提出，Genie 學(xué)到的潛在動作可以轉(zhuǎn)移到真實的人類設(shè)計的環(huán)境中。在這個假設(shè)基礎(chǔ)上，谷歌針對機(jī)器人視頻訓(xùn)練了一個 Genie 模型，作為機(jī)器人領(lǐng)域潛在世界模型應(yīng)用的概念驗證。

被顛覆的游戲、設(shè)計、XR、機(jī)器人行業(yè)……

我們可以從四個維度來理解 Genie 的革命性意義。

首先，Genie 可以在沒有動作標(biāo)簽時學(xué)習(xí)控制。

具體來說，Genie 借助大量公開的互聯(lián)網(wǎng)視頻數(shù)據(jù)集進(jìn)行了訓(xùn)練，沒有任何動作標(biāo)簽數(shù)據(jù)。

這本來是一個挑戰(zhàn)，因為互聯(lián)網(wǎng)視頻通常沒有關(guān)于正在執(zhí)行哪個動作、應(yīng)該控制圖像哪一部分的標(biāo)簽，但 Genie 能夠?qū)ｉT從互聯(lián)網(wǎng)視頻中學(xué)習(xí)細(xì)粒度的控制。

對于 Genie 而言，它不僅了解觀察到的哪些部分通常是可控的，而且還能推斷出在生成環(huán)境中一致的各種潛在動作。需要注意的是，相同的潛在動作如何在不同的 prompt 圖像中產(chǎn)生相似的行為。

其次，Genie 可以培養(yǎng)下一代「創(chuàng)作者」（creator）。

只需要一張圖像就可以創(chuàng)建一個全新的交互環(huán)境，這為生成和進(jìn)入虛擬世界的各種新方法打開了大門。例如，我們可以使用最先進(jìn)的文本生成圖像模型來生成起始幀，然后與 Genie 一起生成動態(tài)交互環(huán)境。

在如下動圖中，谷歌使用 Imagen2 生成了圖像，再使用 Genie 將它們變?yōu)楝F(xiàn)實：

Genie 能做到的不止如此，它還可以應(yīng)用到草圖等人類設(shè)計相關(guān)的創(chuàng)作領(lǐng)域。

或者，應(yīng)用在真實世界的圖像中：

再次，谷歌認(rèn)為 Genie 是實現(xiàn)通用智能體的基石之作。以往的研究表明，游戲環(huán)境可以成為開發(fā) AI 智能體的有效測試平臺，但常常受到可用游戲數(shù)量的限制。

現(xiàn)在借助 Genie，未來的 AI 智能體可以在新生成世界的無休止的 curriculum 中接受訓(xùn)練。谷歌提出一個概念證明，即 Genie 學(xué)到的潛在動作可以轉(zhuǎn)移到真實的人類設(shè)計的環(huán)境中。

最后，谷歌表示，Genie 是一種通用方法，可以應(yīng)用于多個領(lǐng)域，而不需要任何額外的領(lǐng)域知識。

盡管所用數(shù)據(jù)更多是 2D Platformer 游戲游戲和機(jī)器人視頻，但該方法具備通用性，適用于任何類型的領(lǐng)域，并可擴(kuò)展到更大的互聯(lián)網(wǎng)數(shù)據(jù)集。

谷歌在 RT1 的無動作視頻上訓(xùn)練了一個較小的 2.5B 模型。與 Platformers 的情況一樣，具有相同潛在動作序列的軌跡通常會表現(xiàn)出相似的行為。

這表明 Genie 能夠?qū)W習(xí)一致的動作空間，這可能適合訓(xùn)練機(jī)器人，打造通用化的具身智能。

技術(shù)揭秘：論文《Genie: Generative Interactive Environments》已公布

谷歌 DeepMind 已經(jīng)放出了 Genie 論文。

論文地址：https://arxiv.org/pdf/2402.15391.pdf
項目主頁：https://sites.google.com/view/genie-2024/home?pli=1

論文的共同一作多達(dá) 6 人，其中包括華人學(xué)者石宇歌（Yuge (Jimmy) Shi）。她目前是谷歌 DeepMind 研究科學(xué)家， 2023 年獲得牛津大學(xué)機(jī)器學(xué)習(xí)博士學(xué)位。

方法介紹

Genie 架構(gòu)中的多個組件基于 Vision Transformer (ViT) 構(gòu)建而成。值得注意的是，由于 Transformer 的二次內(nèi)存成本給視頻領(lǐng)域帶來了挑戰(zhàn)，視頻最多可以包含 ??(10^4 ) 個 token。因此，谷歌在所有模型組件中采用內(nèi)存高效的 ST-transformer 架構(gòu)（見圖 4），以此平衡模型容量與計算約束。

Genie 包含三個關(guān)鍵組件（如下圖所示）：

1) 潛在動作模型（Latent Action Model ，LAM），用于推理每對幀之間的潛在動作 ??；

2) 視頻分詞器（Tokenizer），用于將原始視頻幀轉(zhuǎn)換為離散 token ??；

3) 動態(tài)模型，給定潛在動作和過去幀的 token，用來預(yù)測視頻的下一幀。

具體而言：

潛在動作模型：為了實現(xiàn)可控的視頻生成，谷歌將前一幀所采取的動作作為未來幀預(yù)測的條件。然而，此類動作標(biāo)簽在互聯(lián)網(wǎng)的視頻中可用的很少，并且獲取動作注釋的成本會很高。相反，谷歌以完全無監(jiān)督的方式學(xué)習(xí)潛在動作（見圖 5）。

視頻分詞器：在之前研究的基礎(chǔ)上，谷歌將視頻壓縮為離散 token，以降低維度并實現(xiàn)更高質(zhì)量的視頻生成（見圖 6）。實現(xiàn)過程中，谷歌使用了 VQ-VAE，其將視頻的 ?? 幀作為輸入，從而為每個幀生成離散表示：，其中?? 是離散潛在空間大小。分詞器在整個視頻序列上使用標(biāo)準(zhǔn)的 VQ-VQAE 進(jìn)行訓(xùn)練。

動態(tài)模型：是一個僅解碼器的 MaskGIT transformer（圖 7）。

Genie 的推理過程如下所示

實驗結(jié)果

擴(kuò)展結(jié)果

為了研究模型的擴(kuò)展行為，谷歌對參數(shù)量為 2.7B 到 41M 的模型進(jìn)行了實驗來探討模型大小和批大小的影響，實驗結(jié)果如下圖 9 所示。

可以觀察到，模型大小增加，最終訓(xùn)練損失會減少。這有力地表明 Genie 方法受益于擴(kuò)展。同時，增加批大小也會給模型性能帶來增益。

定性結(jié)果

谷歌展示了在 Platformers 數(shù)據(jù)集上訓(xùn)練的 Genie 11B 參數(shù)模型和在 Robotics 數(shù)據(jù)集上訓(xùn)練的較小模型的定性實驗結(jié)果。結(jié)果表明，Genie 模型可以生成跨不同領(lǐng)域的高質(zhì)量、可控視頻。值得注意的是，谷歌僅使用分布外（OOD）圖像 prompt 來定性評估其平臺訓(xùn)練模型，這表明 Genie 方法的穩(wěn)健性和大規(guī)模數(shù)據(jù)訓(xùn)練的價值。

智能體訓(xùn)練?；蛟S有一天，Genie 可以被用作訓(xùn)練多任務(wù)智能體的基礎(chǔ)世界模型。在圖 14 中，作者展示了該模型已經(jīng)可以用于在給定起始幀的全新 RL 環(huán)境中生成不同的軌跡。

作者在程序生成的 2D 平臺游戲環(huán)境 CoinRun 中進(jìn)行評估，并與能夠訪問專家操作作為上限的預(yù)言機(jī)行為克隆 (BC) 模型進(jìn)行比較。

消融研究。選擇在設(shè)計潛在動作模型時，作者仔細(xì)考慮了要使用的輸入類型。雖然最終選擇使用原始圖像（像素），但作者在設(shè)計 Genie 時針對使用標(biāo)記化圖像的替代方案（在圖 5 中用 z 替換 x）來評估這一選擇。這種替代方法稱為「token 輸入」模型（參見表 2）。

分詞器架構(gòu)消融。作者比較了三種分詞器選擇的性能，包括 1)（僅空間）ViT、2）（時空）ST-ViViT 和 3）（時空）CViViT（表 3）。

責(zé)任編輯：張燕妮來源：機(jī)器之心

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sup id="4ohfz"><rt id="4ohfz"></rt></sup>