“谷歌版Sora”被嘲畫(huà)質(zhì)好糊,但在世界模擬器上又前進(jìn)了一步
谷歌110億參數(shù)Genie,用來(lái)打造交互虛擬世界,它來(lái)了!
劃重點(diǎn):不受視頻監(jiān)督訓(xùn)練;只用給它單張圖像,就能提示生成可玩的2D虛擬世界;這個(gè)交互式的虛擬世界還自主可控。
但令人撇嘴的點(diǎn),就是Genie最后出的效果,畫(huà)質(zhì)太糊了。
像這樣:
或者這樣:
團(tuán)隊(duì)也站出來(lái)承認(rèn),Genie目前確實(shí)還有限制,現(xiàn)在只能以1FPS制作游戲。
看得網(wǎng)友忍不住吐槽,不說(shuō)和Sora的效果比了,就算和別的文生視頻或者文生圖相比,都是“2K”和“480p”的差距。
看起來(lái)挺令人興奮的,但emmm怎么說(shuō)呢,畫(huà)質(zhì)和風(fēng)格都像個(gè)上世紀(jì)80年代的游戲。
但也有人站出來(lái)為Genie說(shuō)話。
比如英偉達(dá)科學(xué)家Jim Fan,就明確表達(dá):
與Sora不同,Genie實(shí)際上是個(gè)能推斷動(dòng)作、用正確動(dòng)作驅(qū)動(dòng)世界模型。
Genie團(tuán)隊(duì)負(fù)責(zé)人Tim Rockt?schel激情開(kāi)麥,稱認(rèn)為這(Genie)是邁向AGI通用世界模型的充滿希望的一步。
他援引了世界模型第一推崇者Yann LeCun的推特,稱:
“誠(chéng)然, OpenAI的Sora驚艷世界,但正如楊立昆所說(shuō),世界模型一定需要動(dòng)作。”
畫(huà)質(zhì)就一個(gè)字,糊
書(shū)歸正傳。
咱們從視覺(jué)上來(lái)感受一下Genie的神奇魔法,直接上效果圖。
這是官方給出的例子——
現(xiàn)實(shí)世界的照片,喂給Genie,就能動(dòng)起來(lái),變成無(wú)限的虛擬世界。
Like this,小黃狗逛公園:
還有古堡武士向前沖:
Genie團(tuán)隊(duì)用Imagen2生成圖像,然后把圖像喂給Genie。Genie把圖像作為起始幀,生成以下效果。
團(tuán)隊(duì)表示,Genie不僅僅能用AI繪畫(huà)來(lái)作為驅(qū)動(dòng)的起始幀,隨便拿張人類大作,也可以達(dá)到同樣的效果。
比如這是個(gè)小朋友的畫(huà)作:
丟給Genie后,能得到老鷹起飛的效果:
這也是一張小朋友涂鴉,經(jīng)由Genie處理后得到的:
可以明顯看到,上面給出的這些官方效果,明顯畫(huà)質(zhì)參差不齊。
難怪有的網(wǎng)友稱,這些demo看上去有一種700度近視眼摘掉眼鏡看世界的美。
不少人提問(wèn)為什么不用超高清分辨率輸出,目前還沒(méi)得到回應(yīng)。
除了畫(huà)質(zhì)太糊,Genie的另一個(gè)點(diǎn),就是網(wǎng)友們覺(jué)得demo都太短太短了。
平均每個(gè)時(shí)長(zhǎng)不到2s。
好多人都急了:
能不能放出來(lái)1分鐘時(shí)長(zhǎng)的demo?。???或者至少讓咱看看,超過(guò)3秒鐘,會(huì)是啥樣子吧。
然而,雖然肉眼可見(jiàn)的畫(huà)質(zhì)糊、時(shí)長(zhǎng)短,Genie仍然是令人驚呼的新研究。
畢竟,任何人,包括幼兒園階段的小朋友,都可以繪出一個(gè)世界,然后加入其中,開(kāi)始探索。
有小伙伴已經(jīng)在暢想,日后能用Genie制造“一個(gè)讓每個(gè)人都感到滿足和滿足、永無(wú)止境的生成世界”。
眨眼間,AI就從生成下一個(gè)word發(fā)展到了生成下一個(gè)world。
Genie,一種通用方法
令人欣慰,谷歌DeepMind放出了關(guān)于Genie的論文,《Genie: Generative Interactive Environments》。
論文顯示,Genie是一個(gè)11B參數(shù)的交互式環(huán)境生成模型,能夠從互聯(lián)網(wǎng)視頻中無(wú)監(jiān)督地學(xué)習(xí)并生成可交互的虛擬世界。
并且,Genie可以通過(guò)文本、圖像、照片甚至手繪草圖生成最終的交互式虛擬世界。
整個(gè)Genie包含三個(gè)關(guān)鍵組件:
- 潛在動(dòng)作模型(Latent Action Model ,LAM);
- 視頻分詞器(Tokenizer);
- 潛在動(dòng)態(tài)模型(Dynamics Model)。
其中,潛在動(dòng)作模型用于推理每對(duì)幀之間的潛在動(dòng)作。
為了讓視頻生成可控,谷歌DeepMind用前一幀所采取的動(dòng)作來(lái)預(yù)測(cè)未來(lái)幀。
由于此類動(dòng)作標(biāo)簽在互聯(lián)網(wǎng)視頻中可用的很少,同時(shí)獲取動(dòng)作注釋的成本超級(jí)高,因此,團(tuán)隊(duì)以完全無(wú)監(jiān)督的方式學(xué)習(xí)潛在動(dòng)作。
也就是說(shuō),Genie的訓(xùn)練使用了大量公開(kāi)的互聯(lián)網(wǎng)視頻數(shù)據(jù)集,而沒(méi)有使用任何動(dòng)作標(biāo)簽數(shù)據(jù)。
視頻分詞器的作用則是把原始視頻幀轉(zhuǎn)換為離散token。
三組件之中的第三樣,潛在動(dòng)態(tài)模型,作用是給定潛在動(dòng)作和過(guò)去幀的token,用來(lái)預(yù)測(cè)視頻的下一幀。
論文介紹,在訓(xùn)練過(guò)程中,使用超200000小時(shí)的互聯(lián)網(wǎng)游戲視頻,作為其訓(xùn)練數(shù)據(jù)。
這些數(shù)據(jù)集經(jīng)過(guò)篩選,且包含了2D平臺(tái)游戲的視頻片段。
最終,其推理過(guò)程如下:
值得引起注意的是,Genie允許用戶通過(guò)潛在動(dòng)作在生成的環(huán)境中進(jìn)行交互。
這些動(dòng)作是通過(guò)一個(gè)因果動(dòng)作模型學(xué)習(xí)得到的,這個(gè)模型允許用戶通過(guò)指定潛在動(dòng)作來(lái)控制視頻的生成過(guò)程。
用戶通過(guò)潛在動(dòng)作與生成的環(huán)境進(jìn)行交互,從而創(chuàng)造出新的、動(dòng)態(tài)的視頻內(nèi)容。
這也是谷歌認(rèn)為Genie是實(shí)現(xiàn)通用Agent的基石之作的原因之一。
此前研究表明,游戲環(huán)境可以成為開(kāi)發(fā)AI Agent的有效測(cè)試平臺(tái),但實(shí)際情況中常常受到可用游戲數(shù)量的限制。
借助 Genie,未來(lái)的AI Agent可以在新生成的世界中,進(jìn)行永無(wú)休止的訓(xùn)練。
多說(shuō)一句,論文中進(jìn)行了一個(gè)概念證明,即“Genie學(xué)到的潛在動(dòng)作可以轉(zhuǎn)移到真實(shí)的人類環(huán)境中”,不過(guò),這都是未來(lái)可能發(fā)生的事情了。
谷歌還明確表達(dá)了自己的態(tài)度:Genie是一種通用方法。
也就是說(shuō),雖然Genie的訓(xùn)練數(shù)據(jù)多是2D的游戲視頻or機(jī)器人視頻,但不需要任何額外的領(lǐng)域知識(shí),Genie就可以在多個(gè)領(lǐng)域中應(yīng)用。
為了驗(yàn)證這個(gè)觀點(diǎn),谷歌在RT1的無(wú)動(dòng)作視頻上訓(xùn)練了一個(gè)較小的模型,只有2.5B。
結(jié)果發(fā)現(xiàn),具有相同潛在動(dòng)作序列的軌跡通常會(huì)表現(xiàn)出相似的行為,也就是說(shuō),Genie能夠?qū)W習(xí)一致的動(dòng)作空間。
這對(duì)訓(xùn)練機(jī)器人甚至具身智能來(lái)說(shuō),都是大大的利好消息。
最后來(lái)看一眼Genie的研究團(tuán)隊(duì)~
團(tuán)隊(duì)人員不老少,共同一作就有六位,分別是Jake Bruce,Michael Dennis,Ashley Edwards,Jack Parker-Holder,Yuge( Jimmy) Shi,以及Tim Rockt?schel。
Yuge(Jimmy)Shi是華人,本科畢業(yè)于澳大利亞國(guó)立大學(xué),2023年在牛津大學(xué)拿下機(jī)器學(xué)習(xí)博士學(xué)位。
她在2023年3月加入谷歌DeepMind,此前還在Meta AI實(shí)習(xí)過(guò)。
此外,研究團(tuán)隊(duì)不少人都是谷歌DeepMind的開(kāi)放性團(tuán)隊(duì)(Open-Endedness Team)成員。
研究團(tuán)隊(duì)中,有位不列顛哥倫比亞大學(xué)的計(jì)算機(jī)科學(xué)副教授,他同時(shí)是谷歌DeeoMind的高級(jí)研究顧問(wèn)。
他在推特上敲了敲小黑板,稱:
咳咳,注意了,現(xiàn)在看到的Genie是最糟糕的情況!
相信用不了多久它就會(huì)變完美。
參考鏈接:
[1]https://sites.google.com/view/genie-2024/home。
[2]https://arxiv.org/pdf/2402.15391.pdf。