自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

“谷歌版Sora”被嘲畫(huà)質(zhì)好糊,但在世界模擬器上又前進(jìn)了一步

人工智能
不受視頻監(jiān)督訓(xùn)練;只用給它單張圖像,就能提示生成可玩的2D虛擬世界;這個(gè)交互式的虛擬世界還自主可控。但令人撇嘴的點(diǎn),就是Genie最后出的效果,畫(huà)質(zhì)太糊了。

谷歌110億參數(shù)Genie,用來(lái)打造交互虛擬世界,它來(lái)了!

劃重點(diǎn):不受視頻監(jiān)督訓(xùn)練;只用給它單張圖像,就能提示生成可玩的2D虛擬世界;這個(gè)交互式的虛擬世界還自主可控。

但令人撇嘴的點(diǎn),就是Genie最后出的效果,畫(huà)質(zhì)太糊了。

像這樣:

圖片

或者這樣:

圖片

團(tuán)隊(duì)也站出來(lái)承認(rèn),Genie目前確實(shí)還有限制,現(xiàn)在只能以1FPS制作游戲。

看得網(wǎng)友忍不住吐槽,不說(shuō)和Sora的效果比了,就算和別的文生視頻或者文生圖相比,都是“2K”和“480p”的差距。

看起來(lái)挺令人興奮的,但emmm怎么說(shuō)呢,畫(huà)質(zhì)和風(fēng)格都像個(gè)上世紀(jì)80年代的游戲。

圖片

但也有人站出來(lái)為Genie說(shuō)話。

比如英偉達(dá)科學(xué)家Jim Fan,就明確表達(dá):

與Sora不同,Genie實(shí)際上是個(gè)能推斷動(dòng)作、用正確動(dòng)作驅(qū)動(dòng)世界模型。

圖片

Genie團(tuán)隊(duì)負(fù)責(zé)人Tim Rockt?schel激情開(kāi)麥,稱認(rèn)為這(Genie)是邁向AGI通用世界模型的充滿希望的一步。

他援引了世界模型第一推崇者Yann LeCun的推特,稱:

“誠(chéng)然, OpenAI的Sora驚艷世界,但正如楊立昆所說(shuō),世界模型一定需要動(dòng)作。”

圖片    

畫(huà)質(zhì)就一個(gè)字,糊

書(shū)歸正傳。

咱們從視覺(jué)上來(lái)感受一下Genie的神奇魔法,直接上效果圖。

這是官方給出的例子——

現(xiàn)實(shí)世界的照片,喂給Genie,就能動(dòng)起來(lái),變成無(wú)限的虛擬世界。

Like this,小黃狗逛公園:

圖片

還有古堡武士向前沖:

圖片

Genie團(tuán)隊(duì)用Imagen2生成圖像,然后把圖像喂給Genie。Genie把圖像作為起始幀,生成以下效果。

圖片

團(tuán)隊(duì)表示,Genie不僅僅能用AI繪畫(huà)來(lái)作為驅(qū)動(dòng)的起始幀,隨便拿張人類大作,也可以達(dá)到同樣的效果。

比如這是個(gè)小朋友的畫(huà)作:

圖片

丟給Genie后,能得到老鷹起飛的效果:

圖片

這也是一張小朋友涂鴉,經(jīng)由Genie處理后得到的:

圖片

可以明顯看到,上面給出的這些官方效果,明顯畫(huà)質(zhì)參差不齊。

難怪有的網(wǎng)友稱,這些demo看上去有一種700度近視眼摘掉眼鏡看世界的美。

不少人提問(wèn)為什么不用超高清分辨率輸出,目前還沒(méi)得到回應(yīng)。

圖片

除了畫(huà)質(zhì)太糊,Genie的另一個(gè)點(diǎn),就是網(wǎng)友們覺(jué)得demo都太短太短了。

平均每個(gè)時(shí)長(zhǎng)不到2s。

好多人都急了:

能不能放出來(lái)1分鐘時(shí)長(zhǎng)的demo?。???或者至少讓咱看看,超過(guò)3秒鐘,會(huì)是啥樣子吧。

圖片

然而,雖然肉眼可見(jiàn)的畫(huà)質(zhì)糊、時(shí)長(zhǎng)短,Genie仍然是令人驚呼的新研究。

畢竟,任何人,包括幼兒園階段的小朋友,都可以繪出一個(gè)世界,然后加入其中,開(kāi)始探索。

有小伙伴已經(jīng)在暢想,日后能用Genie制造“一個(gè)讓每個(gè)人都感到滿足和滿足、永無(wú)止境的生成世界”。

眨眼間,AI就從生成下一個(gè)word發(fā)展到了生成下一個(gè)world。

圖片

Genie,一種通用方法

令人欣慰,谷歌DeepMind放出了關(guān)于Genie的論文,《Genie: Generative Interactive Environments》。

論文顯示,Genie是一個(gè)11B參數(shù)的交互式環(huán)境生成模型,能夠從互聯(lián)網(wǎng)視頻中無(wú)監(jiān)督地學(xué)習(xí)并生成可交互的虛擬世界。

并且,Genie可以通過(guò)文本、圖像、照片甚至手繪草圖生成最終的交互式虛擬世界。

圖片

整個(gè)Genie包含三個(gè)關(guān)鍵組件:

  • 潛在動(dòng)作模型(Latent Action Model ,LAM);
  • 視頻分詞器(Tokenizer);
  • 潛在動(dòng)態(tài)模型(Dynamics Model)。

圖片

其中,潛在動(dòng)作模型用于推理每對(duì)幀之間的潛在動(dòng)作。

為了讓視頻生成可控,谷歌DeepMind用前一幀所采取的動(dòng)作來(lái)預(yù)測(cè)未來(lái)幀。

由于此類動(dòng)作標(biāo)簽在互聯(lián)網(wǎng)視頻中可用的很少,同時(shí)獲取動(dòng)作注釋的成本超級(jí)高,因此,團(tuán)隊(duì)以完全無(wú)監(jiān)督的方式學(xué)習(xí)潛在動(dòng)作。

也就是說(shuō),Genie的訓(xùn)練使用了大量公開(kāi)的互聯(lián)網(wǎng)視頻數(shù)據(jù)集,而沒(méi)有使用任何動(dòng)作標(biāo)簽數(shù)據(jù)。

圖片

視頻分詞器的作用則是把原始視頻幀轉(zhuǎn)換為離散token。

圖片

三組件之中的第三樣,潛在動(dòng)態(tài)模型,作用是給定潛在動(dòng)作和過(guò)去幀的token,用來(lái)預(yù)測(cè)視頻的下一幀。

圖片

論文介紹,在訓(xùn)練過(guò)程中,使用超200000小時(shí)的互聯(lián)網(wǎng)游戲視頻,作為其訓(xùn)練數(shù)據(jù)。

這些數(shù)據(jù)集經(jīng)過(guò)篩選,且包含了2D平臺(tái)游戲的視頻片段。

最終,其推理過(guò)程如下:

圖片

值得引起注意的是,Genie允許用戶通過(guò)潛在動(dòng)作在生成的環(huán)境中進(jìn)行交互。

這些動(dòng)作是通過(guò)一個(gè)因果動(dòng)作模型學(xué)習(xí)得到的,這個(gè)模型允許用戶通過(guò)指定潛在動(dòng)作來(lái)控制視頻的生成過(guò)程。

用戶通過(guò)潛在動(dòng)作與生成的環(huán)境進(jìn)行交互,從而創(chuàng)造出新的、動(dòng)態(tài)的視頻內(nèi)容。

這也是谷歌認(rèn)為Genie是實(shí)現(xiàn)通用Agent的基石之作的原因之一。

此前研究表明,游戲環(huán)境可以成為開(kāi)發(fā)AI Agent的有效測(cè)試平臺(tái),但實(shí)際情況中常常受到可用游戲數(shù)量的限制。

借助 Genie,未來(lái)的AI Agent可以在新生成的世界中,進(jìn)行永無(wú)休止的訓(xùn)練。

多說(shuō)一句,論文中進(jìn)行了一個(gè)概念證明,即“Genie學(xué)到的潛在動(dòng)作可以轉(zhuǎn)移到真實(shí)的人類環(huán)境中”,不過(guò),這都是未來(lái)可能發(fā)生的事情了。

谷歌還明確表達(dá)了自己的態(tài)度:Genie是一種通用方法。

也就是說(shuō),雖然Genie的訓(xùn)練數(shù)據(jù)多是2D的游戲視頻or機(jī)器人視頻,但不需要任何額外的領(lǐng)域知識(shí),Genie就可以在多個(gè)領(lǐng)域中應(yīng)用。

為了驗(yàn)證這個(gè)觀點(diǎn),谷歌在RT1的無(wú)動(dòng)作視頻上訓(xùn)練了一個(gè)較小的模型,只有2.5B。

結(jié)果發(fā)現(xiàn),具有相同潛在動(dòng)作序列的軌跡通常會(huì)表現(xiàn)出相似的行為,也就是說(shuō),Genie能夠?qū)W習(xí)一致的動(dòng)作空間。

這對(duì)訓(xùn)練機(jī)器人甚至具身智能來(lái)說(shuō),都是大大的利好消息。

圖片

最后來(lái)看一眼Genie的研究團(tuán)隊(duì)~

團(tuán)隊(duì)人員不老少,共同一作就有六位,分別是Jake Bruce,Michael Dennis,Ashley Edwards,Jack Parker-Holder,Yuge( Jimmy) Shi,以及Tim Rockt?schel。

Yuge(Jimmy)Shi是華人,本科畢業(yè)于澳大利亞國(guó)立大學(xué),2023年在牛津大學(xué)拿下機(jī)器學(xué)習(xí)博士學(xué)位。

她在2023年3月加入谷歌DeepMind,此前還在Meta AI實(shí)習(xí)過(guò)。

圖片

此外,研究團(tuán)隊(duì)不少人都是谷歌DeepMind的開(kāi)放性團(tuán)隊(duì)(Open-Endedness Team)成員。

研究團(tuán)隊(duì)中,有位不列顛哥倫比亞大學(xué)的計(jì)算機(jī)科學(xué)副教授,他同時(shí)是谷歌DeeoMind的高級(jí)研究顧問(wèn)。

他在推特上敲了敲小黑板,稱:

咳咳,注意了,現(xiàn)在看到的Genie是最糟糕的情況!
相信用不了多久它就會(huì)變完美。

圖片

參考鏈接:
[1]https://sites.google.com/view/genie-2024/home。

[2]https://arxiv.org/pdf/2402.15391.pdf。

責(zé)任編輯:姜華 來(lái)源: 量子位
相關(guān)推薦

2024-05-13 12:53:06

AI模型

2024-02-19 10:12:00

AI技術(shù)

2024-07-08 13:13:00

2015-03-12 10:40:08

谷歌谷歌Nearline云存儲(chǔ)

2017-09-13 09:05:29

iOS11iOS蘋果

2009-12-18 16:27:43

Cisco路由器配置

2019-06-12 09:36:43

谷歌Android開(kāi)發(fā)者

2013-11-12 09:50:34

Ubuntu 13.1服務(wù)器版

2014-06-06 10:32:11

Linux終端模擬器

2023-06-05 15:50:20

數(shù)據(jù)技術(shù)

2015-02-10 10:05:50

谷歌Docker容器

2020-06-16 16:51:35

無(wú)人機(jī)人工智能技術(shù)

2022-08-29 15:19:09

CSS煙花動(dòng)畫(huà)

2009-07-06 19:29:37

云計(jì)算私有云服務(wù)器虛擬化

2009-11-30 15:56:57

2019-11-20 10:54:46

無(wú)密碼身份驗(yàn)證網(wǎng)絡(luò)安全

2024-11-01 11:40:11

2024-03-07 13:23:20

谷歌模型Sora

2009-11-27 14:23:33

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)