自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<legend id="8wo10"></legend>

<sub id="8wo10"></sub>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

“谷歌版Sora”被嘲畫(huà)質(zhì)好糊，但在世界模擬器上又前進(jìn)了一步

2024-02-27 16:33:47

不受視頻監(jiān)督訓(xùn)練；只用給它單張圖像，就能提示生成可玩的2D虛擬世界；這個(gè)交互式的虛擬世界還自主可控。但令人撇嘴的點(diǎn)，就是Genie最后出的效果，畫(huà)質(zhì)太糊了。

谷歌110億參數(shù)Genie，用來(lái)打造交互虛擬世界，它來(lái)了！

劃重點(diǎn)：不受視頻監(jiān)督訓(xùn)練；只用給它單張圖像，就能提示生成可玩的2D虛擬世界；這個(gè)交互式的虛擬世界還自主可控。

但令人撇嘴的點(diǎn)，就是Genie最后出的效果，畫(huà)質(zhì)太糊了。

像這樣：

或者這樣：

團(tuán)隊(duì)也站出來(lái)承認(rèn)，Genie目前確實(shí)還有限制，現(xiàn)在只能以1FPS制作游戲。

看得網(wǎng)友忍不住吐槽，不說(shuō)和Sora的效果比了，就算和別的文生視頻或者文生圖相比，都是“2K”和“480p”的差距。

看起來(lái)挺令人興奮的，但emmm怎么說(shuō)呢，畫(huà)質(zhì)和風(fēng)格都像個(gè)上世紀(jì)80年代的游戲。

但也有人站出來(lái)為Genie說(shuō)話。

比如英偉達(dá)科學(xué)家Jim Fan，就明確表達(dá)：

與Sora不同，Genie實(shí)際上是個(gè)能推斷動(dòng)作、用正確動(dòng)作驅(qū)動(dòng)世界模型。

Genie團(tuán)隊(duì)負(fù)責(zé)人Tim Rockt?schel激情開(kāi)麥，稱認(rèn)為這（Genie）是邁向AGI通用世界模型的充滿希望的一步。

他援引了世界模型第一推崇者Yann LeCun的推特，稱：

“誠(chéng)然， OpenAI的Sora驚艷世界，但正如楊立昆所說(shuō)，世界模型一定需要動(dòng)作。”

畫(huà)質(zhì)就一個(gè)字，糊

書(shū)歸正傳。

咱們從視覺(jué)上來(lái)感受一下Genie的神奇魔法，直接上效果圖。

這是官方給出的例子——

現(xiàn)實(shí)世界的照片，喂給Genie，就能動(dòng)起來(lái)，變成無(wú)限的虛擬世界。

Like this，小黃狗逛公園：

還有古堡武士向前沖：

Genie團(tuán)隊(duì)用Imagen2生成圖像，然后把圖像喂給Genie。Genie把圖像作為起始幀，生成以下效果。

團(tuán)隊(duì)表示，Genie不僅僅能用AI繪畫(huà)來(lái)作為驅(qū)動(dòng)的起始幀，隨便拿張人類大作，也可以達(dá)到同樣的效果。

比如這是個(gè)小朋友的畫(huà)作：

丟給Genie后，能得到老鷹起飛的效果：

這也是一張小朋友涂鴉，經(jīng)由Genie處理后得到的：

可以明顯看到，上面給出的這些官方效果，明顯畫(huà)質(zhì)參差不齊。

難怪有的網(wǎng)友稱，這些demo看上去有一種700度近視眼摘掉眼鏡看世界的美。

不少人提問(wèn)為什么不用超高清分辨率輸出，目前還沒(méi)得到回應(yīng)。

除了畫(huà)質(zhì)太糊，Genie的另一個(gè)點(diǎn)，就是網(wǎng)友們覺(jué)得demo都太短太短了。

平均每個(gè)時(shí)長(zhǎng)不到2s。

好多人都急了：

能不能放出來(lái)1分鐘時(shí)長(zhǎng)的demo?。?？？或者至少讓咱看看，超過(guò)3秒鐘，會(huì)是啥樣子吧。

然而，雖然肉眼可見(jiàn)的畫(huà)質(zhì)糊、時(shí)長(zhǎng)短，Genie仍然是令人驚呼的新研究。

畢竟，任何人，包括幼兒園階段的小朋友，都可以繪出一個(gè)世界，然后加入其中，開(kāi)始探索。

有小伙伴已經(jīng)在暢想，日后能用Genie制造“一個(gè)讓每個(gè)人都感到滿足和滿足、永無(wú)止境的生成世界”。

眨眼間，AI就從生成下一個(gè)word發(fā)展到了生成下一個(gè)world。

Genie，一種通用方法

令人欣慰，谷歌DeepMind放出了關(guān)于Genie的論文，《Genie: Generative Interactive Environments》。

論文顯示，Genie是一個(gè)11B參數(shù)的交互式環(huán)境生成模型，能夠從互聯(lián)網(wǎng)視頻中無(wú)監(jiān)督地學(xué)習(xí)并生成可交互的虛擬世界。

并且，Genie可以通過(guò)文本、圖像、照片甚至手繪草圖生成最終的交互式虛擬世界。

整個(gè)Genie包含三個(gè)關(guān)鍵組件：

潛在動(dòng)作模型（Latent Action Model ，LAM）；
視頻分詞器（Tokenizer）；
潛在動(dòng)態(tài)模型（Dynamics Model）。

其中，潛在動(dòng)作模型用于推理每對(duì)幀之間的潛在動(dòng)作。

為了讓視頻生成可控，谷歌DeepMind用前一幀所采取的動(dòng)作來(lái)預(yù)測(cè)未來(lái)幀。

由于此類動(dòng)作標(biāo)簽在互聯(lián)網(wǎng)視頻中可用的很少，同時(shí)獲取動(dòng)作注釋的成本超級(jí)高，因此，團(tuán)隊(duì)以完全無(wú)監(jiān)督的方式學(xué)習(xí)潛在動(dòng)作。

也就是說(shuō)，Genie的訓(xùn)練使用了大量公開(kāi)的互聯(lián)網(wǎng)視頻數(shù)據(jù)集，而沒(méi)有使用任何動(dòng)作標(biāo)簽數(shù)據(jù)。

視頻分詞器的作用則是把原始視頻幀轉(zhuǎn)換為離散token。

三組件之中的第三樣，潛在動(dòng)態(tài)模型，作用是給定潛在動(dòng)作和過(guò)去幀的token，用來(lái)預(yù)測(cè)視頻的下一幀。

論文介紹，在訓(xùn)練過(guò)程中，使用超200000小時(shí)的互聯(lián)網(wǎng)游戲視頻，作為其訓(xùn)練數(shù)據(jù)。

這些數(shù)據(jù)集經(jīng)過(guò)篩選，且包含了2D平臺(tái)游戲的視頻片段。

最終，其推理過(guò)程如下：

值得引起注意的是，Genie允許用戶通過(guò)潛在動(dòng)作在生成的環(huán)境中進(jìn)行交互。

這些動(dòng)作是通過(guò)一個(gè)因果動(dòng)作模型學(xué)習(xí)得到的，這個(gè)模型允許用戶通過(guò)指定潛在動(dòng)作來(lái)控制視頻的生成過(guò)程。

用戶通過(guò)潛在動(dòng)作與生成的環(huán)境進(jìn)行交互，從而創(chuàng)造出新的、動(dòng)態(tài)的視頻內(nèi)容。

這也是谷歌認(rèn)為Genie是實(shí)現(xiàn)通用Agent的基石之作的原因之一。

此前研究表明，游戲環(huán)境可以成為開(kāi)發(fā)AI Agent的有效測(cè)試平臺(tái)，但實(shí)際情況中常常受到可用游戲數(shù)量的限制。

借助 Genie，未來(lái)的AI Agent可以在新生成的世界中，進(jìn)行永無(wú)休止的訓(xùn)練。

多說(shuō)一句，論文中進(jìn)行了一個(gè)概念證明，即“Genie學(xué)到的潛在動(dòng)作可以轉(zhuǎn)移到真實(shí)的人類環(huán)境中”，不過(guò)，這都是未來(lái)可能發(fā)生的事情了。

谷歌還明確表達(dá)了自己的態(tài)度：Genie是一種通用方法。

也就是說(shuō)，雖然Genie的訓(xùn)練數(shù)據(jù)多是2D的游戲視頻or機(jī)器人視頻，但不需要任何額外的領(lǐng)域知識(shí)，Genie就可以在多個(gè)領(lǐng)域中應(yīng)用。

為了驗(yàn)證這個(gè)觀點(diǎn)，谷歌在RT1的無(wú)動(dòng)作視頻上訓(xùn)練了一個(gè)較小的模型，只有2.5B。

結(jié)果發(fā)現(xiàn)，具有相同潛在動(dòng)作序列的軌跡通常會(huì)表現(xiàn)出相似的行為，也就是說(shuō)，Genie能夠?qū)W習(xí)一致的動(dòng)作空間。

這對(duì)訓(xùn)練機(jī)器人甚至具身智能來(lái)說(shuō)，都是大大的利好消息。

最后來(lái)看一眼Genie的研究團(tuán)隊(duì)～

團(tuán)隊(duì)人員不老少，共同一作就有六位，分別是Jake Bruce，Michael Dennis，Ashley Edwards，Jack Parker-Holder，Yuge（ Jimmy） Shi，以及Tim Rockt?schel。

Yuge（Jimmy）Shi是華人，本科畢業(yè)于澳大利亞國(guó)立大學(xué)，2023年在牛津大學(xué)拿下機(jī)器學(xué)習(xí)博士學(xué)位。

她在2023年3月加入谷歌DeepMind，此前還在Meta AI實(shí)習(xí)過(guò)。

此外，研究團(tuán)隊(duì)不少人都是谷歌DeepMind的開(kāi)放性團(tuán)隊(duì)（Open-Endedness Team）成員。

研究團(tuán)隊(duì)中，有位不列顛哥倫比亞大學(xué)的計(jì)算機(jī)科學(xué)副教授，他同時(shí)是谷歌DeeoMind的高級(jí)研究顧問(wèn)。

他在推特上敲了敲小黑板，稱：

咳咳，注意了，現(xiàn)在看到的Genie是最糟糕的情況！
相信用不了多久它就會(huì)變完美。

參考鏈接：
[1]https://sites.google.com/view/genie-2024/home。

[2]https://arxiv.org/pdf/2402.15391.pdf。

責(zé)任編輯：姜華來(lái)源：量子位

Genie 谷歌版Sora AGI

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)