刷屏了!Genie 2開啟文生游戲時代,可交互的世界模型震撼登場!背后團隊曝光;12天直播能否截胡老對手
編輯 | 伊風
出品 | 51CTO技術(shù)棧(微信號:blog51cto)
AI公司年底要沖業(yè)績了!
一覺醒來,OpenAI宣布了未來12天的直播活動,而老對手谷歌直接發(fā)布了Genie 2,宣布在世界模型方面又邁出重要一步!
圖片
但,至少今天是谷歌更勝一籌——Genie 2是在太令人印象深刻了!用Google DeepMind首席執(zhí)行官Demis Hassabis話來說:“世界模型正在成形?!?/p>
圖片
給 Genie 2 一張照片,它給你一個可以交互的世界!
無論是創(chuàng)造一個飛船上的游戲世界,還是想變身行走在未來世界的機器人,都立馬能安排,想玩什么自己點!
Genie 2 即時生成新內(nèi)容的時間也大幅擴展了,足足給了一分鐘!
圖片
可以看到,Genie 2生成的虛擬世界交互邏輯非常絲滑。
不僅如此,人類和AI Agents(DeepMind推出的游戲代理SIMA)都可以參與,以后不愁具身智能沒有地方訓練了。
“Genie 2 能夠讓未來的 Agents 在無限制的新穎世界課程中進行訓練和評估。這項研究也為原型化互動體驗的新型創(chuàng)意工作流程鋪平了道路,”Google DeepMind在其博客文章中寫到。
Genie 2 不只讓我們看到了“大模型沒有撞墻”一個有力論據(jù),也看到了谷歌搶先一個身位通向AGI的可能!
1.世界模型正在成形
在前版Genie 1的基礎(chǔ)上,Genie 2從2D環(huán)境的擴展到了3D。Genie 2基于大規(guī)模視頻數(shù)據(jù)集訓練,采用自回歸潛在擴散技術(shù),根據(jù)用戶動作逐幀生成畫面。
Genie 2全新的交互讓我們看到了世界模型的雛形:模擬物理交互、建模復雜動畫、創(chuàng)建具有真實物理特性、光照效果和物體交互的環(huán)境。
比起AI視頻所展示的,我們會感覺到Genie 2更懂這個世界了。來點案例看看:
槍響之后,油罐桶會爆炸:
模型對于重力的領(lǐng)悟,汽車是會墜落懸崖的:
汽車駛?cè)胨范危喬ズ蟊患て鸬乃ǎ?/p>
還有各種場景下的煙霧、光照、屋里鏡子的反光隨著視角的變化,都能感受到Genie 2的突破!
2.Genie 2的世界:人類和 AI 都能參與
我們在3月份介紹過,來自DeepMind的游戲“搭子”SIMA,一個從多個3D游戲中訓練的AI Agent。
能完成600項基本游戲操作的SIMA,也在Genie 2中挑戰(zhàn)了一把,再次展現(xiàn)了高水平的泛化能力。
領(lǐng)導Genie 2項目的 Jack Parker-Holder 說, 他們使用了Genie 2創(chuàng)建了一個神秘“三拱門”場景,然后使用Prompt控制AI進入哪個通道,然后取得了成功!
圖片
也就是說,SIMA證明了,AI在這個虛擬世界,是能夠遵循語言指令,進行各種訓練的!
Genie 2生成的無限世界,多樣性和復雜性可以拉滿,Agents缺少培訓場景的問題大大解決了。而且Genie 2本身也可以使用真實照片做場景,工廠、農(nóng)田、礦場等等場地都可以一鍵生成,讓AI為迎接現(xiàn)實世界的復雜性做足準備。
值得一提的是,Genie 2 人類和AI都能操作的模式,可能會在未來實現(xiàn)共同的操作和交互。甚至能徹底改變我們測試和完善人工智能系統(tǒng)的方式,將人類的創(chuàng)造力與人工智能解決問題的可能性在虛擬世界中進行融合。
3.Genie 2的兩位領(lǐng)導者
領(lǐng)導Genie 2項目的 Jack Parker-Holder,在谷歌已經(jīng)工作了兩年半的時間。
圖片
他非??粗谿enie 2在具身智能訓練上的潛力。
這也和他寫在簡介中的目標高度一致:“我的目標是設(shè)計出永不停止生產(chǎn)新的有趣事物的系統(tǒng)......也許甚至是 AGI:)”。
圖片
Genie 2的技術(shù) leader是Stephen Spencer。Spencer 于 2018 年 6 月加入 DeepMind 擔任研究科學家,22年合作發(fā)表的重要論文《通過算法蒸餾進行上下文強化學習》,被引用超百次。
圖片
4.寫在最后:OpenAI如何應(yīng)戰(zhàn)?
OpenAI能否截胡成功?
還是很有可能!畢竟是12天活動的狂轟亂炸!
而且大家紛紛猜測Sora是不是要廣泛可用了,也算我們這一整年度的期待有了一個尾聲。
畢竟,作為實驗室的Deepmind,所發(fā)布的Genie 2還遠遠不是一個產(chǎn)品形態(tài)。如果OpenAI能給用戶更多開箱即用的魔法,勢必會在這個年尾獲得更多的關(guān)注。
網(wǎng)友對Genie 2的評價:雖然這令人印象深刻,但看起來仍像是一個非常早期的原型。從整體上看,它似乎并不是一個獨立的產(chǎn)品,而是面向通用代理的更廣泛研發(fā)項目的一部分...... 我甚至懷疑他們是否已經(jīng)為這個項目建立了任何生產(chǎn)化的建模管道,而且可以肯定的是,我們不會在短期內(nèi)獲得開放的訪問權(quán)限。
圖片
那么,OpenAI可能發(fā)布什么呢?
GPT-5、Sora、o1-full是呼聲最高的系列了。
在評論區(qū)有人一本正經(jīng)的在做推測,而有人直接把畫風切換到了2045年。
圖片
圖片
12天的活動,營銷鬼才奧特曼到底能給我們帶來多少干貨,值得拭目以待!
永遠面向未來的奧特曼,已經(jīng)在做明年的劇透了,他對《紐約時報》說:2025年的AI系統(tǒng)將讓我們驚掉下巴。
圖片
本文轉(zhuǎn)載自??51CTO技術(shù)棧??,作者:伊風
