自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

震撼!AI實(shí)時(shí)生成游戲,每秒20幀輸出,DeepMind擴(kuò)散模型最新突破一夜爆火 精華

發(fā)布于 2024-8-29 13:37
瀏覽
0收藏

“比Sora還震撼”,?AI可以實(shí)時(shí)生成游戲了!


谷歌DeepMind打造出了首個(gè)完全AI驅(qū)動(dòng)的實(shí)時(shí)游戲引擎——GameNGen。


在單個(gè)谷歌TPU上,它以每秒20幀模擬起了經(jīng)典射擊類游戲DOOM(毀滅戰(zhàn)士)。

震撼!AI實(shí)時(shí)生成游戲,每秒20幀輸出,DeepMind擴(kuò)散模型最新突破一夜爆火-AI.x社區(qū)

所有游戲畫(huà)面都是根據(jù)玩家操作,與復(fù)雜環(huán)境進(jìn)行交互,實(shí)時(shí)生成。


也就是說(shuō)你走進(jìn)一道門(mén)之前,門(mén)后的內(nèi)容還不存在。

震撼!AI實(shí)時(shí)生成游戲,每秒20幀輸出,DeepMind擴(kuò)散模型最新突破一夜爆火-AI.x社區(qū)

質(zhì)量不輸事先存儲(chǔ)的那種,能“以假亂真”,人類評(píng)估者都難以察覺(jué)。

震撼!AI實(shí)時(shí)生成游戲,每秒20幀輸出,DeepMind擴(kuò)散模型最新突破一夜爆火-AI.x社區(qū)

各種操作都能絲滑轉(zhuǎn)換:

震撼!AI實(shí)時(shí)生成游戲,每秒20幀輸出,DeepMind擴(kuò)散模型最新突破一夜爆火-AI.x社區(qū)

GameNGen的背后是大家熟悉的擴(kuò)散模型


從論文題目就重新定義了游戲引擎:擴(kuò)散模型是實(shí)時(shí)游戲引擎。

震撼!AI實(shí)時(shí)生成游戲,每秒20幀輸出,DeepMind擴(kuò)散模型最新突破一夜爆火-AI.x社區(qū)

網(wǎng)友們看到這項(xiàng)研究一時(shí)間炸開(kāi)了鍋,推特、Reddit上相關(guān)帖子熱度持續(xù)不減,誰(shuí)發(fā)誰(shuí)火。

震撼!AI實(shí)時(shí)生成游戲,每秒20幀輸出,DeepMind擴(kuò)散模型最新突破一夜爆火-AI.x社區(qū)


震撼!AI實(shí)時(shí)生成游戲,每秒20幀輸出,DeepMind擴(kuò)散模型最新突破一夜爆火-AI.x社區(qū)

不少人表示它提供了一條全新的技術(shù)路徑:

我覺(jué)得人們還沒(méi)有意識(shí)到這有多瘋狂。我是一名開(kāi)發(fā)人員,專門(mén)負(fù)責(zé)將生成式?AI集成到游戲引擎中,所以我很清楚我在說(shuō)什么。

這是構(gòu)建虛擬事物的基礎(chǔ)。未來(lái)它或許能夠普及到它能夠獲取數(shù)據(jù)的任何視頻游戲,隨后,可能還能為尚未存在的游戲生成數(shù)據(jù),創(chuàng)造新游戲。

震撼!AI實(shí)時(shí)生成游戲,每秒20幀輸出,DeepMind擴(kuò)散模型最新突破一夜爆火-AI.x社區(qū)

作者Shlomi Fruchter也開(kāi)麥了:

這對(duì)我來(lái)說(shuō)是一個(gè)個(gè)人里程碑,也是從手工編寫(xiě)在GPU上運(yùn)行的顯式渲染代碼到訓(xùn)練同樣在GPU上運(yùn)行的神經(jīng)網(wǎng)絡(luò)的完整回環(huán),感覺(jué)圓滿了。

震撼!AI實(shí)時(shí)生成游戲,每秒20幀輸出,DeepMind擴(kuò)散模型最新突破一夜爆火-AI.x社區(qū)

那么,GameNGen究竟是如何做到的?

用擴(kuò)散模型造AI DOOMers

GameNGen訓(xùn)練過(guò)程分為兩個(gè)主要階段。

首先,訓(xùn)練一個(gè)強(qiáng)化學(xué)習(xí)Agent來(lái)玩游戲,并記錄過(guò)程中所有動(dòng)作、技能和觀察數(shù)據(jù)。這些記錄成為第二階段的訓(xùn)練數(shù)據(jù)集。

為生成盡可能貼近人類游戲行為的訓(xùn)練數(shù)據(jù),研究人員設(shè)計(jì)了一個(gè)簡(jiǎn)單的、特定于環(huán)境的獎(jiǎng)勵(lì)函數(shù),根據(jù)一系列特定的游戲情況來(lái)分配分?jǐn)?shù),條件包括:

玩家被擊中、敵人被消滅、撿起物品或武器、生命值變化、彈藥變化……

震撼!AI實(shí)時(shí)生成游戲,每秒20幀輸出,DeepMind擴(kuò)散模型最新突破一夜爆火-AI.x社區(qū)

在第二階段,基于預(yù)訓(xùn)練的Stable Diffusion v1.4來(lái)預(yù)測(cè)下一幀,模型以過(guò)去的幀序列和動(dòng)作作為條件輸入,并進(jìn)行了一些關(guān)鍵修改。


具體來(lái)說(shuō),首先移除了所有文本條件,替換為動(dòng)作序列。每個(gè)動(dòng)作被編碼為一個(gè)單一的token,通過(guò)交叉注意力機(jī)制與模型交互。


歷史觀察(即之前的幀)被編碼到潛在空間,并與當(dāng)前噪聲化的潛在表示在通道維度上拼接。

震撼!AI實(shí)時(shí)生成游戲,每秒20幀輸出,DeepMind擴(kuò)散模型最新突破一夜爆火-AI.x社區(qū)

為了解決自回歸生成中的誤差累積,即自回歸漂移問(wèn)題,GameNGen引入了噪聲增強(qiáng)技術(shù)。


在訓(xùn)練時(shí),模型對(duì)輸入的上下文幀添加不同程度的高斯噪聲,并將噪聲級(jí)別作為額外輸入提供給模型。這使得模型能夠?qū)W習(xí)糾正之前采樣中的錯(cuò)誤,對(duì)維持長(zhǎng)時(shí)間序列的圖像質(zhì)量至關(guān)重要。

震撼!AI實(shí)時(shí)生成游戲,每秒20幀輸出,DeepMind擴(kuò)散模型最新突破一夜爆火-AI.x社區(qū)

此外,為了提高圖像質(zhì)量,特別是在細(xì)節(jié)和HUD(平視顯示器)方面,研究者對(duì)Stable Diffusion的預(yù)訓(xùn)練自編碼器的解碼器部分進(jìn)行了微調(diào)。這個(gè)過(guò)程使用MSE損失,針對(duì)目標(biāo)幀像素進(jìn)行優(yōu)化。


在推理階段,GameNGen使用DDIM采樣方法,并采用了無(wú)分類器引導(dǎo)技術(shù),但僅用于過(guò)去觀察的條件。研究者發(fā)現(xiàn),對(duì)過(guò)去動(dòng)作條件使用引導(dǎo)并不能提高質(zhì)量。

值得注意的是,模型僅使用4步DDIM采樣就能產(chǎn)生高質(zhì)量的結(jié)果,這大大提高了生成速度。


GameNGen在TPU-v5硬件上運(yùn)行,單個(gè)去噪器步驟和自編碼器評(píng)估各需要10毫秒。

通過(guò)使用4步采樣和單次自編碼器評(píng)估,系統(tǒng)能夠達(dá)到每秒20幀的生成速度,足以實(shí)現(xiàn)實(shí)時(shí)交互式游戲體驗(yàn)。

人類難以分辨真實(shí)和AI生成

實(shí)驗(yàn)中,在短時(shí)軌跡上,人類評(píng)估者幾乎無(wú)法區(qū)分模擬畫(huà)面與實(shí)際游戲畫(huà)面。

研究人員使用了兩種主要的圖像質(zhì)量評(píng)估方法:基于感知的圖像相似度度量方法LPIPS和衡量圖像質(zhì)量的常用指標(biāo)PSNR。


在teacher-forcing設(shè)置中,模型單幀預(yù)測(cè)質(zhì)量PSNR為29.43,LPIPS為0.249。PSNR的值與20-30質(zhì)量設(shè)置下的有損JPEG壓縮相似。


換句話說(shuō),GameNGen在模擬圖像時(shí)能夠在一定程度上保持較高的視覺(jué)質(zhì)量,盡管可能存在一些壓縮帶來(lái)的細(xì)節(jié)損失。

震撼!AI實(shí)時(shí)生成游戲,每秒20幀輸出,DeepMind擴(kuò)散模型最新突破一夜爆火-AI.x社區(qū)


震撼!AI實(shí)時(shí)生成游戲,每秒20幀輸出,DeepMind擴(kuò)散模型最新突破一夜爆火-AI.x社區(qū)

視頻質(zhì)量方面,對(duì)于長(zhǎng)度為16 幀(0.8 秒)和32幀(1.6 秒)的模擬,F(xiàn)VD分別為114.02、186.23。


在人類評(píng)估方面,研究人員為10 名人類評(píng)估者提供了130個(gè)隨機(jī)短片段(1.6秒和3.2 秒的長(zhǎng)度),并將模擬與真實(shí)游戲并排展示。


在1.6秒和3.2秒的片段中,人類僅有58%、60%的概率能正確區(qū)分真實(shí)游戲和模擬。

基于Diffusion的最新突破

除了被效果驚艷到,不少研究者還表示這項(xiàng)研究沒(méi)有那么簡(jiǎn)單,它是一種基于擴(kuò)散模型的最新突破。

震撼!AI實(shí)時(shí)生成游戲,每秒20幀輸出,DeepMind擴(kuò)散模型最新突破一夜爆火-AI.x社區(qū)

動(dòng)作條件化的世界模型已更進(jìn)一步!神經(jīng)網(wǎng)絡(luò)模擬在擴(kuò)展實(shí)際交互數(shù)據(jù)方面具有巨大潛力,特別是在物理模擬器表現(xiàn)不佳的領(lǐng)域。

震撼!AI實(shí)時(shí)生成游戲,每秒20幀輸出,DeepMind擴(kuò)散模型最新突破一夜爆火-AI.x社區(qū)

不過(guò),在一片好評(píng)聲中,也有網(wǎng)友指出,論文很好,但稱其為“游戲引擎”不太妥當(dāng):

希望他們能說(shuō)“渲染引擎”而不是“游戲引擎”。

游戲引擎是一個(gè)讓一群人創(chuàng)造東西的工具,它將繼續(xù)存在,特別是與任何集成的超級(jí)AI共存。顯然,今天的游戲引擎已經(jīng)過(guò)時(shí),但我們已經(jīng)在構(gòu)建下一代引擎了。

震撼!AI實(shí)時(shí)生成游戲,每秒20幀輸出,DeepMind擴(kuò)散模型最新突破一夜爆火-AI.x社區(qū)

對(duì)于一些人評(píng)論這些模型將取代傳統(tǒng)游戲引擎,也有網(wǎng)友持不同的觀點(diǎn)。


一位a16z的游戲和3D技術(shù)領(lǐng)域投資人、前Unity員工給出了他的看法:


諷刺的是,訓(xùn)練這些模型需要從傳統(tǒng)游戲引擎輸入控制器動(dòng)作和輸出幀作為訓(xùn)練數(shù)據(jù)。


雖然我認(rèn)為這些由擴(kuò)散模型實(shí)時(shí)生成的幀最終會(huì)改變我們體驗(yàn)游戲的方式,但我仍然認(rèn)為專業(yè)開(kāi)發(fā)者需要一個(gè)3D場(chǎng)景圖來(lái)進(jìn)行觸感控制和創(chuàng)造性表達(dá)。


開(kāi)發(fā)者可能會(huì)使用更傳統(tǒng)的3D創(chuàng)作引擎創(chuàng)建游戲的“灰盒”版本,然后一個(gè)圖像到圖像的模型實(shí)時(shí)提升分辨率(類似于英偉達(dá)的DLSS技術(shù))。


未來(lái),消費(fèi)者將能體驗(yàn)從文本直接創(chuàng)造游戲或虛擬世界的全新方式。但在我看來(lái),專業(yè)工作流程中仍然會(huì)有3D場(chǎng)景圖的一席之地。

震撼!AI實(shí)時(shí)生成游戲,每秒20幀輸出,DeepMind擴(kuò)散模型最新突破一夜爆火-AI.x社區(qū)

你怎么看GameNGen這項(xiàng)研究?它會(huì)給未來(lái)游戲行業(yè)帶來(lái)何種改變?


項(xiàng)目主頁(yè):https://gamengen.github.io/
論文鏈接:https://arxiv.org/pdf/2408.14837


本文轉(zhuǎn)自 量子位 ,作者:量子位


原文鏈接:??https://mp.weixin.qq.com/s/tr2VIUqwLtltEE4N7psX-A??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦