「黑神話」級3A大作AI實時游戲生成!港科大、中科大等祭出最強擴散Transformer,火爆國外
爆火國產(chǎn)3A大作《黑神話·悟空》,如今也能由AI生成了?
一夜之間,國內(nèi)首個實時視頻游戲生成AI,火遍全網(wǎng)。
致敬「西游記」
幾天前,專做推理芯片初創(chuàng)Etched曾推出世界首個實時生成AI游戲Oasis,每一幀都是擴散Transformer預測。
無需游戲引擎,就能實現(xiàn)每秒20幀實時渲染,幾乎沒有延遲。
沒想到,GameGen-X一出,再次顛覆了我們對AI游戲的認知。
來自港科大、中科大、港中文等機構(gòu)聯(lián)手,提出開放世界視頻游戲生成AI,可以實時交互創(chuàng)建游戲。
這是首個專為生成和交互控制開放世界游戲視頻而設計的擴散Transformer模型。
論文地址:https://gamegen-x.github.io/
GameGen-X能夠模擬游戲引擎特性,實現(xiàn)高質(zhì)量開放世界游戲生成。比如,創(chuàng)建新角色、動態(tài)環(huán)境、復雜動作和各種事件等等。
它還能進行交互式控制,根據(jù)當前片段預測或更改未來內(nèi)容,實現(xiàn)游戲模擬。
有網(wǎng)友表示,一切都結(jié)束了,中國再次在AI游戲領(lǐng)域拿下第一。
還有人稱,這比Oasis看起來更好。
AI實時游戲生成,驚呆歪果仁
老黃曾說過,未來每個像素很快都將會是生成的,并非是渲染的。
不論是從谷歌GameNGen,到Oasis,再到GameGen-X,每一步的進化都在逼近這個預言。
高質(zhì)量游戲生成
在游戲生成上,GameGen-X不僅能夠創(chuàng)建角色,還能生成動作、動態(tài)環(huán)境、各種事件、開放域。
角色生成
《巫師》的Geralt of Rivia
《荒野大鏢客:救贖2》的主角Arthur Morgan
《刺客信條》的Eivor
還有這種偏卡通風的人物——異星探險家
射擊游戲中的機械戰(zhàn)警RoboCop,機器人角色生成很賽博。
環(huán)境生成
不論是春夏秋冬四季,還是山川湖海,各種名勝古跡,都能實時生成。
動作生成
騎摩托車第一人稱視角,以及第三人稱視角。
駕馬車
飛行
事件生成
下雨、下雪、打雷、日起日落、火災、沙塵暴、海嘯.....
開放域生成
在中國城漫游的賽博和尚
血月下的幽靈
穿著斗篷的旅行者走在火星上
多模態(tài)交互控制
在多模態(tài)交互中,GameGen-X能夠支持結(jié)構(gòu)化指令提示、外設操作信號、視頻提示的生成。
結(jié)構(gòu)化指令提示
同在沙漠中行走的旅人,你可以通過提示要求,讓背景實時變幻。
天空之火
黑暗與星星
日落時分
霧出現(xiàn)
操作信號
游戲中角色向左向右移動,一句話的事。
視頻提示
提供一個Canny提示的視頻
接下來,就會得到
又或者提供一個運動失量的視頻
就會生成一個揚沙的視頻
GameGen-X技術(shù)
GameGen-X擅長生成多樣化和創(chuàng)造性的游戲內(nèi)容,包括動態(tài)環(huán)境、多變的角色、引人入勝的事件和復雜的動作,樹立了該領(lǐng)域的新標桿。
更為震撼的是,它還提供了交互式可控性,并首次將角色交互和場景內(nèi)容控制統(tǒng)一起來。
AI根據(jù)當前片段預測和更改未來內(nèi)容,從而實現(xiàn)游戲模擬,賦予了游戲更多的真實性。
它首先生成一個視頻片段,以設置環(huán)境和角色。
隨后,利用當前視頻片段和多模態(tài)用戶控制信號,生成動態(tài)響應用戶輸入的視頻片段。
這一過程可被視為模擬現(xiàn)實一般的體驗,因為這一過程中,環(huán)境和角色都是動態(tài)發(fā)展的!
GameGen-X的訓練過程分為兩個階段,包括基礎(chǔ)模型預訓練和指令微調(diào)。
首先,通過在OGameData-GEN數(shù)據(jù)集上的文本到視頻的生成和視頻延續(xù)對模型進行預訓練,使其具備生成長序列、高質(zhì)量開放世界游戲視頻的能力。
此外,為了實現(xiàn)交互可控性,研究團隊在設計InstructNet時納入了與游戲相關(guān)的多模態(tài)信號控制專家系統(tǒng)。
這使得模型能夠根據(jù)用戶輸入微調(diào)潛表征,首次在視頻生成中將角色交互和場景內(nèi)容的調(diào)控統(tǒng)一起來。
在指令微調(diào)過程中,為了保證不損失生成視頻內(nèi)容的多樣性和質(zhì)量的情況下,實現(xiàn)多模態(tài)交互式控制,模型引入了 InstructNet。具體來說,InstructNet 的主要目的是根據(jù)指令修改未來的預測。
當沒有給出用戶輸入信號時,視頻自然延伸。因此會將預先訓練好的基礎(chǔ)模型凍結(jié),只利用OGameData-INS數(shù)據(jù)集更新InstructNet,從而將用戶輸入(如游戲環(huán)境動態(tài)的結(jié)構(gòu)化文本指令和角色動作與操作的鍵盤控制)映射到生成的游戲內(nèi)容上。
總之,GameGen-X代表了使用生成模型進行開放世界視頻游戲設計的一次重大飛躍。它展示了生成模型作為傳統(tǒng)渲染技術(shù)輔助工具的潛力,有效地將創(chuàng)意生成與交互能力融合在一起。
首個開放世界游戲視頻數(shù)據(jù)集OGameData
為了促進交互式控制游戲生成領(lǐng)域的發(fā)展,研究團隊構(gòu)建了開放世界視頻游戲數(shù)據(jù)集(Open-World Video Game Dataset,OGameData),這是首個專為游戲視頻生成和交互式控制精心設計的大規(guī)模數(shù)據(jù)集。
它提供游戲特定知識,并包含游戲名稱、玩家視角和角色細節(jié)等元素。該數(shù)據(jù)集從150多款下一代游戲中收集而來,其中包括評分、篩選、排序和結(jié)構(gòu)化注釋。
OGameData的構(gòu)建與處理流程
如表1所示,OGameData包含100萬個高分辨率視頻片段,來源從幾分鐘到幾小時不等。
與其他特定領(lǐng)域的數(shù)據(jù)集相比,OGameData在文本-視頻對的規(guī)模、多樣性和豐富性方面脫穎而出。
即使與最新的開放域生成數(shù)據(jù)集Miradata相比,仍然具有提供更多細粒度注釋的優(yōu)勢,其在單位時間內(nèi)提供的注釋甚至是Miradata數(shù)據(jù)集的2倍多!
該數(shù)據(jù)集具有幾個主要特點:OGameData 具有高度精細的文本,并擁有大量可訓練的視頻-文本對,從而提高了模型訓練中文本-視頻的一致性。
此外,它還包括兩個子集:生成數(shù)據(jù)集(OGameData-GEN)和指令數(shù)據(jù)集(OGameData-INS)。
其中OGameData-GEN專門用于訓練生成基礎(chǔ)模型,而OGameData-INS則針對指令微調(diào)和交互式控制任務進行了優(yōu)化。
OGameData-GEN需要制作詳細的注釋來描述游戲元數(shù)據(jù)、場景背景和關(guān)鍵角色,以確保生成基礎(chǔ)模型訓練所需的全面文本描述。
相比之下,OGameData-INS使用基于指令的簡明注釋,突出顯示初始幀和后續(xù)幀之間的差異,重點是描述游戲場景的變化,以便進行交互式生成。
這種結(jié)構(gòu)化注釋方法可實現(xiàn)精確的生成和細粒度的控制,允許模型在保留場景的同時修改特定元素。該數(shù)據(jù)集的高質(zhì)量得益于10多位人類專家的精心設計。
每個視頻片段都配有使用GPT-4o生成的注釋,以保持清晰度和連貫性,并確保數(shù)據(jù)集不受用戶界面和視覺偽影的影響。
模型架構(gòu)
在將視頻片段進行編碼時,為解決時空信息冗余問題,GameGen-X引入了三維時空變分自編碼器(3D-VAE),將視頻片段壓縮為潛表征。
這種壓縮技術(shù)可以對具有較長幀序列的高分辨率視頻進行高效訓練。
具體來說,3D-VAE首先進行空間下采樣以獲得幀級潛特征。此外,它還進行了時間組合,以捕捉時間依賴性并有效減少幀上的冗余。
通過3D-VAE對視頻片段進行處理,可以得到一個具有空間-時間信息并降低了維度的潛張量。這樣的張量可以支持長視頻和高分辨率模型訓練,滿足游戲內(nèi)容生成的要求。
GameGen-X還引入了掩碼時空擴散Transformer(Masked Spatial-Temporal Diffusion Transformer,MSDiT)。
具體來說,MSDiT結(jié)合了空間注意力、時間注意力和交叉注意力機制,可有效生成由文本提示引導的游戲視頻。
對于每個時間步長t,模型會處理捕捉幀細節(jié)的潛特征z。
空間注意力通過對空間維度(H′、W′)的自注意力來增強幀內(nèi)關(guān)系。時間注意通過在時間維度F′上進行操作,捕捉幀間的依賴關(guān)系,從而確保幀間的一致性。
交叉注意力整合了通過文本編碼器T5獲得的外部文本特征的指導,使視頻生成與文本提示的語義信息保持一致。
而掩碼機制則可以在擴散處理過程中,將某些幀從噪聲添加和去噪中屏蔽掉。
如圖4所示,整體框架采用了將成對的空間和時間區(qū)塊堆疊在一起的設計,其中每個區(qū)塊都配備了交叉注意和空間或時間注意力機制。
這樣的設計使模型能夠同時捕捉空間細節(jié)、時間序列動態(tài)和文本引導,從而使GameGen-X能夠生成高保真、時間上一致的視頻,并與所提供的文本提示緊密結(jié)合。
負責實現(xiàn)交互式控制的指令微調(diào)的部分由N個InstructNet模塊組成,每個模塊利用專門的操作集成式專家層和指令集成式專家層來整合不同的條件。
輸出特征被注入到基礎(chǔ)模型中以融合原始潛在特征,根據(jù)用戶輸入調(diào)制潛在表征,并有效地將輸出與用戶意圖對齊,這使用戶能夠影響角色動作和場景動態(tài)。
InstructNet主要通過視頻連續(xù)訓練來模擬游戲中的控制和反饋機制。此外,還在初始幀中巧妙地添加了高斯噪聲,以減少誤差累積。
實驗結(jié)果
為了全面評估GameGen-X在生成高質(zhì)量、逼真且可交互控制的視頻游戲內(nèi)容方面的能力,研究團隊采用了一套十分細致的度量標準。
包括Fréchet Inception Distance(FID)、Fréchet Video Distance(FVD)、文本視頻對齊(TVA)、用戶偏好度(UP)、運動平滑度(MS)、動態(tài)度(DD)、主體一致性(SC) 和成像質(zhì)量(IQ)。
表2對比了GameGen-X和4個知名開源模型,即Mira、OpenSora Plan1.2、OpenSora1.2和CogVideoX-5B。
值得注意的是,Mira和OpenSora1.2都明確提到在游戲數(shù)據(jù)上進行訓練,而其他兩個模型雖然不是專門為此目的設計的,但仍然可以在類似環(huán)境中滿足某些生成需求。
結(jié)果顯示,GameGen-X在FID、FVD、TVA、MS和SC等指標上表現(xiàn)良好。這表明GameGen-X在生成高質(zhì)量和連貫的視頻游戲內(nèi)容方面具有優(yōu)勢,同時保持了競爭性的視覺和技術(shù)質(zhì)量。
此外,團隊還使用了有條件的視頻片段和密集提示詞來評估模型的生成響應。
其中,新引入的指標——成功率(SR),負責衡量模型對控制信號的準確響應頻率。這是由人類專家和PLLaVA共同評估的。
SR指標分為兩部分:角色動作的成功率(SR-C),評估模型對角色動作的響應能力,以及環(huán)境事件的成功率(SR-E),評估模型對天氣、光照和物體變化的處理能力。
如表3所示,GameGen-X在控制能力方面優(yōu)于其他模型,突顯了其在生成上下文適宜和互動性游戲內(nèi)容方面的有效性。
在生成性能方面,有著8fps視頻的CogVideo和場景頻繁變化的OpenSora1.2,獲得了更高的DD。
圖5展示了GameGen-X在生成各種角色、環(huán)境、動作和事件的多樣化生成能力。
這些例子顯示模型可以創(chuàng)建刺客和法師等角色,模擬櫻花森林和熱帶雨林等環(huán)境,執(zhí)行飛行和駕駛等復雜動作,并重現(xiàn)暴風雪和暴雨等環(huán)境事件。
圖6展示了GameGen-X根據(jù)文本指令和鍵盤輸入控制環(huán)境事件和角色動作的能力。
在提供的示例中,模型有效地操控了場景的各個方面,如光照條件和大氣效果,突顯了其模擬不同時間和天氣條件的能力。此外,角色的動作,主要涉及環(huán)境中的導航,通過輸入的鍵盤信號得到精確控制。
通過調(diào)整光照和大氣等環(huán)境因素,模型提供了一個逼真而沉浸的環(huán)境。同時,管理角色動作的能力確保生成的內(nèi)容能夠直觀地響應用戶的互動。
通過這些能力,GameGen-X展示出了在提升開放世界電子游戲模擬的真實感和參與度方面的潛力。
如圖7所示,GameGen-X在角色細節(jié)、視覺環(huán)境和鏡頭邏輯方面更好地滿足了游戲內(nèi)容的要求,這得益于嚴格的數(shù)據(jù)集收集和OGameData的構(gòu)建。
此外,GameGen-X還與包括Kling、Pika、Runway、Luma和Tongyi在內(nèi)的其他商業(yè)產(chǎn)品進行了比較,如圖8所示。
在左側(cè)部分,即最初生成的視頻片段中,只有Pika、Kling1.5和GameGen-X正確地遵循了文本描述。其他模型要么未能顯示角色,要么將其描繪為進入洞穴而非退出。
在右側(cè)部分,GameGen-X和Kling1.5都成功引導角色走出洞穴。GameGen-X實現(xiàn)了高質(zhì)量的控制響應,同時保持了一致的鏡頭邏輯,并遵循了類似游戲的體驗。這得益于整體訓練框架和InstructNet的設計。
結(jié)論
OGameData的開發(fā)為模型訓練提供了重要的基礎(chǔ),使其能夠捕捉開放世界游戲的多樣性和復雜性。而通過兩階段的訓練過程,GameGen-X實現(xiàn)了內(nèi)容生成和交互控制之間的相互增強,從而實現(xiàn)了豐富且身臨其境般的模擬體驗。
除了技術(shù)貢獻之外,更重要的是:GameGen-X 還為游戲內(nèi)容設計的未來開辟了新的視野。它表明游戲設計與開發(fā)有可能轉(zhuǎn)向更加自動化、數(shù)據(jù)驅(qū)動的流程,從而顯著減少游戲內(nèi)容早期創(chuàng)建所需的手動工作。
通過利用模型來創(chuàng)建身臨其境的世界和交互式游戲玩法,我們可能對于玩家自己通過創(chuàng)造性的探索來構(gòu)建一個游戲的未來越來越近了。
盡管挑戰(zhàn)依然存在,GameGen-X代表了游戲設計中向新穎范式邁出的重大飛躍。它為未來的研究和開發(fā)奠定了基礎(chǔ),也為生成模型成為創(chuàng)建下一代交互式數(shù)字世界的不可或缺的工具鋪平了道路。
團隊介紹
Haoxuan Che
Haoxuan Che正在香港科技大學(HKUST)攻讀計算機科學與工程博士學位。他的主要研究興趣在于計算機視覺、醫(yī)學圖像分析和可信賴人工智能。
在加入香港科技大學之前,我曾畢業(yè)于西北工業(yè)大學(NWPU),獲得了軟件與微電子學院的軟件工程學士學位。
Xuanhua He(何炫華)
何炫華目前是中國科學技術(shù)大學的碩士生,由Jie Zhang和Chengjun Xie教授指導。他于2022年在廈門大學獲得了軟件工程學士學位,師從Yongxuan Lai教授。
他的研究興趣集中在計算機視覺領(lǐng)域,特別是圖像超分辨率、圖像增強和視頻生成。此前,他還曾曾探索過遙感圖像處理和聯(lián)邦學習。