AI一鍵生成“類黑神話”!騰訊推出游戲視頻模型GameGen-O,業(yè)內(nèi)人士:游戲工作室的ChatGPT時刻
什么?大模型也許很快就能生成《黑神話·悟空》這種3A大作了?!
直接看一則demo,《西游記》這就上桌:
搭配BGM,是不是有內(nèi)味兒了(doge)。
這就是騰訊近日推出的GameGen-O,一個專門生成開放世界視頻游戲的Transformer模型。
簡單說,這個模型能夠模擬各種游戲引擎功能,生成游戲角色、動態(tài)環(huán)境、復(fù)雜動作等等。
當然也支持交互控制,用戶可以通過文本、操作信號和視頻提示來控制游戲內(nèi)容。
消息一公布就在??(前推特)開啟了刷屏模式,網(wǎng)友們開始列隊尖叫:
游戲工作室Azra Games的聯(lián)創(chuàng)兼CTO更是直言:
GameGen-O將成為游戲工作室的ChatGPT時刻。
“游戲工作室迎來ChatGPT時刻”
具體來說,這個項目由騰訊光子工作室(曾打造出和平精英)聯(lián)合港科大、中國科大推出。
推測想要做的事兒,是用AI模型替代一些游戲開發(fā)環(huán)節(jié)。比如目前公布的游戲角色創(chuàng)建、游戲環(huán)境生成、動作生成、事件生成以及各種交互控制。
下面我們挨個預(yù)覽一波~
現(xiàn)在,用GameGen-O就能直接生成各種角色了,西部牛仔、太空人、魔法師、警衛(wèi)……一鍵生成。
經(jīng)費不足造成真實取景困難,也有plan B了!
給隊友展示騷操作,各種人稱視角的動作生成也能輕松拿捏。
游戲必備環(huán)節(jié)——給玩家偶爾上億點難度,海嘯、龍卷風(fēng)、火災(zāi)事件這就安排(doge)。
與此同時,GameGen-O也支持開放域生成,即不限風(fēng)格、環(huán)境、場景那種。
最后,用文本、操作信號和視頻提示就能實現(xiàn)交互,向左、向右、走向黎明……
好家伙,誰都知道游戲開發(fā)有多燒錢,這下,普通玩家也能用GameGen-O制作游戲了。
一位AI架構(gòu)師網(wǎng)友更是斷言:
用GPT-4o標注數(shù)據(jù)
為了開發(fā)這個模型,團隊自述主要進行了兩項工作:
- 構(gòu)建專有數(shù)據(jù)集OGameData,采用GPT-4o標注數(shù)據(jù)
- 經(jīng)歷兩個階段的訓(xùn)練過程
具體來說,團隊首先提出了一個數(shù)據(jù)集構(gòu)建管道。
團隊從互聯(lián)網(wǎng)上收集了32,000個原始視頻,這些視頻來自數(shù)百款開放世界游戲,時長從幾分鐘到幾小時不等,類型包括角色扮演、第一人稱射擊、賽車、動作益智游戲等。
然后由人類專家對這些視頻進行識別和篩選,最終得到大約15,000個可用視頻。
下一步,將篩選后的視頻通過場景檢測技術(shù)切割成片段,并對這些視頻片段進行基于美學(xué)、光流和語義內(nèi)容的嚴格排序和過濾。
接下來使用GPT-4o對超過4,000小時的高質(zhì)量視頻片段進行細致的注釋,這些片段的分辨率從720p到4k不等。
為了實現(xiàn)交互控制性,團隊從注釋后的數(shù)據(jù)集中選擇最高質(zhì)量的片段,并進行解耦標簽(decoupled labeling)。
這種標簽設(shè)計用于描述片段內(nèi)容狀態(tài)的變化,確保訓(xùn)練模型的數(shù)據(jù)集更加精細和互動。
對于這種人類專家和GPT-4o一起工作的形式,有網(wǎng)友認為:
這是遞歸自我改進(recursive self-improvement)的一種形式。(人類專家確保了注釋的準確性,并通過反饋機制幫助GPT-4o進行自我改進)
完成數(shù)據(jù)準備工作后,團隊經(jīng)過基礎(chǔ)預(yù)訓(xùn)練+指令調(diào)整兩個過程來訓(xùn)練GameGen-O。
在基礎(chǔ)訓(xùn)練階段,GameGen-O模型使用了一個2+1D VAE(變分自編碼器,如Magvit-v2)來壓縮視頻片段。
為了使VAE適應(yīng)游戲領(lǐng)域,團隊對VAE解碼器進行了特定領(lǐng)域的調(diào)整。
團隊采用了不同幀速率和分辨率的混合訓(xùn)練策略,以增強跨幀率和跨分辨率的泛化能力。
另外,模型的整體架構(gòu)遵循了Latte和OpenSora V1.2框架的原則。
通過使用掩碼注意力機制,讓GameGen-O具備了文本到視頻生成和視頻續(xù)集的雙重能力。
團隊介紹稱:
這種訓(xùn)練方法,結(jié)合OGameData數(shù)據(jù)集,使得模型能夠穩(wěn)定且高質(zhì)量地生成開放領(lǐng)域的視頻游戲內(nèi)容,并為后續(xù)的交互控制能力奠定了基礎(chǔ)。
在這之后,預(yù)訓(xùn)練的模型被固定,然后使用可訓(xùn)練的InstructNet進行微調(diào),這使得模型能夠根據(jù)多模態(tài)結(jié)構(gòu)指令生成后續(xù)幀。
InstructNet主要用于接受各種多模態(tài)輸入,包括結(jié)構(gòu)化文本、操作信號和視頻提示。
在InstructNet分支的調(diào)整過程中,當前內(nèi)容被用作條件,從而在當前片段內(nèi)容和未來片段內(nèi)容之間建立了映射關(guān)系,這在多模態(tài)控制信號下進行。
造成的結(jié)果是,在推理時,GameGen-O允許用戶基于當前片段不斷生成和控制下一個生成的片段。
目前,GameGen-O已創(chuàng)建GitHub官方倉庫,只不過還沒來得及上傳代碼。
感興趣的童鞋可以先收藏一波了~
項目主頁:
https://gamegen-o.github.io/
GitHub官方倉庫:
https://github.com/GameGen-O/GameGen-O/