自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

微軟發(fā)布創(chuàng)新大模型:一張圖片就能生成游戲,游戲界ChatGPT來了

發(fā)布于 2025-2-24 09:48
瀏覽
0收藏

微軟在官網(wǎng)發(fā)布了專用于游戲領(lǐng)域的創(chuàng)新大模型——Muse。


雖然Muse基于Transformer架構(gòu),但創(chuàng)建游戲場景的方式卻非常獨特,并不依賴傳統(tǒng)的文本提示,而是通過游戲畫面和控制器操作的序列化數(shù)據(jù)作為輸入提示,從而生成連貫的游戲場景和玩法,同時更符合游戲機制和物理規(guī)則的游戲內(nèi)容。


例如,僅通過一張游戲截圖,Muse 就能迅速生成多個可能的后續(xù)游戲畫面,并通過 Xbox 手柄控制角色生成與開發(fā)者操作相匹配的后續(xù)游戲內(nèi)容,游戲開發(fā)效率非常高。

微軟發(fā)布創(chuàng)新大模型:一張圖片就能生成游戲,游戲界ChatGPT來了-AI.x社區(qū)

微軟發(fā)布創(chuàng)新大模型:一張圖片就能生成游戲,游戲界ChatGPT來了-AI.x社區(qū)


游戲開發(fā)是一個高度復(fù)雜的過程,涉及創(chuàng)意構(gòu)思、角色設(shè)計、場景搭建、玩法策劃等多個環(huán)節(jié),需要眾多專業(yè)人員協(xié)同合作。


以一個小型獨立游戲工作室開發(fā)新游戲關(guān)卡為例,CEO 提出新角色概念后,角色開發(fā)人員需花費數(shù)天甚至數(shù)周時間繪制概念草圖并反復(fù)修改,隨后3D模型師進行建模,動畫師負責(zé)角色動畫制作,程序員編寫角色行為代碼,最后由關(guān)卡設(shè)計師與環(huán)境師共同打造適配的關(guān)卡。


整個流程繁瑣復(fù)雜,且需要大量的創(chuàng)意投入和時間成本?,F(xiàn)在,通過Muse可以輕松完成這些復(fù)雜的開發(fā)流程。

Muse架構(gòu)簡單介紹

Muse與ChatGPT一樣使用了著名的Transformer作為核心架構(gòu)。為了將游戲畫面和玩家操作轉(zhuǎn)化為模型能夠處理的序列化數(shù)據(jù),還引入了VQGAN圖像編碼器。


VQGAN的作用是將游戲畫面中的每一幀圖像編碼為一系列離散的tokens,不僅保留了原始圖像的關(guān)鍵信息,還能夠被Transformer模型高效處理。

微軟發(fā)布創(chuàng)新大模型:一張圖片就能生成游戲,游戲界ChatGPT來了-AI.x社區(qū)

每個游戲畫面被編碼為540個離散tokens,這些標(biāo)記構(gòu)成了模型輸入的一部分,幫助模型能夠在生成過程中靈活地處理圖像數(shù)據(jù),同時保持對游戲畫面細節(jié)的高保真度。

微軟發(fā)布創(chuàng)新大模型:一張圖片就能生成游戲,游戲界ChatGPT來了-AI.x社區(qū)

玩家的操作也被離散化處理,以適配模型的輸入格式。玩家控制器的按鈕操作被直接編碼為離散值,而搖桿的連續(xù)操作則被劃分為11個離散區(qū)間。


在訓(xùn)練過程中,Muse利用了大規(guī)模的計算資源和優(yōu)化策略,例如,1.6B參數(shù)的Muse模型在訓(xùn)練時使用了高達1×1022算力,使得模型能夠在復(fù)雜的3D游戲環(huán)境中學(xué)習(xí)到更精細的動態(tài)關(guān)系,從而生成更加真實和連貫的游戲玩法序列。

微軟發(fā)布創(chuàng)新大模型:一張圖片就能生成游戲,游戲界ChatGPT來了-AI.x社區(qū)

為了進一步提升模型的性能,微軟還在訓(xùn)練過程中采用了AdamW優(yōu)化器,并結(jié)合了余弦退火學(xué)習(xí)率策略,在訓(xùn)練過程中動態(tài)調(diào)整學(xué)習(xí)率,從而提高模型的收斂速度和最終性能。模型還采用了批量歸一化和權(quán)重衰減等技術(shù),以防止過擬合并提高模型的泛化能力。

高質(zhì)量訓(xùn)練數(shù)據(jù)

為了提升Muse模型的生成性能,微軟與Ninja Theory工作室合作獲取了《Bleeding Edge》的大量真實玩家游戲數(shù)據(jù)。


為了收集訓(xùn)練數(shù)據(jù),微軟從游戲中提取了超過50萬場玩家的游戲會話,涵蓋了各種游戲場景、角色行為和玩家操作。同時對這些數(shù)據(jù)經(jīng)過清洗和匿名化處理,以確保玩家隱私和數(shù)據(jù)安全。


游戲畫面的圖像幀被提取為300×180像素的分辨率,以確保模型能夠捕捉到足夠的細節(jié);控制器操作則被離散化處理,包括按鈕操作和搖桿的移動方向。這些數(shù)據(jù)被整合為時間序列,每個序列包含10幀圖像和對應(yīng)的控制器操作,形成了模型的輸入和輸出對。


最終,從這些數(shù)據(jù)中提煉出了兩個數(shù)據(jù)集:7 Maps和 Skygarden 數(shù)據(jù)集。7 Maps 數(shù)據(jù)集包含 60,986 場比賽,約500,000個玩家軌跡,數(shù)據(jù)總量達到27T,相當(dāng)于7年多的游戲時間。

微軟發(fā)布創(chuàng)新大模型:一張圖片就能生成游戲,游戲界ChatGPT來了-AI.x社區(qū)

經(jīng)過下采樣到10Hz后,約有 14 億幀數(shù)據(jù),并按照80:10:10 的比例劃分為訓(xùn)練集、驗證集和測試集。Skygarden 數(shù)據(jù)集則聚焦于單個地圖,包含 66,709 個玩家軌跡,約 3.1 億幀數(shù)據(jù),同樣進行了80:10:10 的劃分和10Hz下采樣處理。

Muse測試數(shù)據(jù)

為了測試Muse的性能,微軟使用了連貫性、多樣性和持續(xù)性三種測試基準(zhǔn)進行了綜合評估。


在連貫性測試中,團隊使用了FVD指標(biāo)來衡量生成游戲畫面與真實游戲畫面之間的相似度。結(jié)果顯示,隨著模型規(guī)模的增大和計算資源的增加,F(xiàn)VD指標(biāo)顯著降低,表明生成的游戲畫面與真實畫面之間的差異越來越小。


例如,1.6B參數(shù)的MUSE模型在高分辨率圖像上的表現(xiàn)尤為出色,能夠生成長達2分鐘的連貫游戲畫面。

微軟發(fā)布創(chuàng)新大模型:一張圖片就能生成游戲,游戲界ChatGPT來了-AI.x社區(qū)

在多樣性測試中,團隊使用了Wasserstein距離來衡量生成動作與真實人類動作之間的分布差異。測試結(jié)果表明,MUSE模型能夠生成多種不同的游戲玩法,且生成的動作分布與人類玩家的真實動作分布高度一致。


此外,團隊還通過定性分析展示了模型生成的多樣化行為,例如,玩家角色可以選擇不同的路徑、使用不同的技能,甚至在外觀上也存在差異。

微軟發(fā)布創(chuàng)新大模型:一張圖片就能生成游戲,游戲界ChatGPT來了-AI.x社區(qū)

持續(xù)性測試則通過在游戲畫面中插入新的元素,包括游戲角色、道具或地圖等元素,來評估模型是否能夠?qū)⑦@些修改融入后續(xù)生成的畫面中。


結(jié)果顯示,當(dāng)模型在生成過程中被提示包含這些修改后的畫面時,能以超過85%持續(xù)生成包含這些元素的畫面。這表明MUSE模型能夠有效地支持創(chuàng)意人員的迭代創(chuàng)作過程。


微軟游戲研究負責(zé)人KatjaHofmann表示,研發(fā)Muse的主要原因是2022年11月OpenAI發(fā)布了ChatGPT。當(dāng)時意識到基于 Transformer 架構(gòu)的AI模型在大量數(shù)據(jù)訓(xùn)練下的巨大商業(yè)潛力,同時手中也有豐富的游戲數(shù)據(jù),于是想利用這些數(shù)據(jù)訓(xùn)練出更好的游戲模型。

目前,Muse模型可以在微軟的Azure AI Foundry上體驗。


本文轉(zhuǎn)自 AIGC開放社區(qū)  ,作者:AIGC開放社區(qū)


原文鏈接:??https://mp.weixin.qq.com/s/3vFxCvJU_k_IgxNBE4pnuA??

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦