自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

微軟Muse秒生游戲登Nature,10億級(jí)畫(huà)面練出最強(qiáng)AI!千億游戲市場(chǎng)重洗牌

人工智能 新聞
一夜之間,游戲產(chǎn)業(yè)要變天了!微軟公布全球首個(gè)世界與人類行動(dòng)模型,名為Muse,可秒生游戲畫(huà)面,精準(zhǔn)預(yù)測(cè)玩家操作。未來(lái),游戲開(kāi)發(fā)或?qū)臄?shù)月壓縮至幾分鐘,千億美金游戲市場(chǎng)或被顛覆。

同一天,微軟放出兩個(gè)核彈,首個(gè)拓?fù)淞孔有酒?,還有首個(gè)世界與人類行動(dòng)模型。

AI離數(shù)秒生成游戲視頻的未來(lái),又近了一步。

圖片

今天,微軟團(tuán)隊(duì)首次引入了「世界與人類行動(dòng)模型」(WHAM),并冠以希臘藝術(shù)女神「繆斯」(Muse)之名。

它可以生成游戲視覺(jué)效果、控制器動(dòng)作,甚至可以全都要。最新研究登上Nature期刊。

圖片

論文地址:https://www.nature.com/articles/s41586-025-08600-3

在相同的10幀(1秒)真實(shí)游戲玩法的條件下,Muse生成了行為和視覺(jué)多樣性的樣例。

同時(shí),這也是首個(gè)基于Ninja Theory的多人對(duì)戰(zhàn)游戲Bleeding Edge,超10億張畫(huà)面訓(xùn)練的GenAI模型。從單個(gè)V100集群,成功scaling到多達(dá)100個(gè)GPU上完成訓(xùn)練。

Muse AI強(qiáng)大核心在于,對(duì)3D游戲世界的深度理解。

它不僅僅是一個(gè)簡(jiǎn)單視頻生成工具,而是能夠精準(zhǔn)模擬游戲中物理規(guī)則、玩家行為。

比如,當(dāng)玩家按下手柄某個(gè)按鍵時(shí),Muse AI可以預(yù)測(cè)游戲世界動(dòng)態(tài)變化,并生成與之匹配的連貫畫(huà)面。

圖片

傳統(tǒng)上,游戲開(kāi)發(fā)需要數(shù)月甚至數(shù)年,進(jìn)行角色設(shè)計(jì)、動(dòng)畫(huà)制作和游戲測(cè)試。而如今,Muse能夠?qū)⑦@一周期從幾個(gè)月縮短至幾分鐘。

對(duì)于游戲開(kāi)發(fā)者來(lái)說(shuō),它的出現(xiàn)無(wú)疑是一場(chǎng)革命,是顛覆千億游戲產(chǎn)業(yè)革命的存在。

就連馬斯克在AI游戲上押下重注,據(jù)稱其創(chuàng)辦AI游戲工作室即將要官宣。

圖片

圖片

AI重塑游戲開(kāi)發(fā),全球30億玩家狂歡

Muse AI誕生之前,還有這么一段精彩的故事。

2022年12月,微軟研究院游戲智能團(tuán)隊(duì)的負(fù)責(zé)人Katja Hofmann剛剛結(jié)束產(chǎn)假,回到工作崗位。

她忽然發(fā)現(xiàn),在自己休假這段時(shí)間里,機(jī)器學(xué)習(xí)領(lǐng)域發(fā)生了翻天覆地的變化——

OpenAI發(fā)布ChatGPT,這一基于Transformer架構(gòu)的生成模型,展示出令人驚嘆的能力,尤其是在處理大量文本數(shù)據(jù)時(shí)。

這一突破,讓Hofmann開(kāi)始思考,生成式AI的崛起,對(duì)于AI與視頻游戲的交叉領(lǐng)域意味著什么?

圖片

他們發(fā)現(xiàn),盡管GenAI展現(xiàn)出巨大的潛力,但多項(xiàng)研究表明,其能力往往達(dá)不到創(chuàng)意人員的期望值。

特別是,在3D游戲開(kāi)發(fā)這種高難度復(fù)雜領(lǐng)域,LLM的應(yīng)用還面臨著諸多的挑戰(zhàn)。

眾所周知,3D游戲開(kāi)發(fā)是一個(gè)需要多樣化創(chuàng)意技能的過(guò)程,會(huì)涉及到角色設(shè)計(jì)、場(chǎng)景構(gòu)建、劇情編寫(xiě)、互動(dòng)機(jī)制等多個(gè)方面。

在Hofmann看來(lái),豐富且多樣化的游戲玩法數(shù)據(jù),為進(jìn)一步創(chuàng)新提供了關(guān)鍵數(shù)據(jù)。

這種時(shí)間相關(guān)、多模態(tài)的數(shù)據(jù)能夠探索日益復(fù)雜的任務(wù),從而生成更高質(zhì)量3D世界、與NPC互動(dòng)和游戲機(jī)制。

更重要的是,游戲產(chǎn)業(yè)作為全球娛樂(lè)產(chǎn)業(yè)最大領(lǐng)域,已經(jīng)覆蓋了超30億人口。

GenAI的出現(xiàn),為世界游戲玩家們,甚至游戲工作室提供了一個(gè)絕佳的機(jī)會(huì)。

那么,微軟團(tuán)隊(duì)是如何打造出Muse AI?

Xbox真人實(shí)戰(zhàn),超10億張圖像

微軟的游戲智能團(tuán)隊(duì),擁有非常不同的數(shù)據(jù)來(lái)源。

多年來(lái),研究團(tuán)隊(duì)與Xbox游戲工作室的Ninja Theory(與游戲智能研究團(tuán)隊(duì)一樣,位于英國(guó)劍橋)合作,收集2020年發(fā)布的Xbox游戲《Bleeding Edge》的游戲數(shù)據(jù)。

《Bleeding Edge》是一款4對(duì)4的在線游戲。經(jīng)玩家同意EULA后,比賽會(huì)被記錄下來(lái)。

研究團(tuán)隊(duì)與Ninja Theory的同事以及微軟合規(guī)團(tuán)隊(duì)密切合作,確保數(shù)據(jù)的收集符合道德規(guī)范,并且僅用于研究目的。

圖片

Bleeding Edge部分游戲角色

Ninja Theory的技術(shù)總監(jiān)Gavin Costello,見(jiàn)證了相關(guān)研究,感到非常高興:

在黑客馬拉松中,首次將AI集成到《Bleeding Edge》中,而這只是開(kāi)始:此后,從構(gòu)建行為更像人類玩家的AI智能體,再到世界和人類行為(WHAM)模型在人類指導(dǎo)下,能夠構(gòu)想出全新的《Bleeding Edge》玩法。


能見(jiàn)證這項(xiàng)技術(shù)的潛力,讓人大開(kāi)眼界。

Muse訓(xùn)練數(shù)據(jù)

當(dāng)前的Muse模型是在Xbox游戲《Bleeding Edge》的人類游戲玩法數(shù)據(jù)(視覺(jué)和控制器操作)上訓(xùn)練的。

下圖左顯示的是訓(xùn)練當(dāng)前模型的300×180像素分辨率。在超過(guò)10億張圖像和控制器操作上,Muse(使用WHAM-1.6B)已經(jīng)進(jìn)行了訓(xùn)練,相當(dāng)于人類連續(xù)玩7年多游戲。

下圖右是相關(guān)研究團(tuán)隊(duì),一起體驗(yàn)《Bleeding Edge》游戲。

圖片

直到2022年底,游戲智能團(tuán)隊(duì)一直將《Bleeding Edge》視為類人導(dǎo)航(human-like navigation)實(shí)驗(yàn)平臺(tái),還沒(méi)有真正利用手中大量的人類玩家數(shù)據(jù)。

在文本模型的啟發(fā)下,研究團(tuán)隊(duì)開(kāi)始思考:「如果我們使用基于transformer的模型來(lái)訓(xùn)練這些海量的游戲數(shù)據(jù),我們能夠取得什么樣的成果?」

擴(kuò)大模型訓(xùn)練

隨著團(tuán)隊(duì)開(kāi)始深入研究,面臨的一個(gè)關(guān)鍵難題是如何擴(kuò)大模型訓(xùn)練的規(guī)模。

最初,使用了一個(gè)V100集群,并成功驗(yàn)證了如何擴(kuò)展到在多達(dá)100個(gè)GPU上進(jìn)行訓(xùn)練。這為后續(xù)在H100上進(jìn)行更大規(guī)模訓(xùn)練奠定了基礎(chǔ)。在項(xiàng)目初期,做出了一些關(guān)鍵的設(shè)計(jì)決策,主要是關(guān)于如何充分利用大語(yǔ)言模型(LLM)社區(qū)的見(jiàn)解,包括如何有效地表示控制器操作和圖像。

擴(kuò)大訓(xùn)練規(guī)模努力的第一個(gè)成果是一個(gè)令人印象深刻的演示。

當(dāng)時(shí)Game Intelligence的研究員Tim Pearce整理了一些訓(xùn)練初期與后期的對(duì)比示例。看著這些演示,就像看著模型學(xué)習(xí)一樣。

這為后續(xù)展示這些模型中如何出現(xiàn)縮放法則奠定了基礎(chǔ)。

Muse訓(xùn)練中的一致性

給模型的提示是:輸入1秒的人類游戲玩法(視覺(jué)和控制器操作)和9秒的真實(shí)控制器操作。

在這種設(shè)定下,Muse如果能夠生成與真實(shí)情況非常接近的視覺(jué)圖像,那么它已經(jīng)捕捉到了游戲動(dòng)態(tài)。

隨著訓(xùn)練的進(jìn)行,觀察到生成的視覺(jué)圖像質(zhì)量明顯提高。

在早期訓(xùn)練(10k訓(xùn)練更新)中,看到了初步的成果,但質(zhì)量迅速下降。

在100k訓(xùn)練更新后,模型在時(shí)間上保持一致,但尚未捕捉到游戲動(dòng)態(tài)中相對(duì)不常見(jiàn)的場(chǎng)景,如飛行機(jī)制。

隨著額外訓(xùn)練的進(jìn)行,與真實(shí)情況的一致性繼續(xù)提高。例如,在1M訓(xùn)練更新后,模型學(xué)懂了飛行機(jī)制。

圖片

真實(shí)的人類游戲玩法(左)與Muse生成的視覺(jué)圖像(使用WHAM-206M)的比較

跨學(xué)科合作:一開(kāi)始就讓用戶參與

很早以前,研究團(tuán)隊(duì)就開(kāi)始探索評(píng)估這類模型,比如下列3個(gè)項(xiàng)目:

  1. 研究實(shí)習(xí)生Gunshi Gupta和高級(jí)研究科學(xué)家Sergio Valcarcel Macua,推動(dòng)了對(duì)線性探測(cè)學(xué)習(xí)到的表征的理解。
  2. 高級(jí)研究科學(xué)家Raluca Georgescu,負(fù)責(zé)探索了在線評(píng)估的方式。
  3. 研究實(shí)習(xí)生Tarun Gupta,主導(dǎo)了既有視覺(jué)特效又有動(dòng)作的內(nèi)容生成的研究。

但要系統(tǒng)地評(píng)估Muse,需要更廣泛的見(jiàn)解。更重要的是,需要了解人們?nèi)绾问褂眠@些模型,以便知道如何評(píng)估它們。

這就是跨學(xué)科研究變得至關(guān)重要的地方。

研究團(tuán)隊(duì)已經(jīng)與高級(jí)首席研究經(jīng)理Cecily Morrison和Teachable AI Experiences團(tuán)隊(duì)合作了幾個(gè)月,討論了這項(xiàng)工作的各個(gè)方面。

在Cecily、設(shè)計(jì)研究員Linda Wen和首席研究軟件工程師Martin Grayson推動(dòng)下,團(tuán)隊(duì)還與游戲創(chuàng)作者合作,調(diào)查在創(chuàng)意實(shí)踐中,游戲創(chuàng)作者希望如何使用GenAI。

Cecily說(shuō):「這是一個(gè)很好的機(jī)會(huì),在早期階段就聯(lián)合起來(lái),讓模型滿足創(chuàng)作者的需求,而不是試圖改造已經(jīng)開(kāi)發(fā)的技術(shù)?!?/span>

關(guān)于如何處理這項(xiàng)工作,Linda提供了一些寶貴見(jiàn)解:

我們已經(jīng)看到技術(shù)驅(qū)動(dòng)的AI創(chuàng)新如何顛覆創(chuàng)意產(chǎn)業(yè)——通常讓創(chuàng)作者措手不及,讓許多人感到被排斥。


之所以從一開(kāi)始就邀請(qǐng)游戲創(chuàng)作者,共同塑造這項(xiàng)技術(shù),這就是原因。


北半球主導(dǎo)了AI創(chuàng)新。認(rèn)識(shí)到這一點(diǎn),我們還優(yōu)先考慮招募來(lái)自代表性不足的背景和地區(qū)的游戲創(chuàng)作者。我們的目標(biāo)是創(chuàng)造一個(gè)惠及所有人的技術(shù)——不僅僅是那些已經(jīng)處于特權(quán)地位的人

WHAM Demonstrator解鎖新創(chuàng)意

現(xiàn)在,隨著模型逐漸顯現(xiàn)的能力和用戶的反饋,是時(shí)候?qū)⑺胁糠终显谝黄鹆恕?/span>

在微軟內(nèi)部的黑客馬拉松中,不同團(tuán)隊(duì)共同合作,探索Muse可以解鎖的新交互范式和創(chuàng)意應(yīng)用場(chǎng)景。

最終,開(kāi)發(fā)了一個(gè)原型,命名為WHAM Demonstrator,它允許用戶直接與模型進(jìn)行交互。

Martin 說(shuō):「全球黑客馬拉松是一個(gè)完美的機(jī)會(huì),大家齊聚一堂,構(gòu)建了了第一個(gè)工作原型。我們希望為WHAM模型開(kāi)發(fā)一個(gè)界面,這樣就能探索它的創(chuàng)意潛力,并開(kāi)始測(cè)試從與游戲開(kāi)發(fā)者的訪談中得到的想法和應(yīng)用?!?/span>

為了與諸如Muse之類的AI模型進(jìn)行互動(dòng),WHAM Demonstrator提供了與WHAM實(shí)例互動(dòng)的視覺(jué)接口。

用戶可以探索新玩法,并進(jìn)行調(diào)整,例如使用游戲控制器來(lái)控制角色。這些功能展示了 Muse 的能力如何在創(chuàng)作過(guò)程中支持迭代和調(diào)整,幫助用戶不斷優(yōu)化和完善游戲體驗(yàn)。

模型架構(gòu)與評(píng)估

使用WHAM演示器親身體驗(yàn)Muse的能力,并從用戶研究中獲得見(jiàn)解,研究團(tuán)隊(duì)系統(tǒng)地確定了在使用像Muse這類生成模型時(shí),游戲創(chuàng)作者所需的關(guān)鍵能力:一致性、多樣性和持久性。

  1. 一致性:指的是模型生成游戲玩法時(shí),能夠尊重游戲的動(dòng)態(tài)特性。例如,角色的移動(dòng)與控制器操作一致,不會(huì)穿過(guò)墻壁,通常反映了游戲底層的物理特性。
  2. 多樣性:指的是模型在給定相同的初始提示時(shí),能夠生成多種游戲玩法變體的能力。
  3. 持久性:指的是模型能夠?qū)⒂脩粜薷模ɑ颉赋志谩梗┱系缴傻挠螒蛲娣ㄖ械哪芰?,例如將一個(gè)角色復(fù)制粘貼到游戲中。

模型架構(gòu)設(shè)計(jì)

建模設(shè)計(jì)反映了識(shí)別出的模型能力,如下圖所示。

  1. 一致性:一個(gè)順序模型,能夠準(zhǔn)確捕捉游戲視覺(jué)和控制器操作之間依賴關(guān)系。
  2. 多樣性:能夠生成數(shù)據(jù)并保留視覺(jué)和控制器操作序列條件分布。
  3. 持久性:基于(修改過(guò)的)圖像和/或控制器操作,通用條件化的預(yù)測(cè)模型得以實(shí)現(xiàn)。

在全部三個(gè)能力中,選擇提供可擴(kuò)展性的組件,這意味著模型應(yīng)該從大量訓(xùn)練數(shù)據(jù)和計(jì)算資源中受益。

WHAM設(shè)計(jì)如圖所示,它建立在transformer架構(gòu)上,作為其序列預(yù)測(cè)骨干。

新方法的關(guān)鍵在于將數(shù)據(jù)框定為離散token序列。

為了將圖像編碼為令牌序列,使用VQGAN圖像編碼器。用于編碼每張圖像的令牌數(shù)量是一個(gè)關(guān)鍵的超參數(shù),它在預(yù)測(cè)圖像的質(zhì)量、生成速度和上下文長(zhǎng)度之間進(jìn)行權(quán)衡。

對(duì)于Xbox控制器操作,盡管按鈕天生是離散的,將左和右搖桿的x和y坐標(biāo)離散化為11個(gè)桶。然后訓(xùn)練一個(gè)僅解碼Transformer來(lái)預(yù)測(cè)交織的圖像和控制器操作序列中的下一個(gè)token。

然后,該模型可以通過(guò)自回歸采樣下一個(gè)token來(lái)生成新序列。

還可以在生成過(guò)程中修改令牌,允許對(duì)圖像和/或操作進(jìn)行修改。也就是說(shuō)控制器操作或直接編輯圖像本身,可以控制(或提示)生成的能力,這評(píng)估持久性的先決條件。

圖片

WHAM架構(gòu)概覽

一致性

通過(guò)使用真實(shí)的游戲玩法和控制器動(dòng)作來(lái)提示模型,并讓模型生成游戲視覺(jué)效果來(lái)評(píng)估一致性。此處展示的視頻是使用Muse(基于 WHAM-1.6B)生成的,展示了模型生成長(zhǎng)達(dá)兩分鐘的一致游戲玩法序列的能力。

在論文中,還使用FVD(Fréchet Video Distance,視頻生成社區(qū)中一個(gè)既定的指標(biāo))將生成的視覺(jué)效果與真實(shí)的視覺(jué)效果進(jìn)行了比較。


多樣性

在總共102,400個(gè)動(dòng)作(1,024 條軌跡,每條軌跡100個(gè)動(dòng)作)中,對(duì)10,000個(gè)人類和模型動(dòng)作進(jìn)行子采樣,并計(jì)算它們之間的距離。

重復(fù)此過(guò)程十次,并繪制平均值 ± 1個(gè)標(biāo)準(zhǔn)差。越接近人與人之間的基線越好。均勻隨機(jī)動(dòng)作的距離為5.3。所有模型都通過(guò)訓(xùn)練得到改進(jìn),并且可以通過(guò)增加動(dòng)作損失的權(quán)重來(lái)進(jìn)一步改進(jìn)。

圖片

圖a:三種WHAM變體的多樣性,通過(guò)與人類動(dòng)作的Wasserstein距離來(lái)衡量。

在下圖b中,看到行為多樣性(玩家角色在生成位置附近盤(pán)旋與直接前往 Jumppad)和視覺(jué)多樣性(玩家角色安裝的懸浮滑板具有不同的皮膚)的示例。

圖片

圖b:使用相同起始上下文生成的1.6B WHAM的三個(gè)生成示例。

持久性

下列視頻展示了Muse(基于WHAM-1.6B)如何保持修改的一些示例。

首先,取自原始游戲數(shù)據(jù)的一張視覺(jué)圖像,然后將另一個(gè)角色的圖像編輯到這張圖像中。

生成的游戲序列展示了該角色是如何被融入到生成的游戲序列中的。

開(kāi)源資源

與此同時(shí),為了幫助其他研究人員,研究團(tuán)隊(duì)決定將開(kāi)源 Muse 的權(quán)重、樣本數(shù)據(jù),并提供WHAM Demonstrator可執(zhí)行文件——這是一個(gè)概念原型,提供了一個(gè)可視化界面,用于與 WHAM 模型進(jìn)行交互,并支持多種方式的模型提示。

圖片

項(xiàng)目鏈接:https://huggingface.co/microsoft/wham

像Muse這樣的模型,能夠?qū)W習(xí)到的游戲世界的豐富結(jié)構(gòu),更重要的是,新研究還展示了如何通過(guò)研究洞察來(lái)支持生成性AI模型在創(chuàng)意領(lǐng)域的應(yīng)用。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2023-05-08 12:32:20

AI讀心

2024-09-09 09:05:00

2024-07-23 13:06:53

2017-03-20 11:22:52

云計(jì)算

2024-10-15 14:00:00

AdobeAI生成

2012-09-04 10:54:05

HTML5HTML5游戲HTML5資訊

2010-03-17 09:56:37

游戲程序員

2013-08-19 09:42:44

移動(dòng)教育游戲

2013-01-15 22:43:24

手機(jī)游戲CNNIC手游

2014-01-06 10:14:32

2011-07-26 15:56:53

iPhone 游戲 啟動(dòng)畫(huà)面

2012-02-28 11:12:46

手機(jī)游戲市場(chǎng)

2022-05-26 15:03:54

芯片技術(shù)

2024-08-29 13:30:00

2013-01-17 09:48:15

手機(jī)游戲移動(dòng)游戲小團(tuán)隊(duì)

2009-05-06 10:35:13

蘋(píng)果微軟掌上游戲

2019-08-23 12:55:03

AI微軟AlphaStar

2019-05-27 09:56:00

數(shù)據(jù)庫(kù)高可用架構(gòu)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)