無需游戲引擎,大模型實時生成“我的世界”,每秒20幀零延遲可交互,已開源
現(xiàn)在,一個大模型就能直接拿來當(dāng)游戲,還是開放世界的那種!
可以直接根據(jù)玩家操作預(yù)測下一幀,連游戲引擎都省了。
這個怎么看都像是《我的世界》的界面,就是這款游戲Oasis本尊了。
雖然看著像,但兩者驅(qū)動方式完全不同,Oasis的圖像不是來自渲染,而是AI實時繪制。
Oasis會根據(jù)你的鍵盤輸入生成新的幀,每次游戲都能探索不同的地圖。
像這樣的可交互世界模型,一個模型就是一個游戲,每秒20幀零延遲的生成效率,也讓不少人都投來了驚訝的目光。
FlashAttention作者Tri Dao也感嘆說,很快模型推理成本就會降低,很多娛樂內(nèi)容將會變成AI生成。
目前Oasis的代碼和500M參數(shù)的模型權(quán)重已經(jīng)開源,作者同時也放出了在線體驗版本。
無需游戲引擎,大模型即是游戲
在Oasis之前,已經(jīng)有人用類似的技術(shù),開發(fā)出了基于大模型的fps射擊游戲。
現(xiàn)在,Oasis直接把科技樹點到了開放世界游戲當(dāng)中。
Oasis在線版本提供了多種地圖風(fēng)格可供選擇,需要排隊體驗,不過時間不長,排到一次可以玩五分鐘。
進(jìn)入之后會顯示游戲畫面、操作說明和剩余的體驗時間。
根據(jù)前面選擇的地圖風(fēng)格,游戲中的AI引擎可以實時生成各種各樣的畫面。
而且模型也包含了一些對現(xiàn)實世界的理解,比如在繪制時能夠理解并遵循光照等物理規(guī)律。
生命值、饑餓度這樣一般游戲中具有的復(fù)雜機制也都有,可以通過食物來獲得體力。
而且游戲世界也并不空洞,角色的設(shè)定方面,Oasis中安排了大量的動物和NPC。
但是……為什么都擠成一團啊?
當(dāng)然這些動物也不只是貼圖,你可以像《我的世界》種一樣和動物進(jìn)行交互。
時間用完或者手動結(jié)束后,還會有游戲全過程的視頻記錄,可以選擇下載保存。
不過,Oasis的畫面質(zhì)量也確實還有很大的進(jìn)步空間,還有人吐槽一致性問題,只要轉(zhuǎn)一個圈看到的東西就全變了。
但至少勝在響應(yīng)速度快,也算是為以后的實時AI畫面生成打了個樣。
那么,Oasis的研發(fā)團隊都運用了些什么技術(shù)呢?
生成一幀只要47毫秒
Oasis由位于美國加州的初創(chuàng)公司Decart打造,該公司成立于2023年。
為了讓研發(fā)的模型能夠高效工作,Decart選擇了和一家叫做Etched的芯片初創(chuàng)公司合作研發(fā)。
Etched由哈佛輟學(xué)生Gavin Uberti在2022年創(chuàng)建,并于今年獲得了1.2億美元的A輪融資。
今年六月,Etched研發(fā)出了專用于Transformer的4nm AI芯片Sohu,號稱一張能頂20張A100。
按照宣傳,Sohu運行700億參數(shù)的Llama 3,每秒吞吐量可達(dá)50萬tokens,相當(dāng)于1秒就能生成21個人一天說的所有話。
當(dāng)然,Sohu擁有高速度的代價之一就是只能用來跑Transformer,其他的CNN、RNN等神經(jīng)網(wǎng)絡(luò)通通運行不了。
所以,為了能夠利用Sohu的速度優(yōu)勢,Decart團隊為Oasis選定了Transformer作為基礎(chǔ)架構(gòu)。
具體來說,Oasis所用的模型由空間自動編碼器和潛在擴散主干兩部分組成。
兩者都基于Transformer構(gòu)建,其中自動編碼器為ViT(Vision Transformer)架構(gòu) ,主干網(wǎng)則運用了很多視頻生成模型(包括Sora)都在用的DiT(Diffusion Transformer)。
Decart還對Transformer架構(gòu)進(jìn)行了修改,在空間注意層之間穿插了額外的時間注意層,以便提供來自先前幀的上下文。
另外不同于Sora等雙向模型的是,Oasis生成幀的過程是自回歸的,因此能夠根據(jù)游戲輸入對后續(xù)幀進(jìn)行調(diào)節(jié),使得用戶能夠與世界實時交互。
Decart介紹,如果用H100來跑Oasis,在360P的畫質(zhì)下能夠達(dá)到每秒20幀,而用Sohu的話相同幀率下的畫質(zhì)可以達(dá)到4K。
實際運行下來團隊發(fā)現(xiàn),Oasis生成一幀畫面只需47毫秒。
當(dāng)然除了速度之外,對于Oasis這樣的游戲場景來說,保持時間穩(wěn)定性也是一項重要工作。
但是在自回歸模型中,錯誤會發(fā)生疊加,即使很小的缺陷也有可能形成雪球效應(yīng)。
為了解決這個問題,Decart團隊引入了動態(tài)噪聲。
動態(tài)噪聲機制會在第一個擴散前向傳遞中注入噪聲以減少誤差累積,并在后面的傳遞中逐漸消除,這樣模型就可以找到并保留高頻細(xì)節(jié)。
未來,Decart團隊將針對部分遠(yuǎn)處物體出現(xiàn)模糊、不確定對象的時間一致性等問題進(jìn)行研究,逐步提升Oasis的游戲體驗。
官方介紹:https://oasis-model.github.io/。
DEMO:https://oasis.decart.ai/welcome。
代碼:https://github.com/etched-ai/open-oasis。
模型權(quán)重:https://huggingface.co/Etched/oasis-500m。