DeepMind首發(fā)游戲AI智能體SIMA!只用自然語(yǔ)言就能玩轉(zhuǎn)「山羊模擬器」
谷歌DeepMind在AI和游戲方面有著悠久的歷史。
從過去與Atari游戲的密切合作開始,然后發(fā)展到AlphaStar系統(tǒng)可以在《星際爭(zhēng)霸II》中達(dá)到人類大師級(jí)水平,到如今,DeepMind從單個(gè)游戲轉(zhuǎn)向了通用的、可指導(dǎo)的游戲AI代理。
SIMA,是一個(gè)可擴(kuò)展的、能聽從指導(dǎo)的多世界AI代理,這是一個(gè)用于3D虛擬環(huán)境的通用AI代理。
技術(shù)報(bào)告:https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/sima-generalist-ai-agent-for-3d-virtual-environments/Scaling%20Instructable%20Agents%20Across%20Many%20Simulated%20Worlds.pdf
想象一下,它完全不需要游戲源代碼,也不需要什么特殊的API接口。它只需要兩個(gè)簡(jiǎn)單的輸入:屏幕上的圖像和用戶口頭提供的簡(jiǎn)單自然語(yǔ)言指令。然后,SIMA就會(huì)像魔術(shù)師一樣,通過鍵盤和鼠標(biāo)控制游戲角色執(zhí)行這些指令。
這種簡(jiǎn)單直接的界面,就像是我們?nèi)祟愖约核玫姆绞剑@是一個(gè)AI代理首次展示出它能夠理解廣泛的游戲世界的能力,同時(shí)可以按照自然語(yǔ)言的指令在其中執(zhí)行任務(wù),就像人類一樣。
圖片
SIMA從視頻游戲中學(xué)習(xí)
SIMA由預(yù)先訓(xùn)練好的視覺模型和一個(gè)主模型組成,主模型包括一個(gè)存儲(chǔ)器,可輸出鍵盤和鼠標(biāo)操作。
圖片
它在九款不同的視頻游戲上對(duì)SIMA進(jìn)行了訓(xùn)練和測(cè)試,例如Hello Games的《無(wú)人深空》和Tuxedo Labs的《拆解》。
圖片
每款游戲都為SIMA打開了一個(gè)新的交互世界,從簡(jiǎn)單的導(dǎo)航和菜單使用,到挖掘資源、駕駛飛船或制作頭盔等一系列技能。
DeepMind團(tuán)隊(duì)還使用了四個(gè)研究環(huán)境,其中包括Unity構(gòu)建的名為“建造實(shí)驗(yàn)室”的新環(huán)境。在這個(gè)環(huán)境中,SIMA需要用建筑塊建造雕塑,從而測(cè)試其對(duì)物體操縱和對(duì)物理世界的直觀理解能力。
通過從不同游戲世界中學(xué)習(xí),SIMA捕捉了語(yǔ)言與游戲行為之間的關(guān)系。
例如,它會(huì)觀察人類玩家的操作,并記錄下導(dǎo)致這些游戲行為的指令。這樣的訓(xùn)練使得SIMA能夠逐漸理解游戲世界中的語(yǔ)言和行為之間的聯(lián)系。
SIMA的誕生意味著什么
SIMA的誕生并不是為了取得高游戲得分。
對(duì)于AI系統(tǒng)來說,即使是學(xué)會(huì)玩一個(gè)視頻游戲也是一項(xiàng)技術(shù)壯舉,但學(xué)會(huì)在各種游戲設(shè)置中遵循指令,可能會(huì)為適應(yīng)任何環(huán)境提供更多幫助。
SIMA已經(jīng)評(píng)估了600種基本技能,涵蓋了導(dǎo)航、物體交互和菜單使用。它已經(jīng)可以執(zhí)行在10秒中內(nèi)完成的簡(jiǎn)單任務(wù)。
DeepMind希望未來代理能夠處理那些需要高級(jí)戰(zhàn)略規(guī)劃和多個(gè)子任務(wù)才能完成的任務(wù),例如“尋找資源并建造營(yíng)地”。
這對(duì)于AI來說是一個(gè)重要的目標(biāo),因?yàn)殡m然大型語(yǔ)言模型已經(jīng)催生了可以捕捉關(guān)于世界知識(shí)并生成計(jì)劃的強(qiáng)大系統(tǒng),但它們目前還缺乏代表人類采取行動(dòng)的能力。
Jim Fan也對(duì)SIMA表達(dá)了期許的態(tài)度,他補(bǔ)充道,他對(duì)于SIMA喜歡的地方包括:
- 這是第一個(gè)通過鼠標(biāo)或鍵盤進(jìn)行操作的代理,不需要用語(yǔ)言進(jìn)行調(diào)整
- 適應(yīng)多種環(huán)境,涵蓋游戲和3D模擬器
- 擁有強(qiáng)大的數(shù)據(jù)管道,招募人類玩家以記錄行為,以及用語(yǔ)言進(jìn)行注釋
但他也同時(shí)指出了一些不足之處,包括環(huán)境數(shù)量有限;行動(dòng)時(shí)長(zhǎng)非常短,只有約10秒;數(shù)據(jù)管道不夠有擴(kuò)展性等。
圖片
跨游戲的泛化和未來
在DeepMind的評(píng)估中,SIMA在一組九款3D游戲中表現(xiàn)明顯優(yōu)于僅在每個(gè)單獨(dú)游戲上進(jìn)行訓(xùn)練的所有專門代理。
更重要的是,SIMA在未見過的游戲上的表現(xiàn)與專門為其進(jìn)行訓(xùn)練的其他代理相比,平均表現(xiàn)幾乎相同。
這種在全新環(huán)境中運(yùn)作的能力突顯了SIMA在訓(xùn)練之外的泛化能力。
這是一個(gè)令人鼓舞的初步成果,但需要進(jìn)一步的研究才能讓SIMA在已知和未知的游戲中達(dá)到與人類相媲美的水平。
圖片
結(jié)果還表明,SIMA的表現(xiàn)依賴于語(yǔ)言。
在一項(xiàng)控制實(shí)驗(yàn)中,當(dāng)代理沒有接受任何語(yǔ)言培訓(xùn)或指令時(shí),它的行為雖然符合邏輯,但缺乏目標(biāo)性。例如,代理可能會(huì)執(zhí)行一些常見的操作,如收集資源,而不是按照預(yù)先指定的路徑行動(dòng)。
SIMA的結(jié)果展現(xiàn)的是新的泛化的、由語(yǔ)言驅(qū)動(dòng)的AI代理的潛力。
AI代理的完成態(tài),是達(dá)到更加通用、能夠幫助虛擬世界和現(xiàn)實(shí)世界的人們,理解并安全地執(zhí)行各種任務(wù)。
SIMA只是剛剛開始,我們可以期待在更多的訓(xùn)練環(huán)境中繼續(xù)建立SIMA,并整合更有能力的模型,讓它變得更具泛化性和多功能性,而不僅僅局限于游戲。
參考資料:
https://deepmind.google/discover/blog/sima-generalist-ai-agent-for-3d-virtual-environments/