編譯 | 伊風(fēng)
出品 | 51CTO技術(shù)棧(微信號:blog51cto)
世界上第一位AI程序員Devin誕生,讓大家紛紛轉(zhuǎn)發(fā)感嘆“飯碗保不住”。
一轉(zhuǎn)眼,具有里程碑意義的AI玩家也來了!谷歌(Google)旗下DeepMind發(fā)布新智能體SIMA。
SIMA不同于自己的AI前輩們(例如一生都在下圍棋的AlphaGo),AI從被訓(xùn)練玩一個(gè)單獨(dú)的游戲解脫出來,第一次成為了可玩所有游戲的、能接受指導(dǎo)的游戲AI代理。
可以想見未來的AI,完全可以編個(gè)游戲給自己玩,再指導(dǎo)自己在游戲中進(jìn)行操作和升級。
圖片
回到現(xiàn)實(shí),SIMA目前的游戲水平還比較“菜”。
但是SIMA能理解自然語言,并在多個(gè)視頻游戲環(huán)境中執(zhí)行任務(wù)的意義卻是深刻的——AI如果能在虛擬環(huán)境中能展現(xiàn)自己泛化和執(zhí)行復(fù)雜任務(wù)的潛力,那么這種能力就有望復(fù)刻到現(xiàn)實(shí)世界,并最終指向AGI與“世界模型”。
圖片
1.玩游戲,從觀看視頻學(xué)起
為了教會SIMA玩游戲,DeepMind與八家游戲工作室合作,只為給孩子帶來最好的游戲環(huán)境。
圖片
SIMA在九款不同的視頻游戲上進(jìn)行訓(xùn)練和測試,Hello Games的《無人深空》、Tuxedo Labs的《拆解》他都玩過。不同的游戲給都SIMA打開了新奇的互動世界,每款游戲又匹配了需要學(xué)習(xí)的不同技能,從簡單的導(dǎo)航、菜單使用,到采礦資源、駕駛宇宙飛船或制作頭盔。
DeepMind還構(gòu)建了四個(gè)研究環(huán)境,甚至包括與Unity合作建立的Construction Lab,SIMA學(xué)習(xí)怎么用積木搭造雕塑,訓(xùn)練他的對象操作能力和對物理世界的直觀理解——聽起來很像一個(gè)小孩。
通過在不同的游戲世界里進(jìn)行訓(xùn)練,SIMA了解了語言如何與游戲中的行為相聯(lián)系。第一個(gè)訓(xùn)練方式是觀看玩家指導(dǎo)另一個(gè)玩家進(jìn)行游戲的視頻,以學(xué)習(xí)語言和游戲操作的關(guān)系。DeepMind還讓玩家自由玩耍,然后給SIMA回放他們的行為并標(biāo)注可能指導(dǎo)他們游戲行動的語言指令。
SIMA包括預(yù)訓(xùn)練的視覺模型和一個(gè)主模型,該模型包括記憶并輸出鍵盤和鼠標(biāo)動作。
圖片
2.SIMA:一個(gè)多才多藝的AI代理
SIMA是一個(gè)能夠感知和理解各種環(huán)境,然后采取行動實(shí)現(xiàn)指導(dǎo)目標(biāo)的AI代理。它包括一個(gè)用于精確圖像-語言映射的模型和一個(gè)視頻模型,該模型預(yù)測屏幕上接下來會發(fā)生什么。DeepMind在SIMA組合中特定的3D設(shè)置上對這些模型進(jìn)行了微調(diào)。
SIMA不需要訪問游戲的源代碼,也不需要特定的API。它只需要兩個(gè)輸入:屏幕上的圖像和用戶提供的簡單自然語言指令。
SIMA使用鍵盤和鼠標(biāo)輸出來控制游戲的中心角色執(zhí)行這些指令,就像人類玩游戲的方式一樣,這意味著SIMA擁有與任何虛擬環(huán)境互動的潛力。
當(dāng)前版本的SIMA在600項(xiàng)基本技能上進(jìn)行了評估,涵蓋了移動(例如“向左轉(zhuǎn)”)、對象交互(“爬上梯子”)和菜單使用(“打開地圖”)。SIMA可以在大約10秒內(nèi)完成簡單的游戲任務(wù)。
DeepMind希望SIMA能不斷進(jìn)化。未來的AI玩家需要處理用到“高級戰(zhàn)略規(guī)劃”和包含多個(gè)子任務(wù)的任務(wù),例如“尋找資源并建立營地”。
這對于AI來說是一個(gè)重要的目標(biāo),因?yàn)楸M管大型語言模型已經(jīng)催生了能夠捕捉關(guān)于世界的知識并生成計(jì)劃的強(qiáng)大系統(tǒng)(例如ChatGPT),但它們目前缺乏代表我們采取行動的能力。
3.強(qiáng)大的泛化能力,SIMA未來可期
從SIMA的表現(xiàn)來看,他證實(shí)了一個(gè)在多款游戲上訓(xùn)練的代理比只學(xué)會了玩一款游戲的AI代理要好。
在評估中,SIMA在訓(xùn)練組合中的九款3D游戲上接受訓(xùn)練的表現(xiàn)要顯著優(yōu)于僅在每款單獨(dú)游戲上訓(xùn)練的專門代理。更重要的是,在所有游戲中接受訓(xùn)練的SIMA,當(dāng)他玩一款從未見過的游戲,他的表現(xiàn)幾乎與只被訓(xùn)練玩改款游戲的AI代理一樣好。
這種在全新環(huán)境中展現(xiàn)的能力,突出了SIMA泛化超越其訓(xùn)練的能力。但這只是一個(gè)初步結(jié)果,作為“寶寶”的SIMA要在游戲中達(dá)到人類水平還有很長的路要走。
DeepMind同時(shí)發(fā)現(xiàn),SIMA的表現(xiàn)依賴于語言。在一個(gè)控制測試中,AI代理沒有接受任何語言訓(xùn)練或指令,它的行為是正確的,但是漫無目的。例如,AI代理可能會收集資源,這是一種正常的游戲行為,但卻沒有走向它被指示應(yīng)該去做的事情。
圖片
DeepMind評估了SIMA遵循指令完成近1500個(gè)獨(dú)特游戲任務(wù)的能力,部分使用了人類裁判。作為基線比較,DeepMind使用環(huán)境專門化的SIMA代理的表現(xiàn)(在單一環(huán)境中訓(xùn)練和評估以遵循指令),并將這一表現(xiàn)與三種類型的通用SIMA代理的表現(xiàn)進(jìn)行了比較,每種代理都在多個(gè)環(huán)境中接受訓(xùn)練(上圖)。
SIMA的結(jié)果展示了開發(fā)新一代通用的、語言驅(qū)動的AI代理的潛力。這還是早期階段的研究,SIMA可以在后續(xù)的訓(xùn)練中持續(xù)學(xué)習(xí),并成長和整合更有能力的模型。
DeepMind將SIMA的成長方向定位于更加泛化和多功能。當(dāng)SIMA擁有對更高級語言指令的理解和行動能力,就能實(shí)現(xiàn)更復(fù)雜的目標(biāo)。
也許有一天SIMA可以與人類玩家一戰(zhàn)。那么,你愿意選擇他作為你的游戲“搭子”嗎?