智能體的ChatGPT時刻!DeepMind通用AI向人類玩家進(jìn)化,開始理解游戲
視頻游戲是 AI 系統(tǒng)的重要試驗場。與現(xiàn)實世界一樣,游戲也是豐富的學(xué)習(xí)環(huán)境,具有反應(yīng)靈敏的實時設(shè)置和不斷變化的目標(biāo)。
從早期與雅達(dá)利游戲的合作,到人類大師級水平的《星際爭霸 II》系統(tǒng) AlphaStar,谷歌 DeepMind 在人工智能和游戲領(lǐng)域陸續(xù)推出過不少影響力研究。
剛剛,谷歌宣布了又一項里程碑式研究:SIMA(Scalable Instructable Multiworld Agent),一種適用于 3D 虛擬環(huán)境的通用 AI 智能體。
加州大學(xué)歐文分校助理教授 Roy Fox 表示,SIMA 讓我們離自主智能體的「ChatGPT 時刻」又近了一步。
谷歌 DeepMind 研究工程師 Tim Harley 表示:「想象有一天,我們可以讓像 SIMA 這樣的智能體與你和你的朋友一起玩游戲,而不是讓你與超人智能體對抗。」
但目前的 AI 系統(tǒng)仍然沒有接近人類水平。例如,在《無人深空》游戲中,AI 智能體只能完成人類能完成的 60% 的任務(wù)。當(dāng)研究人員取消人類發(fā)出 SIMA 指令的能力時,他們發(fā)現(xiàn)該智能體的表現(xiàn)比以前差了很多。
AI 已經(jīng)不甘心只作 NPC 了
谷歌與八家游戲工作室合作,在九款不同的視頻游戲中對 SIMA 進(jìn)行了訓(xùn)練和測試,包括《無人天空》、《拆遷(Teardown)》、《英靈神殿》和《模擬山羊 3》。
SIMA 產(chǎn)品組合中的每款游戲都是全新的互動世界,包括一系列需要學(xué)習(xí)的技能,從簡單的導(dǎo)航和菜單使用,到開采資源、駕駛飛船或制作頭盔。
同時,谷歌還使用了四個研究環(huán)境 — 包括使用 Unity 構(gòu)建的一個名為「建筑實驗室」的新環(huán)境。在這個實驗室中,智能體需要用積木搭建雕塑,以測試對物體的操作能力以及對物理世界的直觀理解。
然后,谷歌在游戲組合中記錄成對的人類玩家,其中一名玩家觀察并指導(dǎo)另一名玩家,以捕獲語言指令。隨后讓玩家自由玩游戲,重新觀察他們的行為,并記錄下可能導(dǎo)致其游戲行為的指令。
所有這些都被提供給 SIMA ,以學(xué)習(xí)預(yù)測屏幕上接下來會發(fā)生什么。通過在不同的游戲世界學(xué)習(xí),SIMA 捕捉到了語言與游戲行為之間的聯(lián)系。
「這項研究標(biāo)志著首次有 AI 智能體證明自己能夠理解各種游戲世界,并能像人類一樣按照自然語言指令在游戲世界中執(zhí)行任務(wù)?!构雀璞硎?。
SIMA 并不只是一個由 AI 驅(qū)動的 NPC ,而是游戲中影響結(jié)果的另一個「玩家」。
谷歌還指出,SIMA 的研究并不是為了獲得高分。對于 AI 系統(tǒng)來說,學(xué)會玩一款視頻游戲固然是技術(shù)層面的重大突破,但學(xué)會在各種游戲環(huán)境中遵從指令,可以讓 AI 智能體在任何環(huán)境中發(fā)揮更大的作用。
在技術(shù)報告中,谷歌也展示了如何通過語言界面將高級 AI 模型的能力轉(zhuǎn)化為現(xiàn)實世界中有用的行動。
技術(shù)報告:
https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/sima-generalist-ai-agent-for-3d-virtual-environments/Scaling%20Instructable%20Agents%20Across%20Many%20Simulated%20Worlds.pdf
SIMA:通用 AI 智能體來了
SIMA 的組件包括預(yù)訓(xùn)練好的視覺模型,以及一個包含內(nèi)存并輸出鍵盤和鼠標(biāo)操作的主模型,如下圖所示。
具體來講,SIMA 包含了一個專為精確圖像語言映射而設(shè)計的模型和一個預(yù)測屏幕上接下來會發(fā)生什么的視頻模型。谷歌根據(jù) SIMA 產(chǎn)品組合中特定于 3D 設(shè)置的訓(xùn)練數(shù)據(jù)對這兩個模型進(jìn)行了微調(diào)。
下圖為 SIMA 智能體架構(gòu)細(xì)節(jié)。
作為一種 AI 智能體,谷歌的 SIMA 可以感知和理解各種環(huán)境,然后采取行動來實現(xiàn)指定的目標(biāo)。
重要的是,SIMA 既不需要訪問游戲的源代碼,也不需要定制的 API。它只需要兩個輸入:屏幕上的圖像以及用戶提供的簡單自然語言指令。SIMA 使用鍵盤和鼠標(biāo)輸出來控制游戲中的核心角色來執(zhí)行這些指令。人類可以使用這個簡單的界面,這意味著 SIMA 可以與任何虛擬環(huán)境進(jìn)行交互。
下圖為 SIMA 數(shù)據(jù)中的指令。
當(dāng)前版本的 SIMA 通過 600 項基礎(chǔ)技能進(jìn)行評估,涵蓋導(dǎo)航(例如「左轉(zhuǎn)」)、對象交互(「爬梯子」)和菜單使用(「打開地圖」)。
谷歌訓(xùn)練 SIMA 執(zhí)行簡單任務(wù),大約 10 秒內(nèi)就能完成。
SIMA 智能體的軌跡如下圖所示。
谷歌希望未來的智能體能夠處理需要高級戰(zhàn)略規(guī)劃和多個子任務(wù)才能完成的任務(wù),例如「尋找資源和建立營地」。這是人工智能的一個重要目標(biāo),雖然大型語言模型已經(jīng)演化出了能夠捕獲世界知識并生成規(guī)劃的強大系統(tǒng),但它們目前缺乏代表人類采取行動的能力。
跨游戲的強泛化能力
谷歌證明,受過多種游戲訓(xùn)練的智能體比僅學(xué)習(xí)如何玩一種游戲的智能體表現(xiàn)更好。
在谷歌的評估中,SIMA 智能體在一組九個 3D 游戲上進(jìn)行了訓(xùn)練,其表現(xiàn)顯著優(yōu)于僅在每個單獨的游戲上進(jìn)行訓(xùn)練的所有專業(yè)智能體。
更重要的是,平均而言,接受過除一款游戲之外的所有游戲訓(xùn)練的智能體在這個未見過游戲上的表現(xiàn)幾乎與專門訓(xùn)練過的智能體一樣好。因此,這種在全新環(huán)境中發(fā)揮作用的能力凸顯了 SIMA 超越其訓(xùn)練的泛化能力。
谷歌表示,這是一個很有潛力的初步結(jié)果,不過 SIMA 需要進(jìn)行更多的研究才能在見過和未見過游戲中達(dá)到人類水平。
此外,SIMA 的性能依賴于語言。在控制測試中,智能體沒有接受任何語言訓(xùn)練或指令,它的行為方式雖適當(dāng)?shù)o目的。例如,智能體可能會收集資源(這是一種常見行為),而不是按照指令去走。
谷歌評估了 SIMA 按照指令完成近 1500 個具體游戲內(nèi)(in-game)任務(wù)的能力,其中部分使用了人類裁判。作為基線比較,谷歌使用環(huán)境專用 SIMA 智能體的性能(經(jīng)過訓(xùn)練和評估以遵循單個環(huán)境中的指令)作為評估指標(biāo)。
如下圖所示,谷歌與三種類型的通用 SIMA 智能體進(jìn)行了比較,每種智能體都經(jīng)過多個環(huán)境的訓(xùn)練。
未來,谷歌期待在更多訓(xùn)練環(huán)境中進(jìn)一步構(gòu)建 SIMA,并納入更強大的模型,從而提高 SIMA 對高級語言指令的理解能力以實現(xiàn)更復(fù)雜的目標(biāo)。當(dāng)然,隨著 SIMA「暴露」在更多的訓(xùn)練世界中,谷歌希望它變得更加通用。