智能體的ChatGPT時刻！DeepMind通用AI向人類玩家進(jìn)化，開始理解游戲

作者：機器之心 2024-03-14 11:55:21

在 AI 智能體這個領(lǐng)域，谷歌 DeepMind 又有了一項里程碑式研究。

視頻游戲是 AI 系統(tǒng)的重要試驗場。與現(xiàn)實世界一樣，游戲也是豐富的學(xué)習(xí)環(huán)境，具有反應(yīng)靈敏的實時設(shè)置和不斷變化的目標(biāo)。

從早期與雅達(dá)利游戲的合作，到人類大師級水平的《星際爭霸 II》系統(tǒng) AlphaStar，谷歌 DeepMind 在人工智能和游戲領(lǐng)域陸續(xù)推出過不少影響力研究。

剛剛，谷歌宣布了又一項里程碑式研究：SIMA（Scalable Instructable Multiworld Agent），一種適用于 3D 虛擬環(huán)境的通用 AI 智能體。

加州大學(xué)歐文分校助理教授 Roy Fox 表示，SIMA 讓我們離自主智能體的「ChatGPT 時刻」又近了一步。

谷歌 DeepMind 研究工程師 Tim Harley 表示：「想象有一天，我們可以讓像 SIMA 這樣的智能體與你和你的朋友一起玩游戲，而不是讓你與超人智能體對抗。」

但目前的 AI 系統(tǒng)仍然沒有接近人類水平。例如，在《無人深空》游戲中，AI 智能體只能完成人類能完成的 60% 的任務(wù)。當(dāng)研究人員取消人類發(fā)出 SIMA 指令的能力時，他們發(fā)現(xiàn)該智能體的表現(xiàn)比以前差了很多。

AI 已經(jīng)不甘心只作 NPC 了

谷歌與八家游戲工作室合作，在九款不同的視頻游戲中對 SIMA 進(jìn)行了訓(xùn)練和測試，包括《無人天空》、《拆遷（Teardown）》、《英靈神殿》和《模擬山羊 3》。

SIMA 產(chǎn)品組合中的每款游戲都是全新的互動世界，包括一系列需要學(xué)習(xí)的技能，從簡單的導(dǎo)航和菜單使用，到開采資源、駕駛飛船或制作頭盔。

同時，谷歌還使用了四個研究環(huán)境 — 包括使用 Unity 構(gòu)建的一個名為「建筑實驗室」的新環(huán)境。在這個實驗室中，智能體需要用積木搭建雕塑，以測試對物體的操作能力以及對物理世界的直觀理解。

然后，谷歌在游戲組合中記錄成對的人類玩家，其中一名玩家觀察并指導(dǎo)另一名玩家，以捕獲語言指令。隨后讓玩家自由玩游戲，重新觀察他們的行為，并記錄下可能導(dǎo)致其游戲行為的指令。

所有這些都被提供給 SIMA ，以學(xué)習(xí)預(yù)測屏幕上接下來會發(fā)生什么。通過在不同的游戲世界學(xué)習(xí)，SIMA 捕捉到了語言與游戲行為之間的聯(lián)系。

「這項研究標(biāo)志著首次有 AI 智能體證明自己能夠理解各種游戲世界，并能像人類一樣按照自然語言指令在游戲世界中執(zhí)行任務(wù)?！构雀璞硎?。

SIMA 并不只是一個由 AI 驅(qū)動的 NPC ，而是游戲中影響結(jié)果的另一個「玩家」。

谷歌還指出，SIMA 的研究并不是為了獲得高分。對于 AI 系統(tǒng)來說，學(xué)會玩一款視頻游戲固然是技術(shù)層面的重大突破，但學(xué)會在各種游戲環(huán)境中遵從指令，可以讓 AI 智能體在任何環(huán)境中發(fā)揮更大的作用。

在技術(shù)報告中，谷歌也展示了如何通過語言界面將高級 AI 模型的能力轉(zhuǎn)化為現(xiàn)實世界中有用的行動。

技術(shù)報告：

https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/sima-generalist-ai-agent-for-3d-virtual-environments/Scaling%20Instructable%20Agents%20Across%20Many%20Simulated%20Worlds.pdf

SIMA：通用 AI 智能體來了

SIMA 的組件包括預(yù)訓(xùn)練好的視覺模型，以及一個包含內(nèi)存并輸出鍵盤和鼠標(biāo)操作的主模型，如下圖所示。

具體來講，SIMA 包含了一個專為精確圖像語言映射而設(shè)計的模型和一個預(yù)測屏幕上接下來會發(fā)生什么的視頻模型。谷歌根據(jù) SIMA 產(chǎn)品組合中特定于 3D 設(shè)置的訓(xùn)練數(shù)據(jù)對這兩個模型進(jìn)行了微調(diào)。

下圖為 SIMA 智能體架構(gòu)細(xì)節(jié)。

作為一種 AI 智能體，谷歌的 SIMA 可以感知和理解各種環(huán)境，然后采取行動來實現(xiàn)指定的目標(biāo)。

重要的是，SIMA 既不需要訪問游戲的源代碼，也不需要定制的 API。它只需要兩個輸入：屏幕上的圖像以及用戶提供的簡單自然語言指令。SIMA 使用鍵盤和鼠標(biāo)輸出來控制游戲中的核心角色來執(zhí)行這些指令。人類可以使用這個簡單的界面，這意味著 SIMA 可以與任何虛擬環(huán)境進(jìn)行交互。

下圖為 SIMA 數(shù)據(jù)中的指令。

當(dāng)前版本的 SIMA 通過 600 項基礎(chǔ)技能進(jìn)行評估，涵蓋導(dǎo)航（例如「左轉(zhuǎn)」）、對象交互（「爬梯子」）和菜單使用（「打開地圖」）。

谷歌訓(xùn)練 SIMA 執(zhí)行簡單任務(wù)，大約 10 秒內(nèi)就能完成。

SIMA 智能體的軌跡如下圖所示。

谷歌希望未來的智能體能夠處理需要高級戰(zhàn)略規(guī)劃和多個子任務(wù)才能完成的任務(wù)，例如「尋找資源和建立營地」。這是人工智能的一個重要目標(biāo)，雖然大型語言模型已經(jīng)演化出了能夠捕獲世界知識并生成規(guī)劃的強大系統(tǒng)，但它們目前缺乏代表人類采取行動的能力。

跨游戲的強泛化能力

谷歌證明，受過多種游戲訓(xùn)練的智能體比僅學(xué)習(xí)如何玩一種游戲的智能體表現(xiàn)更好。

在谷歌的評估中，SIMA 智能體在一組九個 3D 游戲上進(jìn)行了訓(xùn)練，其表現(xiàn)顯著優(yōu)于僅在每個單獨的游戲上進(jìn)行訓(xùn)練的所有專業(yè)智能體。

更重要的是，平均而言，接受過除一款游戲之外的所有游戲訓(xùn)練的智能體在這個未見過游戲上的表現(xiàn)幾乎與專門訓(xùn)練過的智能體一樣好。因此，這種在全新環(huán)境中發(fā)揮作用的能力凸顯了 SIMA 超越其訓(xùn)練的泛化能力。

谷歌表示，這是一個很有潛力的初步結(jié)果，不過 SIMA 需要進(jìn)行更多的研究才能在見過和未見過游戲中達(dá)到人類水平。

此外，SIMA 的性能依賴于語言。在控制測試中，智能體沒有接受任何語言訓(xùn)練或指令，它的行為方式雖適當(dāng)?shù)o目的。例如，智能體可能會收集資源（這是一種常見行為），而不是按照指令去走。

谷歌評估了 SIMA 按照指令完成近 1500 個具體游戲內(nèi)（in-game）任務(wù)的能力，其中部分使用了人類裁判。作為基線比較，谷歌使用環(huán)境專用 SIMA 智能體的性能（經(jīng)過訓(xùn)練和評估以遵循單個環(huán)境中的指令）作為評估指標(biāo)。

如下圖所示，谷歌與三種類型的通用 SIMA 智能體進(jìn)行了比較，每種智能體都經(jīng)過多個環(huán)境的訓(xùn)練。

未來，谷歌期待在更多訓(xùn)練環(huán)境中進(jìn)一步構(gòu)建 SIMA，并納入更強大的模型，從而提高 SIMA 對高級語言指令的理解能力以實現(xiàn)更復(fù)雜的目標(biāo)。當(dāng)然，隨著 SIMA「暴露」在更多的訓(xùn)練世界中，谷歌希望它變得更加通用。

責(zé)任編輯：張燕妮來源：機器之心

模型數(shù)據(jù)

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

智能體的ChatGPT時刻！DeepMind通用AI向人類玩家進(jìn)化，開始理解游戲

AI 已經(jīng)不甘心只作 NPC 了

SIMA：通用 AI 智能體來了

智能體的ChatGPT時刻！DeepMind通用AI向人類玩家進(jìn)化，開始理解游戲