自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

智能體的ChatGPT時刻!DeepMind通用AI向人類玩家進(jìn)化,開始理解游戲

人工智能 新聞
在 AI 智能體這個領(lǐng)域,谷歌 DeepMind 又有了一項里程碑式研究。

視頻游戲是 AI 系統(tǒng)的重要試驗場。與現(xiàn)實世界一樣,游戲也是豐富的學(xué)習(xí)環(huán)境,具有反應(yīng)靈敏的實時設(shè)置和不斷變化的目標(biāo)。

從早期與雅達(dá)利游戲的合作,到人類大師級水平的《星際爭霸 II》系統(tǒng) AlphaStar,谷歌 DeepMind 在人工智能和游戲領(lǐng)域陸續(xù)推出過不少影響力研究。

剛剛,谷歌宣布了又一項里程碑式研究:SIMA(Scalable Instructable Multiworld Agent),一種適用于 3D 虛擬環(huán)境的通用 AI 智能體。

加州大學(xué)歐文分校助理教授 Roy Fox 表示,SIMA 讓我們離自主智能體的「ChatGPT 時刻」又近了一步。

谷歌 DeepMind 研究工程師 Tim Harley 表示:「想象有一天,我們可以讓像 SIMA 這樣的智能體與你和你的朋友一起玩游戲,而不是讓你與超人智能體對抗。」

但目前的 AI 系統(tǒng)仍然沒有接近人類水平。例如,在《無人深空》游戲中,AI 智能體只能完成人類能完成的 60% 的任務(wù)。當(dāng)研究人員取消人類發(fā)出 SIMA 指令的能力時,他們發(fā)現(xiàn)該智能體的表現(xiàn)比以前差了很多。 

AI 已經(jīng)不甘心只作 NPC 了

谷歌與八家游戲工作室合作,在九款不同的視頻游戲中對 SIMA 進(jìn)行了訓(xùn)練和測試,包括《無人天空》、《拆遷(Teardown)》、《英靈神殿》和《模擬山羊 3》。

SIMA 產(chǎn)品組合中的每款游戲都是全新的互動世界,包括一系列需要學(xué)習(xí)的技能,從簡單的導(dǎo)航和菜單使用,到開采資源、駕駛飛船或制作頭盔。

圖片

同時,谷歌還使用了四個研究環(huán)境 — 包括使用 Unity 構(gòu)建的一個名為「建筑實驗室」的新環(huán)境。在這個實驗室中,智能體需要用積木搭建雕塑,以測試對物體的操作能力以及對物理世界的直觀理解。

然后,谷歌在游戲組合中記錄成對的人類玩家,其中一名玩家觀察并指導(dǎo)另一名玩家,以捕獲語言指令。隨后讓玩家自由玩游戲,重新觀察他們的行為,并記錄下可能導(dǎo)致其游戲行為的指令。

所有這些都被提供給 SIMA ,以學(xué)習(xí)預(yù)測屏幕上接下來會發(fā)生什么。通過在不同的游戲世界學(xué)習(xí),SIMA 捕捉到了語言與游戲行為之間的聯(lián)系。 

「這項研究標(biāo)志著首次有 AI 智能體證明自己能夠理解各種游戲世界,并能像人類一樣按照自然語言指令在游戲世界中執(zhí)行任務(wù)?!构雀璞硎?。

SIMA 并不只是一個由 AI 驅(qū)動的 NPC ,而是游戲中影響結(jié)果的另一個「玩家」。

谷歌還指出,SIMA 的研究并不是為了獲得高分。對于 AI 系統(tǒng)來說,學(xué)會玩一款視頻游戲固然是技術(shù)層面的重大突破,但學(xué)會在各種游戲環(huán)境中遵從指令,可以讓 AI 智能體在任何環(huán)境中發(fā)揮更大的作用。

在技術(shù)報告中,谷歌也展示了如何通過語言界面將高級 AI 模型的能力轉(zhuǎn)化為現(xiàn)實世界中有用的行動。

技術(shù)報告:

https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/sima-generalist-ai-agent-for-3d-virtual-environments/Scaling%20Instructable%20Agents%20Across%20Many%20Simulated%20Worlds.pdf

SIMA:通用 AI 智能體來了

SIMA 的組件包括預(yù)訓(xùn)練好的視覺模型,以及一個包含內(nèi)存并輸出鍵盤和鼠標(biāo)操作的主模型,如下圖所示。

具體來講,SIMA 包含了一個專為精確圖像語言映射而設(shè)計的模型和一個預(yù)測屏幕上接下來會發(fā)生什么的視頻模型。谷歌根據(jù) SIMA 產(chǎn)品組合中特定于 3D 設(shè)置的訓(xùn)練數(shù)據(jù)對這兩個模型進(jìn)行了微調(diào)。

下圖為 SIMA 智能體架構(gòu)細(xì)節(jié)。

作為一種 AI 智能體,谷歌的 SIMA 可以感知和理解各種環(huán)境,然后采取行動來實現(xiàn)指定的目標(biāo)。

重要的是,SIMA 既不需要訪問游戲的源代碼,也不需要定制的 API。它只需要兩個輸入:屏幕上的圖像以及用戶提供的簡單自然語言指令。SIMA 使用鍵盤和鼠標(biāo)輸出來控制游戲中的核心角色來執(zhí)行這些指令。人類可以使用這個簡單的界面,這意味著 SIMA 可以與任何虛擬環(huán)境進(jìn)行交互。

下圖為 SIMA 數(shù)據(jù)中的指令。

當(dāng)前版本的 SIMA 通過 600 項基礎(chǔ)技能進(jìn)行評估,涵蓋導(dǎo)航(例如「左轉(zhuǎn)」)、對象交互(「爬梯子」)和菜單使用(「打開地圖」)。

谷歌訓(xùn)練 SIMA 執(zhí)行簡單任務(wù),大約 10 秒內(nèi)就能完成。

圖片

SIMA 智能體的軌跡如下圖所示。

谷歌希望未來的智能體能夠處理需要高級戰(zhàn)略規(guī)劃和多個子任務(wù)才能完成的任務(wù),例如「尋找資源和建立營地」。這是人工智能的一個重要目標(biāo),雖然大型語言模型已經(jīng)演化出了能夠捕獲世界知識并生成規(guī)劃的強大系統(tǒng),但它們目前缺乏代表人類采取行動的能力。

跨游戲的強泛化能力

谷歌證明,受過多種游戲訓(xùn)練的智能體比僅學(xué)習(xí)如何玩一種游戲的智能體表現(xiàn)更好。 

在谷歌的評估中,SIMA 智能體在一組九個 3D 游戲上進(jìn)行了訓(xùn)練,其表現(xiàn)顯著優(yōu)于僅在每個單獨的游戲上進(jìn)行訓(xùn)練的所有專業(yè)智能體。

更重要的是,平均而言,接受過除一款游戲之外的所有游戲訓(xùn)練的智能體在這個未見過游戲上的表現(xiàn)幾乎與專門訓(xùn)練過的智能體一樣好。因此,這種在全新環(huán)境中發(fā)揮作用的能力凸顯了 SIMA 超越其訓(xùn)練的泛化能力。 

谷歌表示,這是一個很有潛力的初步結(jié)果,不過 SIMA 需要進(jìn)行更多的研究才能在見過和未見過游戲中達(dá)到人類水平。

此外,SIMA 的性能依賴于語言。在控制測試中,智能體沒有接受任何語言訓(xùn)練或指令,它的行為方式雖適當(dāng)?shù)o目的。例如,智能體可能會收集資源(這是一種常見行為),而不是按照指令去走。

谷歌評估了 SIMA 按照指令完成近 1500 個具體游戲內(nèi)(in-game)任務(wù)的能力,其中部分使用了人類裁判。作為基線比較,谷歌使用環(huán)境專用 SIMA 智能體的性能(經(jīng)過訓(xùn)練和評估以遵循單個環(huán)境中的指令)作為評估指標(biāo)。

如下圖所示,谷歌與三種類型的通用 SIMA 智能體進(jìn)行了比較,每種智能體都經(jīng)過多個環(huán)境的訓(xùn)練。

未來,谷歌期待在更多訓(xùn)練環(huán)境中進(jìn)一步構(gòu)建 SIMA,并納入更強大的模型,從而提高 SIMA 對高級語言指令的理解能力以實現(xiàn)更復(fù)雜的目標(biāo)。當(dāng)然,隨著 SIMA「暴露」在更多的訓(xùn)練世界中,谷歌希望它變得更加通用。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2024-06-13 09:20:26

2021-03-03 14:15:03

人工智能

2024-01-19 12:26:08

AI智能車

2022-02-24 13:59:59

AI智能體研究

2025-01-21 12:44:50

2022-06-21 14:08:25

AIGitHub模仿人類

2023-01-13 14:04:14

AI

2024-03-15 08:10:00

2023-03-27 17:32:56

ChatGPT人工智能

2023-07-21 14:58:05

智能開發(fā)

2024-12-17 12:53:45

AI自我進(jìn)化谷歌

2020-12-13 17:55:54

AI人工智能

2019-01-25 18:37:20

AI數(shù)據(jù)科技

2024-04-01 13:11:00

AI智能體SIMA

2021-02-07 10:01:31

AI 數(shù)據(jù)人工智能

2024-03-25 09:18:15

2025-03-13 10:09:48

2024-11-26 08:42:14

點贊
收藏

51CTO技術(shù)棧公眾號