DeepMind用新AI超越自己:提速200倍,在所有雅達利游戲上勝過人類
本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
DeepMind又對雅達利游戲下手了!
這次,他們最新推出的智能體MEME,在效果不變的前提下,比兩年前的Agent57提速了200倍!
Agent57,是DeepMind在2020年搞的一個智能體,史上首次在所有57個雅達利游戲中超過了人類基準(zhǔn)表現(xiàn)。
但它有一個致命缺陷是效率低:需要近800億幀的數(shù)據(jù)訓(xùn)練才能實現(xiàn)。
現(xiàn)在,MEME的出現(xiàn)完美解決了這一問題。
有網(wǎng)友看完表示:這就是真正的樣本高效吧。
話不多說,趕緊來一睹為快吧。
新的智能體:MEME
Agent57,作為首個在所有雅達利游戲中超越人類基準(zhǔn)表現(xiàn)的智能體,性能上已足夠先進。
但問題是,要想達到這一目標(biāo),背后需要780億幀的龐大的經(jīng)驗訓(xùn)練,這在時間和成本上都是一筆大開支。
因此,以Agent57為起點,DeepMind采用了一系列不同的策略,來實現(xiàn)訓(xùn)練效率上的提升。
他們調(diào)查了在減少數(shù)據(jù)制度時遇到的一系列不穩(wěn)定因素和瓶頸,并提出了有效的解決方案,最后建立一個更加強大和高效的智能體:MEME。
新的MEME智能體主要針對Agent57的4個方面進行改善,分別是:
A.實現(xiàn)與罕見事件相關(guān)的學(xué)習(xí)信號的快速傳播;
B.在不同的價值尺度下穩(wěn)定學(xué)習(xí);
C.改進神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu);
D.在快速變化的政策下使更新更加穩(wěn)健。
為了達到這四個目標(biāo),DeepMind采取了以下方法,與上述四點相對應(yīng)。
A1.用在線網(wǎng)絡(luò)進行引導(dǎo);
A2.有公差的目標(biāo)計算;
B1.損失和優(yōu)先權(quán)歸一化;
B2.交叉混合訓(xùn)練;
C1.無歸一化的軀干網(wǎng)絡(luò);
C2.帶有綜合損失的共享軀干;
D.通過策略提煉的魯棒行為。
這些方法旨在提高Agent57的數(shù)據(jù)效率,但這種效率的提高不能以犧牲終端性能為代價。
因此,為了檢驗經(jīng)過上述步驟的智能體MEME的效率和性能,研究團隊分別在2億、10億、200億、900億幀環(huán)境進行了訓(xùn)練。
通過下圖可以直觀的看出,新智能體MEME在3.9億幀時就超過了人類基準(zhǔn),比Agent57快了兩個數(shù)量級,并且在將參數(shù)量從90B減少到1B的情況下,取得了類似的最終表現(xiàn)。
可以說相比Agent57而言,MEME既提升了效率,又保持了性能。
研究團隊
MEME的研究團隊來自DeepMind。
其中三位Adrià Puigdomènech Badia、Steven Kapturowski、Charles Blundell也是之前Agent57的論文作者。
值得一提的是,Steven Kapturowski在兩篇論文中都是一作。
他畢業(yè)于美國科羅拉多大學(xué)博爾德分校,曾在蘋果、微軟、Glassdoor等公司工作過,現(xiàn)在是DeepMind的一名高級研究工程師。