自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<blockquote id="ji6v0"></blockquote>}

<bdo id="ji6v0"></bdo>

<sup id="ji6v0"></sup>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

DeepMind用新AI超越自己：提速200倍，在所有雅達利游戲上勝過人類

作者：羿閣 2022-09-20 15:28:35

人工智能新聞

Agent57，是DeepMind在2020年搞的一個智能體，史上首次在所有57個雅達利游戲中超過了人類基準(zhǔn)表現(xiàn)。

本文經(jīng)AI新媒體量子位（公眾號ID:QbitAI）授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請聯(lián)系出處。

DeepMind又對雅達利游戲下手了！

這次，他們最新推出的智能體MEME，在效果不變的前提下，比兩年前的Agent57提速了200倍！

Agent57，是DeepMind在2020年搞的一個智能體，史上首次在所有57個雅達利游戲中超過了人類基準(zhǔn)表現(xiàn)。

但它有一個致命缺陷是效率低：需要近800億幀的數(shù)據(jù)訓(xùn)練才能實現(xiàn)。

現(xiàn)在，MEME的出現(xiàn)完美解決了這一問題。

有網(wǎng)友看完表示：這就是真正的樣本高效吧。

話不多說，趕緊來一睹為快吧。

新的智能體：MEME

Agent57，作為首個在所有雅達利游戲中超越人類基準(zhǔn)表現(xiàn)的智能體，性能上已足夠先進。

但問題是，要想達到這一目標(biāo)，背后需要780億幀的龐大的經(jīng)驗訓(xùn)練，這在時間和成本上都是一筆大開支。

因此，以Agent57為起點，DeepMind采用了一系列不同的策略，來實現(xiàn)訓(xùn)練效率上的提升。

他們調(diào)查了在減少數(shù)據(jù)制度時遇到的一系列不穩(wěn)定因素和瓶頸，并提出了有效的解決方案，最后建立一個更加強大和高效的智能體：MEME。

新的MEME智能體主要針對Agent57的4個方面進行改善，分別是：

A.實現(xiàn)與罕見事件相關(guān)的學(xué)習(xí)信號的快速傳播；

B.在不同的價值尺度下穩(wěn)定學(xué)習(xí)；

C.改進神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)；

D.在快速變化的政策下使更新更加穩(wěn)健。

為了達到這四個目標(biāo)，DeepMind采取了以下方法，與上述四點相對應(yīng)。

A1.用在線網(wǎng)絡(luò)進行引導(dǎo)；

A2.有公差的目標(biāo)計算；

B1.損失和優(yōu)先權(quán)歸一化；

B2.交叉混合訓(xùn)練；

C1.無歸一化的軀干網(wǎng)絡(luò)；

C2.帶有綜合損失的共享軀干；

D.通過策略提煉的魯棒行為。

這些方法旨在提高Agent57的數(shù)據(jù)效率，但這種效率的提高不能以犧牲終端性能為代價。

因此，為了檢驗經(jīng)過上述步驟的智能體MEME的效率和性能，研究團隊分別在2億、10億、200億、900億幀環(huán)境進行了訓(xùn)練。

通過下圖可以直觀的看出，新智能體MEME在3.9億幀時就超過了人類基準(zhǔn)，比Agent57快了兩個數(shù)量級，并且在將參數(shù)量從90B減少到1B的情況下，取得了類似的最終表現(xiàn)。

可以說相比Agent57而言，MEME既提升了效率，又保持了性能。

研究團隊

MEME的研究團隊來自DeepMind。

其中三位Adrià Puigdomènech Badia、Steven Kapturowski、Charles Blundell也是之前Agent57的論文作者。

值得一提的是，Steven Kapturowski在兩篇論文中都是一作。

他畢業(yè)于美國科羅拉多大學(xué)博爾德分校，曾在蘋果、微軟、Glassdoor等公司工作過，現(xiàn)在是DeepMind的一名高級研究工程師。

責(zé)任編輯：張燕妮來源：量子位

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<ruby id="y6jpt"></ruby>

^{<blockquote id="y6jpt"></blockquote>}

<legend id="y6jpt"><track id="y6jpt"></track></legend>