自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="zas0o"><rp id="zas0o"></rp></style>

<legend id="zas0o"></legend>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

兩小時(shí)就能超過人類！DeepMind最新AI速通26款雅達(dá)利游戲

作者：量子位 2023-07-02 14:47:26

AI智能體通過強(qiáng)化學(xué)習(xí)解決問題的效果一直都不錯(cuò)，但最大的問題就在于這種方式效率很低，需要很長時(shí)間摸索。

DeepMind的AI智能體，又來卷自己了！

注意看，這個(gè)名叫BBF的家伙，只用2個(gè)小時(shí)，就掌握了26款雅達(dá)利游戲，效率和人類相當(dāng)，超越了自己一眾前輩。

要知道，AI智能體通過強(qiáng)化學(xué)習(xí)解決問題的效果一直都不錯(cuò)，但最大的問題就在于這種方式效率很低，需要很長時(shí)間摸索。

圖片

而BBF帶來的突破正是在效率方面。

怪不得它的全名可以叫Bigger、Better、Faster。

而且它還能只在單卡上完成訓(xùn)練，算力要求也降低許多。

BBF由谷歌DeepMind和蒙特利爾大學(xué)共同提出，目前數(shù)據(jù)和代碼均已開源。

最高可取得人類5倍成績

用于評(píng)價(jià)BBF游戲表現(xiàn)的數(shù)值，叫做IQM。

IQM是多方面游戲表現(xiàn)的綜合得分，本文中的IQM成績以人類為基準(zhǔn)進(jìn)行了歸一化處理。

經(jīng)與多個(gè)前人成果相比較，BBF在包含26款雅達(dá)利游戲的Atari 100K測(cè)試數(shù)據(jù)集中取得了最高的IQM成績。

并且，在訓(xùn)練過的26款游戲中，BBF的成績已經(jīng)超過了人類。

與表現(xiàn)相似的Eff.Zero相比，BBF消耗的GPU時(shí)間縮短了將近一半。

而消耗GPU時(shí)間相似的SPR和SR-SPR，性能又和BBF差了一大截。

圖片

而在反復(fù)進(jìn)行的測(cè)試中，BBF達(dá)到某一IQM分?jǐn)?shù)的比例始終保持著較高水平。

甚至有超過總測(cè)試次數(shù)1/8的運(yùn)行當(dāng)中取得了5倍于人類的成績。

圖片

即使加上其他沒有訓(xùn)練過的雅達(dá)利游戲，BBF也能取得超過人類一半的分?jǐn)?shù)IQM分?jǐn)?shù)。

而如果單獨(dú)看未訓(xùn)練的這29款游戲，BBF的得分是人類的四至五成。

圖片

以SR-SPR為基礎(chǔ)修改

推動(dòng)BBF研究的問題是，如何在樣本量稀少的情況下擴(kuò)展深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)。

為了研究這一問題，DeepMind將目光聚焦在了Atari 100K基準(zhǔn)上。

但DeepMind很快發(fā)現(xiàn)，單純?cè)龃竽Ｐ鸵?guī)模并不能提高其表現(xiàn)。

圖片

在深度學(xué)習(xí)模型的設(shè)計(jì)中，每步更新次數(shù)（Replay Ratio，RR）是一項(xiàng)重要參數(shù)。

具體到雅達(dá)利游戲，RR值越大，模型在游戲中取得的成績?cè)礁摺?/p>

最終，DeepMind以SR-SPR作為基礎(chǔ)引擎，SR-SPR的RR值最高可達(dá)16。

而DeepMind經(jīng)過綜合考慮，選擇了8作為BBF的RR值。

考慮到部分用戶不愿花費(fèi)RR=8的運(yùn)算成本，DeepMind同時(shí)開發(fā)了RR=2版本的BBF

圖片

DeepMind對(duì)SR-SPR中的多項(xiàng)內(nèi)容進(jìn)行修改之后，采用自監(jiān)管訓(xùn)練得到了BBF，主要包括以下幾個(gè)方面：

更高的卷積層重置強(qiáng)度：提高卷積層重置強(qiáng)度可以增大面向隨機(jī)目標(biāo)的擾動(dòng)幅度，讓模型表現(xiàn)更好并減少損失，BBF的重置強(qiáng)度增加后，擾動(dòng)幅度從SR-SPR的20%提高到了50%
更大的網(wǎng)絡(luò)規(guī)模：將神經(jīng)網(wǎng)絡(luò)層數(shù)從3層提高至15層，寬度也增大4倍
更新范圍（n）縮?。合胍岣吣Ｐ偷谋憩F(xiàn)，需要使用非固定的n值。BBF每4萬個(gè)梯度步驟重置一次，每次重置的前1萬個(gè)梯度步驟中，n以指數(shù)形式從10下降至3，衰減階段占BBF訓(xùn)練過程的25%
更大的衰減因子（γ）：有人發(fā)現(xiàn)增大學(xué)習(xí)過程中的γ值可以提高模型表現(xiàn)，BBF的γ值從傳統(tǒng)的0.97增至0.997
權(quán)重衰減：避免過度擬合的出現(xiàn)，BBF的衰減量約為0.1
刪除NoisyNet：原始SR-SPR中包含的NoisyNet不能提高模型表現(xiàn)

消融實(shí)驗(yàn)結(jié)果表明，在每步更新次數(shù)為2和8的條件下，上述因素對(duì)BBF的表現(xiàn)均有不同程度的影響。

圖片

其中，硬復(fù)位和更新范圍的縮小影響最為顯著。

圖片

而對(duì)于上面兩個(gè)圖中沒有提到的NoisyNet，對(duì)模型表現(xiàn)的影響則并不顯著。

圖片

論文地址：https://arxiv.org/abs/2305.19452GitHub項(xiàng)目頁：https://github.com/google-research/google-research/tree/master/bigger_better_faster

參考鏈接：[1]https://the-decoder.com/deepminds-new-ai-agent-learns-26-games-in-two-hours/

[2]https://www.marktechpost.com/2023/06/12/superhuman-performance-on-the-atari-100k-benchmark-the-power-of-bbf-a-new-value-based-rl-agent-from-google-deepmind-mila-and-universite-de-montreal/

— 完 —

責(zé)任編輯：武曉燕來源：量子位

AI 速通效率

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<u id="3fiu6"><label id="3fiu6"><label id="3fiu6"></label></label></u>

<sub id="3fiu6"><p id="3fiu6"><form id="3fiu6"></form></p></sub>