自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

訓(xùn)練Rainbow需要1425個(gè)GPU Day?谷歌說(shuō)強(qiáng)化學(xué)習(xí)可以降低計(jì)算成本

新聞 人工智能
來(lái)自谷歌的研究者通過(guò)添加和移除不同組件,在有限的計(jì)算預(yù)算、中小型環(huán)境下,以小規(guī)模實(shí)驗(yàn)得到與 Rainbow 算法一致的結(jié)果。

 [[411439]]

DeepMind 提出的 Rainbow 算法,可以讓 AI 玩 Atari 游戲的水平提升一大截,但該算法計(jì)算成本非常高,一個(gè)主要原因是學(xué)術(shù)研究發(fā)布的標(biāo)準(zhǔn)通常是需要在大型基準(zhǔn)測(cè)試上評(píng)估新算法。來(lái)自谷歌的研究者通過(guò)添加和移除不同組件,在有限的計(jì)算預(yù)算、中小型環(huán)境下,以小規(guī)模實(shí)驗(yàn)得到與 Rainbow 算法一致的結(jié)果。

人們普遍認(rèn)為,將傳統(tǒng)強(qiáng)化學(xué)習(xí)與深度神經(jīng)網(wǎng)絡(luò)結(jié)合的深度強(qiáng)化學(xué)習(xí),始于 DQN 算法的開(kāi)創(chuàng)性發(fā)布。DQN 的論文展示了這種組合的巨大潛力,表明它可以產(chǎn)生玩 Atari 2600 游戲的有效智能體。之后有多種方法改進(jìn)了原始 DQN,而 Rainbow 算法結(jié)合了許多最新進(jìn)展,在 ALE 基準(zhǔn)測(cè)試上實(shí)現(xiàn)了 SOTA 的性能。然而這一進(jìn)展帶來(lái)了非常高的計(jì)算成本,擁有充足計(jì)算資源的和沒(méi)有計(jì)算資源之間的差距被進(jìn)一步拉大。

在 ICML 2021 的一篇論文《Revisiting Rainbow: Promoting more Insightful and Inclusive Deep Reinforcement Learning Research》中,研究者首先討論了與 Rainbow 算法相關(guān)的計(jì)算成本。研究者探討了通過(guò)結(jié)合多種算法組件,以小規(guī)模實(shí)驗(yàn)得到與 Rainbow 算法一致的結(jié)果,并將該想法進(jìn)一步推廣到在較小的計(jì)算預(yù)算上進(jìn)行的研究如何提供有價(jià)值的科學(xué)見(jiàn)解。

訓(xùn)練Rainbow需要1425個(gè)GPU Day?谷歌說(shuō)強(qiáng)化學(xué)習(xí)可以降低計(jì)算成本

論文地址:https://arxiv.org/abs/2011.14826

Rainbow 計(jì)算成本高的一個(gè)主要原因是學(xué)術(shù)研究發(fā)布的標(biāo)準(zhǔn)通常是需要在大型基準(zhǔn)測(cè)試(例如 ALE,其中包含 57 款強(qiáng)化學(xué)習(xí)智能體能夠?qū)W會(huì)玩 Atari 2600 游戲)上評(píng)估新算法。通常使用 Tesla P100 GPU 訓(xùn)練模型學(xué)會(huì)玩一個(gè)游戲大約需要五天時(shí)間。此外,如果想要建立有意義的置信邊界,通常至少執(zhí)行 5 次運(yùn)行。

因此,在全套 57 款游戲上訓(xùn)練 Rainbow 需要大約 34,200 個(gè) GPU hour(約 1425 天)才能提供令人信服的性能實(shí)驗(yàn)數(shù)據(jù)。這樣的實(shí)驗(yàn)只有能夠在多個(gè) GPU 上并行訓(xùn)練時(shí)才可行,這使得較小的研究小組望而卻步。

Rainbow 算法

與原始 Rainbow 算法的論文一樣,在 ICML 2021 的這篇論文中,研究者評(píng)估了在原始 DQN 算法中添加以下組件的效果:雙 Q 學(xué)習(xí)(double Q-learning)、優(yōu)先經(jīng)驗(yàn)回放(prioritized experience replay,PER)、競(jìng)爭(zhēng)網(wǎng)絡(luò)、多步學(xué)習(xí)、分布式強(qiáng)化學(xué)習(xí)和嘈雜網(wǎng)絡(luò)。

該研究在四個(gè)經(jīng)典控制環(huán)境中進(jìn)行評(píng)估。需要注意的是,相比于 ALE 游戲需要 5 天,這些環(huán)境在 10-20 分鐘內(nèi)就可以完成完全訓(xùn)練:

訓(xùn)練Rainbow需要1425個(gè)GPU Day?谷歌說(shuō)強(qiáng)化學(xué)習(xí)可以降低計(jì)算成本

左上:在 CartPole 中,游戲任務(wù)是智能體通過(guò)左右移動(dòng)平衡推車上的一根桿子;右上:在 Acrobot 中,有兩個(gè)杠桿和兩個(gè)連接點(diǎn),智能體需要向兩個(gè)杠桿之間的連接點(diǎn)施加力以抬高下面的杠桿使其高于某個(gè)高度要求。左下:在 LunarLander 中,智能體的任務(wù)是將飛船降落在兩個(gè)旗幟之間;右下:在 MountainCar 中,智能體需要在兩座山丘之間借助一定的動(dòng)力將車開(kāi)到右邊的山頂。

研究者探究了將每個(gè)組件單獨(dú)添加到 DQN 以及從完整 Rainbow 算法中刪除每個(gè)組件的效果,并發(fā)現(xiàn)總的來(lái)說(shuō)每一個(gè)算法組件的添加都確實(shí)改進(jìn)了基礎(chǔ) DQN 的學(xué)習(xí)效果。然而,該研究也發(fā)現(xiàn)了一些重要的差異,例如通常被認(rèn)為能起到改進(jìn)作用的分布式 RL 自身并不總是能夠產(chǎn)生改進(jìn)。實(shí)際上,與 Rainbow 論文中的 ALE 結(jié)果相反,在經(jīng)典控制環(huán)境中,分布式 RL 僅在與其他組件結(jié)合時(shí)才會(huì)產(chǎn)生改進(jìn)。

訓(xùn)練Rainbow需要1425個(gè)GPU Day?谷歌說(shuō)強(qiáng)化學(xué)習(xí)可以降低計(jì)算成本

上圖顯示了在 4 個(gè)經(jīng)典控制環(huán)境中,向 DQN 添加不同組件時(shí)的訓(xùn)練進(jìn)度。x 軸為訓(xùn)練 step,y 軸為性能(越高越好)。

訓(xùn)練Rainbow需要1425個(gè)GPU Day?谷歌說(shuō)強(qiáng)化學(xué)習(xí)可以降低計(jì)算成本

上圖顯示了在 4 個(gè)經(jīng)典控制環(huán)境中,從 Rainbow 中移除各種組件時(shí)的訓(xùn)練進(jìn)度。x 軸為訓(xùn)練 step,y 軸為性能(越高越好)。

研究者還在 MinAtar 環(huán)境中重新運(yùn)行了 Rainbow 實(shí)驗(yàn),MinAtar 環(huán)境由一組五個(gè)小型化的 Atari 游戲組成,實(shí)驗(yàn)結(jié)果與原 Rainbow 論文類似。MinAtar 游戲的訓(xùn)練速度大約是常規(guī) Atari 2600 游戲的 10 倍,其中后者的訓(xùn)練速度是在最初的 Rainbow 算法上評(píng)估的。此外,該研究的實(shí)驗(yàn)結(jié)果還有一些有趣的方面,例如游戲動(dòng)態(tài)和給智能體添加基于像素的輸入。因此,該研究提供了一個(gè)具有挑戰(zhàn)性的中級(jí)環(huán)境,介于經(jīng)典控制和完整的 Atari 2600 游戲之間。

綜合來(lái)看,研究者發(fā)現(xiàn)現(xiàn)在的結(jié)果與原始 Rainbow 論文的結(jié)果一致——每個(gè)算法組件產(chǎn)生的影響可能因環(huán)境而異。研究者建議使用單一智能體來(lái)平衡不同算法組件之間的權(quán)衡,該研究的 Rainbow 版本可能與原始版本高度一致,這是因?yàn)閷⑺薪M件組合在一起會(huì)產(chǎn)生整體性能更好的智能體。然而,在不同算法組件之間,有一些重要的細(xì)節(jié)變化值得進(jìn)行更徹底的探究。

「優(yōu)化器 - 損失函數(shù)」不同組合實(shí)驗(yàn)

DQN 被提出時(shí),同時(shí)采用了 Huber 損失和 RMSProp 優(yōu)化器。對(duì)于研究者而言,在構(gòu)建 DQN 時(shí)使用相同的選擇是一種常見(jiàn)的做法,因?yàn)檠芯空邔⒋蟛糠謺r(shí)間用在了其他算法設(shè)計(jì)上。

而該研究重新討論了 DQN 在低成本、小規(guī)模經(jīng)典控制和 MinAtar 環(huán)境中使用的損失函數(shù)和優(yōu)化器。研究者使用 Adam 優(yōu)化器進(jìn)行了一些初始實(shí)驗(yàn),目前 Adam 優(yōu)化器是最流行的優(yōu)化器,并在實(shí)驗(yàn)中結(jié)合使用了一個(gè)更簡(jiǎn)單的損失函數(shù),即均方誤差損失 (MSE)。由于在開(kāi)發(fā)新算法時(shí),優(yōu)化器和損失函數(shù)的選擇往往被忽略,而該研究發(fā)現(xiàn)在所有的經(jīng)典控制和 MinAtar 環(huán)境中,這二者的改變都能讓實(shí)驗(yàn)結(jié)果有顯著的改進(jìn)。

因此,研究者將兩個(gè)優(yōu)化器(RMSProp、Adam 優(yōu)化器)與兩個(gè)損失函數(shù)(Huber、MSE 損失)進(jìn)行了不同的組合,并在整個(gè) ALE 平臺(tái)(包含 60 款 Atari 2600 游戲)上進(jìn)行了評(píng)估。結(jié)果發(fā)現(xiàn) Adam+MSE 組合優(yōu)于 RMSProp+Huber 組合。

訓(xùn)練Rainbow需要1425個(gè)GPU Day?谷歌說(shuō)強(qiáng)化學(xué)習(xí)可以降低計(jì)算成本

在默認(rèn) DQN 設(shè)置下(RMSProp + Huber),評(píng)估 Adam+MSE 組合帶來(lái)的改進(jìn)(越高越好)。

此外,在比較各種「優(yōu)化器 - 損失函數(shù)」組合的過(guò)程中,研究者發(fā)現(xiàn)當(dāng)使用 RMSProp 時(shí),Huber 損失往往比 MSE 表現(xiàn)得更好(實(shí)線和橙色虛線之間的間隙可以說(shuō)明這一點(diǎn))。

訓(xùn)練Rainbow需要1425個(gè)GPU Day?谷歌說(shuō)強(qiáng)化學(xué)習(xí)可以降低計(jì)算成本

對(duì) 60 款 Atari 2600 游戲的標(biāo)準(zhǔn)化得分進(jìn)行匯總,比較不同的「優(yōu)化器 - 損失函數(shù)」組合。

在有限的計(jì)算預(yù)算下,該研究研究者能夠在高層次上復(fù)現(xiàn)論文《Rainbow: Combining Improvements in Deep Reinforcement Learning》的研究,并且發(fā)現(xiàn)新的、有趣的現(xiàn)象。顯然,重新審視某事物比首次發(fā)現(xiàn)更容易。然而,研究者開(kāi)展這項(xiàng)工作的目的是為了論證中小型環(huán)境實(shí)證研究的相關(guān)性和重要性。研究者相信,這些計(jì)算強(qiáng)度較低的環(huán)境能夠很好地對(duì)新算法的性能、行為和復(fù)雜性進(jìn)行更關(guān)鍵和徹底的分析。該研究希望 AI 研究人員能夠把小規(guī)模環(huán)境作為一種有價(jià)值的工具,評(píng)審人員也要避免忽視那些專注于小規(guī)模環(huán)境的實(shí)驗(yàn)工作。

 

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心Pro
相關(guān)推薦

2010-05-14 09:02:03

云計(jì)算成本

2018-03-15 08:10:24

云備份云計(jì)算數(shù)據(jù)保護(hù)

2022-05-23 14:55:40

云計(jì)算工具成本

2021-07-27 15:55:01

人工智能機(jī)器學(xué)習(xí)技術(shù)

2017-09-19 08:54:16

存儲(chǔ)設(shè)備成本

2020-06-09 11:16:42

云計(jì)算云平臺(tái)工具

2022-02-18 13:46:05

云計(jì)算混合云技巧

2020-06-19 12:06:12

云計(jì)算云平臺(tái)IT

2021-05-08 13:36:13

云計(jì)算AWS云平臺(tái)

2020-03-04 10:33:15

云計(jì)算IT云原生

2013-04-24 09:44:19

云計(jì)算成本模式云計(jì)算成本云計(jì)算成本分析

2018-08-14 16:29:43

云計(jì)算云成本公共云

2019-06-20 05:47:25

云計(jì)算成本IT

2013-03-07 09:20:46

公有云服務(wù)微軟AzureMetricsHub

2020-04-20 10:33:07

云計(jì)算托管服務(wù)成本

2023-11-30 12:07:21

人工智能CIO

2022-06-13 11:57:04

谷歌模型計(jì)算

2022-11-02 14:02:02

強(qiáng)化學(xué)習(xí)訓(xùn)練

2013-10-29 09:46:42

hypervisor私有云

2020-11-12 19:31:41

強(qiáng)化學(xué)習(xí)人工智能機(jī)器學(xué)習(xí)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)