自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

谷歌實(shí)現(xiàn)2種新的強(qiáng)化學(xué)習(xí)算法,“比肩”DQN,泛化性能更佳

新聞 機(jī)器學(xué)習(xí) 算法
來(lái)自Google Research的研究人員,證明可以使用圖表示 (graph representation)和AutoML的優(yōu)化技術(shù),來(lái)學(xué)習(xí)新的、可解析和可推廣的RL算法!

  本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

強(qiáng)化學(xué)習(xí)(RL)算法持續(xù)“進(jìn)化”中……

來(lái)自Google Research的研究人員,證明可以使用圖表示 (graph representation)和AutoML的優(yōu)化技術(shù),來(lái)學(xué)習(xí)新的、可解析和可推廣的RL算法!

他們發(fā)現(xiàn)的其中兩種算法可以推廣到更復(fù)雜的環(huán)境中,比如具有視覺觀察的Atari游戲。

這一成就使得RL算法越來(lái)越優(yōu)秀!

具體怎么個(gè)“優(yōu)秀法”,請(qǐng)看下文:

損失函數(shù)表示為計(jì)算圖

首先,對(duì)于強(qiáng)化學(xué)習(xí)算法研究的難點(diǎn),研究人員認(rèn)為,一種可能的解決方案是設(shè)計(jì)一種元學(xué)習(xí)方法。

該方法可以設(shè)計(jì)新的RL算法,從而自動(dòng)將其推廣到各種各樣的任務(wù)中。

受神經(jīng)架構(gòu)搜索(NAS)在表示神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的圖空間中搜索的思想啟發(fā),研究人員通過將RL算法的損失函數(shù)表示為計(jì)算圖(computational graph)來(lái)元學(xué)習(xí)RL算法。

其中使用有向無(wú)環(huán)圖來(lái)表示損失函數(shù),該圖帶有分別表示輸入、運(yùn)算符、參數(shù)和輸出的節(jié)點(diǎn)。

該表示方法好處有很多,總的來(lái)說就是可用來(lái)學(xué)習(xí)新的、可解析和可推廣的RL算法。

并使用PyGlove庫(kù)實(shí)現(xiàn)這種表示形式。

基于進(jìn)化的元學(xué)習(xí)方法

接下來(lái),研究人員使用基于進(jìn)化的元學(xué)習(xí)方法來(lái)優(yōu)化他們感興趣的RL算法。

其過程大致如下:

新提出的算法必須首先在障礙環(huán)境中表現(xiàn)良好,然后才能在一組更難的環(huán)境中進(jìn)行訓(xùn)練。算法性能被評(píng)估并用于更新群體(population),其中性能更好的算法進(jìn)一步突變?yōu)樾滤惴?。在?xùn)練結(jié)束時(shí),對(duì)性能最佳的算法在測(cè)試環(huán)境中進(jìn)行評(píng)估。

谷歌實(shí)現(xiàn)2種新的強(qiáng)化學(xué)習(xí)算法,“比肩”DQN,泛化性能更佳

本次實(shí)驗(yàn)中的群體(population)規(guī)模約為300個(gè)智能體,研究人員觀察到在2-5萬(wàn)個(gè)突變后,發(fā)現(xiàn)候選損失函數(shù)的進(jìn)化需要大約3天的訓(xùn)練。

為了進(jìn)一步控制訓(xùn)練成本,他們?cè)诔跏既后w中植入了人類設(shè)計(jì)的RL算法,eg. DQN(深度Q學(xué)習(xí)算法)。

發(fā)現(xiàn)兩種表現(xiàn)出良好泛化性能的算法

最終,他們發(fā)現(xiàn)了兩種表現(xiàn)出良好泛化性能的算法

一種是DQNReg,它建立在DQN的基礎(chǔ)上,在Q值上增加一個(gè)加權(quán)懲罰(weighted penalty),使其成為標(biāo)準(zhǔn)的平方Bellman誤差。

第二種是DQNClipped,盡管它的支配項(xiàng)(dominating term)有一個(gè)簡(jiǎn)單的形式——Q值的最大值和平方Bellman誤差(常數(shù)模),但更為復(fù)雜。

這兩種算法都可以看作是正則化Q值的一種方法,都以不同的方式解決了高估Q值這一問題。

最終DQNReg低估Q值,而DQNClipped會(huì)緩慢地接近基本事實(shí),更不會(huì)高估。

性能評(píng)估方面,通過一組經(jīng)典的控制環(huán)境,這兩種算法都可以在密集獎(jiǎng)勵(lì)任務(wù)(CartPole、Acrobot、LunarLander)中持平基線,在稀疏獎(jiǎng)勵(lì)任務(wù)(MountainCar)中,性能優(yōu)于DQN。

谷歌實(shí)現(xiàn)2種新的強(qiáng)化學(xué)習(xí)算法,“比肩”DQN,泛化性能更佳

其中,在一組測(cè)試各種不同任務(wù)的稀疏獎(jiǎng)勵(lì)MiniGrid環(huán)境中,研究人員發(fā)現(xiàn)DQNReg在訓(xùn)練和測(cè)試環(huán)境中的樣本效率和最終性能都大大優(yōu)于基線水平。

谷歌實(shí)現(xiàn)2種新的強(qiáng)化學(xué)習(xí)算法,“比肩”DQN,泛化性能更佳

另外,在一些MiniGrid環(huán)境將DDQN(Double DQN)與DQNReg的性能進(jìn)行可視化比較發(fā)現(xiàn),當(dāng)DDQN還在掙扎學(xué)習(xí)一切有意義的行為時(shí),DQNReg已經(jīng)可以有效地學(xué)習(xí)最優(yōu)行為了。

最后,即使本次研究的訓(xùn)練是在基于非圖像的環(huán)境中進(jìn)行的,但在基于圖像的Atari游戲環(huán)境中也觀察到DQNReg算法性能的提高!

谷歌實(shí)現(xiàn)2種新的強(qiáng)化學(xué)習(xí)算法,“比肩”DQN,泛化性能更佳

這表明,在一組廉價(jià)但多樣化的訓(xùn)練環(huán)境中進(jìn)行元訓(xùn)練,并具有可推廣的算法表示,可以實(shí)現(xiàn)根本的算法推廣。

此研究成果寫成的論文,已被ICLR 2021接收,研究人員門未來(lái)將擴(kuò)展更多不同的RL設(shè)置,如Actor-Critic算法或離線RL。

 

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2021-10-12 09:31:22

算法模型技術(shù)

2024-06-21 14:13:44

2019-09-29 10:42:02

人工智能機(jī)器學(xué)習(xí)技術(shù)

2023-06-25 11:30:47

可視化

2021-10-11 09:51:38

谷歌人工智能強(qiáng)化學(xué)習(xí)

2020-08-10 06:36:21

強(qiáng)化學(xué)習(xí)代碼深度學(xué)習(xí)

2020-06-05 08:09:01

Python強(qiáng)化學(xué)習(xí)框架

2023-01-24 17:03:13

強(qiáng)化學(xué)習(xí)算法機(jī)器人人工智能

2025-01-14 13:20:56

2022-11-02 14:02:02

強(qiáng)化學(xué)習(xí)訓(xùn)練

2022-11-03 14:13:52

強(qiáng)化學(xué)習(xí)方法

2017-02-20 16:35:10

人工智能算法強(qiáng)化學(xué)習(xí)

2018-08-29 08:13:22

Google 學(xué)習(xí)框架技術(shù)

2025-04-18 10:01:41

2020-04-15 16:44:38

谷歌強(qiáng)化學(xué)習(xí)算法

2023-03-13 16:05:03

強(qiáng)化學(xué)習(xí)開源

2017-03-28 10:15:07

2024-10-12 17:14:12

2020-12-02 13:24:07

強(qiáng)化學(xué)習(xí)算法

2019-08-12 08:43:53

GitHub代碼開發(fā)者
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)