自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

搞強(qiáng)化學(xué)習(xí)還不了解AutoRL,牛津大學(xué)、谷歌等十余位學(xué)者撰文綜述

人工智能 機(jī)器學(xué)習(xí) 新聞
來(lái)自牛津大學(xué)、弗萊堡大學(xué)、谷歌研究院等機(jī)構(gòu)的十余位研究者撰文綜述 AutoRL。

強(qiáng)化學(xué)習(xí) (RL) 與深度學(xué)習(xí)的結(jié)合帶來(lái)了一系列令人印象深刻的成果,許多人認(rèn)為(深度)強(qiáng)化學(xué)習(xí)提供了通向通用智能體的途徑。然而,RL 智能體的成功通常對(duì)訓(xùn)練過(guò)程中的設(shè)計(jì)選擇高度敏感,可能需要繁瑣且容易出錯(cuò)的手動(dòng)調(diào)整。這使得將 RL 用于新問(wèn)題具有挑戰(zhàn)性,同時(shí)也限制了 RL 的全部潛力。

在機(jī)器學(xué)習(xí)的許多其他領(lǐng)域,AutoML 已經(jīng)表明可以自動(dòng)化此類設(shè)計(jì)選擇,并且在應(yīng)用于 RL 時(shí)也產(chǎn)生了有希望的初步結(jié)果。然而,自動(dòng)強(qiáng)化學(xué)習(xí) (AutoRL) 不僅涉及 AutoML 的標(biāo)準(zhǔn)應(yīng)用,還包括 RL 獨(dú)有的額外挑戰(zhàn),這使得研究者自然而然地產(chǎn)生了一些不同的方法。

AutoRL 已成為 RL 研究的一個(gè)重要領(lǐng)域,為從 RNA 設(shè)計(jì)到圍棋等游戲的各種應(yīng)用提供了希望。由于 RL 中考慮的方法和環(huán)境具有多樣性,因此許多研究都是在不同的子領(lǐng)域進(jìn)行的。來(lái)自牛津大學(xué)、弗萊堡大學(xué)、谷歌研究院等機(jī)構(gòu)的十余位研究者撰文試圖統(tǒng)一 AutoRL 領(lǐng)域,并提供了通用分類法,該研究詳細(xì)討論了每個(gè)領(lǐng)域并提出未來(lái)研究人員可能感興趣的問(wèn)題。

論文地址:https://arxiv.org/pdf/2201.03916.pdf

AutoRL 方法

強(qiáng)化學(xué)習(xí)理論上可以用于任何任務(wù),包括世界模型未知的環(huán)境。然而,這種通用性也是有代價(jià)的,其最大的缺點(diǎn)就是智能體往往不能獲得環(huán)境的真實(shí)模型。如果智能體想在一個(gè)場(chǎng)景下使用模型,那它必須完全從經(jīng)驗(yàn)中學(xué)習(xí),這會(huì)帶來(lái)很多挑戰(zhàn)。智能體探索出來(lái)的模型和真實(shí)模型之間存在誤差,而這種誤差會(huì)導(dǎo)致智能體在學(xué)習(xí)到的模型中表現(xiàn)很好,但在真實(shí)的環(huán)境中表現(xiàn)得不好(甚至很差)。

該研究調(diào)查的目的是介紹 AutoRL 領(lǐng)域,AutoRL 可以應(yīng)對(duì)各種挑戰(zhàn):一方面,RL 算法的脆弱性阻礙了其在新領(lǐng)域的應(yīng)用,尤其是那些從業(yè)者缺乏大量資源來(lái)搜索最佳配置的領(lǐng)域。在許多情況下,對(duì)于完全不可見(jiàn)的問(wèn)題,手動(dòng)找到一組中等強(qiáng)度的超參數(shù)可能會(huì)非常昂貴。AutoRL 已被證明可以在這種情況下幫助解決重要問(wèn)題,例如設(shè)計(jì) RNA。另一方面,對(duì)于那些受益于更多計(jì)算的人來(lái)說(shuō),顯然增加算法的靈活性可以提高性能。著名的 AlphaGo 智能體已經(jīng)展示了這一點(diǎn),該智能體通過(guò)使用貝葉斯優(yōu)化得到了顯著改進(jìn)。

早在 1980 年代,AutoRL 算法就被證明是有效的。然而,最近 AutoML 的流行導(dǎo)致了更先進(jìn)技術(shù)的新生應(yīng)用。與此同時(shí),最近元學(xué)習(xí)的流行導(dǎo)致了一系列旨在自動(dòng)化 RL 過(guò)程的工作。

該論文試圖提供這些方法的分類,他們希望通過(guò)思想的交叉融合來(lái)開(kāi)辟一系列未來(lái)的工作,同時(shí)也向 RL 研究人員介紹一套技術(shù)來(lái)提高他們的算法性能。該研究相信 AutoRL 在提高強(qiáng)化學(xué)習(xí)潛在影響方面發(fā)揮著重要作用,無(wú)論是在開(kāi)放式研究和還是在現(xiàn)實(shí)應(yīng)用中。

此外,該研究希望將對(duì) AutoML 感興趣的研究人員吸引到 AutoRL 社區(qū),特別地,RL 具有非平穩(wěn)性(non-stationarity),因?yàn)橹悄荏w正在訓(xùn)練的數(shù)據(jù)是當(dāng)前策略的函數(shù)。此外,該研究還介紹了 AutoRL 針對(duì)特定 RL 問(wèn)題的環(huán)境和算法設(shè)計(jì)。

該研究調(diào)查了 AutoRL 社區(qū)以及技術(shù)等內(nèi)容。一般來(lái)說(shuō),AutoRL 方法大多數(shù)都可以通過(guò)組合內(nèi)部循環(huán)和外部循環(huán)組織起來(lái)。每個(gè)循環(huán)都可以通過(guò)黑箱或基于梯度的方法進(jìn)行優(yōu)化,然而外部循環(huán)的梯度和內(nèi)部循環(huán)的黑箱不能組合在一起,因?yàn)閮?nèi)部循環(huán)黑箱設(shè)置將使梯度不可用,如表 2 和圖 2 所示:

如下表 3 所示,該研究按照大類總結(jié)了 AutoRL 方法的分類,方法分類將體現(xiàn)在第四章的每一小節(jié)

隨機(jī) / 網(wǎng)格搜索驅(qū)動(dòng)方法

該研究首先討論了最簡(jiǎn)單的方法:隨機(jī)搜索和網(wǎng)格搜索。隨機(jī)搜索從搜索空間中隨機(jī)采樣超參數(shù)配置,而網(wǎng)格搜索將搜索空間劃分為固定的網(wǎng)格點(diǎn),并對(duì)其進(jìn)行評(píng)估。由于其簡(jiǎn)單性,隨機(jī)搜索和網(wǎng)格搜索可用于選擇超參數(shù)列表,評(píng)估超參數(shù)并選擇最佳配置。事實(shí)上,網(wǎng)格搜索仍然是 RL 中最常用的方法,網(wǎng)格搜索在絕大多數(shù)情況下都會(huì)調(diào)整超參數(shù),但不應(yīng)將其視為最有效的方法。但是這些經(jīng)典方法沒(méi)有考慮優(yōu)化問(wèn)題的潛在非平穩(wěn)性,下圖 3 描述了這個(gè)問(wèn)題:

提高隨機(jī)搜索性能的一種常見(jiàn)方法是使用 Hyperband,這是一種用于超參數(shù)優(yōu)化的配置評(píng)估。它專注于通過(guò)自適應(yīng)資源分配和早停(early-stopping)來(lái)加速隨機(jī)搜索。特別的,Hyperband 使用「Successive Halving」將預(yù)算分配給一組超參數(shù)配置。Zhang 等人使用隨機(jī)搜索和 Hyperband 來(lái)調(diào)整其 MBRL 算法的超參數(shù)。

貝葉斯優(yōu)化

貝葉斯優(yōu)化(Bayesian Optimization ,BO)是迄今為止最流行的方法之一,主要用于工業(yè)應(yīng)用和各種科學(xué)實(shí)驗(yàn)。對(duì)于 RL 應(yīng)用程序,BO 最突出的用途之一是調(diào)整 AlphaGo 超參數(shù),其中包括蒙特卡洛樹(shù)搜索 (MCTS) 超參數(shù)和時(shí)間控制設(shè)置。這導(dǎo)致 AlphaGo 在自我對(duì)弈中的勝率從 50% 提高到 66.5%。圖 4 展示了 RL 案例中貝葉斯優(yōu)化的一般概念:

演化算法

演化算法被廣泛應(yīng)用于各種優(yōu)化任務(wù),其機(jī)制如圖 5 所示:

演化算法經(jīng)常被用于搜索 RL 算法的超參數(shù)。Eriksson 等人使用實(shí)數(shù)遺傳算法 (GA),通過(guò)種群中每個(gè)個(gè)體的基因編碼 RL 算法的超參數(shù),以調(diào)整 SARSA 超參數(shù),研究者將該方法應(yīng)用于控制移動(dòng)機(jī)器人。Cardenoso Fernandez 和 Caarls 使用 GA 在簡(jiǎn)單設(shè)置中調(diào)整 RL 算法的超參數(shù),并通過(guò)結(jié)合自動(dòng)重啟策略以擺脫局部最小值,取得了良好的性能。Ashraf 等人使用 Whale 優(yōu)化算法(WOA),其靈感來(lái)自座頭鯨的狩獵策略,在各種 RL 任務(wù)中優(yōu)化 DDPG 超參數(shù)以提高性能。

用于在線調(diào)優(yōu)的元梯度

元梯度提供了一種替代方法來(lái)處理 RL 超參數(shù)的非平穩(wěn)性。元梯度公式的靈感來(lái)自元學(xué)習(xí)方法,例如 MAML,它使用梯度優(yōu)化了內(nèi)部和外部循環(huán)。特別是,元梯度方法將其(可微分)超參數(shù)的子集指定為元參數(shù) η。在內(nèi)部循環(huán)中,智能體使用固定的 η 進(jìn)行優(yōu)化,采用梯度 step 來(lái)最小化(通常是固定的)損失函數(shù)。在外部循環(huán)中,通過(guò)采取梯度 step 來(lái)優(yōu)化 η,以最小化外部損失函數(shù)。內(nèi)部和外部損失函數(shù)的每個(gè)特定選擇都定義了一個(gè)新的元梯度算法。

黑盒在線調(diào)優(yōu)

PBT 和元梯度的優(yōu)勢(shì)在于動(dòng)態(tài)調(diào)整超參數(shù)的能力,然而,這并不是唯一的方法。事實(shí)上,研究者已經(jīng)考慮了各種其他方法,從黑盒方法到在線學(xué)習(xí)啟發(fā)方法。本節(jié)重點(diǎn)介紹在超參數(shù)不是可微的設(shè)置中動(dòng)態(tài)適應(yīng)的單智能體方法。

自適應(yīng)選擇超參數(shù)的方法自 20 世紀(jì) 90 年代以來(lái)一直很重要。Sutton 和 Singh (1994) 提出了 TD 算法中自適應(yīng)加權(quán)方案的三種替代方法,Kearns 和 Singh (2000) 推導(dǎo)出時(shí)序差分算法誤差上限,并使用這些邊界推導(dǎo)出 λ 的時(shí)間表。Downey 和 Sanner (2010) 使用貝葉斯模型平均來(lái)為 TD 方法選擇 λ bootstrapping 超參數(shù)。最近, White (2016) 提出了 λ-greedy 來(lái)適應(yīng) λ 作為狀態(tài)的函數(shù),并實(shí)現(xiàn)近似最優(yōu)的偏差 - 方差權(quán)衡,Paul 等人 (2019) 提出了 HOOF,它使用帶有非策略數(shù)據(jù)的隨機(jī)搜索來(lái)周期性地為策略梯度算法選擇新的超參數(shù)。

環(huán)境設(shè)計(jì)

環(huán)境設(shè)計(jì)是強(qiáng)化學(xué)習(xí)智能體自動(dòng)學(xué)習(xí)的重要組成部分。從課程學(xué)習(xí)到合成環(huán)境學(xué)習(xí)和生成,到將課程學(xué)習(xí)與環(huán)境生成相結(jié)合,這里的目標(biāo)是加快機(jī)器學(xué)習(xí)智能體通過(guò)環(huán)境設(shè)計(jì)的學(xué)習(xí)速度。如圖 7 所示:

混合方法

不可避免的是,一些方法不屬于單一類別。事實(shí)上,許多方法都試圖利用不同方法的優(yōu)勢(shì),可稱之為混合方法。在該研究中,這些混合方法被定義為使用表 3 中不止一類技術(shù)的方法,例如 BOHB、DEHB 等。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心Pro
相關(guān)推薦

2020-04-20 10:55:57

大數(shù)據(jù)人工智能技術(shù)

2021-03-23 13:49:21

人工智能機(jī)器學(xué)習(xí)

2019-10-30 09:25:58

NginxApache 服務(wù)器

2024-09-10 15:10:00

智能強(qiáng)化學(xué)習(xí)框架

2022-03-28 13:14:50

機(jī)器學(xué)習(xí)語(yǔ)言訓(xùn)練AI

2024-07-10 13:20:45

2024-05-21 09:41:15

3DLLM

2024-10-12 17:14:12

2017-07-25 16:04:31

概念應(yīng)用強(qiáng)化學(xué)習(xí)

2017-03-27 14:39:10

互聯(lián)網(wǎng)

2019-01-14 14:41:27

Mysql存儲(chǔ)觸發(fā)器

2019-12-11 15:36:23

AI 數(shù)據(jù)人工智能

2024-02-21 12:20:00

AI訓(xùn)練

2022-04-11 11:37:13

AI研究NLP

2022-09-30 11:55:36

AI算力

2021-07-28 15:35:58

谷歌神經(jīng)網(wǎng)絡(luò)AI

2024-06-05 19:45:08

2020-11-30 06:27:35

Java泛型Object

2020-09-16 07:59:40

數(shù)組內(nèi)存

2021-07-12 07:01:39

AST前端abstract sy
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)