自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

深度強化學(xué)習(xí)探索算法最新綜述,近200篇文獻揭示挑戰(zhàn)和未來方向

新聞 深度學(xué)習(xí) 算法
為了提升對樣本的利用效率,智能體需要有效率地探索未知的環(huán)境,然后收集一些有利于智能體達到最優(yōu)策略的交互數(shù)據(jù),以便促進智能體的學(xué)習(xí)。

 [[434358]]

當(dāng)前,強化學(xué)習(xí)(包括深度強化學(xué)習(xí)DRL和多智能體強化學(xué)習(xí)MARL)在游戲、機器⼈等領(lǐng)域有⾮常出⾊的表現(xiàn),但盡管如此,在達到相同⽔平的情況下,強化學(xué)習(xí)所需的樣本量(交互次數(shù))還是遠遠超過⼈類的。這種對⼤量交互樣本的需求,嚴重阻礙了強化學(xué)習(xí)在現(xiàn)實場景下的應(yīng)⽤。為了提升對樣本的利⽤效率,智能體需要⾼效率地探索未知的環(huán)境,然后收集⼀些有利于智能體達到最優(yōu)策略的交互數(shù)據(jù),以便促進智能體的學(xué)習(xí)。近年來,研究⼈員從不同的⻆度研究RL中的探索策略,取得了許多進展,但尚⽆⼀個全⾯的,對RL中的探索策略進⾏深度分析的綜述。

深度強化學(xué)習(xí)探索算法<span><span><span><i style=最新綜述,近200篇文獻揭示挑戰(zhàn)和未來方向">

論文地址:https://arxiv.org/pdf/2109.06668.pdf

本⽂介紹深度強化學(xué)習(xí)領(lǐng)域第⼀篇系統(tǒng)性的綜述⽂章Exploration in Deep Reinforcement Learning: A Comprehensive Survey。該綜述⼀共調(diào)研了將近200篇⽂獻,涵蓋了深度強化學(xué)習(xí)和多智能體深度強化學(xué)習(xí)兩⼤領(lǐng)域近100種探索算法??偟膩碚f,該綜述的貢獻主要可以總結(jié)為以下四⽅⾯:

  • 三類探索算法。該綜述⾸次提出基于⽅法性質(zhì)的分類⽅法,根據(jù)⽅法性質(zhì)把探索算法主要分為基于不確定性的探索、基于內(nèi)在激勵的探索和其他三⼤類,并從單智能體深度強化學(xué)習(xí)和多智能體深度強化學(xué)習(xí)兩⽅⾯系統(tǒng)性地梳理了探索策略。
  • 四⼤挑戰(zhàn)。除了對探索算法的總結(jié),綜述的另⼀⼤特點是對探索挑戰(zhàn)的分析。綜述中⾸先分析了探索過程中主要的挑戰(zhàn),同時,針對各類⽅法,綜述中也詳細分析了其解決各類挑戰(zhàn)的能⼒。
  • 三個典型benchmark。該綜述在三個典型的探索benchmark中提供了具有代表性的DRL探索⽅法的全⾯統(tǒng)⼀的性能⽐較。
  • 五點開放問題。該綜述分析了現(xiàn)在尚存的亟需解決和進⼀步提升的挑戰(zhàn),揭⽰了強化學(xué)習(xí)探索領(lǐng)域的未來研究⽅向。

接下來,本⽂從綜述的四⼤貢獻⽅⾯展開介紹。

三類探索算法

深度強化學(xué)習(xí)探索算法<span><span><span><i style=最新綜述,近200篇文獻揭示挑戰(zhàn)和未來方向">

上圖展⽰了綜述所遵循的分類⽅法。綜述從單智能體深度強化學(xué)習(xí)算法中的探索策略、多智能體深度強化學(xué)習(xí)算法中的探索策略兩⼤⽅向系統(tǒng)性地梳理了相關(guān)⼯作,并分別分成三個⼦類:⾯向不確定性的(Uncertainty-oriented)探索策略、⾯向內(nèi)在激勵的(Intrinsic motivation oriented)探索策略、以及其他策略。

1、⾯向不確定性的探索策略

通常遵循“樂觀對待不確定性”的指導(dǎo)原則(OFU Principle)「1」。這類做法認為智能體對某區(qū)域更⾼的不確定性(Uncertainty)往往是因為對該區(qū)域不充分的探索導(dǎo)致的,因此樂觀地對待不確定性,也即引導(dǎo)智能體去探索不確定性⾼的地⽅,可以實現(xiàn)⾼效探索的⽬的。

強化學(xué)習(xí)中⼀般考慮兩類不確定性,其中引導(dǎo)往認知不確定性⾼的區(qū)域探索可以促進智能體的學(xué)習(xí),但訪問環(huán)境不確定性⾼的區(qū)域不但不會促進智能體學(xué)習(xí)過程,反⽽由于環(huán)境不確定性的⼲擾會影響到正常學(xué)習(xí)過程。因此,更合理的做法是在樂觀對待認知不確定性引導(dǎo)探索的同時,盡可能地避免訪問環(huán)境不確定性更⾼的區(qū)域?;诖耍鶕?jù)是否在探索中考慮了環(huán)境不確定性,綜述中將這類基于不確定性的探索策略分為兩個⼩類。

第⼀類只考慮在認知不確定性的引導(dǎo)下樂觀探索,典型⼯作有RLSVI「2」、Bootstrapped DQN「3」、OAC「4」、OB2I「5」等;第⼆類在樂觀探索的同時考慮避免環(huán)境不確定性的影響,典型⼯作有IDS「6」、DLTV「7」等。

2、⾯向內(nèi)在激勵信號的探索策略

⼈類通常會通過不同⽅式的⾃我激勵,積極主動地與世界交互并獲得成就感。受此啟發(fā),內(nèi)在激勵信號導(dǎo)向的探索⽅法通常通過設(shè)計內(nèi)在獎勵來創(chuàng)造智能體的成就感。從設(shè)計內(nèi)在激勵信號所使⽤的技術(shù),單智能體⽅法中⾯向內(nèi)在激勵信號的探索策略可分為三類,也即估計環(huán)境動⼒學(xué)預(yù)測誤差的⽅法、狀態(tài)新穎性估計⽅法和基于信息增益的⽅法。⽽在多智能體問題中,⽬前的探索策略主要通過狀態(tài)新穎性和社會影響兩個⻆度考慮設(shè)計內(nèi)在激勵信號。

估計環(huán)境動⼒學(xué)預(yù)測誤差的⽅法主要是基于預(yù)測誤差,⿎勵智能體探索具有更⾼預(yù)測誤差的狀態(tài),典型⼯作有ICM「8」、EMI「9」等。

狀態(tài)新穎性⽅法不局限于預(yù)測誤差,⽽是直接通過衡量狀態(tài)的新穎性(Novelty),將其作為內(nèi)在激勵信號引導(dǎo)智能體探索更新穎的狀態(tài),典型⼯作有RND「10」、Novelty Search「11」、LIIR「12」等。

基于信息增益的⽅法則將信息獲取作為內(nèi)在獎勵,旨在引導(dǎo)智能體探索未知領(lǐng)域,同時防⽌智能體過于關(guān)注隨機領(lǐng)域,典型⼯作有VIME「13」等。

而在多智能體強化學(xué)習(xí)中,有⼀類特別的探索策略通過衡量“社會影響”,也即衡量智能體對其他智能體的影響作⽤,指導(dǎo)作為內(nèi)在激勵信號,典型⼯作有EITI和 EDTI「14」等。

3、其他

除了上述兩⼤類主流的探索算法,綜述⾥還調(diào)研了其他⼀些分⽀的⽅法,從其他⻆度進⾏有效的探索。這些⽅法為如何在DRL中實現(xiàn)通⽤和有效的探索提供了不同的見解。

這主要包括以下三類,⼀是基于分布式的探索算法,也即使⽤具有不同探索行為的異構(gòu)actor,以不同的⽅式探索環(huán)境,典型⼯作包括Ape-x「15」、R2D2「16」等。⼆是基于參數(shù)空間噪聲的探索,不同于對策略輸出增加噪聲,采⽤噪聲對策略參數(shù)進⾏擾動,可以使得探索更加多樣化,同時保持⼀致性,典型⼯作包括NoisyNet「17」等。除了以上兩類,綜述還介紹了其他⼏種不同思路的探索⽅法,包括Go-Explore「18」,MAVEN「19」等。

四大挑戰(zhàn)

綜述重點總結(jié)了⾼效的探索策略主要⾯臨的四⼤挑戰(zhàn)。

  • ⼤規(guī)模狀態(tài)動作空間。狀態(tài)動作空間的增加意味著智能體需要探索的空間變⼤,就⽆疑導(dǎo)致了探索難度的增加。
  • 稀疏、延遲獎勵信號。稀疏、延遲的獎勵信號會使得智能體的學(xué)習(xí)⾮常困難,⽽探索機制合理與否直接影響了學(xué)習(xí)效率。
  • 觀測中的⽩噪聲?,F(xiàn)實世界的環(huán)境通常具有很⾼的隨機性,即狀態(tài)或動作空間中通常會出現(xiàn)不可預(yù)測的內(nèi)容,在探索過程中避免⽩噪聲的影響也是提升效率的重要因素。
  • 多智能體探索挑戰(zhàn)。多智能體任務(wù)下,除了上述挑戰(zhàn),指數(shù)級增長的狀態(tài)動作空間、智能體間協(xié)同探索、局部探索和全局探索的權(quán)衡都是影響多智能體探索效率的重要因素。

綜述中總結(jié)了這些挑戰(zhàn)產(chǎn)⽣的原因,及可能的解決⽅法,同時在詳細介紹⽅法的部分,針對現(xiàn)有⽅法對這些挑戰(zhàn)的應(yīng)對能⼒進⾏了詳細的分析。如下圖就分析了單智能體強化學(xué)習(xí)中基于不確定性的探索⽅法解決這些挑戰(zhàn)的能⼒。

深度強化學(xué)習(xí)探索算法<span><span><span><i style=最新綜述,近200篇文獻揭示挑戰(zhàn)和未來方向">

三個經(jīng)典的benchmark

為了對不同的探索⽅法進⾏統(tǒng)⼀的實驗評價,綜述總結(jié)了上述⼏種有代表性的⽅法在三個代表性 benchmark上的實驗結(jié)果: 《蒙特祖瑪?shù)膹?fù)仇》,雅達利和Vizdoom。

蒙特祖瑪?shù)膹?fù)仇由于其稀疏、延遲的獎勵成為⼀個較難解決的任務(wù),需要RL智能體具有較強的探索能⼒才能獲得正反饋;⽽穿越多個房間并獲得⾼分則進⼀步需要⼈類⽔平的記憶和對環(huán)境中事件的控制。

整個雅達利系列側(cè)重于對提⾼RL 智能體學(xué)習(xí)性能的探索⽅法進⾏更全⾯的評估。

Vizdoom是另⼀個具有多種獎勵配置(從密集到⾮常稀疏)的代表性任務(wù)。與前兩個任務(wù)不同的是,Vizdoom是⼀款帶有第⼀⼈稱視⻆的導(dǎo)航(和射擊)游戲。這模擬了⼀個具有嚴重的局部可觀測性和潛在空間結(jié)構(gòu)的學(xué)習(xí)環(huán)境,更類似于⼈類⾯對的現(xiàn)實世界的學(xué)習(xí)環(huán)境。

深度強化學(xué)習(xí)探索算法<span><span><span><i style=最新綜述,近200篇文獻揭示挑戰(zhàn)和未來方向">

基于上表所⽰的統(tǒng)⼀的實驗結(jié)果,結(jié)合所提出的探索中的主要挑戰(zhàn),綜述中詳細分析了各類探索策略在這些任務(wù)上的優(yōu)劣。

關(guān)于探索策略的開放問題和未來方向

盡管探索策略的研究取得了⾮常前沿的進展,但是仍然存在⼀些問題沒有被完全解決。綜述主要從以下五個⻆度討論了尚未解決的問題。

  • 在⼤規(guī)模動作空間的探索。在⼤規(guī)模動作空間上,融合表征學(xué)習(xí)、動作語義等⽅法,降低探索算法的計算復(fù)雜度仍然是⼀個急需解決的問題。
  • 在復(fù)雜任務(wù)(時間步較長、極度稀疏、延遲的獎勵設(shè)置)上的探索,雖然取得了一定的進展,⽐如蒙特祖瑪?shù)膹?fù)仇,但這些解決辦法代價通常較⼤,甚⾄要借助⼤量⼈類先驗知識。這其中還存在較多普遍性的問題值得探索。
  • ⽩噪聲問題?,F(xiàn)有的⼀些解決⽅案都需要額外估計動態(tài)模型或狀態(tài)表征,這⽆疑增加了計算消耗。除此之外,針對⽩噪聲問題,利⽤對抗訓(xùn)練等⽅式增加探索的魯棒性也是值得研究的問題。
  • 收斂性。在⾯向不確定性的探索中,線性MDP下認知不確定性是可以收斂到0的,但在深度神經(jīng)⽹絡(luò)下維度爆炸使得收斂困難。對于⾯向內(nèi)在激勵的探索,內(nèi)在激勵往往是啟發(fā)式設(shè)計的,缺乏理論上合理性論證。
  • 多智能體探索。多智能體探索的研究還處于起步階段,尚未很好地解決上述問題,如局部觀測、不穩(wěn)定、協(xié)同探索等。

主要作者介紹

楊天培博⼠,現(xiàn)任University of Alberta博⼠后研究員。楊博⼠在2021年從天津⼤學(xué)取得博⼠學(xué)位,她的研究興趣主要包括遷移強化學(xué)習(xí)和多智能體強化學(xué)習(xí)。楊博⼠致⼒于利⽤遷移學(xué)習(xí)、層次強化學(xué)習(xí)、對⼿建模等技術(shù)提升強化學(xué)習(xí)和多智能體強化學(xué)習(xí)的學(xué)習(xí)效率和性能。⽬前已在IJCAI、AAAI、ICLR、NeurIPS等頂級會議發(fā)表論⽂⼗余篇,擔(dān)任多個會議期刊的審稿⼈。

湯宏垚博⼠,天津⼤學(xué)博⼠在讀。湯博⼠的研究興趣主要包括強化學(xué)習(xí)、表征學(xué)習(xí),其學(xué)術(shù)成果發(fā)表在AAAI、IJCAI、NeurIPS、ICML等頂級會議期刊上。

⽩⾠甲博⼠,哈爾濱⼯業(yè)⼤學(xué)博⼠在讀,研究興趣包括探索與利⽤、離線強化學(xué)習(xí),學(xué)術(shù)成果發(fā)表在ICML、NeurIPS等。

劉⾦毅,天津⼤學(xué)智能與計算學(xué)部碩⼠在讀,研究興趣主要包括強化學(xué)習(xí)、離線強化學(xué)習(xí)等。

郝建業(yè)博⼠,天津⼤學(xué)智能與計算學(xué)部副教授。主要研究⽅向為深度強化學(xué)習(xí)、多智能體系統(tǒng)。發(fā)表⼈⼯智能領(lǐng)域國際會議和期刊論⽂100余篇,專著2部。主持參與國家基⾦委、科技部、天津市⼈⼯智能重⼤等科研項⽬10余項,研究成果榮獲ASE2019、DAI2019、CoRL2020最佳論⽂獎等,同時在游戲AI、⼴告及推薦、⾃動駕駛、⽹絡(luò)優(yōu)化等領(lǐng)域落地應(yīng)⽤。

 

責(zé)任編輯:張燕妮 來源: 機器之心Pro
相關(guān)推薦

2024-10-12 17:14:12

2024-09-10 15:10:00

智能強化學(xué)習(xí)框架

2022-11-02 14:02:02

強化學(xué)習(xí)訓(xùn)練

2025-01-03 11:46:31

2022-08-26 14:28:39

AI元宇宙6G

2025-04-18 10:01:41

2021-09-17 15:54:41

深度學(xué)習(xí)機器學(xué)習(xí)人工智能

2017-04-17 15:00:42

SDNNFVCSP

2015-01-20 11:35:26

2024-04-11 12:30:52

模型數(shù)據(jù)

2018-02-03 19:07:59

2015-01-26 12:16:16

IT技術(shù)周刊

2023-06-25 11:30:47

可視化

2022-09-04 14:38:00

世界模型建模IRIS

2017-08-22 15:56:49

神經(jīng)網(wǎng)絡(luò)強化學(xué)習(xí)DQN

2020-05-12 07:00:00

深度學(xué)習(xí)強化學(xué)習(xí)人工智能

2022-05-31 10:45:01

深度學(xué)習(xí)防御

2023-12-03 22:08:41

深度學(xué)習(xí)人工智能

2021-02-02 13:35:03

深度學(xué)習(xí)人工智能機器學(xué)習(xí)

2024-09-02 09:12:00

場景管理
點贊
收藏

51CTO技術(shù)棧公眾號