自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

從Zero到Hero,OpenAI重磅發(fā)布深度強(qiáng)化學(xué)習(xí)資源

新聞 深度學(xué)習(xí)
OpenAI 發(fā)布了 Spinning Up,這是一份教學(xué)資源,旨在讓所有人熟練掌握深度強(qiáng)化學(xué)習(xí)方面的技能。

 OpenAI 發(fā)布了 Spinning Up,這是一份教學(xué)資源,旨在讓所有人熟練掌握深度強(qiáng)化學(xué)習(xí)方面的技能。Spinning Up 包含清晰的 RL 代碼示例、習(xí)題、文檔和教程。

在項(xiàng)目主頁(yè)中,OpenAI 提供了非常完整的使用教程,包括 Spinning Up 的詳細(xì)介紹、各種環(huán)境下的安裝方法、收錄的算法,以及實(shí)驗(yàn)實(shí)現(xiàn)的教程等。除此之外,OpenAI 也提供了豐厚的學(xué)習(xí)資料,包括強(qiáng)化學(xué)習(xí)的入門(mén)基礎(chǔ)、結(jié)合 Spinning Up 學(xué)習(xí) RL 的課程、論文推薦、實(shí)驗(yàn)練習(xí)和基準(zhǔn)結(jié)果參考等。給人的***印象就是,要想在深度強(qiáng)化學(xué)習(xí)上從 Zero 到 Hero,天天逛這個(gè)網(wǎng)站就夠了~

項(xiàng)目地址:https://spinningup.openai.com/en/latest/

在 Deep RL 中邁出***步

[[249339]]

OpenAI 相信深度學(xué)習(xí)——特別是深度強(qiáng)化學(xué)習(xí)——將在強(qiáng)大是 AI 技術(shù)發(fā)展中發(fā)揮核心作用。雖然有很多資源可以讓人們快速了解深度學(xué)習(xí),但深度強(qiáng)化學(xué)習(xí)更具挑戰(zhàn)性。為此,OpenAI 設(shè)計(jì)了 Spinning Up 來(lái)幫助人們學(xué)會(huì)使用這些技術(shù)并擴(kuò)展關(guān)于它們的一些想法。

OpenAI 設(shè)計(jì) Spinning Up 的靈感來(lái)源于與該機(jī)構(gòu)學(xué)者和研究員的合作,通過(guò)該合作,他們發(fā)現(xiàn),如果獲得正確的指導(dǎo)和資源,在機(jī)器學(xué)習(xí)方面經(jīng)驗(yàn)甚少甚至沒(méi)有經(jīng)驗(yàn)的人也可以快速成長(zhǎng)為從業(yè)者。在 Deep RL 中開(kāi)發(fā)的 Spinning Up 正是為這種需求準(zhǔn)備的,該資源已被納入了 2019 年的學(xué)者和研究員團(tuán)隊(duì)課程(https://blog.openai.com/openai-scholars-2019/)。

[[249340]]

OpenAI 還發(fā)現(xiàn),具有 RL 方面的能力可以幫助人們參與跨學(xué)科研究領(lǐng)域,如 AI 安全——涉及強(qiáng)化學(xué)習(xí)和其它技能的混合。還有很多從零開(kāi)始學(xué)習(xí) RL 的人向 OpenAI 尋求建議,因此他們決定把提供的這些非正式建議正式發(fā)布出來(lái)。

Spinning Up 主要包含以下核心內(nèi)容:

  • 強(qiáng)化學(xué)習(xí)技術(shù)的簡(jiǎn)介,包含各種算法和基本理論的直觀(guān)理解;
  • 一些介紹如何才能做好強(qiáng)化學(xué)習(xí)研究的經(jīng)驗(yàn);
  • 重要論文的實(shí)現(xiàn),按照主題進(jìn)行分類(lèi);
  • 各種強(qiáng)化學(xué)習(xí)算法的單獨(dú)實(shí)現(xiàn),它們都有非常完善的介紹文檔;
  • ***還會(huì)有一些熱身練習(xí)題。

整個(gè)項(xiàng)目主要可以分為用戶(hù)文檔、強(qiáng)化學(xué)習(xí)簡(jiǎn)介、資源、算法文檔和 Utilities 文檔。其中用戶(hù)文檔主要介紹了學(xué)習(xí)該項(xiàng)目所需要的一些準(zhǔn)備,包括怎樣安裝 Python 和 OpenAI Gym 等強(qiáng)化學(xué)習(xí)環(huán)境,學(xué)習(xí)資源的主要內(nèi)容以及實(shí)戰(zhàn)所需要注意的事項(xiàng)等。

在強(qiáng)化學(xué)習(xí)簡(jiǎn)介中,OpenAI 主要討論了 RL 中的關(guān)鍵概念、關(guān)鍵算法和策略?xún)?yōu)化等內(nèi)容。根據(jù)這一部分的內(nèi)容,至少我們會(huì)對(duì)強(qiáng)化學(xué)習(xí)有一個(gè)清晰的認(rèn)識(shí),也就正式從小白到入門(mén)了。簡(jiǎn)介后面的資源章節(jié)才是進(jìn)階者的***,OpenAI 會(huì)先介紹如何才能做好強(qiáng)化學(xué)習(xí)研究,包括需要怎樣的背景知識(shí)、如何寫(xiě) RL 代碼及思考強(qiáng)化學(xué)習(xí)問(wèn)題等。當(dāng)然這一部分還提供了非常多的「硬資源」,OpenAI 按照 12 大研究主題提供了 98 篇「必讀」論文,并提供了其它一些練習(xí)題與挑戰(zhàn)賽。

估計(jì)等讀者搞定資源部分,就可以成為真正的強(qiáng)化學(xué)習(xí)研究者了。當(dāng)然我們也可以跳過(guò)直接學(xué)習(xí)第三部分的算法文檔,它包含了策略梯度、策略?xún)?yōu)化和 Actor-Critic 等多種主流強(qiáng)化學(xué)習(xí)算法。只要我們完成了***部分的前提準(zhǔn)備,第三部分的各種算法就能手到擒來(lái)。此外對(duì)于每一個(gè) RL 算法,文檔都會(huì)提供全面的介紹,包括基本思想、公式定理、模型組件和參數(shù)等。

支持

該項(xiàng)目具有以下支持計(jì)劃:

  • 高帶寬軟件支持期:發(fā)布后的前三周,OpenAI 將快速處理 bug 修復(fù)、安裝問(wèn)題,以及解決文檔中的錯(cuò)誤和歧義。我們將努力簡(jiǎn)化用戶(hù)體驗(yàn),使用 Spinning Up 自學(xué)變得盡可能簡(jiǎn)單。
  • 2019 年 4 月的主要審查:發(fā)布約六個(gè)月后,OpenAI 將基于從學(xué)習(xí)社區(qū)收到的反饋認(rèn)真審查軟件包的狀態(tài),并宣布任何未來(lái)修改的計(jì)劃。
  • 內(nèi)部開(kāi)發(fā)的公開(kāi)發(fā)布:如果 OpenAI 在與學(xué)者和研究員一起工作時(shí),對(duì) Deep RL 中的 Spinning Up 進(jìn)行了修改,OpenAI 會(huì)將修改發(fā)至公共報(bào)告,并立即向所有人開(kāi)放。

OpenAI 還將與其它組織合作來(lái)幫助人們學(xué)會(huì)使用這些材料。他們的***個(gè)合作伙伴是加州大學(xué)伯克利分校的 Center for Human-Compatible AI (CHAI),并將在 2019 年初合作舉辦一個(gè)關(guān)于深度 RL 的研修班,類(lèi)似于計(jì)劃在 OpenAI 舉辦的 Spinning Up 研修班。

Hello World

感受深度強(qiáng)化學(xué)習(xí)算法表現(xiàn)如何的***方式就是運(yùn)行它們。而有了 Spinning Up,這變得非常簡(jiǎn)單:

python -m spinup.run ppo --env CartPole-v1 --exp_name hello_world

在訓(xùn)練結(jié)束時(shí),你將獲得關(guān)于如何從實(shí)驗(yàn)中查看數(shù)據(jù)以及觀(guān)看訓(xùn)練智能體視頻的指導(dǎo)。

Spinning Up 實(shí)現(xiàn)與 Classic Control、Box2D 和 MuJoCo 任務(wù)套件中的 Gym 環(huán)境兼容。

考慮到新學(xué)者,我們?yōu)?Spinning Up 設(shè)計(jì)了代碼,使其更短、更友好,也更加容易學(xué)習(xí)。我們的目標(biāo)是用最小的實(shí)現(xiàn)來(lái)演示理論如何變成代碼,避免深度強(qiáng)化學(xué)習(xí)庫(kù)中常見(jiàn)的抽象層和模糊層。我們傾向于清晰化而不是模塊化——實(shí)現(xiàn)之間的代碼重用嚴(yán)格受限于日志和并行實(shí)用程序。給代碼加注釋?zhuān)@樣你就總能知道事情的進(jìn)展,并在相應(yīng)的文檔頁(yè)面上得到背景材料(和偽代碼)的支持。

學(xué)習(xí)資源概覽

在整個(gè)項(xiàng)目中,強(qiáng)化學(xué)習(xí)簡(jiǎn)介部分和算法部分可能是很多數(shù)讀者都非常感興趣的章節(jié),下面主要介紹了這兩部分包含的內(nèi)容。首先在強(qiáng)化學(xué)習(xí)簡(jiǎn)介中,關(guān)鍵概念是必須解釋清楚的:

從Zero到Hero,OpenAI重磅發(fā)布深度強(qiáng)化學(xué)習(xí)資源
  • 狀態(tài)和觀(guān)察值;
  • 動(dòng)作空間;
  • 策略;
  • 軌跡;
  • 不同形式化的獎(jiǎng)勵(lì);
  • RL ***化問(wèn)題;
  • 值函數(shù)。

在關(guān)鍵概念之后,OpenAI 詳細(xì)介紹了各種強(qiáng)化學(xué)習(xí)算法及技術(shù)在整體所處的位置。如下所示,強(qiáng)化學(xué)習(xí)也是個(gè)桃李滿(mǎn)天下的大家族:

從Zero到Hero,OpenAI重磅發(fā)布深度強(qiáng)化學(xué)習(xí)資源

***在強(qiáng)化學(xué)習(xí)簡(jiǎn)介部分,OpenAI 還重點(diǎn)介紹了策略?xún)?yōu)化,這一部分有挺多推導(dǎo)的,尤其是梯度的推導(dǎo)。不過(guò)好消息是這些推導(dǎo)都給出了詳細(xì)的過(guò)程,包括變換、消元和一些對(duì)數(shù)技巧等。讀者可以感受下推導(dǎo)過(guò)程:

從Zero到Hero,OpenAI重磅發(fā)布深度強(qiáng)化學(xué)習(xí)資源

此外在算法章節(jié),Spinning Up 還收錄了很多重要的強(qiáng)化學(xué)習(xí)算法,在項(xiàng)目頁(yè)上也給出了各個(gè)算法的詳細(xì)介紹和調(diào)用方法。

從Zero到Hero,OpenAI重磅發(fā)布深度強(qiáng)化學(xué)習(xí)資源

Spinning Up 收錄的算法。

從Zero到Hero,OpenAI重磅發(fā)布深度強(qiáng)化學(xué)習(xí)資源

比如策略梯度算法,如上圖所示,文檔中會(huì)給出關(guān)鍵的方程、偽代碼、使用方法以及參考文獻(xiàn)。

從Zero到Hero,OpenAI重磅發(fā)布深度強(qiáng)化學(xué)習(xí)資源

策略梯度算法的有限時(shí)域未折扣回報(bào)的梯度期望,以及策略參數(shù)的梯度更新方法。

從Zero到Hero,OpenAI重磅發(fā)布深度強(qiáng)化學(xué)習(xí)資源

策略梯度算法的偽代碼。

從Zero到Hero,OpenAI重磅發(fā)布深度強(qiáng)化學(xué)習(xí)資源

策略梯度算法的調(diào)用函數(shù),我們可以看到,Spinning Up 提供的函數(shù)調(diào)用可以直接設(shè)置參數(shù)。文檔還提供了詳細(xì)的參數(shù)解釋。

從Zero到Hero,OpenAI重磅發(fā)布深度強(qiáng)化學(xué)習(xí)資源

策略梯度算法的參考文獻(xiàn)。

Spinning Up 提供了 MuJoCo Gym 任務(wù)套件的 5 個(gè)環(huán)境下的算法實(shí)現(xiàn)基準(zhǔn),包括 HalfCheetah、Hopper、Walker2d、Swimmer、Ant。

從Zero到Hero,OpenAI重磅發(fā)布深度強(qiáng)化學(xué)習(xí)資源

HalfCheetah-2 環(huán)境下訓(xùn)練 3 百萬(wàn)時(shí)間步的基準(zhǔn)結(jié)果。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2017-08-22 15:56:49

神經(jīng)網(wǎng)絡(luò)強(qiáng)化學(xué)習(xí)DQN

2017-11-28 15:20:27

Python語(yǔ)言編程

2017-10-18 17:16:59

ZeroHeroPython

2021-09-17 15:54:41

深度學(xué)習(xí)機(jī)器學(xué)習(xí)人工智能

2017-08-17 09:15:23

強(qiáng)化學(xué)習(xí)KerasOpenAI

2017-03-27 16:35:23

2017-03-28 10:15:07

2022-07-11 11:14:47

強(qiáng)化學(xué)習(xí)AI基于模型

2017-07-25 16:04:31

概念應(yīng)用強(qiáng)化學(xué)習(xí)

2024-09-13 06:32:25

2021-09-26 13:50:52

AI 數(shù)據(jù)強(qiáng)化學(xué)習(xí)

2020-05-06 16:07:05

百度飛槳

2022-09-04 14:38:00

世界模型建模IRIS

2025-02-03 06:00:00

2020-05-12 07:00:00

深度學(xué)習(xí)強(qiáng)化學(xué)習(xí)人工智能

2022-05-31 10:45:01

深度學(xué)習(xí)防御

2023-12-03 22:08:41

深度學(xué)習(xí)人工智能

2023-08-05 13:08:54

2023-05-25 09:00:00

人工智能ChatGPTOpenAI

2023-01-04 10:02:53

強(qiáng)化學(xué)習(xí)自動(dòng)駕駛
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)