自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

GitHub萬星資源:強(qiáng)化學(xué)習(xí)算法實(shí)現(xiàn),教程代碼學(xué)習(xí)規(guī)劃全都有

新聞 人工智能 算法
自從有了強(qiáng)化學(xué)習(xí)(RL),AI上能星際爭(zhēng)霸,下能雅達(dá)利稱王,讓內(nèi)行人沉醉,讓外行人驚奇。

 [[273322]]

本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

自從有了強(qiáng)化學(xué)習(xí)(RL),AI上能星際爭(zhēng)霸,下能雅達(dá)利稱王,讓內(nèi)行人沉醉,讓外行人驚奇。

GitHub萬星資源:強(qiáng)化學(xué)習(xí)算法實(shí)現(xiàn),教程代碼學(xué)習(xí)規(guī)劃全都有

這里恰有一份標(biāo)星過萬的強(qiáng)化學(xué)習(xí)資源,既有教程推薦,又有配套練習(xí),網(wǎng)友學(xué)了都說好,并且還在實(shí)時(shí)更新。

入學(xué)要求并不高,只需要一些基礎(chǔ)的數(shù)學(xué)和機(jī)器學(xué)習(xí)知識(shí)。

清晰的學(xué)習(xí)路徑

GitHub萬星資源:強(qiáng)化學(xué)習(xí)算法實(shí)現(xiàn),教程代碼學(xué)習(xí)規(guī)劃全都有

想要入門強(qiáng)化學(xué)習(xí),一份優(yōu)質(zhì)的課程必不可少。

強(qiáng)化學(xué)習(xí)資源千千萬,項(xiàng)目作者 Denny Britz 大力推薦這兩個(gè):

David Silver 的強(qiáng)化學(xué)習(xí)課程

http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html

GitHub萬星資源:強(qiáng)化學(xué)習(xí)算法實(shí)現(xiàn),教程代碼學(xué)習(xí)規(guī)劃全都有

以及 Richard Sutton 和 Andrew Barto的《強(qiáng)化學(xué)習(xí):簡(jiǎn)介(第二版)》

http://incompleteideas.net/book/RLbook2018.pdf

GitHub萬星資源:強(qiáng)化學(xué)習(xí)算法實(shí)現(xiàn),教程代碼學(xué)習(xí)規(guī)劃全都有

p.s. 實(shí)測(cè)無需魔法

Denny Britz 小哥表示,這兩本書幾乎涵蓋了入門強(qiáng)化學(xué)習(xí)需要了解的大部分研究論文,基礎(chǔ)決定高度,理論知識(shí)還是要扎扎實(shí)實(shí)學(xué)起來。

理論有了,可書里并沒有算法實(shí)現(xiàn)。

別擔(dān)心,幫人幫到底,送佛送到西,Denny Britz 親自動(dòng)手,用 Python,OpenAI Gym 和 Tensorflow 實(shí)現(xiàn)了大多數(shù)標(biāo)準(zhǔn)強(qiáng)化算法,并把它們都共享了出來,方便大家配合教材食用。

GitHub萬星資源:強(qiáng)化學(xué)習(xí)算法實(shí)現(xiàn),教程代碼學(xué)習(xí)規(guī)劃全都有

簡(jiǎn)直太貼心。

在這份萬星資源里,每個(gè)文件夾都對(duì)應(yīng)著教材的一個(gè)或多個(gè)章節(jié)。除了練習(xí)和解決方案之外,每個(gè)文件夾下還包含了一系列學(xué)習(xí)目標(biāo),基礎(chǔ)概念摘要,以及相關(guān)鏈接。

基于模型的強(qiáng)化學(xué)習(xí):使用動(dòng)態(tài)規(guī)劃的策略迭代和值迭代這一章為例。

這一章配套的是 David Silver RL課程的第三講,動(dòng)態(tài)編程規(guī)劃。

首先是學(xué)習(xí)目標(biāo):

  • 了解策略評(píng)估和策略改進(jìn)之間的區(qū)別,以及這些流程如何相互作用
  • 理解策略迭代算法
  • 理解值迭代算法
  • 了解動(dòng)態(tài)規(guī)劃方法的局限性

設(shè)定好學(xué)習(xí)目標(biāo),這份教程還替你劃了重點(diǎn)概念。

GitHub萬星資源:強(qiáng)化學(xué)習(xí)算法實(shí)現(xiàn),教程代碼學(xué)習(xí)規(guī)劃全都有

最后,奉上實(shí)戰(zhàn)演練。

GitHub萬星資源:強(qiáng)化學(xué)習(xí)算法實(shí)現(xiàn),教程代碼學(xué)習(xí)規(guī)劃全都有

大框架已經(jīng)搭好,只需專注重點(diǎn)思考如何填空:

GitHub萬星資源:強(qiáng)化學(xué)習(xí)算法實(shí)現(xiàn),教程代碼學(xué)習(xí)規(guī)劃全都有

文后附標(biāo)準(zhǔn)答案:

GitHub萬星資源:強(qiáng)化學(xué)習(xí)算法實(shí)現(xiàn),教程代碼學(xué)習(xí)規(guī)劃全都有

實(shí)現(xiàn)算法列表

這份教程現(xiàn)在涵蓋了以下算法實(shí)現(xiàn)。

  • 動(dòng)態(tài)規(guī)劃策略評(píng)估
  • 動(dòng)態(tài)規(guī)劃策略迭代
  • 動(dòng)態(tài)規(guī)劃值迭代
  • 蒙特卡洛預(yù)測(cè)
  • Epslion-Greedy 策略的蒙特卡洛控制
  • 具有重要性抽樣的蒙特卡洛非策略控制
  • SARSA(策略 TD 學(xué)習(xí))
  • Q學(xué)習(xí)(非策略 TD 學(xué)習(xí))
  • 線性函數(shù)逼近的Q學(xué)習(xí)
  • 雅達(dá)利游戲的深度Q學(xué)習(xí)
  • 雅達(dá)利游戲的雙重深度Q學(xué)習(xí)
  • 優(yōu)先經(jīng)驗(yàn)回放的深度Q學(xué)習(xí)(施工中)
  • 策略梯度:基線強(qiáng)化
  • 策略梯度:基線Actor-Critic 算法
  • 策略梯度:具有連續(xù)動(dòng)作空間的基線 Actor-Critic 算法
  • 連續(xù)動(dòng)作空間的確定性策略梯度(施工中)
  • DDPG(施工中)
  • 異步優(yōu)勢(shì) Actor-Critic 算法(A3C)

學(xué)習(xí)路徑如此清晰,這樣的優(yōu)質(zhì)資源,不Mark一下嗎?

傳送門:

https://github.com/dennybritz/reinforcement-learning

 

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2020-08-10 06:36:21

強(qiáng)化學(xué)習(xí)代碼深度學(xué)習(xí)

2022-02-09 08:55:13

RAID獨(dú)立冗余磁盤陣列數(shù)據(jù)丟失

2023-06-25 11:30:47

可視化

2023-01-24 17:03:13

強(qiáng)化學(xué)習(xí)算法機(jī)器人人工智能

2022-08-11 13:49:37

機(jī)器學(xué)習(xí)技術(shù)

2018-06-04 10:58:46

機(jī)器學(xué)習(xí)預(yù)測(cè)應(yīng)用API

2018-11-13 17:12:53

戴爾

2023-03-23 16:30:53

PyTorchDDPG算法

2024-03-19 00:15:00

機(jī)器學(xué)習(xí)強(qiáng)化學(xué)習(xí)人工智能

2022-11-02 14:02:02

強(qiáng)化學(xué)習(xí)訓(xùn)練

2019-04-22 09:52:34

GitHub代碼機(jī)器學(xué)習(xí)

2023-03-09 08:00:00

強(qiáng)化學(xué)習(xí)機(jī)器學(xué)習(xí)圍棋

2019-09-29 10:42:02

人工智能機(jī)器學(xué)習(xí)技術(shù)

2024-10-12 17:14:12

2025-04-18 10:01:41

2018-11-14 10:28:38

AI數(shù)據(jù)科技

2023-11-07 07:13:31

推薦系統(tǒng)多任務(wù)學(xué)習(xí)

2022-02-17 12:57:18

Kali LinuxLinux

2025-01-03 11:46:31

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)