自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

5種用于Python的強(qiáng)化學(xué)習(xí)框架

人工智能 機(jī)器學(xué)習(xí)
從頭開始編寫自己的Reinforcement Learning實(shí)施可能會(huì)花費(fèi)很多工作,但是您不需要這樣做。 有許多出色,簡單和免費(fèi)的框架可讓您在幾分鐘之內(nèi)開始學(xué)習(xí)。

從頭開始編寫自己的Reinforcement Learning實(shí)施可能會(huì)花費(fèi)很多工作,但是您不需要這樣做。 有許多出色,簡單和免費(fèi)的框架可讓您在幾分鐘之內(nèi)開始學(xué)習(xí)。

5種用于Python的強(qiáng)化學(xué)習(xí)框架

有很多標(biāo)準(zhǔn)的庫用于監(jiān)督和無監(jiān)督的機(jī)器學(xué)習(xí),例如Scikit-learn,XGBoost甚至Tensorflow,這些庫可以立即讓您入門,并且可以在線找到支持的日志。 可悲的是,對(duì)于強(qiáng)化學(xué)習(xí)(RL)并非如此。

并不是說沒有框架,事實(shí)上,有很多RL框架。 問題是尚無標(biāo)準(zhǔn),因此很難找到在線開始,解決問題或定制解決方案的支持。 這可能是由于以下事實(shí)造成的:盡管RL是一個(gè)非常受歡迎的研究主題,但它仍處于行業(yè)實(shí)施和使用的初期。

但這并不意味著就沒有強(qiáng)大的框架可以幫助您啟動(dòng)并使用RL解決您喜歡的任何問題。 我在這里列出了一些我逐漸了解和使用的框架,以及它們的優(yōu)缺點(diǎn)。 我希望這能為您提供有關(guān)當(dāng)前可用的RL框架的快速概述,以便您可以選擇更適合您的需求的框架。

1. Keras-RL

[[329009]]

我必須從整個(gè)列表中承認(rèn),這是我的最愛。 我認(rèn)為,到目前為止,它是幾種RL算法的代碼實(shí)現(xiàn)的最簡單的理解,包括深度Q學(xué)習(xí)(DQN),雙DQN,深度確定性策略梯度(DDPG),連續(xù)DQN(CDQN或NAF),交叉熵方法(CEM) ,決斗DQN)和SARSA。 當(dāng)我說"最容易理解的代碼"時(shí),我指的不是使用它,而是對(duì)其進(jìn)行自定義并將其用作您的項(xiàng)目的構(gòu)建塊*。 Keras-RL github還包含一些示例,您可以立即使用它們來入門。 它當(dāng)然使用Keras,您可以將其與Tensorflow或PyTorch一起使用。

不幸的是,Keras-RL尚未得到很好的維護(hù),其官方文檔也不是最好的。 這為這個(gè)名為Keras-RL2的項(xiàng)目的分支提供了啟發(fā)。

(*)我使用此框架的目的是什么? 好吧,很高興您問-是我嗎? 我已經(jīng)使用此框架創(chuàng)建了定制的Tutored DQN代理,您可以在此處了解更多信息。

2. Keras-RL2

Keras-RL2是Keras-RL的一個(gè)分支,因此它與Keras-RL2共享對(duì)相同代理的支持,并且易于定制。 這里最大的變化是Keras-RL2得到了更好的維護(hù),并使用了Tensorflow 2.1.0。 不幸的是,該庫沒有文檔,即使Keras-RL的文檔也可以輕松地用于此fork。

3. OpenAI Baselines

OpenAI Baselines是OpenAI的一組高質(zhì)量RL算法實(shí)現(xiàn),OpenAI是AI尤其是RL研究和開發(fā)的領(lǐng)先公司之一。 它的構(gòu)想是使研究人員可以輕松地比較其RL算法,并以O(shè)penAI的最新技術(shù)(即名稱)為基準(zhǔn)。 該框架包含許多流行代理的實(shí)現(xiàn),例如A2C,DDPG,DQN,PPO2和TRPO。

5種用于Python的強(qiáng)化學(xué)習(xí)框架

> [plots from Stable baselines benchmark.]

不利的一面是,盡管在代碼上有很多有用的注釋,但OpenAI Baselines的文檔卻不夠完善。 另外,由于它被開發(fā)為用作基準(zhǔn)而不是用作構(gòu)建基塊,因此如果您要為項(xiàng)目自定義或修改某些代理,則代碼不是那么友好。 實(shí)際上,下一個(gè)框架是此基礎(chǔ)上的一個(gè)分支,可以解決大多數(shù)這些問題。

4. Stable Baselines

[[329010]]

> [image from Stable Baselines documentation.]

Stable Baselines 是OpenAI Baselines的一個(gè)分支,具有主要的結(jié)構(gòu)重構(gòu)和代碼清除功能。 其官方文檔站點(diǎn)中列出的更改如下:

  • 所有算法的統(tǒng)一結(jié)構(gòu)
  • 符合PEP8(統(tǒng)一代碼樣式)
  • 記錄的功能和類
  • 更多測試和更多代碼覆蓋率
  • 附加算法:SAC和TD3(+對(duì)DQN,DDPG,SAC和TD3的HER支持)

我過去曾親自使用過"Stable Baselines",可以確認(rèn)它確實(shí)有據(jù)可查且易于使用。 甚至可以使用一個(gè)班輪來訓(xùn)練OpenAI Gym環(huán)境的代理:

  1. from stable_baselines import PPO2PPO2model = PPO2('MlpPolicy', 'CartPole-v1').learn(10000) 

5. Acme

[[329011]]

Acme來自DeepMind,它可能是研究RL的最著名公司。 這樣,它已被開發(fā)用于構(gòu)建可讀的,高效的,面向研究的RL算法,并且包含幾種最新代理的實(shí)現(xiàn),例如D4PG,DQN,R2D2,R2D3等。 Acme使用Tensorflow作為后端,并且某些代理實(shí)現(xiàn)還使用JAX和Tensorflow的組合。

Acme的開發(fā)牢記要使其代碼盡可能地可重用,因此其設(shè)計(jì)是模塊化的,易于定制。 它的文檔并不豐富,但是足以為您很好地介紹該庫,并且還提供了一些示例來幫助您入門Jupyter筆記本。

總結(jié)

此處列出的所有框架都是任何RL項(xiàng)目的可靠選擇。 根據(jù)您的喜好以及要使用的功能來決定使用哪個(gè)。 為了更好地可視化每個(gè)框架及其優(yōu)缺點(diǎn),我做了以下視覺摘要:

  • Keras-RL — Github:RL算法的選擇:☆☆☆文檔:☆☆☆自定義:☆☆☆☆☆維護(hù):☆后端:Keras和Tensorflow 1.14。
  • Keras-RL2 — Github:RL算法的選擇:☆☆☆文檔:不可用自定義:☆☆☆☆☆維護(hù):☆☆☆后端:Keras and Tensorflow 2.1.0。
  • OpenAI基準(zhǔn)— Github:RL算法的選擇:☆☆☆文檔:☆☆自定義:☆☆維護(hù):☆☆☆后端:Tensorflow 1.14。
  • 穩(wěn)定的基線— Github:RL算法的選擇:☆☆☆☆文檔:☆☆☆☆☆自定義:☆☆☆維護(hù):☆☆☆☆☆后端:Tensorflow 1.14。
  • Acme-Github:RL算法的選擇:☆☆☆☆文檔:☆☆☆自定義:☆☆☆☆維護(hù):☆☆☆☆☆后端:Tensorflow v2 +和JAX

如果您已經(jīng)決定使用哪種框架,那么現(xiàn)在只需要一個(gè)環(huán)境即可。 您可以開始使用OpenAI Gym,在這些框架的大多數(shù)示例中已經(jīng)使用了OpenAI Gym,但是如果您想在其他任務(wù)(例如交易股票,建立網(wǎng)絡(luò)關(guān)系或提出建議)上嘗試RL,則可以找到易于使用的清單。

 

責(zé)任編輯:趙寧寧 來源: 今日頭條
相關(guān)推薦

2024-12-09 08:45:00

模型AI

2020-11-16 08:54:05

Google 開源技術(shù)

2021-09-26 13:50:52

AI 數(shù)據(jù)強(qiáng)化學(xué)習(xí)

2018-08-29 08:13:22

Google 學(xué)習(xí)框架技術(shù)

2023-03-09 08:00:00

強(qiáng)化學(xué)習(xí)機(jī)器學(xué)習(xí)圍棋

2020-08-10 06:36:21

強(qiáng)化學(xué)習(xí)代碼深度學(xué)習(xí)

2024-08-28 13:53:42

多代理強(qiáng)化學(xué)習(xí)機(jī)器人

2021-09-17 15:54:41

深度學(xué)習(xí)機(jī)器學(xué)習(xí)人工智能

2024-01-30 09:00:28

框架BMRL模型

2020-11-12 19:31:41

強(qiáng)化學(xué)習(xí)人工智能機(jī)器學(xué)習(xí)

2020-04-27 09:52:03

預(yù)測銷售機(jī)器學(xué)習(xí)ML

2022-11-02 14:02:02

強(qiáng)化學(xué)習(xí)訓(xùn)練

2023-11-07 07:13:31

推薦系統(tǒng)多任務(wù)學(xué)習(xí)

2019-01-31 10:42:04

框架AI開發(fā)

2023-07-20 15:18:42

2019-09-29 10:42:02

人工智能機(jī)器學(xué)習(xí)技術(shù)

2020-05-06 16:07:05

百度飛槳

2025-02-07 16:15:27

2024-04-03 07:56:50

推薦系統(tǒng)多任務(wù)推薦

2020-05-12 07:00:00

深度學(xué)習(xí)強(qiáng)化學(xué)習(xí)人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)