自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

5種用于Python的強(qiáng)化學(xué)習(xí)框架

作者：聞數(shù)起舞 2020-06-05 08:09:01

人工智能機(jī)器學(xué)習(xí)

從頭開始編寫自己的Reinforcement Learning實(shí)施可能會(huì)花費(fèi)很多工作，但是您不需要這樣做。有許多出色，簡單和免費(fèi)的框架可讓您在幾分鐘之內(nèi)開始學(xué)習(xí)。

從頭開始編寫自己的Reinforcement Learning實(shí)施可能會(huì)花費(fèi)很多工作，但是您不需要這樣做。有許多出色，簡單和免費(fèi)的框架可讓您在幾分鐘之內(nèi)開始學(xué)習(xí)。

5種用于Python的強(qiáng)化學(xué)習(xí)框架

有很多標(biāo)準(zhǔn)的庫用于監(jiān)督和無監(jiān)督的機(jī)器學(xué)習(xí)，例如Scikit-learn，XGBoost甚至Tensorflow，這些庫可以立即讓您入門，并且可以在線找到支持的日志。可悲的是，對(duì)于強(qiáng)化學(xué)習(xí)(RL)并非如此。

并不是說沒有框架，事實(shí)上，有很多RL框架。問題是尚無標(biāo)準(zhǔn)，因此很難找到在線開始，解決問題或定制解決方案的支持。這可能是由于以下事實(shí)造成的：盡管RL是一個(gè)非常受歡迎的研究主題，但它仍處于行業(yè)實(shí)施和使用的初期。

但這并不意味著就沒有強(qiáng)大的框架可以幫助您啟動(dòng)并使用RL解決您喜歡的任何問題。我在這里列出了一些我逐漸了解和使用的框架，以及它們的優(yōu)缺點(diǎn)。我希望這能為您提供有關(guān)當(dāng)前可用的RL框架的快速概述，以便您可以選擇更適合您的需求的框架。

1. Keras-RL

我必須從整個(gè)列表中承認(rèn)，這是我的最愛。我認(rèn)為，到目前為止，它是幾種RL算法的代碼實(shí)現(xiàn)的最簡單的理解，包括深度Q學(xué)習(xí)(DQN)，雙DQN，深度確定性策略梯度(DDPG)，連續(xù)DQN(CDQN或NAF)，交叉熵方法(CEM) ，決斗DQN)和SARSA。當(dāng)我說"最容易理解的代碼"時(shí)，我指的不是使用它，而是對(duì)其進(jìn)行自定義并將其用作您的項(xiàng)目的構(gòu)建塊*。 Keras-RL github還包含一些示例，您可以立即使用它們來入門。它當(dāng)然使用Keras，您可以將其與Tensorflow或PyTorch一起使用。

不幸的是，Keras-RL尚未得到很好的維護(hù)，其官方文檔也不是最好的。這為這個(gè)名為Keras-RL2的項(xiàng)目的分支提供了啟發(fā)。

(*)我使用此框架的目的是什么? 好吧，很高興您問-是我嗎? 我已經(jīng)使用此框架創(chuàng)建了定制的Tutored DQN代理，您可以在此處了解更多信息。

2. Keras-RL2

Keras-RL2是Keras-RL的一個(gè)分支，因此它與Keras-RL2共享對(duì)相同代理的支持，并且易于定制。這里最大的變化是Keras-RL2得到了更好的維護(hù)，并使用了Tensorflow 2.1.0。不幸的是，該庫沒有文檔，即使Keras-RL的文檔也可以輕松地用于此fork。

3. OpenAI Baselines

OpenAI Baselines是OpenAI的一組高質(zhì)量RL算法實(shí)現(xiàn)，OpenAI是AI尤其是RL研究和開發(fā)的領(lǐng)先公司之一。它的構(gòu)想是使研究人員可以輕松地比較其RL算法，并以O(shè)penAI的最新技術(shù)(即名稱)為基準(zhǔn)。該框架包含許多流行代理的實(shí)現(xiàn)，例如A2C，DDPG，DQN，PPO2和TRPO。

5種用于Python的強(qiáng)化學(xué)習(xí)框架

> [plots from Stable baselines benchmark.]

不利的一面是，盡管在代碼上有很多有用的注釋，但OpenAI Baselines的文檔卻不夠完善。另外，由于它被開發(fā)為用作基準(zhǔn)而不是用作構(gòu)建基塊，因此如果您要為項(xiàng)目自定義或修改某些代理，則代碼不是那么友好。實(shí)際上，下一個(gè)框架是此基礎(chǔ)上的一個(gè)分支，可以解決大多數(shù)這些問題。

4. Stable Baselines

[[329010]]

> [image from Stable Baselines documentation.]

Stable Baselines 是OpenAI Baselines的一個(gè)分支，具有主要的結(jié)構(gòu)重構(gòu)和代碼清除功能。其官方文檔站點(diǎn)中列出的更改如下：

所有算法的統(tǒng)一結(jié)構(gòu)
符合PEP8(統(tǒng)一代碼樣式)
記錄的功能和類
更多測試和更多代碼覆蓋率
附加算法：SAC和TD3(+對(duì)DQN，DDPG，SAC和TD3的HER支持)

我過去曾親自使用過"Stable Baselines"，可以確認(rèn)它確實(shí)有據(jù)可查且易于使用。甚至可以使用一個(gè)班輪來訓(xùn)練OpenAI Gym環(huán)境的代理：

from stable_baselines import PPO2PPO2model = PPO2('MlpPolicy', 'CartPole-v1').learn(10000)

5. Acme

Acme來自DeepMind，它可能是研究RL的最著名公司。這樣，它已被開發(fā)用于構(gòu)建可讀的，高效的，面向研究的RL算法，并且包含幾種最新代理的實(shí)現(xiàn)，例如D4PG，DQN，R2D2，R2D3等。 Acme使用Tensorflow作為后端，并且某些代理實(shí)現(xiàn)還使用JAX和Tensorflow的組合。

Acme的開發(fā)牢記要使其代碼盡可能地可重用，因此其設(shè)計(jì)是模塊化的，易于定制。它的文檔并不豐富，但是足以為您很好地介紹該庫，并且還提供了一些示例來幫助您入門Jupyter筆記本。

總結(jié)

此處列出的所有框架都是任何RL項(xiàng)目的可靠選擇。根據(jù)您的喜好以及要使用的功能來決定使用哪個(gè)。為了更好地可視化每個(gè)框架及其優(yōu)缺點(diǎn)，我做了以下視覺摘要：

Keras-RL — Github：RL算法的選擇：☆☆☆文檔：☆☆☆自定義：☆☆☆☆☆維護(hù)：☆后端：Keras和Tensorflow 1.14。
Keras-RL2 — Github：RL算法的選擇：☆☆☆文檔：不可用自定義：☆☆☆☆☆維護(hù)：☆☆☆后端：Keras and Tensorflow 2.1.0。
OpenAI基準(zhǔn)— Github：RL算法的選擇：☆☆☆文檔：☆☆自定義：☆☆維護(hù)：☆☆☆后端：Tensorflow 1.14。
穩(wěn)定的基線— Github：RL算法的選擇：☆☆☆☆文檔：☆☆☆☆☆自定義：☆☆☆維護(hù)：☆☆☆☆☆后端：Tensorflow 1.14。
Acme-Github：RL算法的選擇：☆☆☆☆文檔：☆☆☆自定義：☆☆☆☆維護(hù)：☆☆☆☆☆后端：Tensorflow v2 +和JAX

如果您已經(jīng)決定使用哪種框架，那么現(xiàn)在只需要一個(gè)環(huán)境即可。您可以開始使用OpenAI Gym，在這些框架的大多數(shù)示例中已經(jīng)使用了OpenAI Gym，但是如果您想在其他任務(wù)(例如交易股票，建立網(wǎng)絡(luò)關(guān)系或提出建議)上嘗試RL，則可以找到易于使用的清單。

責(zé)任編輯：趙寧寧來源：今日頭條

Python 強(qiáng)化學(xué)習(xí)框架

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<ol id="wczca"><var id="wczca"></var></ol>