自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Google開(kāi)源了其大規(guī)模強(qiáng)化學(xué)習(xí)的框架

新聞 開(kāi)源
深度強(qiáng)化學(xué)習(xí)(DRL)是深度學(xué)習(xí)領(lǐng)域研究最快的領(lǐng)域之一。DRL負(fù)責(zé)AI近年來(lái)的一些頂級(jí)里程碑,例如AlphaGo,Dota2 Five或Alpha Star,DRL似乎是最接近人類(lèi)智能的學(xué)科。

深度強(qiáng)化學(xué)習(xí)(DRL)是深度學(xué)習(xí)領(lǐng)域研究最快的領(lǐng)域之一。DRL負(fù)責(zé)AI近年來(lái)的一些頂級(jí)里程碑,例如AlphaGo,Dota2 Five或Alpha Star,DRL似乎是最接近人類(lèi)智能的學(xué)科。但是,盡管取得了所有進(jìn)展,但DRL方法在現(xiàn)實(shí)世界中的實(shí)現(xiàn)仍然受限于大型人工智能(AI)實(shí)驗(yàn)室。部分原因是DRL體系結(jié)構(gòu)依賴(lài)不成比例的大量培訓(xùn),這使得它們對(duì)大多數(shù)組織而言在計(jì)算上昂貴且不切實(shí)際。最近,Google Research發(fā)表了一篇論文,提出了SEED RL,這是一種可大規(guī)模擴(kuò)展的DRL模型的新架構(gòu)。

[[352276]]

在現(xiàn)實(shí)世界中實(shí)現(xiàn)DRL模型的挑戰(zhàn)與它們的體系結(jié)構(gòu)直接相關(guān)。 本質(zhì)上,DRL包含各種任務(wù),例如運(yùn)行環(huán)境,模型推斷,模型訓(xùn)練或重放緩沖區(qū)。 大多數(shù)現(xiàn)代DRL體系結(jié)構(gòu)無(wú)法有效地分配用于此任務(wù)的計(jì)算資源,從而使其實(shí)施成本不合理。 諸如AI硬件加速器之類(lèi)的組件已幫助解決了其中一些限制,但它們只能走得那么遠(yuǎn)。 近年來(lái),出現(xiàn)了新架構(gòu),這些新架構(gòu)已被市場(chǎng)上許多最成功的DRL實(shí)現(xiàn)所采用。

從IMPALA汲取靈感

在當(dāng)前的DRL體系結(jié)構(gòu)中,IMPALA為該領(lǐng)域樹(shù)立了新的標(biāo)準(zhǔn)。IMPALA最初是由DeepMind在2018年的研究論文中提出的,它引入了一種模型,該模型利用專(zhuān)門(mén)用于數(shù)值計(jì)算的加速器,充分利用了監(jiān)督學(xué)習(xí)多年來(lái)受益的速度和效率。IMPALA的中心是一個(gè)基于參與者的模型,該模型通常用于最大化并發(fā)和并行化。

基于IMPALA的DRL代理的體系結(jié)構(gòu)分為兩個(gè)主要組件:參與者和學(xué)習(xí)者。在此模型中,參與者通常在CPU上運(yùn)行,并在環(huán)境中采取的步驟與對(duì)該模型進(jìn)行推斷之間進(jìn)行迭代,以預(yù)測(cè)下一個(gè)動(dòng)作。參與者經(jīng)常會(huì)更新推理模型的參數(shù),并且在收集到足夠數(shù)量的觀察結(jié)果之后,會(huì)將觀察結(jié)果和動(dòng)作的軌跡發(fā)送給學(xué)習(xí)者,從而對(duì)學(xué)習(xí)者進(jìn)行優(yōu)化。在這種體系結(jié)構(gòu)中,學(xué)習(xí)者使用來(lái)自數(shù)百臺(tái)機(jī)器上的分布式推理的輸入在GPU上訓(xùn)練模型。從計(jì)算的角度來(lái)看,IMPALA體系結(jié)構(gòu)可以使用GPU加速學(xué)習(xí)者的學(xué)習(xí),而參與者可以在許多機(jī)器上進(jìn)行擴(kuò)展。

> Source: https://ai.googleblog.com/2020/03/massively-scaling-reinforcement.html

IMPALA在DRL體系結(jié)構(gòu)中建立了新標(biāo)準(zhǔn)。 但是,該模型具有一些固有的局限性。

·使用CPU進(jìn)行神經(jīng)網(wǎng)絡(luò)推斷:參與者機(jī)器通?;贑PU。 當(dāng)模型的計(jì)算需求增加時(shí),推理所花費(fèi)的時(shí)間開(kāi)始超過(guò)環(huán)境步長(zhǎng)的計(jì)算。 解決方案是增加參與者的數(shù)量,這會(huì)增加成本并影響融合。

·資源利用效率低下:參與者在兩個(gè)任務(wù)之間交替進(jìn)行:環(huán)境步驟和推斷步驟。這兩個(gè)任務(wù)的計(jì)算要求通常不相似,從而導(dǎo)致利用率低下或參與者行動(dòng)緩慢。

·帶寬要求:模型參數(shù),循環(huán)狀態(tài)和觀察值在參與者和學(xué)習(xí)者之間傳遞。此外,基于內(nèi)存的模型會(huì)發(fā)送大狀態(tài),從而增加了帶寬需求。

Google以IMPALA actor模型為靈感,開(kāi)發(fā)了一種新架構(gòu),該架構(gòu)解決了其前身在DRL模型縮放方面的一些局限性。

種子RL

總體而言,Google的SEED RL體系結(jié)構(gòu)與IMPALA極為相似,但它引入了一些變體,解決了DeepMind模型的一些主要限制。 在SEED RL中,神經(jīng)網(wǎng)絡(luò)推理由學(xué)習(xí)者在專(zhuān)用硬件(GPU或TPU)上集中完成,從而通過(guò)確保模型參數(shù)和狀態(tài)保持局部狀態(tài)來(lái)加快推理速度并避免數(shù)據(jù)傳輸瓶頸。 對(duì)于每個(gè)環(huán)境步驟,都會(huì)發(fā)送觀測(cè)值

給學(xué)習(xí)者,學(xué)習(xí)者進(jìn)行推理并將動(dòng)作發(fā)送回參與者。這個(gè)聰明的解決方案解決了IMPALA等模型的推理限制,但可能會(huì)帶來(lái)延遲挑戰(zhàn)。

為了最大程度地減少延遲影響,SEED RL依靠gPRC進(jìn)行消息傳遞和流傳輸。 具體來(lái)說(shuō),SEED RL利用流式RPC,從參與者到學(xué)習(xí)者的連接保持打開(kāi)狀態(tài),元數(shù)據(jù)僅發(fā)送一次。 此外,該框架包括一個(gè)批處理模塊,該模塊可有效地將多個(gè)參與者推理調(diào)用一起批處理。

> Source: https://ai.googleblog.com/2020/03/massively-scaling-reinforcement.html

深入研究IMPALA架構(gòu),將運(yùn)行三種基本類(lèi)型的線程:

1.推論

2.數(shù)據(jù)預(yù)取

3.訓(xùn)練

推理線程會(huì)收到一批觀察,獎(jiǎng)勵(lì)和情節(jié)終止標(biāo)志。它們加載循環(huán)狀態(tài)并將數(shù)據(jù)發(fā)送到推理TPU內(nèi)核。接收采樣的動(dòng)作和新的重復(fù)狀態(tài),并且在存儲(chǔ)最新的重復(fù)狀態(tài)的同時(shí),將動(dòng)作發(fā)送回參與者。軌跡完全展開(kāi)后,它將添加到FIFO隊(duì)列或重播緩沖區(qū)中,然后由數(shù)據(jù)預(yù)取線程進(jìn)行采樣。最后,將軌跡推入設(shè)備緩沖區(qū),以供每個(gè)參加訓(xùn)練的TPU內(nèi)核使用。訓(xùn)練線程(Python主線程)采用預(yù)取的軌跡,使用訓(xùn)練的TPU內(nèi)核計(jì)算梯度,并將梯度同步應(yīng)用于所有TPU內(nèi)核的模型(推理和訓(xùn)練)??梢哉{(diào)整推理和訓(xùn)練核心的比率,以實(shí)現(xiàn)最大的吞吐量和利用率。

> Source: https://arxiv.org/abs/1910.06591

SEED RL體系結(jié)構(gòu)允許將學(xué)習(xí)者擴(kuò)展到成千上萬(wàn)個(gè)內(nèi)核,而參與者的數(shù)量也可以擴(kuò)展到成千上萬(wàn)臺(tái)機(jī)器,以充分利用學(xué)習(xí)者,從而可以以每秒數(shù)百萬(wàn)幀的速度進(jìn)行訓(xùn)練。鑒于SEED RL基于TensorFlow 2 API,并且TPU加速了其性能。

為了評(píng)估SEED RL,Google使用了常見(jiàn)的DRL基準(zhǔn)測(cè)試環(huán)境,例如cade學(xué)習(xí)環(huán)境,DeepMind Lab環(huán)境以及最近發(fā)布的Google Research Football環(huán)境。 在所有環(huán)境下的結(jié)果都是驚人的。 例如,在DeepMind實(shí)驗(yàn)室環(huán)境中,SEED RL使用64個(gè)Cloud TPU內(nèi)核達(dá)到了每秒240萬(wàn)幀,這比以前的最新分布式代理IMPALA提高了80倍。 還看到了速度和CPU利用率的提高。

> Source: https://ai.googleblog.com/2020/03/massively-scaling-reinforcement.html

SEED RL代表了可大規(guī)模擴(kuò)展的DRL模型的改進(jìn)。 Google Research在GitHub上開(kāi)源了最初的SEED RL體系結(jié)構(gòu)。 我可以想象,在可預(yù)見(jiàn)的將來(lái),這將成為許多實(shí)際DRL實(shí)現(xiàn)的基礎(chǔ)模型。

 

責(zé)任編輯:張燕妮 來(lái)源: 今日頭條
相關(guān)推薦

2020-10-15 19:22:09

Menger機(jī)器學(xué)習(xí)強(qiáng)化學(xué)習(xí)

2023-04-06 16:29:18

模型AI

2021-07-22 15:25:14

開(kāi)源技術(shù) 框架

2020-06-05 08:09:01

Python強(qiáng)化學(xué)習(xí)框架

2019-09-29 10:42:02

人工智能機(jī)器學(xué)習(xí)技術(shù)

2017-11-06 10:15:36

機(jī)器學(xué)習(xí)框架Tensorflow

2024-12-09 08:45:00

模型AI

2022-12-09 14:07:11

框架開(kāi)源

2014-01-17 09:38:07

Twitter開(kāi)源流處理

2011-11-21 10:04:52

Java開(kāi)源Google

2023-09-12 13:28:36

AI模型

2013-05-14 13:30:08

部署SaaS云計(jì)算

2018-08-29 08:13:22

Google 學(xué)習(xí)框架技術(shù)

2023-03-09 08:00:00

強(qiáng)化學(xué)習(xí)機(jī)器學(xué)習(xí)圍棋

2020-08-10 06:36:21

強(qiáng)化學(xué)習(xí)代碼深度學(xué)習(xí)

2013-05-22 09:40:57

大規(guī)模部署SaaSSaaS

2013-05-16 10:02:43

SaaS云計(jì)算部署

2017-09-11 15:19:05

CoCoA機(jī)器學(xué)習(xí)分布式

2024-11-29 16:33:24

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)