自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

上海交大開(kāi)源訓(xùn)練框架,支持大規(guī)?;诜N群多智能體強(qiáng)化學(xué)習(xí)訓(xùn)練

新聞 人工智能
在深度學(xué)習(xí)領(lǐng)域,算力從來(lái)都是我們關(guān)心的一個(gè)重點(diǎn),也是影響人工智能算法落地的一個(gè)關(guān)鍵因素。

  基于種群的多智能體深度強(qiáng)化學(xué)習(xí)(PB-MARL)方法在星際爭(zhēng)霸、王者榮耀等游戲AI上已經(jīng)得到成功驗(yàn)證,MALib 則是首個(gè)專(zhuān)門(mén)面向 PB-MARL 的開(kāi)源大規(guī)模并行訓(xùn)練框架。MALib 支持豐富的種群訓(xùn)練方式(例如,self-play, PSRO, league training),并且實(shí)現(xiàn)和優(yōu)化了常見(jiàn)多智能體深度強(qiáng)化學(xué)習(xí)算法,為研究人員降低并行化工作量的同時(shí),大幅提升了訓(xùn)練效率。此外,MALib 基于 Ray 的底層分布式框架,實(shí)現(xiàn)了全新的中心化任務(wù)分發(fā)模型,相較于常見(jiàn)的多智能體強(qiáng)化學(xué)習(xí)訓(xùn)練框架(RLlib,PyMARL,OpenSpiel),相同硬件條件下吞吐量和訓(xùn)練速度有著數(shù)倍的提升?,F(xiàn)階段,MALib 已對(duì)接常見(jiàn)多智能體環(huán)境(星際爭(zhēng)霸、谷歌足球、棋牌類(lèi)、多人 Atari 等),后續(xù)將進(jìn)一步提供對(duì)自動(dòng)駕駛、智能電網(wǎng)等場(chǎng)景的支持。

項(xiàng)目主頁(yè):https://malib.io。

在深度學(xué)習(xí)領(lǐng)域,算力從來(lái)都是我們關(guān)心的一個(gè)重點(diǎn),也是影響人工智能算法落地的一個(gè)關(guān)鍵因素。在很多應(yīng)用場(chǎng)景里面,足夠的算力支持可以顯著加快算法從提出、訓(xùn)練到落地的效率,像是 OpenAI Five 的億級(jí)參數(shù)量的使用,其每天的 GPU 計(jì)算用量在 770±50~820±50 PFlops/s。而在深度強(qiáng)化學(xué)習(xí)領(lǐng)域,隨著應(yīng)用場(chǎng)景從單智能體擴(kuò)展到多智能體,算法的求解復(fù)雜度也呈現(xiàn)指數(shù)級(jí)增長(zhǎng),這也對(duì)算力要求提出了新的挑戰(zhàn),要求更多的計(jì)算資源能夠被調(diào)用。特別是當(dāng)所要處理的問(wèn)題規(guī)模,涉及的智能體數(shù)量較多時(shí),單機(jī)訓(xùn)練算法的可行度顯著下降。

多智能體強(qiáng)化學(xué)習(xí)要解決群體智能相關(guān)的問(wèn)題,其研究往往涉及群體內(nèi)智能體之間的協(xié)作與對(duì)抗。目前已有眾多現(xiàn)實(shí)任務(wù)應(yīng)用涉及大規(guī)模智能體和復(fù)雜多樣化交互,例如人群模擬、自動(dòng)駕駛以及軍事場(chǎng)景中的無(wú)人機(jī)集群控制:

上海交大開(kāi)源訓(xùn)練框架,支持大規(guī)?;诜N群多智能體強(qiáng)化學(xué)習(xí)訓(xùn)練

人群模擬(http://gamma.cs.unc.edu/CompAgent/imgs/sitterson3.jpg)。

[[412577]]

自動(dòng)駕駛(https://github.com/huawei-noah/SMARTS/blob/master/docs/_static/smarts_envision.gif)。

上海交大開(kāi)源訓(xùn)練框架,支持大規(guī)?;诜N群多智能體強(qiáng)化學(xué)習(xí)訓(xùn)練

無(wú)人機(jī)集群(https://defensesystems.com/-/media/GIG/Defense-Systems/Web/2015/JanFeb/CODEdrones.png)。

在算法方面,解決此類(lèi)群體問(wèn)題的一個(gè)重要的途徑是基于群體的多智能體強(qiáng)化學(xué)習(xí)方法,也是 MALib 目前階段的重點(diǎn)瞄準(zhǔn)方向?;谌后w的多智能體強(qiáng)化學(xué)習(xí)(Population-based MARL, PB-MARL)涉及多個(gè)策略集合交互問(wèn)題,下圖展示了通常意義上基于群體的多智能體強(qiáng)化學(xué)習(xí)算法的主要流程。PB-MARL 算法是結(jié)合了深度強(qiáng)化學(xué)習(xí)和動(dòng)態(tài)種群選擇方法(例如,博弈論,進(jìn)化策略)以自動(dòng)拓展策略集。PB-MARL 能夠以此不斷產(chǎn)生新的智能,因而在一些復(fù)雜任務(wù)上都取得了不錯(cuò)的效果,如實(shí)時(shí)決策游戲 Dota2 、StrarCraftII,以及紙牌任務(wù) Leduc Poker。但在實(shí)際問(wèn)題中,目前的多智能體強(qiáng)化學(xué)習(xí)算法與應(yīng)用尚有差距,一個(gè)亟待解決的問(wèn)題便是算法在大規(guī)模場(chǎng)景下的訓(xùn)練效率。由于種群算法內(nèi)在耦合了多智能體算法,致使其訓(xùn)練過(guò)程對(duì)數(shù)據(jù)的需求量極大,因而也需要一個(gè)靈活、可擴(kuò)展的訓(xùn)練框架來(lái)保證其有效性。

上海交大開(kāi)源訓(xùn)練框架,支持大規(guī)?;诜N群多智能體強(qiáng)化學(xué)習(xí)訓(xùn)練

如何提高算法訓(xùn)練效率?對(duì)于依賴(lài)深度學(xué)習(xí)技術(shù)的很多領(lǐng)域,在面臨任務(wù)規(guī)模變大,模型參數(shù)變多的情況下,都需要引入額外的技術(shù)來(lái)提高訓(xùn)練效率。分布式計(jì)算是一個(gè)最直接考慮的方法,通過(guò)多進(jìn)程或者多機(jī)的方式,提高算法對(duì)計(jì)算資源的使用效率從而提升算法訓(xùn)練效率。而分布式技術(shù)在深度強(qiáng)化學(xué)習(xí)領(lǐng)域的應(yīng)用,也催生了分布式深度強(qiáng)化學(xué)習(xí)這個(gè)領(lǐng)域的產(chǎn)生,其研究的重點(diǎn)包括計(jì)算框架的設(shè)計(jì),以及大規(guī)模分布式強(qiáng)化學(xué)習(xí)算法的開(kāi)發(fā)。

近年來(lái),為了更好地進(jìn)行大規(guī)模深度強(qiáng)化學(xué)習(xí)算法的訓(xùn)練,研究人員發(fā)展了更加專(zhuān)用的訓(xùn)練框架,通過(guò)在算法接口和系統(tǒng)設(shè)計(jì)上進(jìn)行抽象,來(lái)支持更為復(fù)雜的實(shí)時(shí)數(shù)據(jù)采樣、模型訓(xùn)練和推理需求。然而,分布式強(qiáng)化學(xué)習(xí)技術(shù)的發(fā)展似乎還未觸及群體智能這一問(wèn)題。實(shí)際上,現(xiàn)有分布式強(qiáng)化學(xué)習(xí)框架對(duì)于一般多智能體強(qiáng)化學(xué)習(xí)算法的分布式計(jì)算支持是完全不夠的,像 RLlib、Sample-Factory、SEED RL 這樣的典型分布式強(qiáng)化學(xué)習(xí)框架,在設(shè)計(jì)模式上都是將多智能體任務(wù)當(dāng)作單智能體任務(wù)來(lái)處理,而忽略了多智能體算法之間的異構(gòu)性。對(duì)于其他強(qiáng)調(diào)智能體交互的學(xué)習(xí)范式,如中心化訓(xùn)練(centralized training)、基于網(wǎng)絡(luò)的分布式算法以及帶有通信功能的協(xié)作性算法都沒(méi)有進(jìn)行顯式支持,缺乏對(duì)應(yīng)的統(tǒng)一接口來(lái)簡(jiǎn)化算法實(shí)現(xiàn)和訓(xùn)練流程。因此,研究人員想要進(jìn)行更多類(lèi)型多智能體強(qiáng)化學(xué)習(xí)算法的分布式訓(xùn)練探索時(shí),往往需要進(jìn)行大量額外的編碼工作。而對(duì)于多智能體強(qiáng)化學(xué)習(xí)算法框架方面的發(fā)展,現(xiàn)有的工作更多聚焦在算法實(shí)現(xiàn),并不太注重算法在大規(guī)模場(chǎng)景下的擴(kuò)展性,或者更多的是專(zhuān)為某些場(chǎng)景設(shè)計(jì)的算法庫(kù),像 PyMARL、SMARTS 這樣的框架,其作用更偏向于服務(wù)專(zhuān)門(mén)領(lǐng)域內(nèi)的 benchmark,在算法類(lèi)型上,大部分框架也做得并不全面。因此對(duì)于多智能體強(qiáng)化學(xué)習(xí)算法框架支持這一塊,也一直是缺乏一套比較全面的框架來(lái)打通算法實(shí)現(xiàn)、訓(xùn)練和部署測(cè)試這一套流程。

我們認(rèn)為以上兩個(gè)發(fā)展現(xiàn)狀的主要原因至少會(huì)有兩點(diǎn):(1)一個(gè)是因?yàn)槎嘀悄荏w算法本身在結(jié)構(gòu)上具有的異構(gòu)性較高,導(dǎo)致算法在接口實(shí)現(xiàn)的一致性和復(fù)用性上不是太高;(2)另一方面也是因?yàn)槎嘀悄荏w分布式算法依然處于早期探索階段。此外,在分布式部署方面,現(xiàn)有分布式強(qiáng)化學(xué)習(xí)框架對(duì) independent learning 算法的支持更友好,也更自然和直接。就像通常分布式技術(shù)在機(jī)器學(xué)習(xí)領(lǐng)域的應(yīng)用一樣,要解決目前分布式技術(shù)在大規(guī)模多智能體強(qiáng)化學(xué)習(xí)領(lǐng)域的更深層次的應(yīng)用,算法和框架都必不可少,兩者相輔相成。

在算法方面,一個(gè)重要的途徑是基于群體的多智能體強(qiáng)化學(xué)習(xí)方法,也是 MALib 目前階段所重點(diǎn)瞄準(zhǔn)的方向?;谌后w的多智能體強(qiáng)化學(xué)習(xí)(Population-based MARL, PB-MARL)涉及到多個(gè)策略集合交互問(wèn)題,下圖展示了通常意義上基于群體的多智能體強(qiáng)化學(xué)習(xí)算法的主要流程。PB-MARL 算法特點(diǎn)是結(jié)合了深度強(qiáng)化學(xué)習(xí)和動(dòng)態(tài)種群選擇方法(例如,博弈論,進(jìn)化策略)來(lái)進(jìn)行自動(dòng)策略集擴(kuò)展。通過(guò)這種方式,PB-MARL 能夠不斷產(chǎn)生新的智能,并且在解決一些復(fù)雜任務(wù)上都取得了不錯(cuò)的效果,如實(shí)時(shí)決策游戲 Dota2 、StrarCraftII,以及紙牌任務(wù) Leduc Poker。

然而,也正是由于種群算法內(nèi)在耦合了多智能體算法,導(dǎo)致這一類(lèi)算法在訓(xùn)練過(guò)程對(duì)數(shù)據(jù)的需求極大,因此也需要一個(gè)靈活的、可擴(kuò)展的訓(xùn)練框架來(lái)保證其有效性。

上海交大開(kāi)源訓(xùn)練框架,支持大規(guī)?;诜N群多智能體強(qiáng)化學(xué)習(xí)訓(xùn)練
  • 論文鏈接:https://arxiv.org/abs/2106.07551
  • GitHub:https://github.com/sjtu-marl/malib

上海交大開(kāi)源訓(xùn)練框架,支持大規(guī)?;诜N群多智能體強(qiáng)化學(xué)習(xí)訓(xùn)練

MALib框架圖

為了應(yīng)對(duì)這些需求,我們提出了 MALib,從三個(gè)方面提出了針對(duì)大規(guī)模群體多智能體強(qiáng)化學(xué)習(xí)算法的解決方案:(1)中心化任務(wù)調(diào)度:自動(dòng)遞進(jìn)式生成訓(xùn)練任務(wù),作業(yè)進(jìn)程的半主動(dòng)執(zhí)行能夠提高訓(xùn)練任務(wù)的并行度;(2)Actor-Evaluator-Learner 模型:解耦數(shù)據(jù)流,以滿(mǎn)足多節(jié)點(diǎn)靈活的數(shù)據(jù)存儲(chǔ)和分發(fā);(3)從訓(xùn)練層面對(duì)多智能體強(qiáng)化學(xué)習(xí)進(jìn)行抽象:嘗試提高多智能體算法在不同訓(xùn)練模式之間的復(fù)用率,比如 DDPG 或者 DQN 可以很方便地嫁接到中心化訓(xùn)練模式中。

上海交大開(kāi)源訓(xùn)練框架,支持大規(guī)?;诜N群多智能體強(qiáng)化學(xué)習(xí)訓(xùn)練

中心化任務(wù)調(diào)度模型 (c) 與以往分布式強(qiáng)化學(xué)習(xí)框架調(diào)度模型的對(duì)比:(a)完全分布式;(b)層級(jí)式

具體而言,MALib 的框架特點(diǎn)如下:

  • 支持大規(guī)?;诜N群的多智能體強(qiáng)化訓(xùn)練。星際爭(zhēng)霸 2,Dota2,王者榮耀等游戲上超越人類(lèi)頂尖水平的 AI,都得益于大規(guī)?;诜N群的多智能體強(qiáng)化學(xué)習(xí)訓(xùn)練,但現(xiàn)在沒(méi)有一個(gè)開(kāi)源通用的框架支持相關(guān)研究與應(yīng)用。針對(duì)這一場(chǎng)景,MALib 基于 Ray 的分布式執(zhí)行框架,實(shí)現(xiàn)了一個(gè)靈活可自定義的多智能體強(qiáng)化學(xué)習(xí)并行訓(xùn)練框架,并且對(duì)基于種群的訓(xùn)練做了特別優(yōu)化,不僅僅可以實(shí)現(xiàn)類(lèi)似于星際爭(zhēng)霸 2 中的 League 機(jī)制,也支持更靈活的 PSRO(策略空間應(yīng)對(duì)預(yù)言機(jī))等算法。同時(shí),除了電子競(jìng)技游戲之外,MALib 也將提供體育(Google Football),自動(dòng)駕駛等場(chǎng)景的支持。
  • MALib 的采樣吞吐量較現(xiàn)有多智能體強(qiáng)化學(xué)習(xí)框架大幅度提升。通過(guò)利用所提出的中心化任務(wù)分發(fā)模型,MALib 的吞吐量在相同 GPU 計(jì)算節(jié)點(diǎn)情況下,最大采樣效率相較于 UC Berkeley RISELab 開(kāi)發(fā)的著名通用框架 RLlib 可提升 15 倍,系統(tǒng)吞吐量較高度優(yōu)化的 SOTA 框架 SampleFactory 提升近 100%;純 CPU 環(huán)境 MALib 的吞吐量?jī)?yōu)勢(shì)較進(jìn)一步擴(kuò)大至近 450%;同類(lèi)算法訓(xùn)練速度較 DeepMind 開(kāi)發(fā)的 open spiel 提升三倍以上。
  • 最全的多智能體強(qiáng)化學(xué)習(xí)算法的支持。在訓(xùn)練范式層面,MALib 使用同步 / 異步,中心化 / 去中心化等模式,對(duì)不同類(lèi)型的多智能體強(qiáng)化學(xué)習(xí)算法的訓(xùn)練進(jìn)行抽象,并通過(guò)統(tǒng)一的 AgentInterface,實(shí)現(xiàn)了包括獨(dú)立學(xué)習(xí)者,中心化訓(xùn)練去中心化執(zhí)行,自對(duì)弈,策論空間應(yīng)對(duì)預(yù)言機(jī)(PSRO)等算法。同時(shí),對(duì)原先不支持并行異步訓(xùn)練的算法,也可以使用 MALib 進(jìn)行并行采樣與訓(xùn)練的加速。

部分訓(xùn)練效果

我們和一些現(xiàn)有的分布式強(qiáng)化學(xué)習(xí)框架進(jìn)行了對(duì)比,以 MADDPG 為例,下圖展示的是在 multi-agent particle environments 上使用不同并行程度訓(xùn)練 simple-spread 任務(wù)的學(xué)習(xí)曲線。

上海交大開(kāi)源訓(xùn)練框架,支持大規(guī)?;诜N群多智能體強(qiáng)化學(xué)習(xí)訓(xùn)練

與 RLlib 對(duì)比訓(xùn)練 MADDPG 的效果。

對(duì)照框架是 RLlib。隨著 worker 的數(shù)量增多,RLlib 的訓(xùn)練越來(lái)越不穩(wěn)定,而 MALib 的效果一直表現(xiàn)穩(wěn)定。包括更復(fù)雜的環(huán)境,比如 StarCraftII 的一些實(shí)驗(yàn),我們對(duì)比 PyMARL 的實(shí)現(xiàn),比較 QMIX 算法訓(xùn)練到勝率達(dá)到 80% 所花費(fèi)的時(shí)間,MALib 有顯著的效率提升(worker 數(shù)量都是設(shè)置成 32)。

上海交大開(kāi)源訓(xùn)練框架,支持大規(guī)?;诜N群多智能體強(qiáng)化學(xué)習(xí)訓(xùn)練

與 PyMARL 在星際任務(wù)上的效率對(duì)比。

另一方面,我們比較關(guān)注的是訓(xùn)練過(guò)程的采樣效率。我們也對(duì)比了與其他分布式強(qiáng)化學(xué)習(xí)框架的吞吐量對(duì)比,在多智體版本的 Atari 游戲上,MALib 在吞吐量和擴(kuò)展性上都表現(xiàn)了不錯(cuò)的性能。

上海交大開(kāi)源訓(xùn)練框架,支持大規(guī)?;诜N群多智能體強(qiáng)化學(xué)習(xí)訓(xùn)練

在星際及多智能體 Atari 任務(wù)上不同框架的吞吐量對(duì)比。

目前,我們的項(xiàng)目已經(jīng)開(kāi)源在 GitHub 上(https://github.com/sjtu-marl/malib),更多的功能正在積極開(kāi)發(fā)中,歡迎使用并向我們提出寶貴的改進(jìn)意見(jiàn)!同時(shí)如果有興趣參與項(xiàng)目開(kāi)發(fā),歡迎聯(lián)系我們!聯(lián)系方式:ying.wen@sjtu.edu.cn。

團(tuán)隊(duì)介紹

本項(xiàng)目由上海交通大學(xué)與倫敦大學(xué)學(xué)院(UCL)聯(lián)合的多智能體強(qiáng)化學(xué)習(xí)研究團(tuán)隊(duì)開(kāi)發(fā)。MALib 項(xiàng)目主要由上海交通大學(xué)溫穎助理教授指導(dǎo)下進(jìn)行開(kāi)發(fā),核心開(kāi)發(fā)成員包括上海交通大學(xué)三年級(jí)博士生周銘,ACM 班大四本科生萬(wàn)梓煜,一年級(jí)博士生王翰竟,訪問(wèn)學(xué)者溫睦寧,ACM 班大三本科生吳潤(rùn)哲,并得到上海交通大學(xué)張偉楠副教授和倫敦大學(xué)學(xué)院的楊耀東博士、汪軍教授的聯(lián)合指導(dǎo)。

團(tuán)隊(duì)長(zhǎng)期致力于從理論算法、系統(tǒng)與應(yīng)用三個(gè)層面入手,針對(duì)開(kāi)放、真實(shí)、動(dòng)態(tài)的多智能場(chǎng)景下的智能決策進(jìn)行研究。理論團(tuán)隊(duì)核心成員在人工智能和機(jī)器學(xué)習(xí)頂會(huì)發(fā)表多智能體強(qiáng)化學(xué)習(xí)相關(guān)論文共計(jì)五十余篇,并獲得過(guò) CoRL 2020 最佳系統(tǒng)論文、AAMAS 2021 Blue Sky Track 最佳論文獎(jiǎng)。系統(tǒng)方面,除了面向多智能體強(qiáng)化學(xué)習(xí)種群訓(xùn)練的系統(tǒng) MALib,本團(tuán)隊(duì)研發(fā) SMARTS、CityFlow、MAgent 等大規(guī)模智能體強(qiáng)化學(xué)習(xí)仿真引擎,累計(jì)在 Github 上獲得了超過(guò) 2000 加星。此外,團(tuán)隊(duì)在游戲、自動(dòng)駕駛、搜索與推薦等場(chǎng)景下具有強(qiáng)化學(xué)習(xí)技術(shù)的真實(shí)應(yīng)用落地的經(jīng)驗(yàn)。

 

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心Pro
相關(guān)推薦

2023-05-04 15:53:34

強(qiáng)化學(xué)習(xí)開(kāi)發(fā)

2023-05-05 17:49:23

2020-11-16 08:54:05

Google 開(kāi)源技術(shù)

2023-08-28 06:52:29

2025-03-28 10:16:15

2020-10-15 19:22:09

Menger機(jī)器學(xué)習(xí)強(qiáng)化學(xué)習(xí)

2023-04-06 16:29:18

模型AI

2021-11-15 10:00:22

模型人工智能NLP

2020-04-15 16:44:38

谷歌強(qiáng)化學(xué)習(xí)算法

2023-05-26 08:39:44

深度學(xué)習(xí)Alluxio

2023-04-04 07:32:35

TorchRec模型訓(xùn)練

2023-11-27 13:51:00

模型訓(xùn)練

2022-11-02 14:02:02

強(qiáng)化學(xué)習(xí)訓(xùn)練

2022-03-21 08:30:13

開(kāi)源模型訓(xùn)練預(yù)測(cè)引擎

2025-04-23 12:09:25

RL大模型進(jìn)化

2024-10-15 17:28:05

2024-11-01 13:30:56

2023-09-22 07:23:50

Alice模型任務(wù)

2025-02-07 16:15:27

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)