自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

多智能體強(qiáng)化學(xué)習(xí)大模型初探

人工智能
本次分享從基礎(chǔ)背景開(kāi)始,介紹為什么強(qiáng)化學(xué)習(xí)需要大模型、多智能體決策大模型有哪些挑戰(zhàn)、如何描述此類系統(tǒng)。此后根據(jù)提出的問(wèn)題,提出動(dòng)作語(yǔ)義網(wǎng)絡(luò)、置換不變性與置換同變性、跨任務(wù)自動(dòng)化課程學(xué)習(xí)三個(gè)核心設(shè)計(jì)的先驗(yàn)。

一、多智能體決策大模型面臨的挑戰(zhàn)

現(xiàn)實(shí)世界中的大量實(shí)際問(wèn)題可以建模為包含了多個(gè)主體的協(xié)同控制和優(yōu)化問(wèn)題。合作式多智能體系統(tǒng)由多個(gè)參與主體,合作地優(yōu)化某個(gè)(或多個(gè))相同的目標(biāo)函數(shù),如:游戲AI中的多“英雄”協(xié)作、多用戶-多商品推薦、多車輛運(yùn)輸投遞優(yōu)化、智能倉(cāng)儲(chǔ)多車輛調(diào)度、云計(jì)算多資源調(diào)度、多車輛協(xié)作調(diào)度等。

圖片

多智能體問(wèn)題與單智能體強(qiáng)化學(xué)習(xí)問(wèn)題的主要區(qū)別在于智能體數(shù)量由單個(gè)增加至n個(gè),單個(gè)智能體的動(dòng)作空間變?yōu)榈芽柗e下的指數(shù)型聯(lián)合動(dòng)作空間,動(dòng)作作用于環(huán)境,由環(huán)境反饋的狀態(tài)變?yōu)榘琻個(gè)智能體信息的狀態(tài)集合,為指數(shù)次方的狀態(tài)空間。通常,該類系統(tǒng)使用MMDP或Dec-POMDP方式進(jìn)行形式化描述。MMDP方法將單智能體的馬爾可夫過(guò)程擴(kuò)展至多智能體,核心區(qū)別在于動(dòng)作空間與狀態(tài)空間的指數(shù)拓展,并假設(shè)系統(tǒng)內(nèi)的每個(gè)智能體均可以觀察到系統(tǒng)全局的狀態(tài)。Dec-POMDP方法則使用觀測(cè)函數(shù)對(duì)系統(tǒng)內(nèi)的每個(gè)智能體在有限視野范圍內(nèi)觀測(cè)到的信息進(jìn)行建模。合作系統(tǒng)的目標(biāo)在于優(yōu)化所有智能體的聯(lián)合策略以最大化系統(tǒng)全局的累積回報(bào)。

圖片

求解合作式多智能體系統(tǒng)的最優(yōu)控制策略通常面臨以下三個(gè)方面的難點(diǎn):①由狀態(tài)觀測(cè)空間和聯(lián)合動(dòng)作空間隨實(shí)體數(shù)量指數(shù)增長(zhǎng)帶來(lái)的維度災(zāi)難;②由維度災(zāi)難導(dǎo)致現(xiàn)有的強(qiáng)化學(xué)習(xí)算法學(xué)習(xí)樣本效率低;③在多個(gè)任務(wù)之間模型通用性與泛化性較差。

圖片

多智能體強(qiáng)化學(xué)習(xí)大模型的根本目的在于設(shè)計(jì)一個(gè)模型,使其具有比較好的泛化性,一個(gè)模型可以解決多個(gè)類似問(wèn)題,包括相同游戲不同場(chǎng)景與不同游戲不同場(chǎng)景。

圖片

 

大模型已在自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)等領(lǐng)域已取得突破性成果,最新研究顯示強(qiáng)化學(xué)習(xí)同樣具有BBF(Bigger, Better, Faster)的結(jié)論,當(dāng)模型更大時(shí),模型將具有更好的性能與更快的學(xué)習(xí)速度。在強(qiáng)化學(xué)習(xí)經(jīng)典的Atari-100k測(cè)試環(huán)境中,model-based的EfficientZero方法被公認(rèn)為具有較高的sample efficiency,而B(niǎo)BF的研究表明model-free的DQN算法通過(guò)增大模型的規(guī)??梢匀〉门cEfficientZero相同的樣本效率并能夠顯著降低訓(xùn)練的開(kāi)支。隨著網(wǎng)絡(luò)參數(shù)規(guī)模的增大,通過(guò)合理的機(jī)制設(shè)計(jì)可以使算法性能逐漸提升。

圖片

多智能體強(qiáng)化學(xué)習(xí)大模型目前主要面臨四類挑戰(zhàn):①不同場(chǎng)景的智能體數(shù)量、種類不同;②實(shí)體的特征、觀測(cè)、狀態(tài)不同,導(dǎo)致模型網(wǎng)絡(luò)輸入維度、含義等不同;③動(dòng)作空間不同,導(dǎo)致策略網(wǎng)絡(luò)輸出維度、含義不同;④獎(jiǎng)勵(lì)函數(shù)不同,導(dǎo)致價(jià)值函數(shù)網(wǎng)絡(luò)輸出尺度不同。

針對(duì)以上挑戰(zhàn),需要對(duì)多智能體系統(tǒng)構(gòu)建一套完備描述的方法,使得在該描述基礎(chǔ)上設(shè)計(jì)通用的決策模型成為可能。類比語(yǔ)言模型,可對(duì)多智能體系統(tǒng)內(nèi)部進(jìn)行統(tǒng)一描述。大語(yǔ)言模型的底座由詞表構(gòu)成,詞表構(gòu)成句子,并形成對(duì)客觀世界的底層描述。使用tokenizer將詞轉(zhuǎn)化為可學(xué)習(xí)的詞向量,并對(duì)齊含義與維度,將詞向量傳遞至神經(jīng)網(wǎng)絡(luò)中并針對(duì)具體任務(wù)進(jìn)行訓(xùn)練。對(duì)應(yīng)的,多智能體系統(tǒng)中通過(guò)全局的屬性表與動(dòng)作表(動(dòng)作語(yǔ)義)形成對(duì)系統(tǒng)中實(shí)體的完備描述(實(shí)體表),通過(guò)tokenizer的方式將屬性轉(zhuǎn)化為屬性向量與實(shí)體向量,將實(shí)體向量傳遞至后續(xù)策略網(wǎng)絡(luò)等神經(jīng)網(wǎng)絡(luò)模型中,輸出控制策略。

二、動(dòng)作語(yǔ)義網(wǎng)絡(luò)

動(dòng)作語(yǔ)義網(wǎng)絡(luò)研究工作的核心思想是根據(jù)前面定義的語(yǔ)言描述,將系統(tǒng)整體的動(dòng)作空間按照不同的動(dòng)作語(yǔ)義進(jìn)行劃分。如星際爭(zhēng)霸中,動(dòng)作可以劃分為與自身狀態(tài)相關(guān)的移動(dòng)動(dòng)作與涉及兩個(gè)智能體交互的攻擊動(dòng)作。在完成動(dòng)作語(yǔ)義劃分后,根據(jù)不同的動(dòng)作類型進(jìn)行不同的后續(xù)處理,移動(dòng)動(dòng)作僅與智能體自身狀態(tài)相關(guān),攻擊動(dòng)作使用pairwise的方式表征兩個(gè)智能體之間的交互關(guān)系。

圖片


該先驗(yàn)知識(shí)的引入使得在星際爭(zhēng)霸、Neural MMO等場(chǎng)景中模型性能有較大提升。該方案也落地到網(wǎng)易《逆水寒》游戲中,顯著提升游戲AI的性能。

圖片

三、置換不變性與置換同變性

利用多智能體之間的置換不變性與置換同變性對(duì)系統(tǒng)內(nèi)部天然存在的信息冗余進(jìn)行壓縮,以縮小系統(tǒng)的學(xué)習(xí)空間,并間接處理網(wǎng)絡(luò)輸入維度不同的問(wèn)題。

在含有m個(gè)實(shí)體(包含n個(gè)智能體和m-n個(gè)非玩家物體)的系統(tǒng)中,狀態(tài)、觀測(cè)空間隨實(shí)體數(shù)量指數(shù)增長(zhǎng)。系統(tǒng)的狀態(tài)刻畫(huà)的是實(shí)體集合的客觀信息,不隨輸入順序的變化而變化。在包含同質(zhì)智能體的系統(tǒng)中,實(shí)體信息在排列上存在冗余,因此可利用同質(zhì)智能體間天然存在的對(duì)稱性,在模型搭建過(guò)程中忽略輸入順序的影響可極大程度約減原有呈指數(shù)增長(zhǎng)的狀態(tài)空間。

圖片

同時(shí),系統(tǒng)內(nèi)部具有不同類型的動(dòng)作,包括僅與自身狀態(tài)相關(guān)的動(dòng)作和存在實(shí)體之間交互的動(dòng)作。在考慮排除輸入順序影響的時(shí)候,由于實(shí)體間交互動(dòng)作與對(duì)應(yīng)實(shí)體的狀態(tài)存在一一對(duì)應(yīng)的關(guān)系,輸入順序的變化將導(dǎo)致輸出含義的對(duì)應(yīng)改變,這對(duì)應(yīng)了函數(shù)的置換同變性。另一種僅與自身狀態(tài)相關(guān)的動(dòng)作類型,改變輸入順序后輸出仍然應(yīng)保持不變,對(duì)應(yīng)了函數(shù)的置換不變性。

圖片

通過(guò)設(shè)計(jì)兼具置換同變性與置換不變性的策略網(wǎng)絡(luò)結(jié)構(gòu),利用先驗(yàn)知識(shí)對(duì)系統(tǒng)狀態(tài)空間進(jìn)行壓縮,從而能夠極大程度提升后期策略學(xué)習(xí)的效率與效果。

決策網(wǎng)絡(luò)的輸入是由多個(gè)實(shí)體構(gòu)成的觀測(cè),經(jīng)過(guò)典型的input layer、backbone layer(任意網(wǎng)絡(luò)結(jié)構(gòu))和output layer,輸出控制策略。我們期望輸出中,僅與自身狀態(tài)相關(guān)的動(dòng)作不受輸入順序的影響(具備置換不變性),與輸入實(shí)體有一一對(duì)應(yīng)關(guān)系的動(dòng)作與輸入順序的改變發(fā)生相同的變化(具備置換同變性)。為了設(shè)計(jì)更通用的模型架構(gòu),我們重點(diǎn)遵循“最小改動(dòng)原理”,在盡量少地去改變已有網(wǎng)絡(luò)結(jié)構(gòu)的條件下達(dá)到期望性質(zhì),最終我們僅改動(dòng)input layer A使其具備置換不變性,并將輸入順序信息告知并修改output layer D使其具備置換同變性。

圖片

傳統(tǒng)不具備置換不變性的MLP網(wǎng)絡(luò)輸入可以視作每個(gè)實(shí)體信息乘上獨(dú)立、對(duì)應(yīng)的子模塊參數(shù)并對(duì)輸出進(jìn)行加和。我們首先提出Dynamic Permutation Network (DPN),通過(guò)增加一個(gè)分類選擇函數(shù),實(shí)現(xiàn)為每個(gè)輸入實(shí)體信息一一綁定確定的子模塊參數(shù),進(jìn)而實(shí)現(xiàn)輸入層的置換不變性。輸出層要求與輸入具有一一對(duì)應(yīng)關(guān)系,構(gòu)造類似的分類網(wǎng)絡(luò),為每一個(gè)實(shí)體的輸出特征選擇確定性的矩陣,使輸出的順序隨輸入順序的變化發(fā)生協(xié)同的變化,從而實(shí)現(xiàn)置換同變性。

圖片

基于相同的思想,我們進(jìn)一步提出Hyper Policy Network (HPN),利用“超網(wǎng)絡(luò)”(用一個(gè)網(wǎng)絡(luò)為另一個(gè)網(wǎng)絡(luò)生成權(quán)重參數(shù))自動(dòng)化地為每個(gè)實(shí)體生成相應(yīng)的參數(shù)矩陣。以每個(gè)實(shí)體的特征作為超網(wǎng)絡(luò)的輸入,超網(wǎng)絡(luò)輸出每個(gè)實(shí)體對(duì)應(yīng)的參數(shù),此結(jié)構(gòu)下實(shí)體特征與參數(shù)矩陣天然具有一一對(duì)應(yīng)關(guān)系,求和后的輸出具備置換不變性。輸出層利用超網(wǎng)絡(luò)結(jié)構(gòu)為每一個(gè)輸入實(shí)體特征一一綁定地生成對(duì)應(yīng)參數(shù),使輸出與輸入實(shí)體存在一一對(duì)應(yīng)關(guān)系,具備置換同變性。 

圖片

在典型的星際爭(zhēng)霸測(cè)試環(huán)境中,將HPN的網(wǎng)絡(luò)結(jié)構(gòu)集成到QMIX算法,在所有困難場(chǎng)景均取得100%勝率。

圖片

由于設(shè)計(jì)遵循最小改動(dòng)原理,該網(wǎng)絡(luò)結(jié)構(gòu)可非常容易地集成至不同算法(如QPLEX、MAPPO)中,并使算法性能得到較大提升。

圖片

此外,在星際爭(zhēng)霸V2、MPE、谷歌足球等更復(fù)雜、隨機(jī)性更強(qiáng)的環(huán)境中,該模型架構(gòu)同樣能夠取得明顯的性能優(yōu)勢(shì)。

圖片

同時(shí),由于該網(wǎng)絡(luò)結(jié)構(gòu)能自動(dòng)適應(yīng)由不同實(shí)體帶來(lái)的輸入維度不同與輸出維度不同的問(wèn)題,因此具有較好的可泛化性與可遷移性,能夠?qū)崿F(xiàn)不同數(shù)量不同規(guī)模任務(wù)中控制策略的高效復(fù)用。

圖片

四、跨任務(wù)自動(dòng)化課程學(xué)習(xí)

在跨任務(wù)的課程學(xué)習(xí)過(guò)程中,系統(tǒng)中存在多個(gè)待學(xué)習(xí)的任務(wù),包括難度較大的目標(biāo)任務(wù)、較簡(jiǎn)單的起始任務(wù)與其他候選的任務(wù)集合,課程學(xué)習(xí)算法每一步需要從候選任務(wù)集合中選出最合適的任務(wù)從而最終輸出一條“最優(yōu)學(xué)習(xí)序列(路徑)”。解決該問(wèn)題需要回答兩個(gè)核心問(wèn)題:

①選哪個(gè)課程作為下一個(gè)學(xué)習(xí)目標(biāo)合適?

②前面學(xué)到的知識(shí)在新的課程中如何復(fù)用?

圖片

我們提出基于難度和任務(wù)相似度選擇課程。把當(dāng)前策略在備選任務(wù)集合的所有任務(wù)上進(jìn)行評(píng)估,得到相應(yīng)的獎(jiǎng)勵(lì)值。根據(jù)獎(jiǎng)勵(lì)值排序,選擇處在中間40%的任務(wù),下一課程在這些任務(wù)中產(chǎn)生。同時(shí)基于任務(wù)相似度,在難度適中的候選任務(wù)中選擇與目標(biāo)任務(wù)最接近的任務(wù)作為最終選定的課程。為了評(píng)估與目標(biāo)任務(wù)的相似度,基于當(dāng)前策略在目標(biāo)任務(wù)和候選任務(wù)中進(jìn)行rollout獲得狀態(tài)訪問(wèn)分布,利用混合高斯模型對(duì)該分布進(jìn)行建模,利用分布相似性衡量任務(wù)相似性。

圖片

基于HPN網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn)策略遷移和復(fù)用。采用前述具有置換不變性和置換同變性,同時(shí)支持變長(zhǎng)輸入和輸出的HPN網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn)策略的遷移和復(fù)用。自動(dòng)化課程學(xué)習(xí)的整體框架為,利用難度和相似度選定下一個(gè)學(xué)習(xí)任務(wù),該任務(wù)學(xué)習(xí)過(guò)程中利用HPN的結(jié)構(gòu)重載上一個(gè)任務(wù)學(xué)得的策略,依次循環(huán),最終在目標(biāo)任務(wù)上取得更好的性能。

圖片

我們?cè)谛请H爭(zhēng)霸場(chǎng)景中進(jìn)行算法驗(yàn)證,根據(jù)種族類型,將星際爭(zhēng)霸中的游戲場(chǎng)景分成不同的任務(wù)集合(Marines,Stalkers & Zealots,以及Medivac & Marauders & Marines),每個(gè)任務(wù)集合均給定起始任務(wù)與難度極大的最終任務(wù)。對(duì)比經(jīng)典遷移學(xué)習(xí)算法,不同算法在任務(wù)選擇序列上具有較大差異,我們算法能夠基于任務(wù)難度和對(duì)最終任務(wù)的幫助程度選擇出更適合的任務(wù)序列,在最終的任務(wù)中能夠取得非常大的性能提升。

圖片

五、pymarl3:代碼開(kāi)源

最后,我們將系列工作的源代碼開(kāi)源,將MARL社區(qū)常用的pymarl2 (https://github.com/hijkzzz/pymarl2 )代碼庫(kù)升級(jí)為pymarl3(https://github.com/tjuHaoXiaotian/pymarl3),其特性如下:

(1)增加對(duì)SMAC-V2(https://github.com/oxwhirl/smacv2)的支持,同時(shí)支持SMAC-V1和SMAC-V2,已集成在內(nèi),無(wú)需獨(dú)立安裝各個(gè)環(huán)境。

(2)升級(jí)pymarl2中的算法,使其具備置換不變性和置換同變性,設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu)可非常容易地集成到任意MARL算法中,并提升其性能。

(3)增強(qiáng)版算法,在SMAC-V1和SMAC-V2上均取得SOTA的性能。

圖片

本次分享概述多智能體決策大模型面臨的挑戰(zhàn)與類比語(yǔ)言模型對(duì)多智能體系統(tǒng)進(jìn)行描述和建模的方案;提出3條重要設(shè)計(jì)先驗(yàn):動(dòng)作語(yǔ)義網(wǎng)絡(luò)、置換不變性與置換同變性、跨任務(wù)自動(dòng)化課程學(xué)習(xí)。歡迎大家一起合作,進(jìn)一步研究強(qiáng)化學(xué)習(xí)大模型!

責(zé)任編輯:姜華 來(lái)源: DataFunTalk
相關(guān)推薦

2021-03-05 15:03:36

算法強(qiáng)化學(xué)習(xí)技術(shù)

2020-12-23 06:07:54

人工智能AI深度學(xué)習(xí)

2020-11-04 10:28:48

機(jī)器人人工智能系統(tǒng)

2022-03-03 10:15:16

強(qiáng)化學(xué)習(xí)模型論文

2021-09-10 16:31:56

人工智能機(jī)器學(xué)習(xí)技術(shù)

2025-01-06 09:45:00

AI訓(xùn)練數(shù)據(jù)

2023-05-04 15:53:34

強(qiáng)化學(xué)習(xí)開(kāi)發(fā)

2023-07-21 14:58:05

智能開(kāi)發(fā)

2021-07-22 15:25:14

開(kāi)源技術(shù) 框架

2024-08-28 13:53:42

多代理強(qiáng)化學(xué)習(xí)機(jī)器人

2023-05-05 13:11:16

2017-06-10 16:19:22

人工智能智能體強(qiáng)化學(xué)習(xí)

2020-05-06 16:07:05

百度飛槳

2024-10-12 17:14:12

2025-02-07 16:15:27

2022-06-02 15:19:31

架構(gòu)智能強(qiáng)化學(xué)習(xí)

2024-09-23 08:30:00

AI模型

2017-04-04 19:52:24

強(qiáng)化學(xué)習(xí)深度學(xué)習(xí)機(jī)器學(xué)習(xí)

2023-12-03 22:08:41

深度學(xué)習(xí)人工智能

2023-05-05 17:49:23

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)