自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<blockquote id="mngga"></blockquote>

<style id="mngga"></style>

<pre id="mngga"><big id="mngga"><strike id="mngga"></strike></big></pre>

<style id="mngga"></style>

<cite id="mngga"></cite>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

多代理強(qiáng)化學(xué)習(xí)綜述：原理、算法與挑戰(zhàn)

作者：佚名 2024-10-12 17:14:12

多代理強(qiáng)化學(xué)習(xí)（Multi-Agent Reinforcement Learning, MARL）是強(qiáng)化學(xué)習(xí)的一個重要分支，它將傳統(tǒng)的單代理強(qiáng)化學(xué)習(xí)概念擴(kuò)展到多代理環(huán)境中。在MARL中，多個代理通過與環(huán)境和其他代理的交互來學(xué)習(xí)最優(yōu)策略，以在協(xié)作或競爭場景中最大化累積獎勵。

1. 引言

多代理強(qiáng)化學(xué)習(xí)（Multi-Agent Reinforcement Learning, MARL）是強(qiáng)化學(xué)習(xí)的一個重要分支，它將傳統(tǒng)的單代理強(qiáng)化學(xué)習(xí)概念擴(kuò)展到多代理環(huán)境中。在MARL中，多個代理通過與環(huán)境和其他代理的交互來學(xué)習(xí)最優(yōu)策略，以在協(xié)作或競爭場景中最大化累積獎勵。

MAgent中代理之間的對抗（混合MARL示例）

MARL的正式定義如下：多代理強(qiáng)化學(xué)習(xí)是強(qiáng)化學(xué)習(xí)的一個子領(lǐng)域，專注于研究在共享環(huán)境中共存的多個學(xué)習(xí)代理的行為。每個代理都受其個體獎勵驅(qū)動，采取行動以推進(jìn)自身利益；在某些環(huán)境中，這些利益可能與其他代理的利益相沖突，從而產(chǎn)生復(fù)雜的群體動態(tài)。

2. 單代理強(qiáng)化學(xué)習(xí)回顧

在深入MARL之前，有必要回顧單代理強(qiáng)化學(xué)習(xí)的基本概念。

經(jīng)典馬爾可夫決策過程圖示

2.1 核心概念

代理：代理是與環(huán)境交互的實(shí)體，基于觀察或狀態(tài)采取行動，目標(biāo)是最大化累積獎勵。
狀態(tài)和環(huán)境：環(huán)境是代理操作的外部系統(tǒng)。它向代理提供狀態(tài)信息，接收代理的行動，并返回新的狀態(tài)和獎勵。狀態(tài)是代理可觀察到的環(huán)境當(dāng)前情況的表示。
馬爾可夫決策過程（MDPs）：強(qiáng)化學(xué)習(xí)問題通常被formulated formulated表述為馬爾可夫決策過程，用元組<S, A, P, R, γ>表示。其中S和A分別是狀態(tài)空間和行動空間，P(s' | s, a)是給定行動a時從狀態(tài)s轉(zhuǎn)移到s'的概率，R是獎勵函數(shù)，γ是折扣因子。

2.2 策略

代理的行為由其策略π指導(dǎo)：給定一個狀態(tài)，策略輸出一個行動或行動的概率分布。強(qiáng)化學(xué)習(xí)的目標(biāo)是找到最優(yōu)策略π*，以最大化長期累積獎勵。

3. 單代理MDP求解方法

解決MDP的核心目標(biāo)是隨時間最大化累積獎勵。主要的強(qiáng)化學(xué)習(xí)方法可分為兩類：

3.1 基于價值的方法

價值函數(shù)和學(xué)習(xí)方法概覽

在基于價值的方法中，代理學(xué)習(xí)價值函數(shù)，以評估狀態(tài)或狀態(tài)-行動對的價值，并基于這些價值選擇行動。典型的基于價值的算法包括Q學(xué)習(xí)、SARSA和時序差分（TD）學(xué)習(xí)。

3.2 基于策略的方法

策略梯度方法和更新規(guī)則概覽

基于策略的方法直接學(xué)習(xí)最優(yōu)策略，將狀態(tài)映射到行動以最大化長期獎勵。常見的基于策略的算法包括策略梯度和演員-評論家方法。

4. 多代理強(qiáng)化學(xué)習(xí)的特點(diǎn)與挑戰(zhàn)

將單代理強(qiáng)化學(xué)習(xí)擴(kuò)展到多代理環(huán)境中，需要重新考慮系統(tǒng)建模方法。多代理環(huán)境通常被建模為馬爾可夫博弈，其中多個代理同時交互，每個代理都影響狀態(tài)轉(zhuǎn)移和獎勵分配。

4.1 馬爾可夫博弈

馬爾可夫博弈由元組(N, S, A, P, R, γ)定義：

N：代理數(shù)量
S：狀態(tài)空間
A = A? × A? × … × A?：聯(lián)合行動空間
P：狀態(tài)轉(zhuǎn)移概率函數(shù)
R = (R?, R?, …, R?)：每個代理的獎勵函數(shù)集
γ：折扣因子

4.2 MARL的類別

多代理強(qiáng)化學(xué)習(xí)可以根據(jù)代理之間的交互方式分為以下幾類：

合作型MARL：代理學(xué)習(xí)共同完成任務(wù)，最大化共享獎勵。適用于多機(jī)器人系統(tǒng)等場景。
競爭型MARL：代理在對抗性或零和博弈中最大化自身獎勵。例如棋類游戲或?qū)剐詧鼍啊?/span>
混合利益型MARL：代理既有合作也有競爭關(guān)系，目標(biāo)部分一致，部分沖突。常見于貿(mào)易、交通和多人視頻游戲等復(fù)雜場景。

4.3 MARL面臨的主要挑戰(zhàn)

MARL中的主要挑戰(zhàn)

4.3.1 非平穩(wěn)性

在多代理環(huán)境中，每個代理面臨的環(huán)境是動態(tài)變化的，因為其他代理也在不斷學(xué)習(xí)和調(diào)整策略。這違反了馬爾可夫性質(zhì)，使得傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法難以直接應(yīng)用。

影響：狀態(tài)轉(zhuǎn)移概率和獎勵函數(shù)不再是靜態(tài)的。
后果：代理的最優(yōu)策略可能隨著其他代理行為的變化而改變，導(dǎo)致學(xué)習(xí)過程的不穩(wěn)定性。

4.3.2 部分可觀察性

在大多數(shù)多代理場景中，單個代理無法獲得完整的環(huán)境狀態(tài)信息或其他代理的行動。

建模：問題轉(zhuǎn)化為部分可觀察馬爾可夫決策過程（POMDP）。
挑戰(zhàn)：代理需要在不完整信息的基礎(chǔ)上推斷隱藏狀態(tài)，增加了策略學(xué)習(xí)的復(fù)雜性。

4.3.3 可擴(kuò)展性和聯(lián)合行動空間

隨著代理數(shù)量的增加，系統(tǒng)的復(fù)雜度呈指數(shù)級增長。

聯(lián)合行動空間：對于n個代理，聯(lián)合行動空間為A? × A? × … × A?。
計算挑戰(zhàn)：狀態(tài)-行動空間的急劇擴(kuò)大導(dǎo)致計算復(fù)雜性顯著增加，傳統(tǒng)RL方法效率降低。
可擴(kuò)展性需求：需要開發(fā)能夠處理大規(guī)模多代理系統(tǒng)的算法。

4.3.4 信用分配問題

在合作場景中，準(zhǔn)確評估每個代理對團(tuán)隊目標(biāo)的貢獻(xiàn)變得尤為復(fù)雜。

挑戰(zhàn)：難以確定哪些代理的行動對實(shí)現(xiàn)共同目標(biāo)起到了關(guān)鍵作用。
局限性：傳統(tǒng)方法往往無法提供清晰的個體貢獻(xiàn)洞察，影響?yīng)剟罘峙涞墓叫院陀行浴?/span>

這些挑戰(zhàn)共同構(gòu)成了MARL研究的核心問題，推動了該領(lǐng)域算法和理論的不斷發(fā)展。在接下來的章節(jié)中，我們將探討應(yīng)對這些挑戰(zhàn)的一些主要方法和算法。

5. MARL中的決策制定與學(xué)習(xí)范式

多代理強(qiáng)化學(xué)習(xí)（MARL）在現(xiàn)實(shí)世界的多個領(lǐng)域都有重要應(yīng)用，尤其是在機(jī)器人領(lǐng)域。MARL算法旨在使每個代理學(xué)習(xí)如何在最大化自身獎勵的同時，維持其對全局獎勵最大化的貢獻(xiàn)。

5.1 MARL的主要學(xué)習(xí)范式

5.1.1 集中訓(xùn)練與分散執(zhí)行（CTDE）

CTDE是MARL中一種廣泛使用的范式，它在訓(xùn)練和執(zhí)行階段采用不同的信息訪問策略：

訓(xùn)練階段：代理可以訪問全局信息。
執(zhí)行階段：代理僅基于局部觀察進(jìn)行決策。

這種方法平衡了學(xué)習(xí)效率和實(shí)際部署的需求。

5.1.2 完全分散學(xué)習(xí)

在這種范式下，代理在訓(xùn)練和執(zhí)行過程中都無法獲取其他代理的信息：

每個代理獨(dú)立更新自己的策略。
目標(biāo)是最大化所有代理的獎勵總和。

這種方法面臨的主要挑戰(zhàn)是環(huán)境的非平穩(wěn)性，因為從每個代理的角度來看，其他代理的行為變化會導(dǎo)致環(huán)境動態(tài)的變化。

5.2 核心算法

5.2.1 值分解網(wǎng)絡(luò)（VDN）

VDN是一種在CTDE框架下使用的方法，其核心思想是將全局Q值分解為各個代理的Q值之和。

Q-tot作為各個代理Q值的總和

VDN的基本假設(shè)是聯(lián)合Q函數(shù)可以加性分解為個體代理Q函數(shù)：

Q_tot = ∑ Q_i

優(yōu)點(diǎn)：

允許分散執(zhí)行
每個代理可以獨(dú)立優(yōu)化自身策略

局限性：

簡單的加和可能導(dǎo)致策略多樣性降低
容易陷入局部最優(yōu)，特別是當(dāng)Q網(wǎng)絡(luò)在代理間共享時

5.2.2 QMIX

QMIX是對VDN的改進(jìn)，引入了一個混合網(wǎng)絡(luò)來組合個體代理值到聯(lián)合Q值。

QMIX架構(gòu)

核心特點(diǎn)：

使用混合網(wǎng)絡(luò)表示個體代理值和聯(lián)合Q值之間的非線性關(guān)系
保持單調(diào)性約束，確保行動選擇的一致性

Q-tot作為混合網(wǎng)絡(luò)輸出

QMIX遵循標(biāo)準(zhǔn)的Q學(xué)習(xí)范式，使用時序差分（TD）誤差更新全局Q值：

TD_error = r + γ * max_a' Q(s', a') - Q(s, a)

5.2.3 獨(dú)立近端策略優(yōu)化（IPPO）

IPPO是一種簡單而有效的MARL算法，其中每個代理在訓(xùn)練和執(zhí)行過程中都獨(dú)立運(yùn)作。

關(guān)鍵特點(diǎn)：

每個代理擁有獨(dú)立的策略和評論家網(wǎng)絡(luò)
使用PPO算法進(jìn)行策略更新

IPPO使用PPO的裁剪目標(biāo)函數(shù)來防止過大的策略更新：

IPPO中使用的PPO裁剪目標(biāo)

優(yōu)勢：

簡單，易于實(shí)現(xiàn)
良好的可擴(kuò)展性

局限性：

可能難以實(shí)現(xiàn)全局最優(yōu)，特別是在需要高度協(xié)調(diào)的任務(wù)中

5.2.4 多代理近端策略優(yōu)化（MAPPO）

MAPPO是PPO算法在多代理場景中的擴(kuò)展，采用CTDE方法。

核心思想：

使用中心化評論家來解決非平穩(wěn)性問題
評論家可以訪問聯(lián)合狀態(tài)，學(xué)習(xí)更穩(wěn)定的值函數(shù)

MAPPO的策略更新通過最大化以下PPO目標(biāo)來執(zhí)行：

其中L_i_PPO是代理i的PPO目標(biāo)。

中心化評論家通過最小化以下誤差來更新：

MAPPO通過結(jié)合中心化訓(xùn)練和分散執(zhí)行，在處理非平穩(wěn)環(huán)境方面表現(xiàn)出色。

在下一部分中，我們將繼續(xù)探討更多高級MARL算法，以及多代理系統(tǒng)中的通信策略。

6. 高級MARL算法與通信策略

6.1 多代理深度確定性策略梯度（MADDPG）

MADDPG是深度確定性策略梯度（DDPG）算法在多代理環(huán)境中的擴(kuò)展。它采用集中訓(xùn)練分散執(zhí)行（CTDE）的策略，引入了中心化的Q函數(shù)來處理所有代理的聯(lián)合行動。

MADDPG算法流程

核心特點(diǎn)如下：

每個代理擁有自己的演員網(wǎng)絡(luò)（策略）和評論家網(wǎng)絡(luò)
評論家網(wǎng)絡(luò)在訓(xùn)練時可訪問所有代理的觀察和行動
使用目標(biāo)網(wǎng)絡(luò)來穩(wěn)定學(xué)習(xí)過程

MADDPG的評論家網(wǎng)絡(luò)更新遵循標(biāo)準(zhǔn)的Q學(xué)習(xí)范式：

其中Q函數(shù)是中心化的動作-值函數(shù)，接受所有代理的行動作為輸入。

策略更新通過最大化預(yù)期Q值來實(shí)現(xiàn)：

MADDPG通過允許代理學(xué)習(xí)其他代理的策略，有效地處理了非平穩(wěn)環(huán)境的挑戰(zhàn)。

6.2 MARL中的通信策略

在多代理系統(tǒng)中，有效的通信對于協(xié)調(diào)和決策至關(guān)重要。然而，通信也面臨諸如帶寬限制、不可靠信道等挑戰(zhàn)。

代理間的三種不同通信策略

6.2.1 可微分和強(qiáng)化的代理間學(xué)習(xí)（RIAL/DIAL）

RIAL和DIAL是探索代理間高效通信的重要方法：

RIAL：結(jié)合DRQN和獨(dú)立Q學(xué)習(xí)，分別用于行動選擇和通信
DIAL：引入可微分通信通道，支持端到端學(xué)習(xí)

6.2.2 SchedNet

SchedNet引入了學(xué)習(xí)型調(diào)度機(jī)制，代理學(xué)習(xí)決定哪些代理應(yīng)該被允許廣播消息。

SchedNet架構(gòu)

主要組件：

調(diào)度機(jī)制
消息編碼
基于有限通信和局部觀察的行動選擇

6.2.3 TarMAC：目標(biāo)多代理通信

TarMAC專注于提高代理間通信的效率和有效性。

TarMAC架構(gòu)

核心思想：

使用目標(biāo)通信策略，允許代理選擇性地與特定同伴通信
采用基于簽名的軟注意力機(jī)制來實(shí)現(xiàn)消息定向

使用簽名和值構(gòu)建的消息

跨代理計算的注意力

6.2.4 基于自編碼器的通信方法

這種方法旨在開發(fā)多代理系統(tǒng)中的通信語言，重點(diǎn)關(guān)注如何使用自編碼器在環(huán)境中建立語言基礎(chǔ)。

基于自編碼器的通信架構(gòu)

主要組件：

圖像編碼器：將原始像素觀察嵌入到低維特征空間
通信自編碼器：學(xué)習(xí)從特征空間到通信符號的映射
接收器模塊：使用GRU策略處理編碼的圖像特征和消息特征

7. 結(jié)論和未來方向

多代理強(qiáng)化學(xué)習(xí)（MARL）通過引入多個代理在共享環(huán)境中交互的復(fù)雜性，極大地擴(kuò)展了傳統(tǒng)強(qiáng)化學(xué)習(xí)的邊界。MARL在處理非平穩(wěn)性、部分可觀察性、可擴(kuò)展性和信用分配等方面的挑戰(zhàn)推動了該領(lǐng)域的快速發(fā)展。

未來研究方向

可擴(kuò)展性：開發(fā)能夠有效處理大規(guī)模多代理系統(tǒng)的算法仍然是一個關(guān)鍵挑戰(zhàn)。
分散訓(xùn)練分散執(zhí)行（DTDE）：探索完全分散的訓(xùn)練和執(zhí)行方法，以應(yīng)對更復(fù)雜的實(shí)際場景。
通信策略：進(jìn)一步研究高效、魯棒的代理間通信機(jī)制，特別是在有限帶寬和不可靠通道的情況下。
遷移學(xué)習(xí)：研究如何將學(xué)到的策略從一個多代理環(huán)境遷移到另一個環(huán)境。
模型化MARL：結(jié)合模型學(xué)習(xí)與MARL，提高樣本效率和泛化能力。
公平性和倫理：探討MARL系統(tǒng)中的公平性問題，以及如何在多代理決策中納入道德和倫理考慮。

隨著研究的深入和技術(shù)的進(jìn)步，MARL有望在更多復(fù)雜的實(shí)際問題中發(fā)揮關(guān)鍵作用，推動人工智能在多代理系統(tǒng)中的應(yīng)用不斷向前發(fā)展。

責(zé)任編輯：華軒來源： DeepHub IMBA

多代理強(qiáng)化學(xué)習(xí)強(qiáng)化學(xué)習(xí)MARL

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<legend id="8djbl"><track id="8djbl"></track></legend>