自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

智能體協(xié)作進(jìn)化論,從心智理論到逆向注意力

發(fā)布于 2024-10-31 14:44
瀏覽
0收藏

讓智能體在不斷變化的環(huán)境中動態(tài)適應(yīng)、并有效合作是一個巨大的挑戰(zhàn),特別是當(dāng)智能體需要與陌生的智能體互動時,傳統(tǒng)訓(xùn)練方法往往表現(xiàn)不佳。這種情況下,引入逆向注意力智能體(Inverse Attention Agents)成為了一種創(chuàng)新且有效的解決方案。

逆向注意力智能體的核心在于借鑒“心智理論”(Theory of Mind, ToM),通過注意力機制來推斷其他智能體的目標(biāo)和行為,并據(jù)此調(diào)整自己的行動。這種方法不僅能夠提升智能體在合作任務(wù)中的表現(xiàn),還能在競爭和混合環(huán)境中表現(xiàn)出色。這一創(chuàng)新性的策略為多智能體系統(tǒng)的自發(fā)合作提供了新的思路,顯著改善了智能體在面對未見過的智能體時的適應(yīng)能力。

提出逆向注意力智能體理論的是來自加州大學(xué)洛杉磯分校的團(tuán)隊,他們研究目的在于設(shè)計和驗證一種能夠在多變環(huán)境中動態(tài)適應(yīng)的新型智能體訓(xùn)練方法——逆向注意力智能體。通過在多種環(huán)境中進(jìn)行實驗,研究團(tuán)隊展示了這種方法在提升智能體協(xié)作性能方面的顯著效果。逆向注意力智能體的創(chuàng)新點在于其對注意力權(quán)重的推斷和更新機制,這一機制使得智能體能夠基于對其他智能體注意力狀態(tài)的推斷,調(diào)整自身的行動,從而實現(xiàn)更為靈活和高效的合作。他們的論文《Inverse Attention Agent for Multi-Agent System》 10 月 30 日發(fā)表于arXiv。

這個研究團(tuán)隊由來自加州大學(xué)洛杉磯分校(UCLA)的五位學(xué)者組成,分別來自計算機科學(xué)系、統(tǒng)計與數(shù)據(jù)科學(xué)系以及傳播學(xué)系。團(tuán)隊成員包括:Qian Long、Ruoyan Li、

Minglu Zhao、Tao Gao、Demetri Terzopoulos。他們結(jié)合了計算機科學(xué)、數(shù)據(jù)科學(xué)和傳播學(xué)的專業(yè)知識,共同探索多智能體系統(tǒng)中的逆向注意力智能體,為該領(lǐng)域的研究提供了新的視角和方法。

相關(guān)工作

在多智能體系統(tǒng)(MAS)的發(fā)展歷程中,研究者們不斷探索如何提高智能體在復(fù)雜環(huán)境中的協(xié)作和適應(yīng)能力。心智理論(Theory of Mind, ToM)作為人類理解他人心理狀態(tài)的能力,其概念引入MAS,為實現(xiàn)智能體之間的高效合作提供了新的路徑。ToM研究的一個核心目標(biāo)是讓智能體能夠推測和理解其他智能體的內(nèi)部狀態(tài),從而制定更為有效的協(xié)作策略。在這一領(lǐng)域,注意力機制的引入為改進(jìn)智能體的決策和協(xié)作能力提供了重要工具。

心智理論最早由心理學(xué)家提出,旨在解釋人類如何理解和預(yù)測他人的心理狀態(tài)。它包括對信念、欲望、意圖等心理狀態(tài)的推斷能力。在多智能體系統(tǒng)中,ToM被用來設(shè)計能夠模擬人類推理和決策過程的智能體,以實現(xiàn)更自然的協(xié)作。早期的ToM研究主要采用貝葉斯方法,通過觀測其他智能體的行為來推斷其心理狀態(tài)。這種方法提供了一個系統(tǒng)化的推理框架,但由于計算復(fù)雜度高,在大規(guī)模多智能體系統(tǒng)中應(yīng)用存在一定困難。

近年來,隨著神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的興起,研究者們開始探索將ToM直接整合到神經(jīng)網(wǎng)絡(luò)架構(gòu)中的可能性。通過數(shù)據(jù)驅(qū)動的方法,智能體可以在互動中學(xué)習(xí)和表示其他智能體的心理狀態(tài)。特別是自注意力機制的發(fā)展,為智能體的狀態(tài)推斷和行為調(diào)整提供了新的手段。自注意力機制允許智能體根據(jù)觀察到的信息分配不同的權(quán)重,從而在決策過程中突出最重要的信息。這種方法不僅提高了推理的準(zhǔn)確性,還增強了智能體在動態(tài)環(huán)境中的適應(yīng)能力。

在此基礎(chǔ)上,逆向注意力智能體(Inverse Attention Agents)應(yīng)運而生。該方法通過逆向推斷其他智能體的注意力狀態(tài),并根據(jù)這些推斷結(jié)果調(diào)整自身的行為。逆向注意力智能體的創(chuàng)新在于其能夠推測其他智能體的目標(biāo)和行為,并實時調(diào)整自己的行動策略,從而在各種復(fù)雜環(huán)境中表現(xiàn)出色。

即席團(tuán)隊合作(Ad-Hoc Teaming)是多智能體系統(tǒng)中一個具有挑戰(zhàn)性的研究課題。即席合作要求智能體能夠在沒有預(yù)先協(xié)調(diào)和策略一致性的情況下,與陌生隊友進(jìn)行高效合作。這種情境在現(xiàn)實世界中非常常見,例如災(zāi)難救援、無人機編隊以及多智能體機器人系統(tǒng)中。然而,實現(xiàn)即席合作需要智能體具備快速適應(yīng)和協(xié)調(diào)的能力,這對傳統(tǒng)的訓(xùn)練方法提出了巨大挑戰(zhàn)。

現(xiàn)有的即席團(tuán)隊合作方法主要集中在以下幾個方面。

基于類型的推理:將隊友表示為假設(shè)的行為類型,通過推斷隊友屬于哪種類型來選擇合適的行動策略。這種方法在一定程度上解決了陌生隊友之間的協(xié)作問題,但其推理過程復(fù)雜,且依賴于預(yù)先設(shè)定的類型分類。

基于神經(jīng)網(wǎng)絡(luò)的推理:通過神經(jīng)網(wǎng)絡(luò)從觀察數(shù)據(jù)中學(xué)習(xí)隊友的行為類型。這種方法具有較好的泛化能力,但其訓(xùn)練過程需要大量數(shù)據(jù)支持,且在應(yīng)對動態(tài)變化時可能表現(xiàn)不穩(wěn)定。

共享代理框架:依賴于組級心理狀態(tài)的協(xié)調(diào),在智能體之間建立對任務(wù)和目標(biāo)的共同理解。這種方法可以有效減少推理的復(fù)雜性,但其靈活性和適應(yīng)性較差,難以應(yīng)對多樣化和動態(tài)變化的環(huán)境。

逆向注意力智能體的出現(xiàn),為解決即席團(tuán)隊合作中的挑戰(zhàn)提供了新的思路。通過逆向推斷和調(diào)整注意力權(quán)重,逆向注意力智能體能夠更好地理解隊友的目標(biāo)和行為,并根據(jù)推斷結(jié)果實時調(diào)整自己的行動策略。這種方法不僅提高了智能體的協(xié)作能力,還增強了其在動態(tài)環(huán)境中的適應(yīng)性。

馬爾可夫博弈及梯度場表示

在討論逆向注意力智能體的具體方法之前,首先需要了解一些基礎(chǔ)概念,即多智能體馬爾可夫決策過程(MDP)和梯度場(GF)表示。

智能體協(xié)作進(jìn)化論,從心智理論到逆向注意力-AI.x社區(qū)

圖1:訓(xùn)練反向注意力代理的管道:第一階段涉及應(yīng)用自我注意力機制,其中代理為其觀察值分配注意力權(quán)重,并根據(jù)這些權(quán)重采取行動。在第二階段,智能體使用逆注意力網(wǎng)絡(luò)對同類型的其他智能體進(jìn)行注意力推理。通過將自己置于這些智能體的位置,它推斷出它們的注意力權(quán)重,從而了解它們的目標(biāo)和行為。在最后階段,反向注意力代理使用從上一步推斷出的信息將其原始注意力權(quán)重{w1,w2,…,wn}更新為{w^1,w^2,……,w^n},從而導(dǎo)致其最終動作的變化。

多智能體馬爾可夫決策過程(MDP)是一種框架,用于建模多個智能體在環(huán)境中的交互過程。MDP通常由以下幾個要素組成:

  • 狀態(tài)集S:表示環(huán)境的所有可能狀態(tài)。
  • 動作集Ai:每個智能體i的所有可能動作。
  • 狀態(tài)轉(zhuǎn)移函數(shù)T:描述了在每個狀態(tài)下,各智能體選擇不同動作后,環(huán)境狀態(tài)的變化情況,記為T: S × A1 × · · · × AN → Δ(S)。
  • 獎勵函數(shù)Ri:每個智能體i根據(jù)當(dāng)前狀態(tài)和所有智能體的動作獲得的獎勵,記為Ri: S × A1 × · · · × AN → R。
  • 策略πi:智能體i在每個狀態(tài)下選擇動作的概率分布,旨在最大化其期望的累計折扣獎勵,記為E[∑γ^t Ri(st, a1,t, ..., aN,t)]。

在多智能體強化學(xué)習(xí)(MARL)的背景下,智能體通過與環(huán)境和其他智能體的互動,不斷學(xué)習(xí)優(yōu)化其策略πi,以便在復(fù)雜環(huán)境中實現(xiàn)最佳的長期收益。

梯度場(GF)表示是一種在多智能體系統(tǒng)中用于增強智能體環(huán)境感知和決策能力的高級表示方法。相比于直接使用環(huán)境的原始觀察,GF能夠提供更高層次的信息,幫助智能體更好地理解環(huán)境并做出更明智的決策。

具體來說,GF通過學(xué)習(xí)環(huán)境中數(shù)據(jù)的對數(shù)密度梯度場,即得分函數(shù),來構(gòu)建更具代表性的環(huán)境表示。這一過程利用去噪得分匹配(DSM)生成模型,通過多個不同噪聲級別的數(shù)據(jù)來訓(xùn)練得分網(wǎng)絡(luò),使其能夠近似環(huán)境中數(shù)據(jù)的真實得分函數(shù)。GF表示可以看作智能體在特定環(huán)境中的目標(biāo),與相對坐標(biāo)等原始觀察相比,GF能夠更直接地表示與智能體目標(biāo)一致的未來趨勢,從而提高智能體的決策效率和準(zhǔn)確性。

理解了MDP和GF的基礎(chǔ)知識后,我們可以更深入地探討逆向注意力智能體的方法。逆向注意力智能體通過引入自注意力機制和逆向注意力推理網(wǎng)絡(luò),實現(xiàn)對其他智能體的注意力狀態(tài)的推斷和自身行為的調(diào)整。

首先,智能體通過自注意力機制為觀察到的信息賦予不同的權(quán)重,從而在決策過程中突出最重要的信息。在訓(xùn)練過程中,智能體會收集這些權(quán)重數(shù)據(jù),形成訓(xùn)練數(shù)據(jù)集。然后使用這些數(shù)據(jù)訓(xùn)練逆向注意力推理網(wǎng)絡(luò),使其能夠根據(jù)觀察到的其他智能體的行為和目標(biāo),推斷其注意力權(quán)重。

一旦逆向注意力網(wǎng)絡(luò)完成訓(xùn)練,智能體就可以將其應(yīng)用于實時環(huán)境中,通過推斷其他智能體的注意力狀態(tài),調(diào)整自己的行動策略。這種方法不僅提高了智能體的協(xié)作能力,還增強了其在動態(tài)環(huán)境中的適應(yīng)性。

為了驗證逆向注意力智能體的有效性,研究團(tuán)隊在多個復(fù)雜環(huán)境中進(jìn)行了實驗。實驗結(jié)果表明,逆向注意力智能體在多種任務(wù)中表現(xiàn)優(yōu)越,包括合作、競爭以及混合任務(wù)。通過與傳統(tǒng)方法的比較,逆向注意力智能體在適應(yīng)性和協(xié)作效率方面表現(xiàn)出顯著的優(yōu)勢。

特別是在即席團(tuán)隊合作的場景中,逆向注意力智能體能夠快速適應(yīng)新隊友和新環(huán)境,實現(xiàn)高效合作。這一結(jié)果表明,通過逆向推斷和調(diào)整注意力狀態(tài),智能體能夠更好地理解和響應(yīng)其他智能體的行為,從而在多智能體系統(tǒng)中取得更佳表現(xiàn)。

問題定義

在多智能體系統(tǒng)(MAS)中,各個智能體在環(huán)境中自主行動,協(xié)調(diào)合作以實現(xiàn)共同目標(biāo)。為了在復(fù)雜且動態(tài)的環(huán)境中有效運作,智能體需要制定去中心化的策略,這意味著每個智能體都能獨立決策,而不依賴于中央控制系統(tǒng)。研究團(tuán)隊提出了一種創(chuàng)新的逆向注意力智能體(Inverse Attention Agents),旨在提升智能體在這些條件下的協(xié)作能力。

在完全可觀察的多智能體環(huán)境中,每個智能體可以獲取關(guān)于其他智能體的所有信息,包括其行動和狀態(tài)。這種全知全能的環(huán)境設(shè)定為研究逆向注意力智能體提供了理想條件。在這樣的環(huán)境中,智能體通過對其他智能體行為的觀察,推斷其內(nèi)在狀態(tài),從而優(yōu)化自己的決策過程。然而這也帶來了新的挑戰(zhàn),需要智能體具備高度的靈活性和適應(yīng)能力。

去中心化策略目標(biāo)

去中心化策略的目標(biāo)是讓每個智能體獨立地學(xué)習(xí)和執(zhí)行決策,以實現(xiàn)整體系統(tǒng)的最優(yōu)性能。在多智能體系統(tǒng)中,這一目標(biāo)尤其重要,因為各個智能體常常需要在沒有預(yù)先協(xié)調(diào)和統(tǒng)一指令的情況下進(jìn)行合作。為了實現(xiàn)這一目標(biāo),智能體需要在以下幾個方面進(jìn)行優(yōu)化:

  1. 自主決策:每個智能體都能夠基于自身的觀測和經(jīng)驗,獨立制定最優(yōu)策略。
  2. 動態(tài)適應(yīng):智能體能夠根據(jù)環(huán)境和其他智能體行為的變化,實時調(diào)整其策略。
  3. 高效協(xié)作:智能體能夠在沒有中央控制的情況下,通過推斷和預(yù)測其他智能體的行為,實現(xiàn)高效合作。

目標(biāo)實現(xiàn)所需的條件和挑戰(zhàn)

為了實現(xiàn)去中心化策略目標(biāo),逆向注意力智能體需要滿足以下三個條件。

  1. 全面的環(huán)境感知能力:智能體需要能夠全面感知環(huán)境中的信息,包括其他智能體的狀態(tài)和行動。這要求智能體具備高效的感知和信息處理能力。
  2. 準(zhǔn)確的狀態(tài)推斷能力:智能體需要能夠準(zhǔn)確推斷其他智能體的內(nèi)在狀態(tài),包括其目標(biāo)和意圖。這需要智能體具備強大的推理和預(yù)測能力。
  3. 靈活的策略調(diào)整能力:智能體需要能夠根據(jù)推斷結(jié)果,靈活調(diào)整自身的策略,以實現(xiàn)最優(yōu)決策。這要求智能體具備快速學(xué)習(xí)和適應(yīng)能力。

在實現(xiàn)這些條件的過程中,逆向注意力智能體面臨以下幾個主要挑戰(zhàn):

信息處理的復(fù)雜性:在完全可觀察的環(huán)境中,智能體需要處理大量的信息,包括其他智能體的狀態(tài)和行動。這要求智能體具備高效的信息處理和存儲能力。

狀態(tài)推斷的準(zhǔn)確性:智能體需要能夠準(zhǔn)確推斷其他智能體的內(nèi)在狀態(tài),這對于實現(xiàn)高效合作至關(guān)重要。然而,推斷過程往往涉及復(fù)雜的計算和不確定性,可能導(dǎo)致推斷結(jié)果的偏差。

策略調(diào)整的實時性:智能體需要能夠根據(jù)環(huán)境變化和推斷結(jié)果,實時調(diào)整其策略。這要求智能體具備快速響應(yīng)和適應(yīng)能力,以應(yīng)對動態(tài)變化的環(huán)境。

通過引入逆向注意力機制,研究團(tuán)隊提出的方法在一定程度上克服了上述挑戰(zhàn)。逆向注意力智能體通過對其他智能體行為的逆向推斷,調(diào)整自身的注意力權(quán)重,從而優(yōu)化決策過程。這種方法不僅提高了智能體的協(xié)作能力,還增強了其在動態(tài)環(huán)境中的適應(yīng)性。

逆向注意力智能體的方法論

為了實現(xiàn)上述目標(biāo),研究團(tuán)隊采用了以下步驟來構(gòu)建逆向注意力智能體。

通過自我注意機制,智能體能夠為其觀察到的信息分配不同的權(quán)重,從而在決策過程中突出最重要的信息。這個階段還為訓(xùn)練逆向注意力網(wǎng)絡(luò)準(zhǔn)備了必要的數(shù)據(jù)。

在收集了足夠的數(shù)據(jù)對之后,使用這些數(shù)據(jù)訓(xùn)練逆向注意力推理網(wǎng)絡(luò)。該網(wǎng)絡(luò)能夠基于其他智能體的目標(biāo)和行動,推斷其注意力權(quán)重。

使用訓(xùn)練好的逆向注意力網(wǎng)絡(luò),智能體能夠?qū)崟r推斷其他智能體的注意力狀態(tài),并根據(jù)推斷結(jié)果調(diào)整自己的策略。

這種方法不僅實現(xiàn)了智能體間的高效協(xié)作,還顯著提升了智能體在面對未知環(huán)境和未見過的智能體時的適應(yīng)能力。實驗結(jié)果表明,逆向注意力智能體在多種任務(wù)中表現(xiàn)優(yōu)越,無論是合作任務(wù)、競爭任務(wù)還是混合任務(wù),都表現(xiàn)出了強大的適應(yīng)性和高效性。

方法介紹

在多智能體系統(tǒng)(MAS)中,各個智能體如何在動態(tài)復(fù)雜的環(huán)境中進(jìn)行有效合作,是一個重要的研究課題。研究團(tuán)隊提出了一種創(chuàng)新的逆向注意力智能體(Inverse Attention Agents),通過引入自我注意機制和注意力推理網(wǎng)絡(luò),優(yōu)化智能體的決策過程

自我注意機制的應(yīng)用與數(shù)據(jù)準(zhǔn)備

逆向注意力智能體首先利用自我注意機制來處理觀察到的信息。自我注意機制允許智能體根據(jù)環(huán)境中的不同目標(biāo)分配注意力權(quán)重,從而在決策過程中突出最重要的信息。這一機制的引入,使得智能體能夠更靈活地應(yīng)對環(huán)境變化,并在處理大量信息時保持高效。

智能體協(xié)作進(jìn)化論,從心智理論到逆向注意力-AI.x社區(qū)

圖2:逆向注意力代理的網(wǎng)絡(luò)架構(gòu)。對于代理i,Wi是觀察嵌入函數(shù),它接收觀察并輸出初始注意力權(quán)重。IWi是一個逆向注意力網(wǎng)絡(luò),它接收其他智能體的動作和觀察,并輸出推斷出的注意力權(quán)重。UWi考慮了自初始權(quán)重和從他人推斷的權(quán)重,并更新了ai的注意力權(quán)重。hi函數(shù)根據(jù)更新的權(quán)重輸出最終動作。

在具體應(yīng)用中,智能體通過一個自我注意網(wǎng)絡(luò)(Self-Attention Network)來處理其觀測到的狀態(tài)信息。該網(wǎng)絡(luò)將觀測到的狀態(tài)進(jìn)行嵌入(embedding),并通過注意力機制計算出各個目標(biāo)的權(quán)重。然后,智能體根據(jù)這些權(quán)重來決定其下一步的行動。

在訓(xùn)練過程中,智能體會不斷收集其注意力權(quán)重和對應(yīng)的觀察數(shù)據(jù)對(wi, oi),并將這些數(shù)據(jù)存儲在一個訓(xùn)練數(shù)據(jù)集中(Dataset D)。這些數(shù)據(jù)為后續(xù)訓(xùn)練注意力推理網(wǎng)絡(luò)提供了必要的基礎(chǔ)。

注意力推理網(wǎng)絡(luò)的訓(xùn)練和逆向注意力智能體的構(gòu)建

有了自我注意機制收集的數(shù)據(jù),下一步是訓(xùn)練注意力推理網(wǎng)絡(luò)(Attention Inference Network)。該網(wǎng)絡(luò)的目標(biāo)是根據(jù)觀察到的其他智能體的行為,推斷其注意力狀態(tài)。

具體而言,注意力推理網(wǎng)絡(luò)通過以下步驟進(jìn)行訓(xùn)練:

  1. 數(shù)據(jù)收集:從自我注意網(wǎng)絡(luò)訓(xùn)練的過程中,收集注意力權(quán)重和觀察數(shù)據(jù)對,并保存在數(shù)據(jù)集中。
  2. 訓(xùn)練目標(biāo):利用收集的數(shù)據(jù)集,訓(xùn)練一個逆向注意力推理網(wǎng)絡(luò)。該網(wǎng)絡(luò)的輸入是其他智能體的觀察數(shù)據(jù),輸出是推斷的注意力權(quán)重。
  3. 損失函數(shù):通過最小化預(yù)測權(quán)重和實際權(quán)重之間的誤差,來優(yōu)化推理網(wǎng)絡(luò)的性能。

逆向注意力智能體通過逆向注意力推理網(wǎng)絡(luò),將其他智能體的注意力狀態(tài)和自身狀態(tài)結(jié)合起來,形成新的注意力權(quán)重。這些更新后的注意力權(quán)重,使智能體能夠更好地適應(yīng)環(huán)境變化,并在合作和競爭中做出更優(yōu)決策。

逆向注意力智能體的整體架構(gòu)與策略

逆向注意力智能體的整體架構(gòu)由多個網(wǎng)絡(luò)模塊組成,每個模塊在訓(xùn)練和決策過程中發(fā)揮特定的作用。

首先,智能體通過自我注意網(wǎng)絡(luò)來處理其觀測到的環(huán)境信息,計算并分配注意力權(quán)重。這些注意力權(quán)重用于決定智能體的初始行動策略。在訓(xùn)練過程中,智能體會不斷收集這些權(quán)重和觀察數(shù)據(jù),形成訓(xùn)練數(shù)據(jù)集。

接下來,智能體利用這些數(shù)據(jù),訓(xùn)練逆向注意力推理網(wǎng)絡(luò)。該網(wǎng)絡(luò)基于其他智能體的觀察和行為,推斷其注意力狀態(tài)。推理網(wǎng)絡(luò)的輸出與智能體的原始注意力權(quán)重結(jié)合,形成新的注意力權(quán)重。

最后,智能體通過一個權(quán)重更新模型(Weight Updating Model),將推斷的注意力權(quán)重和自身的原始權(quán)重結(jié)合,并通過一個全連接網(wǎng)絡(luò)更新其最終注意力權(quán)重。基于這些更新后的權(quán)重,智能體能夠在不同環(huán)境中實時調(diào)整其策略,做出更優(yōu)的決策。

逆向注意力智能體的策略實現(xiàn)過程如下:

初始階段:應(yīng)用自我注意機制,對觀測到的環(huán)境信息進(jìn)行處理,并為各個目標(biāo)分配初始注意力權(quán)重。

推理階段:使用逆向注意力推理網(wǎng)絡(luò),基于其他智能體的行為和目標(biāo),推斷其注意力狀態(tài)。

更新階段:將推斷的注意力權(quán)重與自身的原始權(quán)重結(jié)合,通過權(quán)重更新模型,優(yōu)化最終的注意力權(quán)重。

實驗與結(jié)果

為了驗證逆向注意力智能體的有效性,研究團(tuán)隊在多個復(fù)雜環(huán)境中進(jìn)行了實驗。這些環(huán)境包括完全合作游戲、完全競爭游戲以及混合游戲,每種環(huán)境都具有不同的挑戰(zhàn)和特性。實驗結(jié)果表明,逆向注意力智能體在這些環(huán)境中表現(xiàn)出色,無論是在合作、競爭還是混合任務(wù)中,都顯著優(yōu)于傳統(tǒng)方法。

特別是在即席團(tuán)隊合作場景中,逆向注意力智能體能夠快速適應(yīng)新隊友和新環(huán)境,實現(xiàn)高效合作。這一結(jié)果證明,通過逆向推斷和調(diào)整注意力狀態(tài),智能體能夠更好地理解和響應(yīng)其他智能體的行為,從而在多智能體系統(tǒng)中取得更佳表現(xiàn)。

實驗環(huán)境與基線方法的選擇

智能體協(xié)作進(jìn)化論,從心智理論到逆向注意力-AI.x社區(qū)

圖3:傳播、對手和草原游戲的環(huán)境可視化。

本研究在多個實驗環(huán)境中驗證了逆向注意力智能體的性能,這些環(huán)境包括:

  • Spread:一個完全合作的游戲,智能體需要在多個地標(biāo)間進(jìn)行分布。
  • Adversary:一個完全競爭的游戲,涉及“狼”和“羊”兩種智能體類型,狼捕捉羊,而羊試圖逃脫。
  • Grassland:一個混合游戲,包含“羊”、捕捉它們的“狼”、以及可以收集的“草”。
  • Navigation:一個需要智能體導(dǎo)航到不同地標(biāo)的合作游戲。
  • Tag:一個混合游戲,狼追逐羊并盡量避開障礙物。

為了進(jìn)行比較,研究團(tuán)隊選擇了幾種基線方法:

  1. MAPPO:多智能體近端策略優(yōu)化算法(Multi-Agent Proximal Policy Optimization)。
  2. IPPO:個體近端策略優(yōu)化算法(Individual Proximal Policy Optimization)。
  3. MAA2C:多智能體優(yōu)勢演員評論算法(Multi-Agent Advantage Actor-Critic)。
  4. ToM2C*:改編自 Wang 等人的心智理論方法。
  5. Self-Att:采用研究團(tuán)隊5.1節(jié)提到的自注意力結(jié)構(gòu)。
  6. Inverse-Att:研究團(tuán)隊提出的逆向注意力智能體。

所有基線方法均經(jīng)過相同量的訓(xùn)練,確保在評估期間不會接觸到其他方法的智能體,以保證公平性。

量化結(jié)果分析與討論

在量化分析中,研究團(tuán)隊對所有實驗環(huán)境中的智能體進(jìn)行了訓(xùn)練和評估。在Spread游戲中,各個方法的表現(xiàn)如表1所示:

MAPPO、IPPO、MAA2C在合作任務(wù)中的表現(xiàn)相對較差。

Self-Att 和 Inverse-Att 的表現(xiàn)顯著優(yōu)于其他方法,尤其是 Inverse-Att 在多個環(huán)境中展現(xiàn)了卓越的合作和競爭能力。

這一結(jié)果表明,逆向注意力智能體在多種任務(wù)中都能保持穩(wěn)定且優(yōu)越的表現(xiàn),不僅適用于合作任務(wù),也能在競爭和混合任務(wù)中展現(xiàn)出色的適應(yīng)性。

不同規(guī)模下的逆向注意力智能體性能測試

為了進(jìn)一步驗證逆向注意力智能體的可擴展性,研究團(tuán)隊在不同規(guī)模的智能體環(huán)境中進(jìn)行了測試。具體而言,在Spread、Adversary和Grassland游戲中,評估了2、3、4個智能體的情況。

結(jié)果顯示,逆向注意力智能體在所有測試規(guī)模下均表現(xiàn)出色,特別是在合作相關(guān)的游戲中。這一發(fā)現(xiàn)證明了逆向注意力智能體不僅能適應(yīng)多樣化的環(huán)境,還能有效擴展到更大規(guī)模的多智能體系統(tǒng)中。

與人類參與者的合作實驗結(jié)果

為了評估逆向注意力智能體在實際合作場景中的適應(yīng)性,研究團(tuán)隊進(jìn)行了人類實驗。在Spread、Grassland和Adversary游戲中,五名參與者與智能體合作完成任務(wù)。實驗結(jié)果表明,Self-Att 和 Inverse-Att智能體在多數(shù)環(huán)境中表現(xiàn)優(yōu)于人類參與者,尤其是在適應(yīng)性和穩(wěn)定性方面。

智能體協(xié)作進(jìn)化論,從心智理論到逆向注意力-AI.x社區(qū)

圖4:我們評估了在{傳播:3,對抗:3?3和草原:3-3}的尺度下,反向注意力網(wǎng)絡(luò)在傳播、對手和草原環(huán)境中的五個角色的預(yù)測準(zhǔn)確性。在每個條形圖中,從左到右,我們顯示了從參與人數(shù)最多的目標(biāo)到參與人數(shù)最少的目標(biāo)的預(yù)測精度。結(jié)果表明,逆網(wǎng)絡(luò)可以準(zhǔn)確地預(yù)測其他智能體的注意力,特別是對前兩個感興趣的注意力。

這表明,逆向注意力智能體不僅在模擬環(huán)境中表現(xiàn)出色,也能在實際合作場景中與人類有效互動,展示出強大的適應(yīng)能力和協(xié)作潛力。

多個逆向注意力智能體的影響分析

研究團(tuán)隊還探討了多個逆向注意力智能體同時存在時的影響。通過逐漸替換MAPPO智能體為逆向注意力智能體,實驗發(fā)現(xiàn),隨著逆向注意力智能體數(shù)量的增加,團(tuán)隊總獎勵呈現(xiàn)非線性遞增模式。

這一發(fā)現(xiàn)強調(diào)了逆向注意力智能體在多智能體系統(tǒng)中的協(xié)作優(yōu)勢,證明了其能夠與其他智能體高效合作,從而在復(fù)雜任務(wù)中取得更佳的表現(xiàn)。

逆向注意力網(wǎng)絡(luò)的預(yù)測精度

為了驗證逆向注意力網(wǎng)絡(luò)的預(yù)測精度,研究團(tuán)隊收集了大量的權(quán)重觀察數(shù)據(jù)對,作為注意力的基準(zhǔn)。通過將這些數(shù)據(jù)輸入逆向注意力網(wǎng)絡(luò),并比較預(yù)測結(jié)果與基準(zhǔn)的差異,發(fā)現(xiàn)逆向注意力網(wǎng)絡(luò)能夠準(zhǔn)確預(yù)測其他智能體的注意力狀態(tài),特別是在最重要的兩個注意力目標(biāo)上,預(yù)測精度接近100%。

這一結(jié)果證明了逆向注意力網(wǎng)絡(luò)在推斷其他智能體注意力狀態(tài)方面的高效性和準(zhǔn)確性,為智能體的實時決策提供了可靠支持。

未來工作

雖然研究團(tuán)隊的研究已經(jīng)取得了顯著成果,但未來仍有許多值得探索的方向。首先,目前的逆向注意力智能體主要針對同類型智能體的推理,未來可以進(jìn)一步研究不同類型智能體之間的心智理論建模,以提升智能體在多樣化環(huán)境中的適應(yīng)性和協(xié)作能力。此外,研究團(tuán)隊還計劃開發(fā)一種能夠處理任意數(shù)量推斷注意力權(quán)重的UW網(wǎng)絡(luò)模型,從而增強智能體在復(fù)雜任務(wù)中的靈活性。

逆向注意力智能體的廣泛影響主要體現(xiàn)在其在多智能體強化學(xué)習(xí)(MARL)中的應(yīng)用潛力。通過推斷和調(diào)整注意力狀態(tài),逆向注意力智能體能夠在動態(tài)環(huán)境中實現(xiàn)更為高效的協(xié)作和決策。這一創(chuàng)新方法有望在多個實際應(yīng)用場景中發(fā)揮作用,如機器人群體協(xié)作、智能交通管理、無人機編隊等。

在智能社會的發(fā)展中,自主系統(tǒng)的智能化和協(xié)作能力至關(guān)重要。逆向注意力智能體通過引入心智理論和注意力機制,為自主系統(tǒng)的智能化提供了新的路徑。隨著這一領(lǐng)域研究的不斷深入,未來有望看到更多智能體在實際應(yīng)用中展現(xiàn)出強大的協(xié)作和適應(yīng)能力,從而推動技術(shù)進(jìn)步和社會發(fā)展。(END)

參考資料:https://arxiv.org/abs/2410.21794

本文轉(zhuǎn)載自 ??大噬元獸??,作者: FlerkenS

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦