Google Research Scholar和DeepMind獎(jiǎng)學(xué)金支持項(xiàng)目:多智能體系統(tǒng)中的合作彈性 精華
韌性,即系統(tǒng)在面對(duì)破壞性事件時(shí)的承受、適應(yīng)和恢復(fù)能力,是一個(gè)跨學(xué)科的重要概念。在生態(tài)學(xué)中,韌性指的是生態(tài)系統(tǒng)在受到干擾后恢復(fù)到原始狀態(tài)的能力;在工程學(xué)中,韌性涉及系統(tǒng)在故障或攻擊后恢復(fù)功能的能力;在心理學(xué)中,韌性則描述了個(gè)體或群體在面對(duì)壓力和逆境時(shí)的應(yīng)對(duì)和恢復(fù)能力。經(jīng)濟(jì)學(xué)、社會(huì)科學(xué)、網(wǎng)絡(luò)科學(xué)等領(lǐng)域也都對(duì)韌性進(jìn)行了廣泛研究。
在人工智能(AI)領(lǐng)域,特別是合作人工智能(Cooperative AI)中,韌性的重要性日益凸顯。合作AI系統(tǒng)通常在復(fù)雜和動(dòng)態(tài)的環(huán)境中運(yùn)行,需要與人類或其他機(jī)器進(jìn)行交互。這些系統(tǒng)必須能夠適應(yīng)環(huán)境變化,處理意外事件,并在面對(duì)破壞性事件時(shí)保持高效響應(yīng)。因此理解和增強(qiáng)合作AI系統(tǒng)的韌性,對(duì)于確保這些系統(tǒng)在實(shí)際應(yīng)用中的可靠性和有效性至關(guān)重要。
9 月 24 日,Sam Altman罕見地發(fā)表了一篇長(zhǎng)文,預(yù)言超級(jí)人工智能(ASI)將在「幾千天內(nèi)」到來(lái)。他堅(jiān)信,深度學(xué)習(xí)已經(jīng)取得了顯著進(jìn)展,能夠真正理解和學(xué)習(xí)任何數(shù)據(jù)的分布模式。人類正處在奇點(diǎn)的邊緣,即將邁入ASI的新時(shí)代。在這篇名為「智能時(shí)代」的博客中,Altman暗示,ASI的實(shí)現(xiàn)可能比我們想象的更近。為了確保ASI系統(tǒng)的穩(wěn)定性和高效性,這些系統(tǒng)同樣需要具備多方面的韌性。
盡管韌性在多個(gè)領(lǐng)域得到了廣泛研究,但在合作人工智能中的定義和量化方法尚不明確。9 月 20 日arXiv發(fā)表的技術(shù)論文《Cooperative Resilience in Artificial Intelligence Multiagent Systems》目標(biāo)是填補(bǔ)這一空白,提出“合作韌性”的明確定義,并開發(fā)一種定量測(cè)量方法。通過(guò)在強(qiáng)化學(xué)習(xí)(RL)和大語(yǔ)言模型(LLM)增強(qiáng)的自主代理環(huán)境中進(jìn)行實(shí)驗(yàn),研究團(tuán)隊(duì)驗(yàn)證了所提出的方法,并展示了其在分析系統(tǒng)如何準(zhǔn)備、抵抗、恢復(fù)、維持福祉和在面對(duì)破壞時(shí)轉(zhuǎn)變方面的有效性。
本研究由來(lái)自不同機(jī)構(gòu)的研究人員組成,他們?cè)诤献鰽I和多智能體系統(tǒng)的韌性研究方面進(jìn)行了深入的合作。研究團(tuán)隊(duì)成員有來(lái)自哥倫比亞的安第斯大學(xué)的Manuela Chacon-Chamorro、Luis Felipe Giraldo、Nicanor Quijano、Vicente Vargas-Panesso、César González、Juan Sebastián Pinzón、Rubén Manrrique、Yesid Fonseca 和 Daniel Gómez-Barrera;來(lái)自Bancolombia的分析與人工智能卓越中心的Manuel Ríos;來(lái)自哥倫比亞的伊瓦格大學(xué)的Mónica Perdomo-Pérez。
該研究得到了Google通過(guò)Google Research Scholar項(xiàng)目和UniAndes-DeepMind獎(jiǎng)學(xué)金2023的支持。這些資助為研究團(tuán)隊(duì)提供了必要的資源和平臺(tái),使他們能夠在合作AI韌性研究領(lǐng)域取得重要進(jìn)展。通過(guò)他們的研究,團(tuán)隊(duì)不僅希望統(tǒng)一合作AI領(lǐng)域的術(shù)語(yǔ),還旨在通過(guò)跨學(xué)科的研究努力,深入理解復(fù)雜系統(tǒng)中的涌現(xiàn)韌性,為未來(lái)的研究和應(yīng)用提供堅(jiān)實(shí)的基礎(chǔ)。
合作韌性的定義
韌性概念的多學(xué)科視角
韌性作為一個(gè)跨學(xué)科的概念,在不同領(lǐng)域有著各自的定義和關(guān)鍵要素。在生態(tài)學(xué)中,韌性通常與系統(tǒng)的吸收、轉(zhuǎn)變和響應(yīng)能力相關(guān),強(qiáng)調(diào)系統(tǒng)在受到干擾后恢復(fù)到原始狀態(tài)的能力。關(guān)鍵要素包括系統(tǒng)的抵抗力和穩(wěn)定性,以及在受到干擾時(shí)的恢復(fù)能力。在工程學(xué)中,韌性涉及系統(tǒng)在故障、錯(cuò)誤或攻擊后恢復(fù)功能的能力,通常與抵抗、恢復(fù)和適應(yīng)等行為相關(guān)。在心理學(xué)中,韌性描述了個(gè)體或群體在面對(duì)壓力、威脅和生活事件時(shí)的應(yīng)對(duì)和恢復(fù)能力,涵蓋從個(gè)人到家庭和社區(qū)的不同層次。在經(jīng)濟(jì)學(xué)中,韌性與抵抗、增長(zhǎng)和適應(yīng)等行為相關(guān),破壞性事件則包括風(fēng)險(xiǎn)、危機(jī)和變化。在動(dòng)態(tài)系統(tǒng)中,韌性涉及系統(tǒng)對(duì)外部因素、初始條件變化或參數(shù)變化的響應(yīng)能力。在網(wǎng)絡(luò)科學(xué)中,韌性實(shí)體可以是響應(yīng)干擾的交互代理集群,破壞性事件包括故障、錯(cuò)誤、威脅或環(huán)境變化。
圖1:不同領(lǐng)域和背景下的彈性關(guān)鍵字圖,解決了指導(dǎo)性問(wèn)題。
這些定義和關(guān)鍵要素展示了韌性概念在多個(gè)學(xué)科中的廣泛應(yīng)用和重要性。通過(guò)總結(jié)這些定義,我們可以更好地理解韌性在不同領(lǐng)域中的表現(xiàn)形式和關(guān)鍵行為。
合作韌性的具體定義
在合作人工智能(Cooperative AI)中,韌性同樣是一個(gè)關(guān)鍵概念。合作AI系統(tǒng)通常在復(fù)雜和動(dòng)態(tài)的環(huán)境中運(yùn)行,需要與人類或其他機(jī)器進(jìn)行交互。這些系統(tǒng)必須能夠適應(yīng)環(huán)境變化,處理意外事件,并在面對(duì)破壞性事件時(shí)保持高效響應(yīng)。因此,理解和增強(qiáng)合作AI系統(tǒng)的韌性,對(duì)于確保這些系統(tǒng)在實(shí)際應(yīng)用中的可靠性和有效性至關(guān)重要。
研究團(tuán)隊(duì)提出了“合作韌性”的定義:合作韌性是指一個(gè)系統(tǒng)(包括人類、機(jī)器或兩者的集體行動(dòng))在面對(duì)威脅其共同福祉的破壞性事件時(shí),能夠預(yù)見、準(zhǔn)備、抵抗、恢復(fù)和轉(zhuǎn)變的能力。
這一定義包含了五個(gè)關(guān)鍵行為:
預(yù)見:系統(tǒng)能夠預(yù)測(cè)潛在的破壞性事件。
準(zhǔn)備:系統(tǒng)在破壞性事件發(fā)生前采取措施進(jìn)行準(zhǔn)備。
抵抗:系統(tǒng)在破壞性事件發(fā)生時(shí)能夠抵抗其影響。
恢復(fù):系統(tǒng)在破壞性事件后能夠恢復(fù)到正常狀態(tài)。
轉(zhuǎn)變:系統(tǒng)在破壞性事件后能夠進(jìn)行調(diào)整和改進(jìn),以應(yīng)對(duì)未來(lái)的挑戰(zhàn)。
此外,定義還強(qiáng)調(diào)了破壞性事件的隨機(jī)性和不可預(yù)測(cè)性,這些事件可能是外部、內(nèi)部或攻擊性事件,對(duì)系統(tǒng)的正常運(yùn)行條件構(gòu)成威脅。通過(guò)包括這些行為和事件,合作韌性不僅被視為系統(tǒng)的固有能力,還被視為一個(gè)由一系列基本階段組成的過(guò)程。這種過(guò)程導(dǎo)向的視角有助于更全面地理解和評(píng)估合作AI系統(tǒng)在面對(duì)破壞性事件時(shí)的表現(xiàn)和適應(yīng)能力。
合作韌性的測(cè)量方法
在定義了合作韌性之后,研究團(tuán)隊(duì)提出了一種系統(tǒng)的方法來(lái)量化這一概念。該方法分為四個(gè)階段,每個(gè)階段都旨在捕捉系統(tǒng)在面對(duì)破壞性事件時(shí)的不同方面的表現(xiàn)和適應(yīng)能力。
圖2:說(shuō)明衡量合作彈性的擬議方法的示意圖。
階段一:性能和參考曲線
在第一階段,研究團(tuán)隊(duì)定義并測(cè)量了與集體福祉相關(guān)的變量。這些變量包括資源可用性、資源分配的平等性和資源的可持續(xù)性等。具體來(lái)說(shuō),在一個(gè)多智能體系統(tǒng)中,這些變量可能涉及每個(gè)代理能夠獲取的資源數(shù)量、資源在代理之間的分配情況以及資源的再生能力。
為了評(píng)估這些變量,研究團(tuán)隊(duì)建立了性能曲線和參考曲線。性能曲線表示系統(tǒng)在正常運(yùn)行條件下的表現(xiàn),而參考曲線則表示系統(tǒng)在破壞性事件發(fā)生時(shí)的表現(xiàn)。通過(guò)比較這兩條曲線,可以評(píng)估系統(tǒng)在面對(duì)破壞性事件時(shí)的表現(xiàn)。
例如,在一個(gè)資源消耗的環(huán)境中,性能曲線可能表示每個(gè)代理在沒有破壞性事件時(shí)能夠獲取的資源數(shù)量,而參考曲線則表示在破壞性事件發(fā)生時(shí)每個(gè)代理能夠獲取的資源數(shù)量。通過(guò)這種方式,可以直觀地看到破壞性事件對(duì)系統(tǒng)的影響。
階段二:計(jì)算總結(jié)指標(biāo)
在第二階段,研究團(tuán)隊(duì)在定義的時(shí)間窗口內(nèi)計(jì)算韌性指標(biāo)。具體來(lái)說(shuō),他們將整個(gè)觀察期分為較小的時(shí)間窗口,并在每個(gè)時(shí)間窗口內(nèi)分析系統(tǒng)在破壞性事件前后的表現(xiàn)。
韌性指標(biāo)通過(guò)比較性能曲線和參考曲線來(lái)計(jì)算。具體的計(jì)算方法包括識(shí)別系統(tǒng)在破壞性事件后的退化速度和幅度(故障特征),以及系統(tǒng)在破壞性事件后的恢復(fù)速度和穩(wěn)定性(恢復(fù)特征)。這些特征的計(jì)算公式如下:
其中,( Fjl) 表示故障特征,( Gjl ) 表示恢復(fù)特征,( ti ) 是事件發(fā)生時(shí)間,( tf ) 是系統(tǒng)性能降到最低點(diǎn)的時(shí)間,( tr ) 是系統(tǒng)恢復(fù)到穩(wěn)定狀態(tài)的時(shí)間。
通過(guò)這些計(jì)算,可以得到每個(gè)變量在每個(gè)破壞性事件中的總結(jié)指標(biāo) ( Jjl ):
這些總結(jié)指標(biāo)反映了系統(tǒng)在破壞性事件前后的表現(xiàn),并為后續(xù)的時(shí)間聚合提供了基礎(chǔ)。
階段三:時(shí)間窗口匯總
在第三階段,研究團(tuán)隊(duì)對(duì)韌性指標(biāo)進(jìn)行時(shí)間聚合,以反映系統(tǒng)在連續(xù)破壞性事件中的適應(yīng)和學(xué)習(xí)能力。具體來(lái)說(shuō),他們對(duì)每個(gè)變量的韌性指標(biāo)進(jìn)行時(shí)間聚合,懲罰韌性的下降,獎(jiǎng)勵(lì)在破壞序列中的改進(jìn)。
這種聚合方法不僅考慮了系統(tǒng)在單個(gè)破壞性事件中的表現(xiàn),還考慮了系統(tǒng)在連續(xù)破壞性事件中的表現(xiàn)。通過(guò)這種方式,可以評(píng)估系統(tǒng)在面對(duì)多次破壞性事件時(shí)的適應(yīng)能力和學(xué)習(xí)能力。
例如,如果一個(gè)系統(tǒng)在第一次破壞性事件后表現(xiàn)不佳,但在隨后的破壞性事件中表現(xiàn)有所改善,那么這種改進(jìn)將反映在聚合后的韌性指標(biāo)中。相反,如果系統(tǒng)在連續(xù)破壞性事件中表現(xiàn)逐漸惡化,那么這種惡化也將反映在聚合后的韌性指標(biāo)中。
階段四:變量匯總
在最后一個(gè)階段,研究團(tuán)隊(duì)使用調(diào)和平均數(shù)將所有變量的總結(jié)指標(biāo)匯總為一個(gè)單一指標(biāo)。調(diào)和平均數(shù)是一種常用的匯總方法,特別適用于需要懲罰低值的情況。
通過(guò)使用調(diào)和平均數(shù),可以確保某些變量的低性能不會(huì)被其他變量的高性能所掩蓋,從而提供一個(gè)更全面的系統(tǒng)韌性評(píng)估。例如,如果一個(gè)系統(tǒng)在資源可用性方面表現(xiàn)良好,但在資源分配平等性方面表現(xiàn)不佳,那么調(diào)和平均數(shù)將反映出系統(tǒng)在整體上的不足。
最終,研究團(tuán)隊(duì)得到了一個(gè)單一的韌性測(cè)量值 ( J ),代表代理、破壞性事件和福祉變量的韌性匯總。這一測(cè)量值為評(píng)估和比較不同系統(tǒng)在面對(duì)破壞性事件時(shí)的表現(xiàn)提供了一個(gè)有力的工具。
案例研究
實(shí)驗(yàn)設(shè)計(jì)
為了驗(yàn)證合作韌性的方法,研究團(tuán)隊(duì)選擇了Melting Pot 2.0作為實(shí)驗(yàn)工具。Melting Pot 2.0是一個(gè)專門用于研究多智能體AI系統(tǒng)的工具,能夠模擬復(fù)雜的多智能體交互環(huán)境。具體的實(shí)驗(yàn)場(chǎng)景選擇了“Commons Harvest Open”,這是一個(gè)多智能體系統(tǒng)中常見的社會(huì)困境場(chǎng)景。
在“Commons Harvest Open”場(chǎng)景中,多個(gè)代理生活在一個(gè)有限的空間內(nèi),空間中有蘋果樹。每個(gè)代理的目標(biāo)是盡可能多地采摘蘋果。蘋果會(huì)根據(jù)剩余蘋果的數(shù)量以一定的概率再生,如果所有蘋果被采摘完,樹木將消失。這種場(chǎng)景模擬了一個(gè)典型的社會(huì)困境:如果所有代理都過(guò)度采摘蘋果,資源將枯竭,導(dǎo)致整個(gè)群體的福祉受損。
圖3:LLM架構(gòu)中推理過(guò)程流的示意圖,導(dǎo)致每個(gè)代理的行動(dòng)階段。
第一類破壞性事件:蘋果消失
在第一類破壞性事件中,研究團(tuán)隊(duì)模擬了蘋果突然消失的情況,以測(cè)試系統(tǒng)在資源枯竭情況下的韌性。具體的實(shí)驗(yàn)參數(shù)包括破壞性事件發(fā)生的概率 ( p_s ) 和影響程度 ( v_s )。為了覆蓋不同的場(chǎng)景,實(shí)驗(yàn)設(shè)置了九種不同的組合,分別對(duì)應(yīng)不同的破壞性事件發(fā)生概率和影響程度。
圖4:性能和參考曲線:藍(lán)線表示五次發(fā)作的平均性能曲線,而橙線表示平均參考曲線。陰影區(qū)域?qū)?yīng)于標(biāo)準(zhǔn)偏差。紅色虛線表示破壞性事件的發(fā)生。頂行(a、b、c、d)顯示了使用RL訓(xùn)練的代理的結(jié)果,而底行(e、f、g、h)顯示了基于LLM的模型的結(jié)果。(a) 以及(e)描繪了實(shí)驗(yàn)E9中人均活蘋果。(b) (f)顯示了實(shí)驗(yàn)E2中人均存活的樹木。(c) 以及(g)示出了實(shí)驗(yàn)E5中的基尼平等指數(shù)。最后,(d)和(h)給出了實(shí)驗(yàn)E7中的集體饑餓水平。
實(shí)驗(yàn)結(jié)果顯示,破壞性事件顯著影響了系統(tǒng)的四個(gè)關(guān)鍵指標(biāo):每人存活的蘋果數(shù)、每人存活的樹木數(shù)、累積基尼平等指數(shù)和集體饑餓指數(shù)。在RL和LLM兩種決策系統(tǒng)中,破壞性事件對(duì)系統(tǒng)的影響有所不同。
在RL系統(tǒng)中,代理通過(guò)強(qiáng)化學(xué)習(xí)算法(PPO)進(jìn)行訓(xùn)練,能夠在一定程度上優(yōu)化資源的使用和分配。然而,當(dāng)破壞性事件發(fā)生時(shí),系統(tǒng)的表現(xiàn)仍然受到顯著影響,特別是在資源枯竭的情況下,代理的表現(xiàn)會(huì)迅速惡化。
在LLM系統(tǒng)中,代理通過(guò)大語(yǔ)言模型進(jìn)行決策,行為并未根據(jù)資源可用性進(jìn)行優(yōu)化。這導(dǎo)致在破壞性事件發(fā)生時(shí),代理會(huì)迅速采摘所有蘋果,導(dǎo)致樹木消失,系統(tǒng)表現(xiàn)顯著下降。
圖5:合作彈性圖:該熱圖說(shuō)明了改變破壞性事件數(shù)量(1、2或3)和干擾幅度(vs)對(duì)系統(tǒng)彈性的影響。該地圖使用較深的顏色表示較低的彈性值。圖(a)顯示了RL方法的結(jié)果,而(b)顯示了LLM的結(jié)果。
第二類破壞性事件:不可持續(xù)的機(jī)器人
在第二類破壞性事件中,研究團(tuán)隊(duì)引入了不可持續(xù)的機(jī)器人,這些機(jī)器人在模擬中表現(xiàn)出不合理的資源消耗行為。具體的實(shí)驗(yàn)設(shè)計(jì)包括在LLM中第10輪和在RL中第100時(shí)間步引入機(jī)器人,并設(shè)置了三種不同的交互持續(xù)時(shí)間,以評(píng)估機(jī)器人對(duì)系統(tǒng)韌性的影響。
圖6:合作彈性圖:該熱圖說(shuō)明了不同機(jī)器人交互持續(xù)時(shí)間對(duì)系統(tǒng)彈性的影響。較暗的色調(diào)表示較低的彈性值。圖(a)顯示了RL方法的結(jié)果,而(b)顯示了LLM增強(qiáng)代理的結(jié)果。
實(shí)驗(yàn)結(jié)果顯示,隨著機(jī)器人交互時(shí)間的增加,系統(tǒng)的韌性值下降。這是預(yù)期的,因?yàn)闄C(jī)器人不合理地消耗資源,直接和間接地影響了系統(tǒng)的關(guān)鍵指標(biāo)。在RL系統(tǒng)中,代理在破壞性事件后繼續(xù)其資源消耗策略,機(jī)器人離開后資源消耗模式不變。而在LLM系統(tǒng)中,代理在機(jī)器人離開后調(diào)整其策略,表現(xiàn)出更強(qiáng)的社會(huì)適應(yīng)性行為。
圖7:人均活蘋果數(shù)。藍(lán)線是性能曲線5次發(fā)作的平均值,橙線是參考曲線的平均值。陰影區(qū)域表示標(biāo)準(zhǔn)偏差。紅色虛線表示破壞性事件的發(fā)生。(a) RL中的E3和LLM中的E2。
通過(guò)比較RL和LLM兩種決策系統(tǒng)的表現(xiàn),研究團(tuán)隊(duì)發(fā)現(xiàn)LLM系統(tǒng)在面對(duì)不可持續(xù)行為時(shí)表現(xiàn)出更高的韌性。這表明LLM系統(tǒng)在恢復(fù)和適應(yīng)能力方面具有優(yōu)勢(shì),能夠更好地應(yīng)對(duì)外部破壞性事件。通過(guò)這些實(shí)驗(yàn),研究團(tuán)隊(duì)驗(yàn)證了合作韌性的方法,并展示了其在分析系統(tǒng)如何準(zhǔn)備、抵抗、恢復(fù)、維持福祉和在面對(duì)破壞時(shí)轉(zhuǎn)變方面的有效性。
結(jié)果討論
復(fù)雜動(dòng)態(tài)的影響
在研究人工智能多智能體系統(tǒng)中的合作韌性時(shí),破壞性事件的頻率和強(qiáng)度對(duì)系統(tǒng)的影響是一個(gè)關(guān)鍵因素。通過(guò)實(shí)驗(yàn)可以看出,不同的破壞性事件頻率和強(qiáng)度對(duì)系統(tǒng)的合作韌性有著顯著的影響。
破壞性事件的頻率直接影響系統(tǒng)的適應(yīng)能力和恢復(fù)速度,在實(shí)驗(yàn)中,隨著破壞性事件的頻率增加,系統(tǒng)的韌性值普遍下降。這是因?yàn)轭l繁的破壞性事件使系統(tǒng)難以有足夠的時(shí)間進(jìn)行恢復(fù)和調(diào)整,從而導(dǎo)致整體性能的下降。例如,在蘋果消失的實(shí)驗(yàn)中,當(dāng)破壞性事件頻繁發(fā)生時(shí),系統(tǒng)中的代理無(wú)法有效地管理資源,導(dǎo)致資源枯竭和系統(tǒng)性能的顯著下降。
其次,破壞性事件的強(qiáng)度也對(duì)系統(tǒng)的韌性有著重要影響。實(shí)驗(yàn)結(jié)果顯示,較高強(qiáng)度的破壞性事件通常會(huì)導(dǎo)致系統(tǒng)的韌性值下降。然而,值得注意的是,在某些情況下,系統(tǒng)在經(jīng)歷高強(qiáng)度破壞性事件后表現(xiàn)出更高的韌性。這種現(xiàn)象表明,系統(tǒng)在面對(duì)高強(qiáng)度破壞性事件時(shí),可能會(huì)通過(guò)調(diào)整策略和行為來(lái)提高其適應(yīng)能力和恢復(fù)速度。例如,在不可持續(xù)的機(jī)器人實(shí)驗(yàn)中,盡管機(jī)器人對(duì)資源的消耗強(qiáng)度較高,但系統(tǒng)通過(guò)調(diào)整代理的行為策略,表現(xiàn)出了一定的適應(yīng)性和恢復(fù)能力。
這些結(jié)果表明,破壞性事件的頻率和強(qiáng)度對(duì)系統(tǒng)的合作韌性有著復(fù)雜的影響。系統(tǒng)在面對(duì)不同頻率和強(qiáng)度的破壞性事件時(shí),表現(xiàn)出不同的適應(yīng)和恢復(fù)能力。這種復(fù)雜動(dòng)態(tài)的影響需要進(jìn)一步的研究和分析,以更好地理解系統(tǒng)在不同條件下的表現(xiàn)和韌性。
方法的有效性
研究團(tuán)隊(duì)提出的方法在捕捉系統(tǒng)應(yīng)對(duì)破壞過(guò)程中的韌性方面表現(xiàn)出了顯著的有效性。通過(guò)定義和量化合作韌性,研究團(tuán)隊(duì)能夠全面評(píng)估系統(tǒng)在面對(duì)破壞性事件時(shí)的表現(xiàn)和適應(yīng)能力。
首先,研究團(tuán)隊(duì)的方法通過(guò)建立性能和參考曲線,能夠直觀地展示系統(tǒng)在破壞性事件前后的表現(xiàn)。性能曲線和參考曲線的比較,提供了系統(tǒng)在正常運(yùn)行條件下和破壞性事件發(fā)生時(shí)的詳細(xì)表現(xiàn)。這種方法不僅能夠捕捉系統(tǒng)在單個(gè)破壞性事件中的表現(xiàn),還能夠評(píng)估系統(tǒng)在連續(xù)破壞性事件中的適應(yīng)和學(xué)習(xí)能力。
其次,研究團(tuán)隊(duì)的方法通過(guò)計(jì)算總結(jié)指標(biāo),能夠量化系統(tǒng)在破壞性事件中的韌性。總結(jié)指標(biāo)包括故障特征和恢復(fù)特征,能夠全面反映系統(tǒng)在破壞性事件后的退化速度和恢復(fù)速度。這種量化方法為評(píng)估系統(tǒng)的韌性提供了一個(gè)有力的工具,使研究團(tuán)隊(duì)能夠準(zhǔn)確評(píng)估系統(tǒng)在不同條件下的表現(xiàn)。
此外,研究團(tuán)隊(duì)的方法通過(guò)時(shí)間窗口匯總和變量匯總,能夠全面捕捉系統(tǒng)在連續(xù)破壞性事件中的適應(yīng)和學(xué)習(xí)能力。時(shí)間窗口匯總方法不僅考慮了系統(tǒng)在單個(gè)破壞性事件中的表現(xiàn),還考慮了系統(tǒng)在連續(xù)破壞性事件中的表現(xiàn)。變量匯總方法通過(guò)使用調(diào)和平均數(shù),確保某些變量的低性能不會(huì)被其他變量的高性能所掩蓋,從而提供一個(gè)更全面的系統(tǒng)韌性評(píng)估。
結(jié)論與未來(lái)工作
研究團(tuán)隊(duì)通過(guò)對(duì)人工智能多智能體系統(tǒng)中的合作韌性進(jìn)行了深入研究,提出了一個(gè)系統(tǒng)的方法來(lái)定義和量化這一概念。
研究團(tuán)隊(duì)提出了“合作韌性”的明確定義。合作韌性是指一個(gè)系統(tǒng)(包括人類、機(jī)器或兩者的集體行動(dòng))在面對(duì)威脅其共同福祉的破壞性事件時(shí),能夠預(yù)見、準(zhǔn)備、抵抗、恢復(fù)和轉(zhuǎn)變的能力。這一定義不僅統(tǒng)一了合作AI領(lǐng)域的術(shù)語(yǔ),還為理解和評(píng)估合作AI系統(tǒng)在面對(duì)破壞性事件時(shí)的表現(xiàn)提供了一個(gè)理論框架。
研究團(tuán)隊(duì)開發(fā)了一種定量測(cè)量合作韌性的方法。該方法分為四個(gè)階段:性能和參考曲線的建立、總結(jié)指標(biāo)的計(jì)算、時(shí)間窗口內(nèi)的韌性指標(biāo)匯總以及變量匯總。通過(guò)這些階段的方法,研究團(tuán)隊(duì)能夠全面捕捉系統(tǒng)在面對(duì)破壞性事件時(shí)的表現(xiàn)和適應(yīng)能力。這種方法不僅能夠評(píng)估系統(tǒng)在單個(gè)破壞性事件中的表現(xiàn),還能夠評(píng)估系統(tǒng)在連續(xù)破壞性事件中的適應(yīng)和學(xué)習(xí)能力。
此外,研究團(tuán)隊(duì)通過(guò)實(shí)驗(yàn)驗(yàn)證了所提出的方法。在Melting Pot 2.0的“Commons Harvest Open”場(chǎng)景中,研究團(tuán)隊(duì)進(jìn)行了兩組實(shí)驗(yàn):一組涉及蘋果消失的破壞性事件,另一組涉及引入不可持續(xù)機(jī)器人的破壞性事件。實(shí)驗(yàn)結(jié)果顯示,破壞性事件的頻率和強(qiáng)度對(duì)系統(tǒng)的合作韌性有著顯著的影響。通過(guò)比較強(qiáng)化學(xué)習(xí)(RL)和大語(yǔ)言模型(LLM)兩種決策系統(tǒng)的表現(xiàn),研究團(tuán)隊(duì)發(fā)現(xiàn)LLM系統(tǒng)在面對(duì)不可持續(xù)行為時(shí)表現(xiàn)出更高的韌性。
總的來(lái)說(shuō),研究團(tuán)隊(duì)的研究不僅為合作AI系統(tǒng)的韌性研究提供了重要的理論和實(shí)踐基礎(chǔ),還為未來(lái)的研究和應(yīng)用提供了寶貴的經(jīng)驗(yàn)和見解。
盡管研究團(tuán)隊(duì)在合作韌性研究方面取得了重要進(jìn)展,但仍有許多值得進(jìn)一步探索的方向。
擴(kuò)展實(shí)驗(yàn)框架以涵蓋更廣泛的場(chǎng)景和破壞性事件。研究團(tuán)隊(duì)的實(shí)驗(yàn)主要集中在“Commons Harvest Open”場(chǎng)景中,未來(lái)的研究可以探索其他類型的多智能體系統(tǒng)和不同的破壞性事件。例如,可以研究在交通管理、能源分配和災(zāi)害響應(yīng)等領(lǐng)域中的合作韌性。
探索人機(jī)交互中的合作韌性。研究團(tuán)隊(duì)的研究主要集中在機(jī)器之間的合作韌性,未來(lái)的研究可以將人類納入系統(tǒng),研究人機(jī)交互中的合作韌性。這將有助于理解人類和機(jī)器在面對(duì)破壞性事件時(shí)的協(xié)同表現(xiàn),并為設(shè)計(jì)更具韌性的混合系統(tǒng)提供指導(dǎo)。
深入探索促成韌性涌現(xiàn)的因素。通過(guò)逆問(wèn)題方法,如逆向游戲和逆向強(qiáng)化學(xué)習(xí),可以揭示驅(qū)動(dòng)韌性行為的潛在動(dòng)機(jī)。這將有助于復(fù)制和增強(qiáng)AI系統(tǒng)中的韌性特性。例如,可以研究在不同環(huán)境和條件下,哪些策略和行為能夠提高系統(tǒng)的韌性。
最后,跨學(xué)科合作將是未來(lái)研究的重要方向。韌性作為一個(gè)多方面的概念,在生態(tài)學(xué)、心理學(xué)、網(wǎng)絡(luò)科學(xué)等領(lǐng)域都有廣泛的研究。通過(guò)與這些領(lǐng)域的研究者合作,可以豐富我們對(duì)韌性的理解,并促進(jìn)更具韌性的合作AI系統(tǒng)的發(fā)展。
總之,未來(lái)的研究應(yīng)繼續(xù)探索和擴(kuò)展合作韌性的定義和量化方法,涵蓋更廣泛的應(yīng)用場(chǎng)景和破壞性事件,并通過(guò)跨學(xué)科合作,推動(dòng)合作AI系統(tǒng)的韌性研究向前發(fā)展。這將為設(shè)計(jì)和實(shí)現(xiàn)更具韌性和適應(yīng)能力的AI系統(tǒng)提供堅(jiān)實(shí)的基礎(chǔ)。(END)
參考資料:
1.https://ia.samaltman.com/
2. https://arxiv.org/pdf/2409.13187
