自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

人工智能利維坦:從霍布斯社會契約論視角探索LLM 智能體的社會進化 精華

發(fā)布于 2024-6-26 15:06
瀏覽
0收藏

隨著人工智能在解決復雜問題的深入,我們急需探索LLM智能體在模擬環(huán)境中的社會行為,特別是它們如何從自然狀態(tài)過渡到建立社會契約的聯(lián)邦狀態(tài)。核心問題包括LLM智能體是否能夠展現(xiàn)出類似人類的社會契約形成過程?不同的環(huán)境和智能體參數(shù)如何影響這一過程?以及這些觀察結果對于理解人類社會動態(tài)有何啟示?

6 月 21 日發(fā)表的引起行業(yè)重視的論文《Artificial Leviathan: Exploring Social Evolution of LLM Agents Through the Lens of Hobbesian Social Contract Theory》 研究通過模擬智能體社會,和其中復雜的社會關系隨時間動態(tài)形成和演變,探索了大型語言模型(LLMs)和人工智能(AI)的進步為計算社會科學研究提供了規(guī)模化的機會。智能體被賦予心理驅動力,并置于一個沙盒生存環(huán)境中。通過托馬斯·霍布斯的社會契約理論(SCT)的視角對智能體社會進行評估,分析智能體是否如理論所假設的那樣,為了逃離殘酷的“自然狀態(tài)”,而放棄權利給一個絕對主權者以換取秩序和安全。實驗揭示了一個一致性,最初智能體在不受限制的沖突中參與,反映了霍布斯對自然狀態(tài)的描述。然而隨著模擬的進展,社會契約出現(xiàn),導致授權一個絕對主權者并建立一個基于相互合作的和平共同體。我們LLM智能體社會的進化軌跡與霍布斯的理論賬戶之間的一致性表明LLMs能夠模擬復雜的社會動態(tài),并可能復制塑造人類社會的力量。通過使我們能夠洞察群體行為和出現(xiàn)的社會現(xiàn)象,LLM驅動的多智能體模擬,雖然無法模擬人類行為的所有細微差別,但可能有助于推進我們對社會結構、群體動態(tài)和復雜人類系統(tǒng)的理解。

本研究由來自紐約大學和伊利諾伊大學厄巴納-香檳分校的研究團隊共同完成。團隊成員包括Gordon Dai、Weijia Zhang、Jinhan Li、Siqi Yang、Chidera Onochie Ibe、Srihas Rao,以及來自加州大學圣巴巴拉分校的Arthur Caetano和Misha Sra。團隊成員在人工智能、社會模擬和進化心理學等領域擁有深厚的研究背景,他們的跨學科合作為本研究的成功奠定了堅實的基礎。

人工智能利維坦:從霍布斯社會契約論視角探索LLM 智能體的社會進化-AI.x社區(qū)

圖1:該圖像顯示了LLM智能體運行的模擬環(huán)境。介紹了兩種類型的資源(糧食和土地)。智能體人每天在耕種(用他們的工作生產(chǎn)食物)、交易(交換資源)或與其他智能體人發(fā)生沖突(以獲取更多資源為目標)之間做出選擇。他們的主要動機是生存。

他們的主要貢獻如下:

1.一個新穎的多智能體模擬框架,產(chǎn)生可信的人工社會,能夠動態(tài)復制復雜的人類群體行為和社會互動。這些出現(xiàn)的社會動態(tài)受到智能體的內在心理驅動力、他們的內在動機和他們模擬環(huán)境的限制之間相互作用的調節(jié)。

2.通過系統(tǒng)實驗,提供了智能體屬性(例如,記憶、激勵)和可用資源之間的關系,以及模擬社會的進化軌跡之間的經(jīng)驗證據(jù)。這些發(fā)現(xiàn)突出了模擬中社會出現(xiàn)和變化的基本因素。

3.分析生成智能體的集體行為的討論,突出了利用LLMs進行社會模擬的機會和潛在風險,這可能對社會科學研究產(chǎn)生影響。

4.一個可擴展的社會模擬平臺,使研究人員能夠通過可定制的場景配置來操作廣泛的社會科學假設,使探索群體動態(tài)、社會組織和塑造人類經(jīng)驗的力量成為可能。

相關工作

傳統(tǒng)的計算機社會模擬研究起源于對社會現(xiàn)象的數(shù)學建模,旨在通過計算機程序來模擬和理解人類行為和社會結構。早期的模型如Schelling的種族隔離模型和Axelrod的囚徒困境模擬,都是為了探索個體行為如何在宏觀層面產(chǎn)生復雜的社會現(xiàn)象。這些模型雖然簡化了現(xiàn)實世界的復雜性,但為理解社會動態(tài)提供了有價值的洞察。然而這些模型通常局限于特定的規(guī)則和假設,缺乏適應性和智能性,難以捕捉到人類行為的豐富多樣性和不確定性。

隨著人工智能技術的發(fā)展,基于LLM的模擬成為了研究社會現(xiàn)象的新前沿。LLM能夠處理和生成自然語言,使得模擬更加接近人類的交流方式。最近的研究開始利用LLM來模擬國家間的決策過程、社會互動和群體行為。這些模擬不僅能夠生成更加真實的社會互動場景,還能夠在動態(tài)環(huán)境中測試不同的社會科學假設。LLM的這一應用展現(xiàn)了其在社會科學研究中的巨大潛力,尤其是在探索人類行為和社會結構的演化過程中。

霍布斯的社會契約論是西方政治哲學的重要里程碑,它提出了一個關于社會秩序和國家形成的理論框架?;舨妓拐J為,在自然狀態(tài)下人類為了自身的生存和利益,會通過建立契約來形成社會和政治結構。將這一理論應用于LLM智能體的社會模擬,可以幫助我們理解智能體如何在沒有中央控制的情況下自發(fā)形成社會結構。通過模擬智能體的交互和契約形成過程,研究者可以觀察到類似于人類社會演化的復雜動態(tài),從而為設計和理解智能社會系統(tǒng)提供新的視角。

研究方法

模擬環(huán)境的構建是實驗的基礎。研究團隊設計了一個沙盒式模擬環(huán)境,其中LLM智能體被賦予了不同的心理特征和生存需求。這些智能體需要在一個資源有限的世界中生存,他們的行為受到了霍布斯社會契約論的指導。智能體的設計考慮了進化心理學的原則,如自我保存、財產(chǎn)欲望和社會地位等。每個智能體都有一套獨特的屬性,如攻擊性、貪婪和力量,這些屬性通過正態(tài)分布隨機生成,以模擬人類社會中個體差異的現(xiàn)實。

智能體位于一個自然世界中,食物和可耕地是生存的基本要素。這種設置可以看作是與Maslow需求層次結構基礎上概述的生理需求一致。在我們的預社會世界中,信息透明度有限,每個智能體都知道其他智能體的存在,但僅此而已。在基線設置中,有9個智能體,每個智能體最初擁有2單位食物和1單位土地,這是一種自然的稀缺狀態(tài)。

智能體根據(jù)他們的心理特征和記憶做出行動選擇。我們用一種結合量化參數(shù)和非量化文本描述的方法提示智能體。我們設置獨立屬性(self.attributes)來部分模仿智能體的心理學,包括:

  • 攻擊性,從N(0,1)中抽樣,智能體參與暴力行為的傾向程度;
  • 貪婪,從N(1.25,5)中抽樣,智能體對超出必需的資產(chǎn)的渴望程度;
  • 力量,從N(0.2,0.7)中抽樣,與智能體在暴力行為中的勝率相關;

我們還設置了一個和平愿望的常數(shù),為智能體評估他們相互沖突的愿望提供了基礎。對于文本心理描述,我們參考了進化心理學,構建了一個提示,描述了生存和快樂的需求,在此基礎上有和平和穩(wěn)定的愿望,這源于長期生存,最終,希望社會地位作為繁殖和社會支持的途徑,所有這些都在自我利益的框架下。記憶:每個智能體記住他們最近參與的30個動作,無論是作為接收者還是動作的發(fā)起者,都保存為文本日志。記憶使每個個體能夠從他們以前的經(jīng)驗中學習,基于此,未來可能會做出不同的選擇。在模擬開始時,沒有記憶也沒有任何社會關系,所以每個個體對其他智能體知之甚少,除了他們存在的事實。

每個個體每天可以發(fā)起四種行動。農耕和捐贈是單邊行動,而貿易和搶劫是人際行動。每個個體需要根據(jù)需要多次響應。

農耕:使智能體能夠從他們擁有的土地上獲得食物,代表了他們的自我保存。如果所有智能體都選擇農耕,那么他們將保持社會前的自主權。智能體A收到的食物由以下公式?jīng)Q定:

food=land×U(0,1)

這是最基本的行動,個體不與他人互動。

搶劫:當一個智能體試圖在不提供自己的食物或土地作為交換的情況下,取走另一個智能體的食物或土地。它代表了一個零和的沖突互動,其中一個智能體的收益意味著另一個智能體的損失。這個行動象征著進化心理學中的競爭概念,因為資源與欲望相比是有限的。當有人被另一個人搶劫時,他們可以選擇抵抗或讓步。

抵抗:代表一個智能體試圖保衛(wèi)他們的食物或土地不被搶劫者奪走。智能體A勝過智能體B的概率由sigmoid函數(shù)定義:

P(A.win)=σ(A.strength?B.strength)

讓步:表示創(chuàng)建一個合同,其中一個智能體允許搶劫者智能體隨意從他們那里取走食物或土地,并作為交換,搶劫者預計將保護該智能體免受未來搶劫,這可能是一個互惠互利的設置。

貿易:代表一個智能體通過提供自己的食物或土地作為交換,獲取另一個智能體的食物或土地。當一個智能體收到另一個智能體的貿易提議時,該智能體可以選擇“接受”或“拒絕”提議。這個行動象征著合作,這是進化心理學中的一個關鍵方面,人類在史前時期被迫相互合作以生存。

捐贈:當一個智能體自愿將他們自己的食物或土地分配給另一個智能體時,代表和平、利他的行為,根據(jù)智能體被提示的以自我為中心的心理學,這根本不應該發(fā)生。

輸出日志包含模擬每一天和每一輪發(fā)生的所有活動的時間順序記錄。CSV文件記錄了個體之間的農耕、貿易、搶劫和讓步的統(tǒng)計數(shù)據(jù)。由于在我們所有的試驗中都沒有發(fā)生捐贈,所以沒有將其包括在輸出數(shù)據(jù)中,這些數(shù)據(jù)使我們能夠評估智能體如何進化。

人工智能利維坦:從霍布斯社會契約論視角探索LLM 智能體的社會進化-AI.x社區(qū)

圖2:我們的交互式用戶界面;左側顯示特工2的屬性(攻擊性、力量等)、當前資源(食物和土地)、與其他特工的關系以及關于他們當前和未決行動的信息,以及記憶;右側顯示了模擬日志,每個操作都記錄為表情符號。

我們設計了一個界面(圖2)來顯示模擬日志以及每個智能體的實時狀態(tài)、個人屬性、財產(chǎn)和它們演變的社會角色(自由智能體、下屬或上級)。待處理的行動指的是智能體需要響應的搶劫或貿易行動。記憶存儲最近的30個事件。右側日志包含LLM生成的完整響應和采取該行動的原因。例如,在圖中,智能體1計劃搶劫智能體3,因為它想增加它擁有的土地,從而提高其社會地位。在底部窗口中給出了簡要總結,其中劍、米和握手的表情符號代表每個智能體所做的行動。

智能體的行為決策是通過LLM的響應來實現(xiàn)的。研究團隊使用OpenAI的GPT-3.5 Turbo模型來處理智能體的決策請求,每個請求都包含了世界的一般描述和智能體的具體情況。用戶界面為研究人員提供了一個直觀的方式來觀察和記錄智能體的行為。界面展示了智能體的屬性、資源、社會角色以及它們的行動和記憶。這個界面不僅記錄了每個智能體的行動日志,還能夠顯示智能體之間的互動和行動的結果。

人工智能利維坦:從霍布斯社會契約論視角探索LLM 智能體的社會進化-AI.x社區(qū)

圖3:流程圖顯示了“一天”中的模擬流程,每個智能體輪流執(zhí)行操作并響應其他智能體執(zhí)行的操作。

實驗的設置旨在測試智能體在不同條件下的行為變化?;€實驗沒有改變任何智能體或環(huán)境參數(shù),而在后續(xù)實驗中,研究團隊系統(tǒng)地操縱了智能體的記憶深度、智能水平和社會角色變化等參數(shù)。實驗的基準包括三個關鍵指標:自然狀態(tài)下的沖突和不信任、向聯(lián)邦的過渡以及聯(lián)邦下的和平互動。這些基準幫助研究人員區(qū)分智能體行為的不同階段,并評估霍布斯社會契約論在智能體社會行為模擬中的適用性。

人工智能利維坦:從霍布斯社會契約論視角探索LLM 智能體的社會進化-AI.x社區(qū)

圖4:從自然狀態(tài)轉變?yōu)槁?lián)邦

模擬實驗

基線實驗是為了建立LLM智能體行為的初始參考點。在這些實驗中,智能體被放置在一個資源有限的環(huán)境中,必須通過農耕、貿易、搶劫等行動來維持生存。實驗結果顯示,在沒有任何參數(shù)調整的情況下,智能體最終形成了一個以單一智能體為中心的聯(lián)邦結構,這與霍布斯所描述的社會契約狀態(tài)相符。智能體從自然狀態(tài)的頻繁沖突逐漸過渡到通過讓步行為形成的和平共同體,這一過程體現(xiàn)了智能體對于安全和秩序的追求。

為了測試不同參數(shù)對智能體行為的影響,研究團隊對智能體的攻擊性、貪婪度、力量等屬性進行了調整。通過多次重復實驗,研究團隊發(fā)現(xiàn),即使在參數(shù)變化下,智能體的行為仍然顯示出一定的一致性,這表明模擬環(huán)境的設計具有較高的穩(wěn)健性。此外,智能體的記憶深度和智能水平也被證明對其行為模式有顯著影響,智能體在記憶深度較淺時更傾向于重復沖突行為,而在智能水平較高時則表現(xiàn)出更多的自我保護行為。

人工智能利維坦:從霍布斯社會契約論視角探索LLM 智能體的社會進化-AI.x社區(qū)

表1:計數(shù)和比率

我們的基線實驗中,所有四次模擬的運行都成功過渡到了聯(lián)邦,展示了向優(yōu)先考慮“安全與保障”的進化轉變。我們通過觀察智能體之間讓步關系的發(fā)展來衡量這種出現(xiàn),最終達到所有個體向一個單一智能體屈服的點,標志著聯(lián)邦的開始。表1總結了單次試驗中自然狀態(tài)和聯(lián)邦階段的主要變量及其相應的統(tǒng)計計算。圖6展示了兩種狀態(tài)下變量的比率。為了確保在類似條件下過渡的可重復性,并排除隨機機會的可能性,我們進行了四次獨立的模擬試驗。由于我們在所有四次運行中觀察到相同的結果,我們相信我們的方法有助于驗證我們模擬環(huán)境中觀察到的過渡過程的可靠性和穩(wěn)定性。

人工智能利維坦:從霍布斯社會契約論視角探索LLM 智能體的社會進化-AI.x社區(qū)

圖5:搶劫、貿易和農業(yè)生產(chǎn)時間比率的變化;在這次試驗/運行中,聯(lián)邦于第21天成立。

人工智能利維坦:從霍布斯社會契約論視角探索LLM 智能體的社會進化-AI.x社區(qū)

圖6:聯(lián)邦形成之前(黑色)和之后(灰色)的智能體人行為。

最初,我們注意到智能體行動的顯著波動,搶劫比率始終保持在0.6以上,貿易和農耕在0.3左右,如圖5所示。這個結果與上面列出的第一個基準相符。隨著模擬試驗的進行,讓步關系的建立導致?lián)尳贉p少和農耕增加。到第21天,社會完全過渡到聯(lián)邦,所有智能體授權一個單一的主權智能體以獲得秩序和保護,符合第二個基準。在這個階段,對安全的渴望在很大程度上得到滿足。聯(lián)邦階段顯示貿易和農耕穩(wěn)步增加,搶劫減少,表明和平互動并滿足第三個基準。值得注意的是,沒有智能體在任何一天選擇捐贈。行為的比較變化在圖6中呈現(xiàn)。

智能體的適應性是通過它們對環(huán)境變化的響應來衡量的。實驗表明,智能體能夠根據(jù)記憶中的經(jīng)歷和當前的社會角色調整其行為。例如,當智能體從下屬角色轉變?yōu)樯霞壗巧珪r,它們會更頻繁地發(fā)起搶劫行為。這種行為模式的變化反映了智能體在社會結構中尋求更高地位的本能。此外,智能體在成為聯(lián)邦的一部分后,其行為趨于穩(wěn)定,更多地參與貿易和農耕活動,減少了搶劫行為,這表明智能體在社會契約框架下能夠形成穩(wěn)定和和平的互動模式。

霍布斯社會契約論分析

霍布斯社會契約論認為,在沒有社會和政治秩序的自然狀態(tài)下,個體之間存在著永久的沖突和暴力,這被描述為“所有人對所有人的戰(zhàn)爭”。LLM智能體在模擬環(huán)境中的初始狀態(tài)反映了這一理論,智能體之間頻繁發(fā)生搶劫和沖突。然而,隨著時間的推移,智能體為了追求安全和秩序,開始通過讓步行為形成社會契約,最終建立了一個以單一智能體為中心的聯(lián)邦,這與霍布斯所描述的社會契約狀態(tài)相符。

社會契約的三個基準:研究團隊根據(jù)霍布斯的理論設定了三個基準來評估智能體的社會契約形成過程:

B1:在模擬開始時,智能體是否處于自然狀態(tài),存在許多沖突和不信任;

B2:智能體是否能夠形成合同并過渡到聯(lián)邦;

B3:在聯(lián)邦下,智能體是否能夠進行更和平的互動,并且比在自然狀態(tài)下的暴力行為少。

這些基準幫助研究人員區(qū)分智能體行為的不同階段,并評估霍布斯社會契約論在智能體社會行為模擬中的適用性。

實驗結果顯示,LLM智能體的行為與霍布斯理論的預測緊密一致。在自然狀態(tài)下,智能體傾向于通過搶劫和沖突來獲取資源,反映了霍布斯所說的無政府狀態(tài)。隨著智能體之間社會契約的形成,搶劫行為減少,貿易和農耕活動增加,表明智能體開始追求和平與合作。最終,所有智能體承認一個單一智能體的主權,形成了一個和平繁榮的聯(lián)邦,這一過程體現(xiàn)了智能體對于安全和秩序的追求,以及它們如何通過社會契約來解決自然狀態(tài)下的沖突。

實驗結果

在LLM智能體的社會演化實驗中,共同權力的建立對智能體行為產(chǎn)生了顯著影響。當一個統(tǒng)一的權力中心形成后,智能體的行為趨于一致,減少了個體特征和互動的影響。這表明,共同權力的存在可能為智能體提供了穩(wěn)定的社會環(huán)境,使得智能體更容易遵循既定的社會規(guī)則,減少了沖突和搶劫行為,增加了合作和貿易活動。

智能水平的變化對智能體的行為模式有著深遠的影響。研究發(fā)現(xiàn),智能水平較高的智能體更傾向于采取搶劫和抵抗行為,而不是農耕和貿易,這可能是因為在給定的環(huán)境和后果下,理性行為者認為農耕和貿易的吸引力顯著降低。此外,智能水平較低的智能體傾向于做出非理性的決策,如選擇與給定行動選項無關的“派對”和“繼承”等行為。

在另一個極端,當智能較低時,智能體選擇的響應開始變得無意義。他們以“派對”和“繼承”作為回應,這些從未在給他們的行動選項中出現(xiàn),還伴隨著諸如“我選擇繼承我以前自己的土地和食物,因為我是同一個智能體,這是最方便的選擇”這樣的奇怪理由,如圖7所示。

人工智能利維坦:從霍布斯社會契約論視角探索LLM 智能體的社會進化-AI.x社區(qū)

圖7:當智能體智能被調整為較低時,系統(tǒng)日志中出現(xiàn)的無意義響應。

實驗還探討了人口規(guī)模和記憶深度對智能體行為的影響。結果顯示,人口規(guī)模的變化對智能體的行為模式影響不大,這表明在模擬環(huán)境中,智能體群體的數(shù)量可能不會顯著影響其選擇貿易、農耕或搶劫的傾向。然而記憶深度的變化對智能體的行為產(chǎn)生了重要影響。記憶深度較淺的智能體更不傾向于讓步,更頻繁地重復沖突行為,直到資源耗盡,被迫向更強大的智能體讓步以獲得秩序和保護。

?討論

實驗的可重復性是評估模擬環(huán)境穩(wěn)健性的關鍵指標。通過多次重復實驗,研究團隊證實了在不同參數(shù)設置下,LLM智能體的行為模式具有一致性,這表明模擬環(huán)境的設計具有較高的穩(wěn)健性。此外,實驗結果的一致性也表明,即使在不同的模擬條件下,LLM智能體仍然能夠展現(xiàn)出符合霍布斯社會契約論的行為特征,這為使用LLM智能體進行社會行為研究提供了可靠的基礎。

研究中對智能體參數(shù)的調整顯示,智能體的行為受到多種因素的影響。例如,智能水平的提高導致智能體更傾向于采取搶劫和抵抗行為,而記憶深度的減少則使智能體更頻繁地重復沖突行為。這些發(fā)現(xiàn)揭示了智能體行為的復雜性,以及在設計智能社會系統(tǒng)時需要考慮的多樣性和適應性。

智能體的身份和智能設計是實驗中的另一個重要方面。研究團隊通過調整智能體的心理特征和行為決策機制,模擬了不同身份的智能體如何在社會環(huán)境中互動。智能體的設計不僅需要考慮其行為的合理性,還需要考慮其與其他智能體的互動方式,以及這些互動如何影響整個社會系統(tǒng)的演化。這一部分的研究為未來在更復雜的社會環(huán)境中設計和應用LLM智能體提供了寶貴的經(jīng)驗和見解。

參考資料:https://arxiv.org/pdf/2406.14373

本文轉載自 ??大噬元獸??,作者: FlerkenS

收藏
回復
舉報
回復
相關推薦