基于大語言模型賦能智體的建模和仿真:綜述和展望
本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
23年12月論文“Large Language Models Empowered Agent-based Modeling and Simulation: A Survey and Perspectives“,來自清華大學(xué)。
基于智體的建模和仿真已經(jīng)發(fā)展成為復(fù)雜系統(tǒng)建模的強大工具,為不同智體之間的緊急行為和交互提供了洞察。將大語言模型集成到基于智體的建模和仿真中,為增強仿真能力提供了一條很有前途的途徑。本文綜述在基于智體的建模和仿真中大語言模型的前景,研究了它們的挑戰(zhàn)和有前景的未來方向。在這篇綜述中,由于是一個跨學(xué)科的領(lǐng)域,首先介紹基于智體的建模和仿真以及大語言模型賦能智體的背景。然后,討論將大語言模型應(yīng)用于基于智體模擬的動機,并系統(tǒng)地分析環(huán)境感知、與人類協(xié)調(diào)、動作生成和評估方面的挑戰(zhàn)。最重要的是,全面概述最近在多個場景中基于大語言模型的智體建模和仿真的工作,這些工作可以分為四個領(lǐng)域:網(wǎng)絡(luò)、物理、社會及其混合,涵蓋了真實世界和虛擬環(huán)境的仿真。最后,由于這一領(lǐng)域是一個新的、快速發(fā)展的領(lǐng)域,討論懸而未決的問題和有希望的未來方向。
基于智體的模擬通過集中于智體的單個實體來捕捉復(fù)雜系統(tǒng)中固有的復(fù)雜動力學(xué)[135]。這些智體是異構(gòu)的,具有特定的特征和狀態(tài),并根據(jù)上下文和環(huán)境自適應(yīng)地行為,做出決策和采取行動[65]。環(huán)境,無論是靜態(tài)的還是進化的,都會引入條件,引發(fā)競爭,定義邊界,偶爾還會提供影響智體行為的資源[48]。交互包括與環(huán)境和其他智體的交互,目標(biāo)是基于預(yù)定義或自適應(yīng)規(guī)則反映現(xiàn)實中的行為[64,135]??傊谥求w的模擬的基本組件包括:
- 智體是基于智體模擬的基本實體。它們表示正在建模的系統(tǒng)個體、實體或元素。每個智體都有自己的一組屬性、行為和決策過程。
- 環(huán)境是智體操作和交互的空間。它包括物理空間,以及影響智體行為的任何外部因素,如天氣條件、經(jīng)濟變化、政治變化和自然災(zāi)害。智體可能會受到環(huán)境的約束或影響,它們的相互作用可能會對環(huán)境本身產(chǎn)生影響。
- 智體通過預(yù)定義的機制進行交互,并與環(huán)境交互。交互可以是直接的(代理對智體)或間接的(智體到環(huán)境或環(huán)境對智體)。
有了上述組件,基于智體的建模和仿真提供了一個自下而上的視角,從個體相互作用的角度研究宏觀層面的現(xiàn)象和動力學(xué)。
為了在廣泛的應(yīng)用領(lǐng)域?qū)崿F(xiàn)逼真的模擬,智體在感知、決策和行動方面應(yīng)具有以下能力[217]:
- 自治。智體應(yīng)該能夠在沒有人類或其他人直接干預(yù)的情況下運行,這在微觀交通流模擬[131]和行人運動模擬[20]等現(xiàn)實世界應(yīng)用中很重要。
- 社交能力。代理應(yīng)該能夠與其他智體進行(可能還有人類)交互,完成指定的目標(biāo)。在研究社會現(xiàn)象、群體行為或社會結(jié)構(gòu)時,智體的社交能力是關(guān)鍵。這包括模擬社交網(wǎng)絡(luò)的形成、觀點的動態(tài)、文化的傳播等等。智體之間的社會交互可以是合作的,也可以是競爭的,這在模擬市場行為、消費者決策等經(jīng)濟活動時至關(guān)重要。
- 反應(yīng)性。智體應(yīng)該能夠感知環(huán)境,并對環(huán)境的變化做出快速反應(yīng)。這種能力在需要模擬實時響應(yīng)的系統(tǒng)中尤其重要,如交通控制系統(tǒng)和自動化生產(chǎn)線,以及在災(zāi)害響應(yīng)場景中,智體需要能夠立即對環(huán)境變化做出反應(yīng),以有效地進行預(yù)警和疏散。更重要的是,智體應(yīng)該能夠從以前的經(jīng)驗中學(xué)習(xí),并自適應(yīng)地改善其反應(yīng),類似于強化學(xué)習(xí)的想法[126]。
- 主動性。智體應(yīng)該能夠通過采取主動而不是僅僅對環(huán)境做出反應(yīng)來表現(xiàn)出目標(biāo)導(dǎo)向的行為。例如,智體需要在智能助理等應(yīng)用程序中主動提供幫助、建議和信息,并在自動駕駛機器人和自動駕駛汽車等領(lǐng)域積極探索環(huán)境、規(guī)劃路徑和執(zhí)行任務(wù)。
值得一提的是,與人類一樣,由于知識和計算能力的限制,智體無法做出完全理性的選擇[185]。相反,可以根據(jù)不完美的信息做出次優(yōu)但可接受的決策。這種能力對于在經(jīng)濟市場[13]和管理組織[162]中實現(xiàn)類人模擬尤為關(guān)鍵。例如,在模擬消費者行為、市場交易和商業(yè)決策時考慮智體的有限理性,可以更準(zhǔn)確地反映真實的經(jīng)濟活動。此外,在模擬組織內(nèi)的決策、團隊合作和領(lǐng)導(dǎo)力時,有限理性有助于揭示真實工作環(huán)境中的行為動態(tài)。
在基于智體的模擬中建模技術(shù)的發(fā)展,也經(jīng)歷了知識驅(qū)動方法的早期階段和數(shù)據(jù)驅(qū)動方法的最近階段。具體而言,前者包括基于預(yù)定義規(guī)則或符號方程的各種方法,后者包括隨機模型和機器學(xué)習(xí)模型。
- 預(yù)定義規(guī)則。這種方法包括定義管理智體行為的顯式規(guī)則。這些規(guī)則通常基于邏輯或條件語句,這些語句規(guī)定了智體對特定情況或輸入的反應(yīng)。最著名的例子是細(xì)胞自動機[216],它利用簡單的局部規(guī)則來模擬復(fù)雜的全球現(xiàn)象,這些現(xiàn)象不僅存在于自然世界中,也存在于復(fù)雜的城市系統(tǒng)中。
- 符號方程。與預(yù)定義的規(guī)則相比,符號方程用于以更正式的數(shù)學(xué)方式表示關(guān)系或行為。這些可以包括代數(shù)方程、微分方程或其他數(shù)學(xué)公式。一個典型的例子是廣泛用于行人運動模擬的社會力模型[93]。它假設(shè)行人運動是由類似牛頓定律驅(qū)動的,該定律由目的地驅(qū)動的吸引力和來自相鄰行人或障礙物的排斥力決定。
- 隨機建模。這種方法將隨機性和概率引入到智體決策中,有助于捕捉許多現(xiàn)實世界系統(tǒng)中固有的不確定性和可變性[70]。例如,為了考慮源自人類決策隨機性的影響,可以利用離散選擇模型來模擬行人走路行為[9]。
- 機器學(xué)習(xí)模型。機器學(xué)習(xí)模型允許智體從數(shù)據(jù)中學(xué)習(xí)或通過與環(huán)境的交互進行學(xué)習(xí)。監(jiān)督學(xué)習(xí)方法通常用于估計基于智體的模型參數(shù),而強化學(xué)習(xí)方法在模擬階段被廣泛使用,增強了智體在動態(tài)環(huán)境中的適應(yīng)能力[107,108,160]。
基于智體的建模和仿真在許多領(lǐng)域都是仿真中采用的基本方法[135,65],但仍然面臨著幾個關(guān)鍵挑戰(zhàn)。大語言模型賦能智體不僅滿足了基于智體模擬的要求,而且依靠其強大的感知、推理、決策和自我進化能力解決了這些限制,如圖所示。
與傳統(tǒng)的模擬方法相比,基于智體的模擬,其適應(yīng)不同規(guī)則或參數(shù)的能力。
第一個問題是現(xiàn)有方法的參數(shù)設(shè)置極其復(fù)雜[64,135]。在這些模型中,影響智體行為的大量變量——從個人特征到環(huán)境因素——使得選擇和校準(zhǔn)這些參數(shù)變得困難。這種復(fù)雜性往往導(dǎo)致過于簡單化,損害了模擬在描繪真實異質(zhì)性方面的準(zhǔn)確性[135]。此外,獲取準(zhǔn)確和全面的數(shù)據(jù)以告知參數(shù)選擇是另一個挑戰(zhàn)。也就是說,在不同背景下捕捉不同個體行為的真實世界數(shù)據(jù)可能收集起來有限或具有挑戰(zhàn)性。此外,根據(jù)真實世界的觀測結(jié)果驗證所選參數(shù)以確保其可靠性增加了另一層復(fù)雜性。
其次,規(guī)則或模型不能涵蓋異質(zhì)性的所有維度,因為現(xiàn)實世界中的個體非常復(fù)雜[135]。使用規(guī)則來驅(qū)動智體行為只能捕捉到異質(zhì)性的某些方面,但可能缺乏封裝各種行為、偏好和決策過程的深度。此外,作為模型容量,試圖在單個模型覆蓋異質(zhì)性的所有維度是過于理想化了。因此,在基于智體的建模和仿真中,在模型的簡單性和準(zhǔn)確智體建模進行平衡是一個關(guān)鍵挑戰(zhàn),導(dǎo)致智體異構(gòu)性某些方面過于簡單化或直接被忽視。
與傳統(tǒng)方法不同,基于LLM的智體支持:1)捕捉具有內(nèi)部類人認(rèn)知復(fù)雜性的內(nèi)部特征,以及2)通過提示、上下文學(xué)習(xí)或微調(diào)的特殊和定制特征。
基于智體的建模和模擬的核心是智體如何對環(huán)境做出反應(yīng),以及智體如何相互作用,在這種情況下,智體的行為應(yīng)該盡可能真實地接近具有人類知識和規(guī)則的真實世界個人。因此,在構(gòu)建用于模擬的大語言模型賦能智體時,存在四大挑戰(zhàn),包括感知環(huán)境、與人類知識和規(guī)則保持一致、選擇合適的動作和評估模擬。
對于具有大語言模型基于智體的模擬,第一步是構(gòu)建虛擬或真實的環(huán)境,然后設(shè)計智體如何與環(huán)境和其他智體交互。因此,需要為LLM感知和交互的環(huán)境提出適當(dāng)?shù)姆椒ā?/p>
盡管LLM在許多方面已經(jīng)表現(xiàn)出顯著的類人特征,但基于LLM的智體在特定領(lǐng)域仍然缺乏必要的領(lǐng)域知識,造成決策不合理。因此,將LLM智體與人類知識和價值觀、特別是領(lǐng)域?qū)<业闹R和價值觀念保持一致,是實現(xiàn)更現(xiàn)實域模擬的一個重要挑戰(zhàn)。然而,智體的異質(zhì)性作為基于智體建模(ABM)的一個基本特征,對傳統(tǒng)模型來說既是優(yōu)勢也是挑戰(zhàn)。同時,LLM具有強大的模擬異構(gòu)智體的能力,確保了可控的異構(gòu)性。然而,使LLM能夠扮演不同的角色以滿足個性化模擬需求,是一個重大挑戰(zhàn)。挑戰(zhàn)的討論包括兩方面:提示過程和微調(diào)。
LLM智體的復(fù)雜行為應(yīng)該反映現(xiàn)實世界的認(rèn)知過程。這涉及到理解和實現(xiàn)一些機制,這些人工智體以此可以保留和利用過去的經(jīng)驗(記憶)[152,73,241],根據(jù)其結(jié)果(反思)反省和調(diào)整其行為[152,181],執(zhí)行一系列模仿人類工作流程的相互關(guān)聯(lián)任務(wù)(規(guī)劃)[213]。
基于LLM智體的基本評估協(xié)議是將模擬的輸出與現(xiàn)有的真實世界數(shù)據(jù)進行比較。評估可以在兩個層面進行:微觀層面和宏觀層面。與傳統(tǒng)的基于規(guī)則或神經(jīng)網(wǎng)絡(luò)的智體相比,基于大語言模型智體的主要優(yōu)勢之一是它具有較強的交互式對話和文本推理能力。
除了基于大語言模型賦能的智體模擬準(zhǔn)確性或可解釋性之外,倫理問題也非常重要。第一個是偏見和公平,評估語言、文化、性別、種族或其他敏感屬性中的偏見模擬,評估生成的內(nèi)容是否會延續(xù)或緩解社會偏見,這一點至關(guān)重要。另一個令人擔(dān)憂的問題是有害的輸出檢測,因為與傳統(tǒng)方法相比,生成人工智能的輸出很難控制。
基于LLM智體的建模和仿真,其典型應(yīng)用域包括社會、物理和網(wǎng)絡(luò)及其混合,如圖所示,細(xì)節(jié)見下表。
在社會域的應(yīng)用類別:
在經(jīng)濟域的應(yīng)用類別:
在物理領(lǐng)域,基于LLM智體的建模和仿真應(yīng)用包括移動行為、交通、無線網(wǎng)絡(luò)等。
在一些研究中,模擬同時考慮多個域,如物理和社會域,這些模擬稱為混合域。
原文鏈接:https://mp.weixin.qq.com/s/8992tADF0CFS9ycW1jM1vw