AI Agent,啟動!復(fù)旦NLP團隊發(fā)86頁長文綜述,智能體社會近在眼前
9月19日,Jim Fan轉(zhuǎn)發(fā)了一篇來自復(fù)旦NLP團隊對基于LLM的Agent的綜述。
Agent是能夠感知自身所處環(huán)境、自我決策并采取行動的人工智能實體。
該論文介紹了基于LLM Agent的一般概念框架,包括大腦、感知和行動;以及LLM Agent的應(yīng)用場景、由LLM Agent組成的社會等。
還討論了LLM Agent領(lǐng)域中的一系列關(guān)鍵議題和開放性問題。
有趣的是,在arXiv上提交的前兩版論文中,注明了與米哈游合著,論文中則以原神中的海燈節(jié)為例,介紹了一個理想中的由AI Agent組成的社會。
論文地址:https://arxiv.org/pdf/2309.07864
這篇論文從9月15號發(fā)布到GitHub上后,短短五天就收獲了1K star,并被評為LLM Agent的必讀論文。
在20號時,更是登上了GitHub的趨勢榜。
項目地址:https://github.com/WooooDyy/LLM-Agent-Paper-List
對什么是「智能」的討論,從圖靈時代就開始了。
1950年,阿蘭·圖靈發(fā)表了一篇名為《計算機器與智能(Computing Machinery and intelligence)》的論文。
在論文的開篇,他提出一個問題:「機器能思考嗎?」
答案毋庸置疑,并且圖靈將智能這一概念擴展到了人工實體中,并提出了著名的「圖靈測試」。
隨后的幾十年,人們朝著讓機器獲得與人類智能相當(dāng)或超越的AGI(通用人工智能)目標(biāo)不斷前進。
現(xiàn)在,性能最強大的人工智能GPT-4被稱為是最接近AGI的人工智能。
但現(xiàn)今主流的人工智能都是基于NLP(自然語言處理)技術(shù)的LLM(大語言模型),往往只能應(yīng)用于特定的領(lǐng)域,對其他領(lǐng)域一竅不通,還常常產(chǎn)生「幻覺」。
圖靈獎得主Yann LeCun多次公開批評現(xiàn)有的人工智能只是一群訓(xùn)練有素的「隨機鸚鵡」(stochastic parrots),稱不上真正的智能。
他認(rèn)為真正通往AGI的將是「世界模型」,能夠自主感知環(huán)境、進行計劃、做出行動。
如果說通往AGI的終點是「世界模型」,那么現(xiàn)在最接近終點的是能夠自主行動的Agent。
LLM Agent發(fā)展史
從NLP走向AGI要經(jīng)過幾個階段?
答案是五個,即語料庫、互聯(lián)網(wǎng)、感知、具身和社會屬性。目前,大語言模型正處于第二階段,具有互聯(lián)網(wǎng)規(guī)模的文本輸入和輸出。
如果想要更進一步,就要為LLM賦予感知能力和行動能力。
接下來,如果這些具有感知和行動力的自主LLM Agent之間能夠進行互動、通過協(xié)作解決更復(fù)雜的問題,或反應(yīng)現(xiàn)實世界中的社會行為,它們就擁有了社會屬性。
人類也可以參與AI Agent組成的社會。
以原神海燈節(jié)為例,上圖中香菱和瑤瑤在廚房里籌備飯菜、胡桃和辛焱開演唱會進行表演,甘雨和刻晴在商量做燈籠的事宜。
玩家(主控)可以任選一個場景與AI Agent進行互動。
因此,AI Agent被認(rèn)為是實現(xiàn)AGI的最有潛力的選項。
但,什么是Agent?
Agent的中文含義是「代理」,這個概念起源于哲學(xué),最早可以追溯到亞里士多德和休謨。
「代理」描述了一種擁有欲望、信念、意圖和采取行動能力的實體。將這個概念遷移到計算機科學(xué)中,即意指計算機能夠理解用戶的意愿并能自主地代表用戶執(zhí)行任務(wù)。
隨著AI的發(fā)展,Agent在AI研究中找到了自己的位置,用來描述表現(xiàn)出智能行為并具有自主性、反應(yīng)性、主動性和社交能力的實體。
當(dāng)人們能用概念來描述一個對象時,更加的深入的研究就開始了。
Agent有了自己的定義和內(nèi)涵后,「智能體」的研究成為了AI社區(qū)的焦點。
基于LLM的Agent
對Agent的深入研究從20世紀(jì)中期開始,人們的努力取得了一定的成就,但Agent的應(yīng)用場景極為受限,只能實現(xiàn)特定的任務(wù)。
而人們想要的AGI是通用的、能適用于廣泛的場景中的,而不是一個專精的工具。
也許專精的工具也能發(fā)揮出相當(dāng)大的威力,但工具無法自主地適應(yīng)世界,只能被使用。
而模型想要擁有自主性,像生物那樣適應(yīng)各種復(fù)雜的環(huán)境,通用能力是必要的關(guān)鍵。
這包含知識記憶、長期規(guī)劃、有效泛化和高效交互等能力。
隨著各類人工智能的發(fā)展,大語言模型(LLM)脫穎而出,成為了具備一般通用能力的種子選手。
純粹的LLM處于AGI之路的第二階段,即具有互聯(lián)網(wǎng)規(guī)模的文本輸入和輸出。
但LLM在知識獲取、指令理解、泛化、規(guī)劃和推理方面都表現(xiàn)出了強大的能力,并且它還能于人類進行有效的自然語言交互。
這是相當(dāng)重要的優(yōu)勢,LLM因此被選為Agent系統(tǒng)的起點。在人類為其賦予更廣闊的感知空間和行動空間后,LLM就可能到達(dá)更高的層次。
基于LLM的Agent的通用概念框架關(guān)鍵,包含了三個部分:大腦、感知和行動。
與人類相似,大腦也是AI Agent的核心,它由LLM組成。在智能體中,LLM負(fù)責(zé)存儲記憶和知識,還承擔(dān)著信息處理、決策等不可或缺的功能。
因此,LLM可以讓Agent呈現(xiàn)出推理和計劃的過程,并很好地應(yīng)對未知任務(wù),反映出智能代理的泛化性和遷移性。
Agent的感知空間應(yīng)從純文本拓寬到包括文本、視覺和聽覺等多模態(tài)領(lǐng)域,這樣使其能更有效地從周圍環(huán)境中獲取與利用信息。
在Agent的行動方面,除了常規(guī)的文本輸出,還要賦予Agent具身能力、使用工具的能力,使其能夠更好地適應(yīng)環(huán)境變化,通過反饋與環(huán)境交互,甚至能夠塑造環(huán)境。
Agent的實際應(yīng)用場景
這里主要介紹三種Agent的應(yīng)用場景:單Agent部署、多Agent交互和人與Agent交互。
單個Agent擁有多種能力,可以在各種應(yīng)用方向上表現(xiàn)出優(yōu)異的任務(wù)解決能力。
單Agent的應(yīng)用被劃分為三個層次:
首先是任務(wù)導(dǎo)向的部署中,Agent可以協(xié)助人類用戶解決日常的基本任務(wù),此時它們需要具備基本的指令理解和任務(wù)分解能力。
根據(jù)現(xiàn)有的任務(wù)類型,代理的實際應(yīng)用可分為模擬網(wǎng)絡(luò)環(huán)境和模擬生活場景。
其次是在面向創(chuàng)新的開發(fā)中,Agent 展示了在科學(xué)領(lǐng)域進行自主探索的潛力。
盡管來自專業(yè)領(lǐng)域的固有復(fù)雜性和訓(xùn)練數(shù)據(jù)的缺乏給代理構(gòu)建帶來阻礙,但目前已經(jīng)在化學(xué)、材料、計算機等領(lǐng)域取得進展。
在面向生命周期的部署中,Agent具有不斷探索、學(xué)習(xí)和利用新技能的能力,以確保能在開放世界中長期生存。
以《我的世界》游戲為例,游戲中的生存挑戰(zhàn)被認(rèn)為是現(xiàn)實世界的縮影,已成為開發(fā)和測試代理綜合能力的獨特平臺。
當(dāng)多Agent進行互動時,它們可以通過合作或?qū)剐曰訉崿F(xiàn)進步。
在合作互動中,Agent以無序或有序的方式進行協(xié)作,以實現(xiàn)共同目標(biāo)。
在對抗性互動中,代理以針鋒相對的方式展開競爭,以提高各自的性能。
此外,在人-Agent 交互過程中,人類的反饋可以使 Agent 更高效、更安全地執(zhí)行任務(wù),同時 Agent 也可以為人類提供更好的服務(wù)。
人類與Agent的互動可以分為兩種模式。
在指導(dǎo)者-執(zhí)行者范式(左)中,人類提供指導(dǎo)或反饋,而代理則充當(dāng)執(zhí)行者。
在平等合作范式(右圖)中,Agent 像人類一樣,能夠與人類進行移情對話,并參與非合作任務(wù)。
最后是由Agent組成的社會。
Agent的社會可以簡單分為兩個要素:Agent和環(huán)境。
在個體層面,Agent能夠表現(xiàn)出計劃、推理和反思等內(nèi)化行為。它還表現(xiàn)出內(nèi)在的人格特質(zhì),包括認(rèn)知、情感和性格。
但一個代理可以和其他代理組成群體,并表現(xiàn)出群體行為,如合作。
在環(huán)境層面,無論是虛擬環(huán)境還是物理環(huán)境,包含人類行動者和所有可用資源,對于單個代理而言,其他代理也是環(huán)境的一部分。Agent 具有通過感知和行動與環(huán)境互動的能力。
網(wǎng)友熱議:AI Agent,啟動!
也許是原神和「技術(shù)宅拯救世界」的米哈游的「出境」,網(wǎng)友們對這篇論文可謂是十分上心。
有網(wǎng)友甚至想一天內(nèi)讀完這篇80多頁的論文:
「我很想知道有沒有人能在一天內(nèi)讀完并理解這篇論文,但我會嘗試一下的。」
另一位網(wǎng)友作為原神玩家直接就是:
「原神,啟動!」
雖然在這篇論文中并沒有提到AI Agent在游戲中的應(yīng)用,但是米哈游和原神的出現(xiàn),讓網(wǎng)友們十分興奮,開始暢想AI Agent對游戲的影響。
「這不僅是原神的未來,也會是所有游戲的未來。
讓AI Agent成為故事中我們的伙伴,他們會用自己的價值觀對玩家的選擇做出反應(yīng),而不是靠固定的腳本。」
也有網(wǎng)友對游戲和AGI的未來進行了一番暢想:
「如果AGI需要具身代理,那么游戲?qū)菍崿F(xiàn)的它的最佳場所?!?/span>