今日arXiv最熱NLP大模型論文:微軟重磅:AgentAI,下一代人工智能的關(guān)鍵
引言:AI的全面智能之路
人工智能的發(fā)展已從簡單算法進化到復(fù)雜的大型基礎(chǔ)模型,尤其在理解開放世界環(huán)境中的感官信息方面取得顯著進步。然而,關(guān)鍵轉(zhuǎn)折點在于從過度簡化方法轉(zhuǎn)向強調(diào)整體運作的系統(tǒng),催生了Agent AI的興起。Agent AI將大型基礎(chǔ)模型整合到代理行動中的具體系統(tǒng),涉及機器人學(xué)、游戲和醫(yī)療保健等多領(lǐng)域。本文提出新的代理基礎(chǔ)模型,展現(xiàn)其在多個任務(wù)和領(lǐng)域中的非凡能力,挑戰(zhàn)傳統(tǒng)學(xué)習(xí)和認知觀念。同時,從跨學(xué)科角度探討Agent AI潛力,強調(diào)AI認知和意識的重要性。這些討論為未來研究奠定基礎(chǔ),促進社會廣泛參與。
本文深入探討了Agent AI的基礎(chǔ),強調(diào)了智能代理在物理、虛擬或混合現(xiàn)實環(huán)境中,根據(jù)感官輸入自主執(zhí)行情境相關(guān)行動的能力。這種新范式突出了具身智能的重要性,強調(diào)整合復(fù)雜動態(tài)交互代理方法的必要性。我們堅信,智能源于學(xué)習(xí)、記憶、行動、感知、規(guī)劃和認知間的復(fù)雜互動。Agent AI框架(下圖)的構(gòu)建將促進AI社區(qū)對從被動、結(jié)構(gòu)化任務(wù)模型向復(fù)雜環(huán)境中動態(tài)交互角色模型的轉(zhuǎn)變所需見解和知識的積累。這是邁向人工通用智能(AGI)的關(guān)鍵一步。
論文標(biāo)題:
Position Paper: Agent AI Towards a Holistic Intelligence
論文鏈接:
???https://arxiv.org/pdf/2403.00833.pdf??
Agent AI的定義與重要性
1. Agent AI的概念和目標(biāo)
Agent AI,或稱為代理人工智能,是一種智能體,能夠基于感官輸入自主執(zhí)行適當(dāng)且與上下文相關(guān)的行動,無論是在物理、虛擬還是混合現(xiàn)實環(huán)境中。Agent AI代表了一種新的范式,強調(diào)了整合智能體在復(fù)雜動態(tài)中的互動方式的重要性。這種方法的動力來自于認為智能源自于學(xué)習(xí)、記憶、行動、感知、規(guī)劃和認知之間錯綜復(fù)雜的相互作用(下圖)。
2. Agent AI在多模態(tài)交互中的應(yīng)用
Agent AI在多模態(tài)交互中的應(yīng)用廣泛,包括機器人學(xué)、游戲和醫(yī)療保健系統(tǒng)等。例如,在機器人學(xué)中,Agent AI能夠解析人類的指令并執(zhí)行高級任務(wù);在游戲中,它能夠根據(jù)玩家的行動和自然語言指令進行交互;在醫(yī)療保健中,Agent AI可以幫助診斷和患者護理。這些應(yīng)用展示了Agent AI跨領(lǐng)域和任務(wù)的顯著能力,挑戰(zhàn)了我們對學(xué)習(xí)和認知的理解。
Agent基礎(chǔ)模型的構(gòu)建
1. Agent Transformer的多模態(tài)編碼器
Agent Transformer是一種基于變換器的多模態(tài)編碼器(下圖),它允許交互式代理基于多模態(tài)信息采取行動。這個模型由三個預(yù)訓(xùn)練的子模塊初始化:視覺模塊、代理行動模塊和語言模塊。這種設(shè)計使得代理能夠預(yù)測完成機器人、游戲和交互式醫(yī)療任務(wù)所需的行動(或行動標(biāo)記)。
2. Agent學(xué)習(xí)策略:強化學(xué)習(xí)與模仿學(xué)習(xí)
Agent學(xué)習(xí)策略包括強化學(xué)習(xí)(RL)和模仿學(xué)習(xí)(IL)。RL是一種基于獎勵(或懲罰)來學(xué)習(xí)狀態(tài)和行動之間最佳關(guān)系的框架,已被廣泛應(yīng)用于機器人學(xué)等領(lǐng)域。IL則利用示范數(shù)據(jù)來模仿人類專家的行動,例如在機器人學(xué)中,通過行為克?。˙C)方法,機器人被訓(xùn)練來模仿專家在特定任務(wù)中的行動。
3. Agent系統(tǒng)中的優(yōu)化問題
Agent系統(tǒng)的優(yōu)化問題可以分為空間和時間兩個方面??臻g優(yōu)化考慮代理在物理空間中執(zhí)行任務(wù)的方式,包括機器人之間的協(xié)調(diào)、資源分配和保持有序的空間。時間優(yōu)化則關(guān)注代理隨時間執(zhí)行任務(wù)的方式,涉及任務(wù)調(diào)度、序列化和時間線效率。
4. 自我改進的Transformer模型
當(dāng)前基于基礎(chǔ)模型的AI代理能夠從多種不同的數(shù)據(jù)源中學(xué)習(xí),這允許更靈活的數(shù)據(jù)來源用于訓(xùn)練。自我改進的代理可以通過環(huán)境交互持續(xù)學(xué)習(xí)和改進,例如在機器人教學(xué)中,Agent AI根據(jù)人類提供的多模態(tài)指令理解其需要做什么,然后在虛擬世界中生成圖像或場景,并利用用戶反饋進行迭代改進,逐漸適應(yīng)環(huán)境。
Agent AI的分類與研究
Agent AI根據(jù)環(huán)境和動作內(nèi)容兩個維度可劃分成四個類別(下圖)。環(huán)境分物理世界還是虛擬世界,而動作內(nèi)容涉及低級別精細動作操控的,我們稱之為“操控動作”(Manipulation action);代理的動作可能主要旨在為機器人或人類的意圖指令進行高級信息傳遞,我們稱之為“意圖動作”(Intentional action)。
1. 物理環(huán)境中的操控動作
物理環(huán)境中的操控動作主要指在實體環(huán)境中進行物理互動的智能體,如機器人技術(shù)。這類Agent的研究重點在于如何使機器人能夠理解高層次的指令并將其分解為一系列的物理操控動作。例如,Brohan等人提出的RT-1[1]和RT-2[2]模型,就是通過將一系列圖像和語言輸入轉(zhuǎn)化為機器人基座和手臂的動作序列,展現(xiàn)了在機器人領(lǐng)域的高泛化性能(下圖是RT-2模型示意圖)。
2. 虛擬環(huán)境中的操控動作
虛擬環(huán)境中的操控動作在模擬環(huán)境中進行學(xué)習(xí)和任務(wù)執(zhí)行,如視頻游戲中的智能體。這些Agent的學(xué)習(xí)目標(biāo)通常是在模擬環(huán)境內(nèi)進行,而不是過渡到物理世界。研究表明,基于大規(guī)模文本、圖像和視頻數(shù)據(jù)訓(xùn)練的通用視覺語言模型可以作為多模態(tài)Agent的基礎(chǔ),使其能夠在不同環(huán)境中行動。
3. 物理環(huán)境中的意圖動作
物理環(huán)境中的意圖動作是在實體環(huán)境中進行非物理互動,如在醫(yī)療保健領(lǐng)域的應(yīng)用。這些Agent能夠理解用戶的意圖,檢索臨床知識,并在人與人的互動中發(fā)揮作用。例如,Lee等人研究的醫(yī)療聊天機器人[3],展示了利用大型語言模型進行病人診斷的潛力。
4. 虛擬環(huán)境中的意圖動作
虛擬環(huán)境中的意圖動作在游戲、虛擬現(xiàn)實(VR)和擴展現(xiàn)實(XR)中創(chuàng)建互動內(nèi)容。這類Agent能夠遵循指令進行導(dǎo)航,并在特定游戲中展現(xiàn)超人的表現(xiàn)。例如,Meta Fundamental AI Research等人的研究表明,Agent AI在特定游戲中的表現(xiàn)超越了人類[4]。
5. 非實體化的多模態(tài)Agent分類
非實體化的多模態(tài)Agent強調(diào)使用多模態(tài)信息進行有益的非實體化動作。這類Agent需要具備高度的語言和視覺識別能力,利用大型基礎(chǔ)模型來執(zhí)行任務(wù)規(guī)劃和邏輯推理等。
Agent AI的應(yīng)用領(lǐng)域
1. 機器人技術(shù)中的應(yīng)用
機器人作為典型的Agent,需要與環(huán)境有效互動。例如,使用大型基礎(chǔ)模型作為輸入信息的編碼器,指導(dǎo)機器人基于語言指令和視覺線索進行動作。此外,LLMs的高級語言處理能力有助于推進任務(wù)規(guī)劃技術(shù)[5](下圖是GRID模型示意圖,利用指令、場景圖和機器人圖作為機器人任務(wù)規(guī)劃的輸入)。
2. 游戲領(lǐng)域的創(chuàng)新
游戲提供了一個獨特的沙盒環(huán)境,測試大型基礎(chǔ)模型的合作和決策能力。Agent AI在游戲中的應(yīng)用,如NPC行為、人與NPC的互動以及游戲分析,都在推動游戲體驗的革新。
3. 交互式醫(yī)療保健的潛力
Agent AI在醫(yī)療保健中的應(yīng)用,如診斷Agent和知識檢索Agent,能夠幫助患者和醫(yī)生,通過理解用戶意圖、檢索臨床知識和把握正在進行的人際互動,提高醫(yī)療服務(wù)的可及性和質(zhì)量。
4. 交云互動多模態(tài)任務(wù)的挑戰(zhàn)
Agent AI在多模態(tài)任務(wù)中的應(yīng)用,包括圖像和語言理解與生成、視頻語言理解與生成等,這些任務(wù)對于開發(fā)能夠與世界以更類似于人類的方式互動的AI代理至關(guān)重要。
部署Agent AI的未來方向
1. 探索新范式
Agent AI的未來發(fā)展需要探索新的范式,這意味著要超越現(xiàn)有的模型和算法,尋找更加綜合和全面的方法來理解和處理信息。這可能包括將不同模態(tài)的數(shù)據(jù)(如視覺、語言和傳感器輸入)整合到一個統(tǒng)一的框架中,以解決大規(guī)模模型中常見的幻覺和偏見問題,從而提高識別和響應(yīng)能力。
2. 通用端到端系統(tǒng)
未來的Agent AI系統(tǒng)將朝向構(gòu)建通用的端到端模型發(fā)展,這些模型能夠利用大規(guī)模數(shù)據(jù)進行訓(xùn)練,以適應(yīng)多樣化的應(yīng)用場景。這樣的系統(tǒng)能夠靈活地適應(yīng)不同的任務(wù)和環(huán)境,從而推動AI解決方案的多功能性和適應(yīng)性。
3. 模態(tài)間的接地方法
通過跨模態(tài)信息的整合,我們可以提高數(shù)據(jù)處理的連貫性和效率。例如,結(jié)合視覺和語言信息來理解和描述圖像內(nèi)容,或者利用歷史行為數(shù)據(jù)來預(yù)測未來的動作。這種方法有助于提高Agent AI系統(tǒng)的理解和響應(yīng)能力。
4. 直觀的人機界面
開發(fā)直觀的人機界面對于促進人與Agent AI之間的有效和有意義的互動至關(guān)重要。這包括創(chuàng)建能夠理解自然語言指令的系統(tǒng),以及設(shè)計能夠根據(jù)用戶意圖和環(huán)境反饋進行適應(yīng)性響應(yīng)的界面。
5. 控制LLM/VLM的偏見和幻覺
為了控制大型語言模型(LLM)和視覺語言模型(VLM)的偏見和幻覺,研究人員正在探索新的方法,如使用檢索增強的生成技術(shù)或其他外部知識檢索機制。這些方法旨在通過檢索額外的源材料并提供機制來檢查生成響應(yīng)與源材料之間的矛盾,從而減少幻覺發(fā)生率。
6. 模擬與現(xiàn)實之間的橋梁
所謂的"模擬到現(xiàn)實"問題強調(diào)了將在模擬環(huán)境中訓(xùn)練的AI代理部署到現(xiàn)實世界中的挑戰(zhàn)。為了解決這些問題,策略包括域隨機化、域適應(yīng)和改進模擬[6]的方法,以更好地準(zhǔn)備模型應(yīng)對現(xiàn)實世界的不可預(yù)測性。下圖就是文獻提出的任務(wù)序列模擬器可為機器人操縱的學(xué)習(xí)和執(zhí)行提供場景組合。
7. 多Agent互動的復(fù)雜性
Agent AI交互目前仍然是一個復(fù)雜的過程,需要結(jié)合多種技能。當(dāng)前的人機交互系統(tǒng)在多代理環(huán)境中主要是基于規(guī)則的。它們確實在一定程度上具有智能行為,并且具有一些網(wǎng)絡(luò)知識。在代理系統(tǒng)設(shè)計中實現(xiàn)特定行為的多代理互動非常重要。
8. Agent基礎(chǔ)設(shè)施與系統(tǒng)的建設(shè)
Agent AI的快速發(fā)展需要強大的基礎(chǔ)設(shè)施來支持它們的訓(xùn)練、評估和部署。在娛樂、研究和工業(yè)領(lǐng)域內(nèi),Agent AI社區(qū)正在迅速擴大。構(gòu)建高質(zhì)量的代理基礎(chǔ)設(shè)施對于使用先進硬件、多樣化的數(shù)據(jù)來源和強大的軟件庫來開發(fā)多模態(tài)代理副駕駛員具有重要影響。
面向Agent AI的挑戰(zhàn)
1. 未結(jié)構(gòu)化環(huán)境的適應(yīng)性
Agent AI需要能夠適應(yīng)未結(jié)構(gòu)化的環(huán)境,這意味著它們必須能夠處理視覺輸入對于高級意圖和低級動作的影響,即使在給定相同目標(biāo)指令的情況下也是如此。
2. Agent的共情能力
Agent AI需要具備共情能力,以便在開放式對象集中做出決策,這些對象集要求代理的決策模塊使用難以手動編碼的常識知識。
3. 多Agent互動與協(xié)作
Agent AI需要能夠理解和操作超出基于模板的命令,還要能夠理解日常語言中表達的目標(biāo)、約束和部分計劃的上下文,以實現(xiàn)多代理互動和協(xié)作。
4. 大型Agent基礎(chǔ)模型的新能力
隨著Agent AI領(lǐng)域的發(fā)展,我們需要開發(fā)出能夠在新領(lǐng)域中進行微調(diào)/預(yù)訓(xùn)練的模型,以便它們能夠處理在未見過的環(huán)境或情景中的泛化性能挑戰(zhàn)。這可能涉及到利用通用基礎(chǔ)模型的知識-記憶來處理新穎場景,特別是在生成人類與代理之間的協(xié)作空間方面。
新興能力與混合現(xiàn)實
1. 交互式Agent的跨模態(tài)協(xié)作
在混合現(xiàn)實的背景下,交互式Agent的跨模態(tài)協(xié)作是實現(xiàn)有效人機交互的關(guān)鍵。這種協(xié)作涉及到Agent能夠理解和響應(yīng)來自不同感官模態(tài)的信息,比如視覺、聽覺和觸覺。例如,一個機器人可能需要通過視覺模塊識別物體,通過聽覺模塊理解人類的語音指令,再通過觸覺模塊與物理環(huán)境互動。這種跨模態(tài)的信息處理能力,不僅要求Agent具備強大的感知能力,還要求其能夠在不同模態(tài)之間進行有效的信息整合和決策。
2. 跨現(xiàn)實環(huán)境的適應(yīng)性
Agent在跨現(xiàn)實環(huán)境中的適應(yīng)性是指其能夠在物理世界和虛擬世界之間無縫切換并執(zhí)行任務(wù)的能力。這要求Agent不僅要能夠理解和適應(yīng)現(xiàn)實世界的物理規(guī)律,還要能夠在虛擬環(huán)境中根據(jù)預(yù)設(shè)的規(guī)則行動。例如,在虛擬現(xiàn)實游戲中,Agent需要根據(jù)游戲規(guī)則和玩家的互動來做出響應(yīng);而在現(xiàn)實世界中,同樣的Agent可能需要根據(jù)物理定律和環(huán)境變化來操作機械臂完成任務(wù)。這種能力的提升,不僅能夠增強Agent的靈活性和適用范圍,還能夠為人類提供更加豐富和沉浸式的交互體驗。
結(jié)論與展望
1. Agent AI的未來發(fā)展
Agent AI是個有前景的新興領(lǐng)域,能在多領(lǐng)域發(fā)揮重要作用。它具有整合性和適應(yīng)性,能理解和執(zhí)行自然語言指令,處理視聽輸入,在復(fù)雜環(huán)境中規(guī)劃執(zhí)行任務(wù)。未來,它可能發(fā)展出類似“意識”的特性,更好地理解和預(yù)測環(huán)境變化,與人類用戶深度交互。同時,其在模擬環(huán)境中的自我改進能力提升后,能更好地適應(yīng)現(xiàn)實世界,實現(xiàn)從模擬到現(xiàn)實的無縫過渡。
2. 對人工智能全面理解的貢獻
Agent AI的發(fā)展對全面理解人工智能有顯著貢獻。它促進了跨學(xué)科研究,有助于探索智能體的認知和意識,為未來研究提供基礎(chǔ),鼓勵廣泛的社會參與。隨著技術(shù)發(fā)展,我們有望看到AI代理在復(fù)雜環(huán)境中扮演更動態(tài)、互動的角色,這是邁向AGI的關(guān)鍵一步。Agent AI的進步有助于理解學(xué)習(xí)和認知過程,為實現(xiàn)全面智能體系提供新視角。
本文轉(zhuǎn)載自夕小瑤科技說,作者:Tscom
原文鏈接:??https://mp.weixin.qq.com/s/IBrK53WeOCcw5LQJQ5M5rA??
