自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

一文詳解多模態(tài)智能體(LMAs)最新進(jìn)展(核心組件/分類(lèi)/評(píng)估/應(yīng)用) 精華

發(fā)布于 2024-5-14 10:09
瀏覽
0收藏

一文詳解多模態(tài)智能體(LMAs)最新進(jìn)展(核心組件/分類(lèi)/評(píng)估/應(yīng)用)-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2402.15116


github地址:https://github.com/jun0wanan/awesome-large-multimodal-agents

大語(yǔ)言模型(LLMs)在為基于文本的AI智能體提供動(dòng)力方面取得了卓越的表現(xiàn),賦予它們類(lèi)似于人類(lèi)的決策和推理能力。與此同時(shí),出現(xiàn)了一個(gè)新興的研究趨勢(shì),專注于將這些由LLMs驅(qū)動(dòng)的AI智能體擴(kuò)展到多模態(tài)領(lǐng)域。這種擴(kuò)展使得AI智能體能夠解釋和響應(yīng)各種多模態(tài)用戶queries,從而處理更加復(fù)雜和微妙的任務(wù)。


本文對(duì)LLMs驅(qū)動(dòng)的多模態(tài)智能體進(jìn)行了系統(tǒng)性審查,將其稱為大型多模態(tài)智能體(簡(jiǎn)稱LMAs)。


首先,介紹了開(kāi)發(fā)LMAs所涉及的基本組件,并將當(dāng)前的研究成果分類(lèi)為四種不同類(lèi)型。

隨后,審查了整合多個(gè)LMAs的協(xié)作框架,增強(qiáng)了集體效能。該領(lǐng)域的一個(gè)關(guān)鍵挑戰(zhàn)是現(xiàn)有研究中使用了多種不同的評(píng)估方法,這些方法阻礙了對(duì)不同LMAs進(jìn)行有效比較。因此,本文編制了這些評(píng)估方法,并建立了一個(gè)全面的框架來(lái)彌合這些差距。該框架旨在標(biāo)準(zhǔn)化評(píng)估,促進(jìn)更有意義的比較。在審查結(jié)束時(shí),強(qiáng)調(diào)了LMAs的廣泛應(yīng)用,并提出了可能的未來(lái)研究方向。


本文討論旨在為這一快速發(fā)展的領(lǐng)域的未來(lái)研究提供有價(jià)值的見(jiàn)解和指導(dǎo)。

介紹

智能體(agent)是一個(gè)能夠感知其環(huán)境并根據(jù)這些感知做出決策以達(dá)到特定目標(biāo)的系統(tǒng)。盡管在狹窄領(lǐng)域內(nèi)表現(xiàn)出色,早期智能體往往缺乏適應(yīng)性和泛化能力,與人類(lèi)智能存在顯著差異。最近大語(yǔ)言模型(LLMs)的進(jìn)展開(kāi)始彌合這一差距,LLMs增強(qiáng)了它們?cè)诿罱忉尅⒅R(shí)吸收和模擬人類(lèi)推理和學(xué)習(xí)方面的能力。這些智能體使用LLMs作為它們的主要決策工具,并進(jìn)一步增強(qiáng)了關(guān)鍵的類(lèi)人特征,如記憶。這種增強(qiáng)使它們能夠處理各種自然語(yǔ)言處理任務(wù),并使用語(yǔ)言與環(huán)境進(jìn)行交互。


然而,現(xiàn)實(shí)世界的場(chǎng)景往往涉及超越文本的信息,包括多種模態(tài),其中視覺(jué)方面的重要性很大。因此,由LLMs驅(qū)動(dòng)的智能智能體的下一個(gè)進(jìn)化步驟是獲得處理和生成多模態(tài)信息的能力,特別是視覺(jué)數(shù)據(jù)。這種能力對(duì)于這些智能體進(jìn)化為更強(qiáng)大的AI實(shí)體,模仿人類(lèi)級(jí)別的智能至關(guān)重要。本文具備這種能力的智能體被稱為大型多模態(tài)智能體(LMAs)。通常,它們面臨的挑戰(zhàn)比僅包含語(yǔ)言的智能體更為復(fù)雜。


以網(wǎng)絡(luò)搜索為例,一個(gè)LMA首先需要通過(guò)搜索欄輸入用戶的要求,以查找相關(guān)信息。隨后,它通過(guò)鼠標(biāo)點(diǎn)擊和滾動(dòng)導(dǎo)航到網(wǎng)頁(yè),以瀏覽實(shí)時(shí)網(wǎng)頁(yè)內(nèi)容。最后,LMA需要處理多模態(tài)數(shù)據(jù)(如文本、視頻和圖像)并進(jìn)行多步推理,包括從網(wǎng)絡(luò)文章、視頻報(bào)道和社交媒體更新中提取關(guān)鍵信息,并將這些信息整合以響應(yīng)用戶的查詢。我們注意到,現(xiàn)有的LMAs研究是孤立進(jìn)行的,因此有必要通過(guò)總結(jié)和比較現(xiàn)有的框架來(lái)進(jìn)一步推動(dòng)該領(lǐng)域的發(fā)展。存在一些與LLM驅(qū)動(dòng)智能體相關(guān)的調(diào)查,但其中很少有關(guān)注多模態(tài)方面的。

一文詳解多模態(tài)智能體(LMAs)最新進(jìn)展(核心組件/分類(lèi)/評(píng)估/應(yīng)用)-AI.x社區(qū)

本文旨在通過(guò)總結(jié)LMAs的主要發(fā)展來(lái)填補(bǔ)這一空白。首先,介紹了核心組件,并提出了現(xiàn)有研究的新分類(lèi)法,進(jìn)一步討論了現(xiàn)有的協(xié)作框架。關(guān)于評(píng)估,概述了評(píng)估LMAs性能的現(xiàn)有方法,并進(jìn)行了全面的總結(jié)。然后,應(yīng)用部分提供了多模態(tài)智能體及其相關(guān)任務(wù)廣泛的現(xiàn)實(shí)世界應(yīng)用的詳盡概述。最后,通過(guò)討論并提出LMAs可能的未來(lái)發(fā)展方向來(lái)總結(jié)這項(xiàng)工作,為有用的研究指導(dǎo)提供支持。

LMAs的核心組件

本節(jié)詳細(xì)介紹了LMAs的四個(gè)核心元素,包括感知、規(guī)劃、行動(dòng)和記憶。


感知。感知是一種復(fù)雜的認(rèn)知過(guò)程,使人類(lèi)能夠收集和解釋環(huán)境信息。在LMAs中,感知組件主要集中在處理來(lái)自不同環(huán)境的多模態(tài)信息上。如下表1所示,在不同任務(wù)中的LMAs涉及各種模態(tài)。它們需要從這些不同的模態(tài)中提取對(duì)任務(wù)完成最有利的關(guān)鍵信息,從而促進(jìn)任務(wù)的更有效規(guī)劃和執(zhí)行。

一文詳解多模態(tài)智能體(LMAs)最新進(jìn)展(核心組件/分類(lèi)/評(píng)估/應(yīng)用)-AI.x社區(qū)

早期的處理多模態(tài)信息的研究通常依賴于簡(jiǎn)單的相關(guān)模型或工具,將圖像或音頻轉(zhuǎn)換為文本描述。然而,這種轉(zhuǎn)換方法往往會(huì)產(chǎn)生大量無(wú)關(guān)和冗余信息,特別是對(duì)于復(fù)雜的模態(tài)(例如視頻)。除了輸入長(zhǎng)度限制,LLMs經(jīng)常面臨有效提取相關(guān)信息進(jìn)行規(guī)劃的挑戰(zhàn)。為解決這一問(wèn)題,近期的研究引入了子任務(wù)工具的概念,旨在處理復(fù)雜的數(shù)據(jù)類(lèi)型。在類(lèi)似真實(shí)世界的環(huán)境(即開(kāi)放世界游戲)中,[51]提出了一種處理非文本模態(tài)信息的新方法。該方法首先從環(huán)境中提取關(guān)鍵的視覺(jué)詞匯,然后使用GPT模型進(jìn)一步將這些詞匯細(xì)化為一系列描述性句子。當(dāng)LLMs感知環(huán)境中的視覺(jué)模態(tài)時(shí),它們使用這些模態(tài)來(lái)檢索最相關(guān)的描述性句子,從而有效增強(qiáng)了對(duì)環(huán)境的理解。


規(guī)劃。 規(guī)劃者在LMAs中起著核心作用,類(lèi)似于人類(lèi)大腦的功能。它們負(fù)責(zé)對(duì)當(dāng)前任務(wù)進(jìn)行深入推理,并制定相應(yīng)的計(jì)劃。與僅使用語(yǔ)言的智能體相比,LMAs在更復(fù)雜的環(huán)境中運(yùn)行,制定合理計(jì)劃更具挑戰(zhàn)性。從四個(gè)角度(模型、格式、檢查和反思、規(guī)劃方法)詳細(xì)介紹了規(guī)劃者:

  • 模型:如下表1所示,現(xiàn)有研究采用不同的模型作為規(guī)劃者。其中,最流行的是GPT-3.5或GPT-4。然而,這些模型并不是公開(kāi)的,因此一些研究已經(jīng)開(kāi)始轉(zhuǎn)向使用開(kāi)源模型,例如LLaMA和LLaVA,后者可以直接處理多種模態(tài)的信息,增強(qiáng)了它們制定更優(yōu)化計(jì)劃的能力。
  • 格式:它表示規(guī)劃者制定的計(jì)劃的格式。如上面表1所示,有兩種格式化方式。第一種是自然語(yǔ)言。例如,在某些研究中,獲得的規(guī)劃內(nèi)容是“我首先使用OpenCV的openpose控制模型分析圖像中男孩的姿態(tài)......”,其中制定的計(jì)劃是使用“OpenCV的openpose控制模型”。第二種是以程序形式,如在某些研究中描述的“image_patch = ImagePatch(image)”,其中調(diào)用ImagePatch函數(shù)來(lái)執(zhí)行規(guī)劃。還有混合形式。
  • 檢查和反思:在復(fù)雜的多模態(tài)環(huán)境中,LMAs要始終制定有意義的、完成任務(wù)的規(guī)劃是具有挑戰(zhàn)性的。這個(gè)組件旨在增強(qiáng)魯棒性和適應(yīng)性。一些研究方法存儲(chǔ)成功的經(jīng)驗(yàn)在長(zhǎng)期記憶中,包括多模態(tài)狀態(tài),以指導(dǎo)規(guī)劃。在規(guī)劃過(guò)程中,它們首先檢索相關(guān)經(jīng)驗(yàn),幫助規(guī)劃者深思熟慮以減少不確定性。此外,[12]利用人類(lèi)在執(zhí)行相同任務(wù)時(shí)在不同狀態(tài)下制定的計(jì)劃。當(dāng)遇到類(lèi)似的狀態(tài)時(shí),規(guī)劃者可以參考這些“標(biāo)準(zhǔn)答案”進(jìn)行思考,從而制定更合理的計(jì)劃。此外,[71]采用了更復(fù)雜的規(guī)劃方法,如蒙特卡羅,以擴(kuò)大規(guī)劃搜索的范圍,找到最佳的規(guī)劃策略。
  • 規(guī)劃方法:現(xiàn)有的規(guī)劃策略可以分為兩種類(lèi)型:動(dòng)態(tài)規(guī)劃和靜態(tài)規(guī)劃,如前面表1所示。前者是指根據(jù)初始輸入將目標(biāo)分解為一系列子計(jì)劃,類(lèi)似于思維鏈(CoT),即使在過(guò)程中發(fā)生錯(cuò)誤,也不會(huì)重新制定計(jì)劃;后者意味著每個(gè)計(jì)劃都是基于當(dāng)前環(huán)境信息或反饋制定的。如果在計(jì)劃中檢測(cè)到錯(cuò)誤,它將恢復(fù)到原始狀態(tài)進(jìn)行重新規(guī)劃。

?

行動(dòng)。 多模態(tài)智能體系統(tǒng)中的行動(dòng)組件負(fù)責(zé)執(zhí)行規(guī)劃者制定的規(guī)劃和決策。它將這些規(guī)劃轉(zhuǎn)化為具體的行動(dòng),例如使用工具、身體動(dòng)作或與界面交互,從而確保智能體能夠準(zhǔn)確高效地實(shí)現(xiàn)其目標(biāo)并與環(huán)境進(jìn)行交互。討論重點(diǎn)在于兩個(gè)方面:類(lèi)型和方法。


在前面表1中,行動(dòng)被分類(lèi)為三種類(lèi)型:工具使用(T)、實(shí)體動(dòng)作(E)和虛擬動(dòng)作(V),其中工具包括視覺(jué)基礎(chǔ)模型(VFMs)、API、Python等(如表2所列);實(shí)體動(dòng)作是由物理實(shí)體執(zhí)行的,如機(jī)器人或虛擬角色;虛擬動(dòng)作包括網(wǎng)絡(luò)任務(wù)(例如,點(diǎn)擊鏈接、滾動(dòng)和鍵盤(pán)使用)。

一文詳解多模態(tài)智能體(LMAs)最新進(jìn)展(核心組件/分類(lèi)/評(píng)估/應(yīng)用)-AI.x社區(qū)

就方法而言,如表1所示,主要有兩種類(lèi)型。第一種類(lèi)型涉及使用提示向智能體提供有關(guān)可執(zhí)行行動(dòng)的信息,例如當(dāng)前可用的工具及其功能;第二種類(lèi)型涉及收集關(guān)于行動(dòng)的數(shù)據(jù),并利用這些信息來(lái)自我指導(dǎo)開(kāi)源大型模型的微調(diào)過(guò)程,例如LLaVA。這些數(shù)據(jù)通常由先進(jìn)的模型生成,例如GPT-4。與僅使用語(yǔ)言的智能體相比,與行動(dòng)相關(guān)的信息和數(shù)據(jù)的復(fù)雜性需要更復(fù)雜的方法來(lái)優(yōu)化學(xué)習(xí)策略。


記憶。 早期研究表明,記憶機(jī)制在通用智能體的運(yùn)作中起著至關(guān)重要的作用。與人類(lèi)類(lèi)似,智能體的記憶可以分為長(zhǎng)期記憶和短期記憶。在簡(jiǎn)單的環(huán)境中,短期記憶足以讓智能體處理手頭的任務(wù)。然而,在更復(fù)雜和更現(xiàn)實(shí)的環(huán)境中,長(zhǎng)期記憶變得至關(guān)重要。在表1中,可以看到只有少數(shù)LMAs包含長(zhǎng)期記憶。與僅使用語(yǔ)言的智能體不同,這些多模態(tài)智能體需要能夠跨越各種模態(tài)存儲(chǔ)信息的長(zhǎng)期記憶。在一些研究中,所有模態(tài)都被轉(zhuǎn)換為文本格式進(jìn)行存儲(chǔ)。然而,在某些研究中,提出了一種多模態(tài)長(zhǎng)期記憶系統(tǒng),專門(mén)設(shè)計(jì)用于存檔以前的成功經(jīng)驗(yàn)。具體而言,這些記憶被存儲(chǔ)為鍵值對(duì),其中鍵是多模態(tài)狀態(tài),值是成功的計(jì)劃。在遇到新的多模態(tài)狀態(tài)時(shí),根據(jù)它們的編碼相似性檢索最類(lèi)似的例子。

一文詳解多模態(tài)智能體(LMAs)最新進(jìn)展(核心組件/分類(lèi)/評(píng)估/應(yīng)用)-AI.x社區(qū)

其中,代表通過(guò)CLIP模型編碼的鍵的視覺(jué)信息,與當(dāng)前由CLIP編碼的視覺(jué)狀態(tài)進(jìn)行相似性比較。

LMAs的分類(lèi)法

通過(guò)將現(xiàn)有研究分類(lèi)為四種類(lèi)型,提出了一種分類(lèi)法。


類(lèi)型I:閉源LLMs作為沒(méi)有長(zhǎng)期記憶的規(guī)劃者。 早期的研究采用提示來(lái)利用閉源的大語(yǔ)言模型(如GPT-3.5)作為推理和規(guī)劃的規(guī)劃者,如圖2(a)所示。根據(jù)特定的環(huán)境或任務(wù)要求,這些計(jì)劃的執(zhí)行可以通過(guò)下游工具包或通過(guò)使用鼠標(biāo)或機(jī)器人手臂等物理設(shè)備直接與環(huán)境進(jìn)行交互。這種類(lèi)型的LMAs通常在更簡(jiǎn)單的環(huán)境中運(yùn)行,承擔(dān)著傳統(tǒng)的任務(wù),如圖像編輯、視覺(jué)定位和視覺(jué)問(wèn)答(VQA)。

一文詳解多模態(tài)智能體(LMAs)最新進(jìn)展(核心組件/分類(lèi)/評(píng)估/應(yīng)用)-AI.x社區(qū)

一文詳解多模態(tài)智能體(LMAs)最新進(jìn)展(核心組件/分類(lèi)/評(píng)估/應(yīng)用)-AI.x社區(qū)

類(lèi)型II:經(jīng)過(guò)微調(diào)的LLMs作為沒(méi)有長(zhǎng)期記憶的規(guī)劃者。 這種類(lèi)型的LMAs涉及收集多模態(tài)指令跟隨數(shù)據(jù)或使用自我指導(dǎo)來(lái)微調(diào)開(kāi)源的大語(yǔ)言模型(如LLaMA)或多模態(tài)模型(如LLaVA),如圖2(b)所示。這種增強(qiáng)不僅使模型能夠作為推理和規(guī)劃的中心“大腦”,還使其能夠執(zhí)行這些計(jì)劃。類(lèi)型II LMAs面臨的環(huán)境和任務(wù)與類(lèi)型I類(lèi)似,通常涉及傳統(tǒng)的視覺(jué)或多模態(tài)任務(wù)。與相對(duì)簡(jiǎn)單的動(dòng)態(tài)特性、封閉環(huán)境和基本任務(wù)的典型場(chǎng)景相比,在像Minecraft這樣的開(kāi)放世界游戲中,LMAs需要在動(dòng)態(tài)背景下執(zhí)行精確的規(guī)劃,在高復(fù)雜性的任務(wù)中進(jìn)行處理,并進(jìn)行終身學(xué)習(xí)以適應(yīng)新的挑戰(zhàn)。因此,在類(lèi)型I和類(lèi)型II的基礎(chǔ)上,類(lèi)型III和類(lèi)型IV的LMAs集成了記憶組件,展示了向人工智能領(lǐng)域中的通用智能體發(fā)展的巨大潛力。


類(lèi)型III:具有間接長(zhǎng)期記憶的規(guī)劃者。 對(duì)于類(lèi)型III的LMAs,如圖2(c)所示,LLMs充當(dāng)中央規(guī)劃者,并配備有長(zhǎng)期記憶。這些規(guī)劃者通過(guò)調(diào)用相關(guān)工具訪問(wèn)和檢索長(zhǎng)期記憶,利用這些記憶來(lái)增強(qiáng)推理和規(guī)劃。例如,在[71]中開(kāi)發(fā)的多模態(tài)智能體框架專為視頻處理等動(dòng)態(tài)任務(wù)量身定制。該框架包括一個(gè)規(guī)劃者、一個(gè)工具包和一個(gè)與任務(wù)相關(guān)的記憶庫(kù),目錄了空間和時(shí)間屬性。規(guī)劃者使用專門(mén)的子任務(wù)工具查詢記憶庫(kù),以獲取與視頻內(nèi)容相關(guān)的時(shí)空屬性,從而推斷出與任務(wù)相關(guān)的時(shí)間和空間數(shù)據(jù)。存儲(chǔ)在工具包中的每個(gè)工具都專為特定類(lèi)型的時(shí)空推理而設(shè)計(jì),并在框架內(nèi)作為執(zhí)行者。


類(lèi)型IV:具有本地長(zhǎng)期記憶的規(guī)劃者。 與類(lèi)型III不同,類(lèi)型IV的LMAs具有LLMs直接與長(zhǎng)期記憶進(jìn)行交互,繞過(guò)了使用工具訪問(wèn)長(zhǎng)期記憶的需要,如圖2(d)所示。例如,在[51]中提出的多模態(tài)智能體展示了在Minecraft的開(kāi)放世界環(huán)境中完成200多個(gè)不同任務(wù)的熟練技能。在他們的多模態(tài)智能體設(shè)計(jì)中,交互式規(guī)劃者將多模態(tài)基礎(chǔ)模型與LLM相結(jié)合,首先將環(huán)境多模態(tài)輸入轉(zhuǎn)換為文本。規(guī)劃者進(jìn)一步采用自檢機(jī)制來(lái)預(yù)測(cè)和評(píng)估執(zhí)行中的每個(gè)步驟,主動(dòng)發(fā)現(xiàn)潛在缺陷,并結(jié)合環(huán)境反饋和自我解釋,迅速糾正和完善計(jì)劃,而無(wú)需額外信息。此外,該多模態(tài)智能體框架包括一個(gè)新穎的多模態(tài)記憶。成功的任務(wù)計(jì)劃及其初始多模態(tài)狀態(tài)被存儲(chǔ),規(guī)劃者從該數(shù)據(jù)庫(kù)中檢索類(lèi)似的狀態(tài)用于新任務(wù),利用積累的經(jīng)驗(yàn)以實(shí)現(xiàn)更快、更有效的任務(wù)完成。

多智能體協(xié)作

本節(jié)進(jìn)一步介紹了超出孤立智能體討論范圍的LMAs的協(xié)作框架。


如下圖3(a)(b)所示,這些框架采用多個(gè)LMAs協(xié)同工作。這兩種框架之間的關(guān)鍵區(qū)別在于是否存在記憶組件,但它們的基本原理是一致的:多個(gè)LMAs擁有不同的角色和責(zé)任,使它們能夠協(xié)調(diào)行動(dòng),共同實(shí)現(xiàn)共同目標(biāo)。這種結(jié)構(gòu)減輕了單個(gè)智能體的負(fù)擔(dān),從而增強(qiáng)了任務(wù)性能。

一文詳解多模態(tài)智能體(LMAs)最新進(jìn)展(核心組件/分類(lèi)/評(píng)估/應(yīng)用)-AI.x社區(qū)

例如,在[37]的多模態(tài)智能體框架中,引入了一個(gè)感知者智能體來(lái)感知多模態(tài)環(huán)境,由大型多模態(tài)模型組成。一個(gè)被指定為Patroller的智能體負(fù)責(zé)與感知者智能體進(jìn)行多次交互,對(duì)感知到的環(huán)境數(shù)據(jù)進(jìn)行實(shí)時(shí)檢查和反饋,以確保當(dāng)前計(jì)劃和行動(dòng)的準(zhǔn)確性。當(dāng)檢測(cè)到執(zhí)行失敗或需要重新評(píng)估時(shí),Patroller向規(guī)劃者提供相關(guān)信息,促使重新組織或更新子目標(biāo)下的動(dòng)作序列。


MemoDroid框架由幾個(gè)關(guān)鍵智能體組成,它們共同工作以自動(dòng)化移動(dòng)任務(wù)。探索智能體負(fù)責(zé)對(duì)目標(biāo)應(yīng)用程序界面進(jìn)行離線分析,根據(jù)UI元素生成潛在子任務(wù)列表,然后將其存儲(chǔ)在應(yīng)用程序內(nèi)存中。在在線執(zhí)行階段,選擇智能體根據(jù)用戶命令和當(dāng)前屏幕狀態(tài)從探索的集合中確定要執(zhí)行的特定子任務(wù)。推斷智能體進(jìn)一步通過(guò)提示LLM識(shí)別并完成所選子任務(wù)所需的基礎(chǔ)動(dòng)作序列。同時(shí),當(dāng)遇到與先前學(xué)習(xí)的任務(wù)相似的任務(wù)時(shí),Recall智能體可以直接從內(nèi)存中調(diào)用和執(zhí)行相應(yīng)的子任務(wù)和動(dòng)作序列。

評(píng)估

研究的主要焦點(diǎn)是增強(qiáng)當(dāng)前LMAs的能力。然而,對(duì)于這些智能體的評(píng)估和評(píng)價(jià)方法,卻付出了有限的努力。大多數(shù)研究仍然依賴于傳統(tǒng)的性能評(píng)估指標(biāo),這清楚地說(shuō)明了評(píng)估LMAs的挑戰(zhàn)。這也強(qiáng)調(diào)了在這一領(lǐng)域開(kāi)發(fā)實(shí)用的評(píng)估標(biāo)準(zhǔn)和建立基準(zhǔn)數(shù)據(jù)集的必要性。本節(jié)總結(jié)了對(duì)LMAs的現(xiàn)有評(píng)估,并提供了對(duì)未來(lái)發(fā)展的展望。

主觀評(píng)價(jià)

主觀評(píng)價(jià)主要是指使用人類(lèi)來(lái)評(píng)估這些LMAs的能力。最終目標(biāo)是創(chuàng)建一個(gè)能夠像人類(lèi)一樣理解世界并自主執(zhí)行各種任務(wù)的LMA。因此,采用人類(lèi)用戶對(duì)LMAs能力的主觀評(píng)估至關(guān)重要。主要的評(píng)估指標(biāo)包括多功能性、用戶友好性、可擴(kuò)展性以及價(jià)值和安全性。


多功能性。 多功能性表示LMA靈活運(yùn)用各種工具、執(zhí)行物理和虛擬行動(dòng)以及管理各種任務(wù)的能力。[30]提出了比較現(xiàn)有LMAs使用的工具的規(guī)模和類(lèi)型,以及評(píng)估它們功能多樣性的方法。


用戶友好性。 用戶友好性涉及用戶對(duì)LMAs完成任務(wù)結(jié)果的滿意度,包括效率、準(zhǔn)確性和結(jié)果的豐富程度。這種評(píng)估相對(duì)較主觀。在[64]中,人類(lèi)對(duì)LMAs的評(píng)估對(duì)于精確評(píng)估其在解釋和執(zhí)行用戶指令方面的有效性至關(guān)重要。


可擴(kuò)展性。 可擴(kuò)展性基本評(píng)估LMAs吸收新能力并應(yīng)對(duì)新興挑戰(zhàn)的能力。鑒于人類(lèi)需求的動(dòng)態(tài)性,嚴(yán)格評(píng)估LMAs的適應(yīng)性和終身學(xué)習(xí)潛力至關(guān)重要。例如,[23]中的評(píng)估側(cè)重于智能體使用以前未見(jiàn)過(guò)的工具完成任務(wù)的熟練程度。


價(jià)值和安全性。 除了之前提到的指標(biāo)外,“價(jià)值和安全性”指標(biāo)在確定智能體對(duì)人類(lèi)用戶的實(shí)際意義和安全性方面起著至關(guān)重要的作用。雖然許多當(dāng)前的評(píng)估忽視了這一指標(biāo),但考慮到LMAs的“價(jià)值和安全性”是至關(guān)重要的。與語(yǔ)言智能體相比,LMAs可以處理更廣泛的任務(wù)類(lèi)別,因此更重要的是讓它們遵循與人類(lèi)社會(huì)價(jià)值觀一致的道德和倫理原則。

客觀評(píng)價(jià)

客觀評(píng)價(jià)與主觀評(píng)估不同,依賴于定量指標(biāo)全面、系統(tǒng)地、標(biāo)準(zhǔn)化地評(píng)估LMAs的能力。目前,這是多模態(tài)智能體研究中最廣泛采用的評(píng)估方法。


指標(biāo)。 指標(biāo)在客觀評(píng)估中發(fā)揮著至關(guān)重要的作用。在當(dāng)前的多模態(tài)智能體研究中,采用了特定的與任務(wù)相關(guān)的指標(biāo),例如智能體生成答案的準(zhǔn)確性,如視覺(jué)問(wèn)答(VQA)中的準(zhǔn)確性。然而,LLMs出現(xiàn)之前建立的傳統(tǒng)任務(wù)指標(biāo)在評(píng)估llm驅(qū)動(dòng)的LMAs時(shí)并不足夠有效。因此,越來(lái)越多的研究工作致力于確定更適合的評(píng)估指標(biāo)。例如,在VisualWebArena中,設(shè)計(jì)了一種專門(mén)的評(píng)估指標(biāo),用于評(píng)估LMAs處理視覺(jué)引導(dǎo)任務(wù)的性能。這包括測(cè)量智能體對(duì)網(wǎng)頁(yè)內(nèi)容的視覺(jué)理解的準(zhǔn)確性,例如識(shí)別和利用由標(biāo)記集定義的可交互元素進(jìn)行操作,并根據(jù)手動(dòng)設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)定義的任務(wù)目標(biāo)實(shí)現(xiàn)狀態(tài)轉(zhuǎn)換的能力。此外,還包括對(duì)特定視覺(jué)場(chǎng)景問(wèn)題的響應(yīng)的準(zhǔn)確性以及根據(jù)視覺(jué)信息執(zhí)行的操作的一致性。


基準(zhǔn)測(cè)試。 基準(zhǔn)測(cè)試代表著一個(gè)測(cè)試環(huán)境,其中包含一系列評(píng)估標(biāo)準(zhǔn)、數(shù)據(jù)集和任務(wù)。它被用于評(píng)估和比較不同算法或系統(tǒng)的性能。與傳統(tǒng)任務(wù)的基準(zhǔn)測(cè)試相比,SmartPlay 利用精心設(shè)計(jì)的一套游戲全面衡量LMAs的各種能力,為每種能力建立了詳細(xì)的評(píng)估指標(biāo)和挑戰(zhàn)級(jí)別。與使用游戲進(jìn)行評(píng)估的方法相比,GAIA 開(kāi)發(fā)了一個(gè)包含466個(gè)問(wèn)題及其答案的測(cè)試集。這些問(wèn)題要求AI系統(tǒng)具備一系列基本能力,例如推理、處理多模態(tài)信息、網(wǎng)絡(luò)導(dǎo)航和熟練使用工具。與當(dāng)前創(chuàng)建越來(lái)越困難的任務(wù)以測(cè)試人類(lèi)能力的趨勢(shì)不同,GAIA側(cè)重于對(duì)現(xiàn)有高級(jí)AI系統(tǒng)提出概念上簡(jiǎn)單但具有挑戰(zhàn)性的問(wèn)題。這些問(wèn)題涉及需要精確執(zhí)行復(fù)雜操作序列的真實(shí)場(chǎng)景,其輸出易于驗(yàn)證。類(lèi)似地,VisualWebArena是一個(gè)基準(zhǔn)測(cè)試套件,旨在評(píng)估和推進(jìn)LMAs在處理視覺(jué)和文本理解任務(wù)上的能力,適用于真實(shí)網(wǎng)頁(yè)。還有其他基準(zhǔn)測(cè)試有效地測(cè)試了智能體的能力。

應(yīng)用

LMAs擅長(zhǎng)處理多種數(shù)據(jù)模態(tài),在各種情景下的決策和響應(yīng)生成方面勝過(guò)僅限于語(yǔ)言的智能體。它們的適應(yīng)性使它們?cè)谡鎸?shí)世界的多感官環(huán)境中異常有用,如圖4所示。

一文詳解多模態(tài)智能體(LMAs)最新進(jìn)展(核心組件/分類(lèi)/評(píng)估/應(yīng)用)-AI.x社區(qū)

GUI自動(dòng)化。 在這個(gè)應(yīng)用中,LMAs的目標(biāo)是理解和模擬用戶界面內(nèi)的人類(lèi)操作,實(shí)現(xiàn)重復(fù)任務(wù)的執(zhí)行、跨多個(gè)應(yīng)用程序的導(dǎo)航以及簡(jiǎn)化復(fù)雜的工作流程。這種自動(dòng)化有望節(jié)省用戶的時(shí)間和精力,讓他們可以專注于工作的更重要和更有創(chuàng)造性的方面。例如,GPT-4V-Act是一種先進(jìn)的人工智能,將GPT-4V的能力與網(wǎng)絡(luò)瀏覽相結(jié)合,以改進(jìn)人機(jī)交互。它的主要目標(biāo)是使用戶界面更易于訪問(wèn),簡(jiǎn)化工作流程自動(dòng)化,并增強(qiáng)自動(dòng)化的UI測(cè)試。這種人工智能對(duì)于殘疾人或技術(shù)能力有限的人來(lái)說(shuō)特別有益,幫助他們更輕松地瀏覽復(fù)雜的界面。


機(jī)器人技術(shù)與實(shí)體人工智能。 這個(gè)應(yīng)用專注于將機(jī)器人的感知、推理和行動(dòng)能力與其環(huán)境中的物理交互相結(jié)合。通過(guò)使用多模態(tài)智能體,機(jī)器人可以利用多種感官通道,如視覺(jué)、聽(tīng)覺(jué)和觸覺(jué),獲取全面的環(huán)境數(shù)據(jù)。例如,MP5系統(tǒng)是一種先進(jìn)的多模態(tài)實(shí)體系統(tǒng),用于Minecraft,利用主動(dòng)感知來(lái)智能地分解并執(zhí)行廣泛的、無(wú)限期的任務(wù),使用大語(yǔ)言模型。

游戲開(kāi)發(fā)。 游戲人工智能致力于設(shè)計(jì)和實(shí)現(xiàn)這些智能體,以展示智能和真實(shí)感,從而提供引人入勝和具有挑戰(zhàn)性的玩家體驗(yàn)。將智能體技術(shù)成功地整合到游戲中,已經(jīng)導(dǎo)致了更復(fù)雜和交互式的虛擬環(huán)境的創(chuàng)建。


自動(dòng)駕駛。 傳統(tǒng)的自動(dòng)駕駛方法在有效感知和解釋復(fù)雜場(chǎng)景方面面臨困難。最近基于多模態(tài)智能體技術(shù)的進(jìn)展,特別是由LLMs驅(qū)動(dòng),標(biāo)志著在克服這些挑戰(zhàn)和彌合感知差距方面取得了重大進(jìn)展。GPT-Driver,這是一種先進(jìn)的方法,采用OpenAI GPT-3.5模型作為自動(dòng)駕駛車(chē)輛的可靠運(yùn)動(dòng)規(guī)劃器,特別注重生成安全舒適的駕駛軌跡。利用LLMs固有的推理能力,他們的方法為新穎駕駛場(chǎng)景中有限的泛化問(wèn)題提供了有希望的解決方案。


視頻理解。 視頻理解智能體是專門(mén)用于分析和理解視頻內(nèi)容的人工智能系統(tǒng)。它利用深度學(xué)習(xí)技術(shù)從視頻中提取關(guān)鍵信息,識(shí)別對(duì)象、動(dòng)作和場(chǎng)景,以增強(qiáng)對(duì)視頻內(nèi)容的理解。


視覺(jué)生成和編輯。 這種類(lèi)型的應(yīng)用旨在創(chuàng)建和編輯視覺(jué)內(nèi)容。利用先進(jìn)的技術(shù),這個(gè)工具輕松地創(chuàng)建和修改圖像,為用戶提供了創(chuàng)意項(xiàng)目的靈活選擇。例如,LLaVA-Interactive是一個(gè)開(kāi)源的多模態(tài)交互系統(tǒng),將預(yù)訓(xùn)練的AI模型的能力融合在一起,以便于與視覺(jué)線索進(jìn)行多輪對(duì)話并生成編輯后的圖像,從而實(shí)現(xiàn)了一種經(jīng)濟(jì)高效、靈活直觀的AI輔助視覺(jué)內(nèi)容創(chuàng)建體驗(yàn)。


復(fù)雜的視覺(jué)推理任務(wù)。 這個(gè)領(lǐng)域是多模態(tài)智能體研究的重點(diǎn),主要強(qiáng)調(diào)多模態(tài)內(nèi)容的分析。這種流行歸因于LLMs在理解和推理基于知識(shí)的查詢方面的優(yōu)越認(rèn)知能力,超越了以前模型的能力。在這些應(yīng)用中,主要關(guān)注的是問(wèn)答任務(wù)。這包括利用視覺(jué)模態(tài)(圖像或視頻)和文本模態(tài)(帶有問(wèn)題或附帶文檔的問(wèn)題)進(jìn)行推理響應(yīng)。


音頻編輯與生成。 這個(gè)應(yīng)用中的LMAs集成了音頻領(lǐng)域的基礎(chǔ)專家模型,使音樂(lè)的編輯和創(chuàng)作變得高效。

結(jié)論

本調(diào)查對(duì)由LLMs驅(qū)動(dòng)的多模態(tài)智能體(LMAs)的最新研究進(jìn)行了徹底的概述。首先介紹了LMAs的核心組件(即感知、規(guī)劃、行動(dòng)和記憶),并將現(xiàn)有研究分類(lèi)為四類(lèi)。隨后,整理了評(píng)估LMAs的現(xiàn)有方法,并設(shè)計(jì)了一個(gè)全面的評(píng)估框架。最后,重點(diǎn)介紹了LMAs領(lǐng)域內(nèi)一系列當(dāng)前和重要的應(yīng)用場(chǎng)景。盡管取得了顯著進(jìn)展,但這個(gè)領(lǐng)域仍面臨許多未解決的挑戰(zhàn),有很大的改進(jìn)空間。我們最后根據(jù)審查的進(jìn)展,強(qiáng)調(diào)了幾個(gè)有前途的方向:

  • 在框架方面:LMAs未來(lái)的框架可能會(huì)從兩個(gè)不同的角度發(fā)展。從單一智能體的角度來(lái)看,發(fā)展可能朝著創(chuàng)建一個(gè)更統(tǒng)一的系統(tǒng)的方向發(fā)展。這涉及到規(guī)劃者直接與多模態(tài)環(huán)境互動(dòng),利用全面的工具集,并直接操作記憶;從多個(gè)智能體的角度來(lái)看,推進(jìn)多個(gè)多模態(tài)智能體之間的有效協(xié)調(diào),執(zhí)行集體任務(wù),是一個(gè)關(guān)鍵的研究方向。這包括基本的方面,如協(xié)作機(jī)制、通信協(xié)議和戰(zhàn)略任務(wù)分配。
  • 在評(píng)估方面:對(duì)于這個(gè)領(lǐng)域,需要系統(tǒng)和標(biāo)準(zhǔn)的評(píng)估框架。理想的評(píng)估框架應(yīng)該包含一系列評(píng)估任務(wù),從簡(jiǎn)單到復(fù)雜不等,每個(gè)任務(wù)都具有對(duì)人類(lèi)的重要相關(guān)性和效用。它應(yīng)該包含清晰而明智的評(píng)估指標(biāo),經(jīng)過(guò)精心設(shè)計(jì),以全面而非重復(fù)的方式評(píng)估LMA的各種能力。此外,用于評(píng)估的數(shù)據(jù)集應(yīng)該經(jīng)過(guò)精心策劃,以反映更貼近實(shí)際情況的場(chǎng)景。
  • 在應(yīng)用方面:LMAs在現(xiàn)實(shí)世界中的潛在應(yīng)用是巨大的,為傳統(tǒng)模型之前具有挑戰(zhàn)性的問(wèn)題提供了解決方案,例如網(wǎng)絡(luò)瀏覽。此外,LMAs與人機(jī)交互領(lǐng)域的交叉也代表了未來(lái)應(yīng)用的重要方向之一。它們處理和理解來(lái)自各種模態(tài)的信息的能力使它們能夠執(zhí)行更復(fù)雜、更細(xì)微的任務(wù),從而增強(qiáng)了它們?cè)趯?shí)際場(chǎng)景中的實(shí)用性,并改善了人與機(jī)器之間的交互。


本文轉(zhuǎn)自 AI生成未來(lái) ,作者:Junlin Xie等


原文鏈接:??https://mp.weixin.qq.com/s/uvHvVcAXRb_d55_T687ByA??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
社區(qū)精華內(nèi)容

目錄