自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<ul id="xfbcd"><big id="xfbcd"></big></ul>

<sub id="xfbcd"></sub>

<sub id="xfbcd"><p id="xfbcd"></p></sub>

<style id="xfbcd"></style>

<sub id="xfbcd"></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

跨平臺多模態(tài)智能體基準測試來了！但全班第一只考了35.26分

作者：新智元 2024-08-07 10:17:00

人工智能新聞

近日，來自CAMEL AI、KAUST、CMU、斯坦福、清華等高校和機構的研究人員推出了一個跨平臺的多模態(tài)智能體基準測試，全面覆蓋了Agent系統(tǒng)的真實工作場景。

假如你目前正在使用和研究類似CAMEL的多智能體系統(tǒng)，現(xiàn)在已經(jīng)有了扮演研究者的Agent和負責寫論文的Agent，再添加一個事實核查Agent會改善結果嗎？

如果無法有效評估這種更改的影響，就很難確定前進的方向。

當然，從另一個角度來說，有一個令人信服的基準測試用來給大家刷分也是很重要的（狗頭）。

近日，來自CAMEL AI、KAUST、清華等高校和機構的研究人員推出了一個跨平臺的多模態(tài)智能體基準測試——CRAB。

值得一提的是，CAMEL AI團隊最早做出了基于大語言模型的多智能體開源項目：https://www.camel-ai.org/、https://github.com/camel-ai/camel。

論文地址：https://arxiv.org/abs/2407.01511

這個Benchmark涉及當前AI應用的幾個重點：多模態(tài)、多智能體和跨平臺。

多模態(tài)能力就不用說了，畢竟是現(xiàn)實需求。

而多智能體系統(tǒng)則能夠更好的為人類服務，解決更佳復雜的任務。

對于跨平臺，可以舉個例子：比如用手機拍完照片，然后發(fā)到電腦上P圖，這就需要跨越了兩種操作系統(tǒng)（平臺）。

所以，多模態(tài)、多智能體和跨平臺，是當下AI打工人能夠完成真實場景下的復雜任務所必備的能力。

上圖展示了CRAB的總體架構，同時也是多智能體系統(tǒng)基準測試的工作流程。

通過將指令分配給基準測試系統(tǒng)內(nèi)的主Agent和圖評估器，來初始化任務。

工作流是一個循環(huán)：主Agent觀察、計劃和指示子Agent，子Agent在各自的平臺中執(zhí)行操作。

圖評估器監(jiān)控平臺中任務的狀態(tài)，在整個工作流中不斷更新和輸出任務完成指標。

總的來說，CRAB是一個與現(xiàn)實世界情況密切相關的基準測試，能夠更準確地反映多智能體系統(tǒng)在復雜任務中的表現(xiàn)。

那么，在這種要求甚高的測試中，最強大的一些模型能考多少分呢？

——答：全班第一考了35.26分（CR指的是完成率）。

其實還行，畢竟是突擊考試。而現(xiàn)在靶子已經(jīng)畫好了，可以期待今后的模型或者AI系統(tǒng)進化出更貼近現(xiàn)實的能力。

跨平臺多模態(tài)智能體評估

Crab提供了一個全面的交互式的任務評估框架，Agent需要在各種設備和平臺上同時運行，滿足在不同系統(tǒng)中高效完成任務的條件。

作者提出了一種稱為圖評估器的新型評估方法，與傳統(tǒng)的基于目標或者軌跡的方法不同，圖評估器通過檢查完成任務的中間過程將任務分解為多個子目標。

每個子目標都被分配了一個判斷函數(shù)來驗證其完整性，并且每個節(jié)點都被視為圖評估器中的一個節(jié)點。

圖結構描述了子目標之間的順序和并行關系，因此提供了細粒度的指標，同時又適應多種解決方案。

上表將Crab與現(xiàn)有框架進行了比較，包括測試涉及的幾項關鍵能力：

Interactive Environment區(qū)分是使用交互式平臺還是靜態(tài)數(shù)據(jù)集；

Multimodal Observation指定了基于視覺的觀察（例如屏幕截圖）的可用性；

Cross-platform表示支持多個操作系統(tǒng)或平臺；

Evaluation描述了評估指標，分為基于目標（僅根據(jù)最終目標檢查平臺狀態(tài)）、基于軌跡（將Agent操作軌跡與標準操作序列進行比較）、多重（因任務而異）或基于圖（每個節(jié)點作為中間檢查點的 DAG）；

Task Construction展示了任務構建方法，包括人工制作、LLM啟發(fā)（比如LLM生成任務草稿，但由人工驗證和注釋）、模板（填寫任務模板中的空白）或子任務組合（組成多個子任務以構建任務和評估器）。

基于Crab框架，作者開發(fā)了一個基準測試Crab Benchmark-v0，支持Android環(huán)境和Ubuntu環(huán)境。

基準測試總共包含100個真實世界的任務，包括跨平臺和單平臺跨多個難度級別的任務。

任務涉及各種常見問題，以及實際應用程序和工具，包括但不限于日歷、電子郵件、地圖、網(wǎng)絡瀏覽器、和終端，以及智能手機和臺式機之間的常見交互。

框架

假設Agent在數(shù)字設備（比如臺式機）上自主執(zhí)行任務。這種設備通常有輸入設備（鼠標和鍵盤）用于人機交互，以及輸出設備（屏幕）來允許人類觀察其狀態(tài)。

作者將這種類型的設備表示為一個平臺。在形式上可以定義為一個無獎勵的部分可觀測馬爾可夫決策過程（POMDP），用元組M:=（S，A，T，O）表示。

其中S表示狀態(tài)空間，A表示動作空間，T:S×A→S是轉(zhuǎn)移函數(shù)，O是觀測空間。

考慮到現(xiàn)實場景中多個設備的協(xié)作性質(zhì)，可以將多個平臺組合成一個集合M=M1，M2，...，Mn，其中n是平臺的數(shù)量，每個平臺Mj=（Sj，Aj，Tj，Oj）。

定義一個需要跨多個平臺操作的任務，該任務被形式化為一個元組（M，I，R），其中M是平臺集合，I是以自然語言指令的形式表示的任務目標，R是任務的獎勵函數(shù)。

系統(tǒng)中的Agent使用預定義的系統(tǒng)提示、并保留其對話歷史記錄。

Agent系統(tǒng)由負責規(guī)劃、推理和執(zhí)行操作的單個Agent組成，或者由多個Agent進行協(xié)作。

把復雜任務分解為多個更簡單的子任務，是讓Agent系統(tǒng)能夠更加精準的完成復雜任務的方法之一。

研究人員將這一概念引入基準測試領域，將復雜任務分解為具有順序和并行連接的子任務，也就是上圖中的分解任務圖（GDT）。

GDT提供了一種新的任務分解方法：用DAG結構表示分解后的子任務。在GDT中，每個節(jié)點都是一個子任務，形式化為一個元組（m，i，r），其中m指定了執(zhí)行子任務的平臺，i提供了自然語言指令，r表示獎勵函數(shù)。

這個函數(shù)評估m(xù)的狀態(tài)并輸出一個布爾值，以確定子任務是否完成。GDT中的邊表示子任務之間的順序關系。

跨平臺

與單一平臺任務相比，跨平臺任務有三個主要優(yōu)勢：

首先，跨平臺任務反映了現(xiàn)實世界場景，人類同時使用多個設備來完成任務。

其次，這些任務需要在平臺之間進行復雜的消息處理和信息傳遞，要求Agent規(guī)劃行動、為每個平臺構建輸出，并記住需要傳遞的內(nèi)容，從而展示出對現(xiàn)實世界的高層次理解，和解決復雜任務的能力。

最后，多Agent系統(tǒng)被證明在執(zhí)行復雜任務時更加有效，而跨平臺任務非常適合多Agent系統(tǒng)，因為它們可以通過每個平臺中不同的觀測空間、行動空間和專門知識進行劃分。

Crab使用統(tǒng)一接口允許Agent在所有平臺中操作。作者通過名稱、所屬平臺、功能的具體描述和參數(shù)來定義一個動作。

Agent必須在每個回合提供動作名稱、參數(shù)和目標平臺。Crab將動作轉(zhuǎn)換為相應的功能，并通過網(wǎng)絡將其路由到物理或虛擬設備。

圖評估器

為了評估大語言模型作為Agent的能力，大多數(shù)基準測試僅基于Agent操作后平臺的最終狀態(tài)來評估Agent。

只判斷最終目標是成功還是失敗，顯然不夠公平，就像大題不會做，但寫個解是應該給分的。

另一種方法是基于軌跡匹配，將Agent的操作與每個任務的預定義標準操作序列進行比較。

然而，在現(xiàn)實世界系統(tǒng)中，任務可能有多條有效的執(zhí)行路徑，比如復制文件可以使用文件管理器，也可以使用命令行。

評估指標

所以本文采用了與平臺狀態(tài)同步的圖評估器，通過子任務完成的當前狀態(tài)來跟蹤Agent的進度。

除了傳統(tǒng)的成功率（SR），只有在所有子任務都完成時才將任務標記為成功，作者還引入了三個指標，衡量Agent的性能和效率：

完成率（CR）測量完成子任務節(jié)點數(shù)的比例，計算方式為C/N，其中C是已完成節(jié)點的數(shù)量，N是總節(jié)點數(shù)。該指標直觀地反映了Agent在給定任務上的進展情況。
執(zhí)行效率（EE）計算為CR/A，其中A表示執(zhí)行的動作次數(shù)，反映了Agent的任務執(zhí)行效率。
成本效率（CE）計算為CR/T，其中T是Agent使用的總token數(shù)，評估了Agent消耗資源的效率。

實驗

要在Crab Benchmark-v0中運行，多模態(tài)模型需要支持：

（1）接受多模態(tài)混合輸入，系統(tǒng)同時提供屏幕截圖和文本指令作為提示；
（2）處理多輪對話，大多數(shù)任務需要Agent執(zhí)行多個操作，必須在上下文中存儲歷史消息；
（3）通過函數(shù)調(diào)用生成結構化輸出。

實驗選擇了四種滿足這些標準的多模態(tài)模型：GPT-4o、GPT-4 Turbo、Gemini 1.5 Pro和Claude 3 Opus，下表給出了其中一部分結果：

責任編輯：張燕妮來源：新智元

智能體測試

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營