自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

Mobile-Agent-v2：GPT4v + 多Agent提高40%準(zhǔn)確率精華

大語言模型論文跟蹤

發(fā)布于 2024-6-7 12:17

瀏覽

0收藏

1. Mobile-Agent-V2是什么？

Mobile-Agent-v2是一款通過多Agent合作實(shí)現(xiàn)有效導(dǎo)航的移動設(shè)備操作助手。它包含三個專業(yè)角色：規(guī)劃Agent、決策Agent和反思Agent。

? 規(guī)劃Agent負(fù)責(zé)根據(jù)歷史操作生成任務(wù)進(jìn)度，并通過設(shè)計(jì)的記憶單元保存歷史屏幕中的焦點(diǎn)內(nèi)容。

? 決策Agent在生成操作時會參考記憶單元，并檢查屏幕上的焦點(diǎn)內(nèi)容，同時更新記憶。

? 反思Agent則觀察決策代理操作前后屏幕的變化，評估操作是否達(dá)到預(yù)期，并在必要時采取措施重新執(zhí)行。

三個角色在進(jìn)度、決策和反思階段各司其職，共同協(xié)作，以簡化導(dǎo)航的復(fù)雜性。

Mobile-Agent-v2：GPT4v + 多Agent提高40%準(zhǔn)確率-AI.x社區(qū) 圖片

Mobile-Agent-v2 的運(yùn)作是循環(huán)迭代的，其流程上圖。為了提升代理對屏幕的識別力和從歷史記錄中導(dǎo)航焦點(diǎn)內(nèi)容的能力，特別設(shè)計(jì)了視覺感知模塊和記憶單元。規(guī)劃代理首先更新任務(wù)進(jìn)度，決策代理據(jù)此導(dǎo)航當(dāng)前任務(wù)的發(fā)展。決策代理隨后根據(jù)任務(wù)進(jìn)度、屏幕狀態(tài)以及前一次操作的反饋（如果有誤）來執(zhí)行任務(wù)。操作后，反思代理會對比操作前后的屏幕，判斷操作是否達(dá)到預(yù)期效果。

1.1 視覺感知模塊

即便是最先進(jìn)的 MLLMs，在端到端處理屏幕識別時也面臨挑戰(zhàn)。為此，集成了視覺感知模塊來強(qiáng)化這一功能。該模塊包含三種工具：文本識別、圖標(biāo)識別和圖標(biāo)描述。將截屏輸入模塊，可以提取出屏幕上的文本和圖標(biāo)信息及其坐標(biāo)。

1.2 記憶模塊

Mobile-Agent-v2：GPT4v + 多Agent提高40%準(zhǔn)確率-AI.x社區(qū) 圖片

鑒于規(guī)劃代理產(chǎn)出的任務(wù)進(jìn)度以文本形式展現(xiàn)，從歷史屏幕中導(dǎo)航焦點(diǎn)內(nèi)容依舊充滿挑戰(zhàn)。為應(yīng)對這一難題，構(gòu)建了一個記憶模塊，用以保存與當(dāng)前任務(wù)相關(guān)聯(lián)的歷史屏幕焦點(diǎn)內(nèi)容。此記憶單元作為短期記憶模塊，伴隨任務(wù)進(jìn)展而實(shí)時更新。在涉及多個應(yīng)用的復(fù)雜場景中，記憶單元發(fā)揮著關(guān)鍵作用。例如，在上圖展示的情形中，決策代理所捕捉的天氣信息將在后續(xù)步驟中發(fā)揮作用，此時，與天氣應(yīng)用頁面相關(guān)的信息會被同步更新至記憶單元。

1.3 規(guī)劃Agent

Mobile-Agent-v2：GPT4v + 多Agent提高40%準(zhǔn)確率-AI.x社區(qū) 圖片

為了降低決策過程中對冗長歷史操作的依賴，引入了獨(dú)立的規(guī)劃代理。盡管每次操作發(fā)生在不同的頁面且各有差異，但許多操作的目標(biāo)往往是一致的。以上圖中的例子為例，前四次操作均旨在查找比賽結(jié)果。因此，設(shè)計(jì)了規(guī)劃代理，旨在歸納歷史操作并追蹤任務(wù)的進(jìn)展。

1.4 決策Agent

決策代理在決策階段運(yùn)行，生成操作動作并在設(shè)備上執(zhí)行它們，同時還負(fù)責(zé)更新記憶單元中的焦點(diǎn)內(nèi)容。

操作空間：為了降低操作的復(fù)雜性，作者設(shè)計(jì)了一個操作空間，并限制決策代理僅從此空間中選擇操作。對于自由度較高的操作，如點(diǎn)擊和滑動，引入了一個額外的參數(shù)空間來定位或處理特定內(nèi)容。以下是操作空間的詳細(xì)描述：

? 打開應(yīng)用（應(yīng)用名稱）。如果當(dāng)前頁面是主頁，可以使用此操作打開名為“應(yīng)用名稱”的應(yīng)用。

? 點(diǎn)擊（x，y）。此操作用于點(diǎn)擊坐標(biāo)為（x，y）的位置。

? 滑動（x1，y1），（x2，y2）。此操作用于從坐標(biāo)為（x1，y1）的位置滑動到坐標(biāo)為（x2，y2）的位置。

? 輸入（文本）。如果當(dāng)前鍵盤處于激活狀態(tài)，可以使用此操作在輸入框中輸入“文本”的內(nèi)容。

? 主頁。此操作用于從任何頁面返回到主頁。

? 停止。如果決策代理認(rèn)為所有要求都已滿足，可以使用此操作來終止整個操作過程。

記憶單元更新：由于決策代理所做的每項(xiàng)操作都與任務(wù)高度相關(guān)，并基于當(dāng)前頁面的視覺感知結(jié)果，因此非常適合在屏幕頁面內(nèi)觀察與任務(wù)相關(guān)的焦點(diǎn)內(nèi)容。因此，賦予了決策代理更新記憶單元的能力。在做出決策時，決策代理會被提示觀察當(dāng)前屏幕頁面內(nèi)是否有與任務(wù)相關(guān)的焦點(diǎn)內(nèi)容。如果觀察到此類信息，決策代理會將其更新到記憶中，供后續(xù)決策參考。

1.5 反思Agent

盡管配備了視覺感知模塊，Mobile-Agent-v2 有時仍會執(zhí)行出人意料的操作。在某些特定情境下，即便是頂尖的 MLLM 如 GPT-4V，也可能引發(fā)嚴(yán)重的誤判。為此，作者引入了反思代理，用以監(jiān)測決策代理操作前后屏幕的變化，判斷操作是否達(dá)到預(yù)期效果。

參照上面的架構(gòu)圖，反思代理在執(zhí)行操作后會得出三種反思結(jié)果：錯誤操作、無效操作和正確操作。以下是對這三種結(jié)果的具體說明：

? 錯誤操作：指引導(dǎo)設(shè)備進(jìn)入與任務(wù)無關(guān)頁面的操作。比如，代理本想在通訊應(yīng)用中與聯(lián)系人 A 發(fā)消息，卻誤入了聯(lián)系人 B 的聊天界面。

? 無效操作：指對當(dāng)前頁面未產(chǎn)生任何變化的操作。比如，代理意圖點(diǎn)擊某個圖標(biāo)，卻誤觸了圖標(biāo)旁邊的空白區(qū)域。

? 正確操作：指符合決策代理預(yù)期，并向完成用戶指令邁進(jìn)的操作。

遇到錯誤操作時，頁面將回退至操作前的狀態(tài)；遇到無效操作時，頁面保持不變。無論是錯誤還是無效操作，都不會被記錄在操作歷史中，以避免代理重復(fù)無效的行為。而當(dāng)操作正確時，相關(guān)信息將被更新至操作歷史，頁面狀態(tài)也將同步更新。

2. 效果測評

2.1 任務(wù)完成度評估

Mobile-Agent-v2：GPT4v + 多Agent提高40%準(zhǔn)確率-AI.x社區(qū) 圖片

Mobile-Agent-v2：GPT4v + 多Agent提高40%準(zhǔn)確率-AI.x社區(qū) 圖片

上面兩個表分別展示了Mobile-Agent-v2在非英語和英語環(huán)境下的性能表現(xiàn)。相較于Mobile-Agent，Mobile-Agent-v2在基礎(chǔ)和高級指令的執(zhí)行上均有顯著提升。得益于多代理架構(gòu)的支持，即便面對極具挑戰(zhàn)性的高級指令，**Mobile-Agent-v2的成功率也能達(dá)到55%**，遠(yuǎn)高于Mobile-Agent的20%。在英語環(huán)境下，Mobile-Agent-v2同樣實(shí)現(xiàn)了顯著的性能提升，其成功率平均提高了27%，即便在Mobile-Agent本就表現(xiàn)較好的英語場景中。

2.2 反思能力評估

即便在知識注入的情況下，**決策準(zhǔn)確率可能無法達(dá)到100%，但完成率卻能達(dá)到100%**。這說明即便有外部知識輔助，Mobile-Agent-v2在決策時仍可能犯錯，正如人類一樣，完全避免決策錯誤是困難的。這突顯了反思代理的重要性。

2.3 應(yīng)用類型評估

綜合各項(xiàng)指標(biāo)，可以發(fā)現(xiàn)所有方法在系統(tǒng)應(yīng)用上的性能普遍優(yōu)于第三方應(yīng)用。從多應(yīng)用的評估結(jié)果來看，Mobile-Agent-v2在成功率和完成率上相較于Mobile-Agent分別提升了37.5%和44.2%。與單一應(yīng)用任務(wù)相比，跨應(yīng)用任務(wù)更依賴于歷史操作和焦點(diǎn)內(nèi)容的檢索。這一顯著的性能提升證明了Mobile-Agent-v2的多代理架構(gòu)和記憶單元在其中扮演了重要角色。

2.3 操作知識注入評估

Mobile-Agent-v2：GPT4v + 多Agent提高40%準(zhǔn)確率-AI.x社區(qū) 圖片

Mobile-Agent-v2：GPT4v + 多Agent提高40%準(zhǔn)確率-AI.x社區(qū) 圖片

從上面兩個表的知識注入結(jié)果來看，操作知識能顯著提高M(jìn)obile-Agent-v2的性能，表明人工注入的操作知識有助于克服代理在操作上的局限。這一發(fā)現(xiàn)意味著知識注入能夠擴(kuò)展Mobile-Agent-v2的應(yīng)用范圍，因?yàn)榧幢闶菑?fù)雜任務(wù)，也可以通過人工編寫的操作教程來指導(dǎo)代理完成。這為移動設(shè)備自動化腳本測試提供了新思路，表明通過自動化生成高質(zhì)量的操作知識，可以進(jìn)一步提升Mobile-Agent-v2的性能。此外，知識注入的成功也為未來移動應(yīng)用測試開辟了新的可能性。目前移動應(yīng)用測試多依賴于手工腳本編寫，這限制了測試的普及性并提高了用戶使用門檻。通過將自然語言測試程序注入Mobile-Agent-v2，可以在移動界面元素大小或顏色發(fā)生變化時，保持系統(tǒng)的穩(wěn)定運(yùn)行，同時語言描述也省去了腳本編寫中所需的知識庫。

2.4 MLLMs性能評估

Mobile-Agent-v2：GPT4v + 多Agent提高40%準(zhǔn)確率-AI.x社區(qū) 圖片

在上表中，對Mobile-Agent-v2框架下不同MLLMs的性能進(jìn)行了評估。由于部分模型不擅長處理序列輸入，特別挑選了特定指令，并調(diào)整了每一步，使其成為獨(dú)立的單步任務(wù)。因此，僅評估了成功率（等同于決策準(zhǔn)確率）。我們還評估了繞過代理架構(gòu)，直接使用GPT-4V進(jìn)行端到端操作的效果。結(jié)果顯示，直接使用GPT-4V作為移動設(shè)備操作助手幾乎不可行。結(jié)合代理架構(gòu)使用的GPT-4V，仍然是實(shí)現(xiàn)操作能力的最優(yōu)配置。

3. 使用案例

在WhatApp上回復(fù)消息：

Mobile-Agent-v2：GPT4v + 多Agent提高40%準(zhǔn)確率-AI.x社區(qū) 圖片

在社交媒體X上搜索明星并關(guān)注：

Mobile-Agent-v2：GPT4v + 多Agent提高40%準(zhǔn)確率-AI.x社區(qū) 圖片

在Tiktok上搜索視頻并評論：

Mobile-Agent-v2：GPT4v + 多Agent提高40%準(zhǔn)確率-AI.x社區(qū) 圖片

在小紅書上搜索內(nèi)容：

Mobile-Agent-v2：GPT4v + 多Agent提高40%準(zhǔn)確率-AI.x社區(qū) 圖片

根據(jù)微博內(nèi)容發(fā)表評論：

Mobile-Agent-v2：GPT4v + 多Agent提高40%準(zhǔn)確率-AI.x社區(qū) 圖片

在b站搜索大v并關(guān)注：

Mobile-Agent-v2：GPT4v + 多Agent提高40%準(zhǔn)確率-AI.x社區(qū) 圖片

? 論文原文: https://arxiv.org/abs/2406.01014

Mobile-Agent-v2：GPT4v + 多Agent提高40%準(zhǔn)確率-AI.x社區(qū)

本文轉(zhuǎn)載自??大語言模型論文跟蹤??，作者：HuggingAGI

標(biāo)簽

準(zhǔn)確率

已于2024-6-7 12:27:33修改

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

我們距離GPT-4V真的很近了嗎？

zhangyannni ? 2845瀏覽 ? 0回復(fù)
港中文深圳提出ALLaVA-4V：百萬級別的開源多模態(tài)GPT-4V數(shù)據(jù)集

kcoufee ? 2245瀏覽 ? 0回復(fù)
GPT4V可有效識別DeepFake圖像！

pangguiyu ? 4190瀏覽 ? 0回復(fù)
超越GPT-4V，蘋果多模態(tài)大模型上新！

duhorse ? 2314瀏覽 ? 0回復(fù)
ChatGPT能預(yù)測未來特定事件，準(zhǔn)確率高達(dá)97%

Aceryt ? 2886瀏覽 ? 0回復(fù)
8B文字多模態(tài)大模型指標(biāo)逼近GPT4V，字節(jié)、華師、華科聯(lián)合提出TextSquare

輕薄滴假象 ? 2450瀏覽 ? 0回復(fù)
14 項(xiàng)任務(wù)測下來，GPT4V、Gemini等多模態(tài)大模型竟都沒什么視覺感知能力？

輕薄滴假象 ? 2409瀏覽 ? 0回復(fù)
DeepSeek Coder V2開源發(fā)布，首超GPT4-Turbo代碼能力

Aceryt ? 6761瀏覽 ? 0回復(fù)
GPT-4o攻破ARC-AGI無法被挑戰(zhàn)的神話！71%準(zhǔn)確率成新SOTA

angel ? 2143瀏覽 ? 0回復(fù)
超越GPT-4！香港科技大學(xué)破解Transformer算術(shù)難題，乘法準(zhǔn)確率超99.9%

AI論文解讀 ? 2240瀏覽 ? 0回復(fù)
87.8%準(zhǔn)確率趕超GPT-4o登頂！谷歌DeepMind發(fā)布自動評估模型FLAMe

duhorse ? 1995瀏覽 ? 0回復(fù)
GPT-4和GPT-4V能否像人類一樣進(jìn)行抽象推理

lintoms ? 1651瀏覽 ? 0回復(fù)
ChunkRAG：比CRAG提升10個點(diǎn)準(zhǔn)確率

大語言模型論文跟蹤 ? 2038瀏覽 ? 0回復(fù)
改個名字，數(shù)倍提升Function Calling準(zhǔn)確率！

ermulong ? 1989瀏覽 ? 0回復(fù)
怎么提升向量數(shù)據(jù)庫的召回準(zhǔn)確率

AI探索時代 ? 2259瀏覽 ? 0回復(fù)
Agentic Chunking拯救語義斷裂，實(shí)測RAG準(zhǔn)確率飆升40%，LLM開發(fā)者必看！

AI博物院 ? 2569瀏覽 ? 0回復(fù)
綜述：DeepSeek Infra/V1/MoE/V2/V3/R1 & 開源關(guān)鍵技術(shù)

amei2000go ? 3842瀏覽 ? 0回復(fù)
Graph RAG 迎來記憶革命：“海馬體”機(jī)制如何提升準(zhǔn)確率？

凝固的雨_1 ? 1934瀏覽 ? 0回復(fù)
MES-RAG：準(zhǔn)確率提升 25%！

大語言模型論文跟蹤 ? 942瀏覽 ? 0回復(fù)

大語言模型論文跟蹤

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

微軟亞洲研究院打造最強(qiáng)視覺元素定位模型 8天前發(fā)布
Hybrid-RRF：動態(tài)權(quán)重混合檢索RAG方案 8天前發(fā)布

熱門推薦

Hybrid-RRF：動態(tài)權(quán)重混合檢索RAG方案 0回復(fù)

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

上一篇： DocReLM：自建數(shù)據(jù)集訓(xùn)練檢索模型和重排序模型提高 RAG 效果

下一篇：哪個中文開源大模型在信息抽取上效果最好？附：用于提取的提示詞

社區(qū)精華內(nèi)容

目錄