自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Mobile-Agent-v2:GPT4v + 多Agent提高40%準(zhǔn)確率 精華

發(fā)布于 2024-6-7 12:17
瀏覽
0收藏

1. Mobile-Agent-V2是什么?

Mobile-Agent-v2是一款通過多Agent合作實(shí)現(xiàn)有效導(dǎo)航的移動設(shè)備操作助手。它包含三個專業(yè)角色:規(guī)劃Agent、決策Agent和反思Agent。

? 規(guī)劃Agent負(fù)責(zé)根據(jù)歷史操作生成任務(wù)進(jìn)度,并通過設(shè)計(jì)的記憶單元保存歷史屏幕中的焦點(diǎn)內(nèi)容。

? 決策Agent在生成操作時會參考記憶單元,并檢查屏幕上的焦點(diǎn)內(nèi)容,同時更新記憶。

? 反思Agent則觀察決策代理操作前后屏幕的變化,評估操作是否達(dá)到預(yù)期,并在必要時采取措施重新執(zhí)行。

三個角色在進(jìn)度、決策和反思階段各司其職,共同協(xié)作,以簡化導(dǎo)航的復(fù)雜性。

Mobile-Agent-v2:GPT4v + 多Agent提高40%準(zhǔn)確率-AI.x社區(qū)圖片

Mobile-Agent-v2 的運(yùn)作是循環(huán)迭代的,其流程上圖。為了提升代理對屏幕的識別力和從歷史記錄中導(dǎo)航焦點(diǎn)內(nèi)容的能力,特別設(shè)計(jì)了視覺感知模塊和記憶單元。規(guī)劃代理首先更新任務(wù)進(jìn)度,決策代理據(jù)此導(dǎo)航當(dāng)前任務(wù)的發(fā)展。決策代理隨后根據(jù)任務(wù)進(jìn)度、屏幕狀態(tài)以及前一次操作的反饋(如果有誤)來執(zhí)行任務(wù)。操作后,反思代理會對比操作前后的屏幕,判斷操作是否達(dá)到預(yù)期效果。

1.1 視覺感知模塊

即便是最先進(jìn)的 MLLMs,在端到端處理屏幕識別時也面臨挑戰(zhàn)。為此,集成了視覺感知模塊來強(qiáng)化這一功能。該模塊包含三種工具:文本識別、圖標(biāo)識別和圖標(biāo)描述。將截屏輸入模塊,可以提取出屏幕上的文本和圖標(biāo)信息及其坐標(biāo)。

1.2 記憶模塊

Mobile-Agent-v2:GPT4v + 多Agent提高40%準(zhǔn)確率-AI.x社區(qū)圖片

鑒于規(guī)劃代理產(chǎn)出的任務(wù)進(jìn)度以文本形式展現(xiàn),從歷史屏幕中導(dǎo)航焦點(diǎn)內(nèi)容依舊充滿挑戰(zhàn)。為應(yīng)對這一難題,構(gòu)建了一個記憶模塊,用以保存與當(dāng)前任務(wù)相關(guān)聯(lián)的歷史屏幕焦點(diǎn)內(nèi)容。此記憶單元作為短期記憶模塊,伴隨任務(wù)進(jìn)展而實(shí)時更新。在涉及多個應(yīng)用的復(fù)雜場景中,記憶單元發(fā)揮著關(guān)鍵作用。例如,在上圖展示的情形中,決策代理所捕捉的天氣信息將在后續(xù)步驟中發(fā)揮作用,此時,與天氣應(yīng)用頁面相關(guān)的信息會被同步更新至記憶單元。

1.3 規(guī)劃Agent

Mobile-Agent-v2:GPT4v + 多Agent提高40%準(zhǔn)確率-AI.x社區(qū)圖片

為了降低決策過程中對冗長歷史操作的依賴,引入了獨(dú)立的規(guī)劃代理。盡管每次操作發(fā)生在不同的頁面且各有差異,但許多操作的目標(biāo)往往是一致的。以上圖中的例子為例,前四次操作均旨在查找比賽結(jié)果。因此,設(shè)計(jì)了規(guī)劃代理,旨在歸納歷史操作并追蹤任務(wù)的進(jìn)展。

1.4 決策Agent

決策代理在決策階段運(yùn)行,生成操作動作并在設(shè)備上執(zhí)行它們,同時還負(fù)責(zé)更新記憶單元中的焦點(diǎn)內(nèi)容。

操作空間:為了降低操作的復(fù)雜性,作者設(shè)計(jì)了一個操作空間,并限制決策代理僅從此空間中選擇操作。對于自由度較高的操作,如點(diǎn)擊和滑動,引入了一個額外的參數(shù)空間來定位或處理特定內(nèi)容。以下是操作空間的詳細(xì)描述:

? 打開應(yīng)用(應(yīng)用名稱)。如果當(dāng)前頁面是主頁,可以使用此操作打開名為“應(yīng)用名稱”的應(yīng)用。

? 點(diǎn)擊(x,y)。此操作用于點(diǎn)擊坐標(biāo)為(x,y)的位置。

? 滑動(x1,y1),(x2,y2)。此操作用于從坐標(biāo)為(x1,y1)的位置滑動到坐標(biāo)為(x2,y2)的位置。

? 輸入(文本)。如果當(dāng)前鍵盤處于激活狀態(tài),可以使用此操作在輸入框中輸入“文本”的內(nèi)容。

? 主頁。此操作用于從任何頁面返回到主頁。

? 停止。如果決策代理認(rèn)為所有要求都已滿足,可以使用此操作來終止整個操作過程。

記憶單元更新:由于決策代理所做的每項(xiàng)操作都與任務(wù)高度相關(guān),并基于當(dāng)前頁面的視覺感知結(jié)果,因此非常適合在屏幕頁面內(nèi)觀察與任務(wù)相關(guān)的焦點(diǎn)內(nèi)容。因此,賦予了決策代理更新記憶單元的能力。在做出決策時,決策代理會被提示觀察當(dāng)前屏幕頁面內(nèi)是否有與任務(wù)相關(guān)的焦點(diǎn)內(nèi)容。如果觀察到此類信息,決策代理會將其更新到記憶中,供后續(xù)決策參考。

1.5 反思Agent

盡管配備了視覺感知模塊,Mobile-Agent-v2 有時仍會執(zhí)行出人意料的操作。在某些特定情境下,即便是頂尖的 MLLM 如 GPT-4V,也可能引發(fā)嚴(yán)重的誤判。為此,作者引入了反思代理,用以監(jiān)測決策代理操作前后屏幕的變化,判斷操作是否達(dá)到預(yù)期效果。

參照上面的架構(gòu)圖,反思代理在執(zhí)行操作后會得出三種反思結(jié)果:錯誤操作、無效操作和正確操作。以下是對這三種結(jié)果的具體說明:

? 錯誤操作:指引導(dǎo)設(shè)備進(jìn)入與任務(wù)無關(guān)頁面的操作。比如,代理本想在通訊應(yīng)用中與聯(lián)系人 A 發(fā)消息,卻誤入了聯(lián)系人 B 的聊天界面。

? 無效操作:指對當(dāng)前頁面未產(chǎn)生任何變化的操作。比如,代理意圖點(diǎn)擊某個圖標(biāo),卻誤觸了圖標(biāo)旁邊的空白區(qū)域。

? 正確操作:指符合決策代理預(yù)期,并向完成用戶指令邁進(jìn)的操作。

遇到錯誤操作時,頁面將回退至操作前的狀態(tài);遇到無效操作時,頁面保持不變。無論是錯誤還是無效操作,都不會被記錄在操作歷史中,以避免代理重復(fù)無效的行為。而當(dāng)操作正確時,相關(guān)信息將被更新至操作歷史,頁面狀態(tài)也將同步更新。

2. 效果測評

2.1 任務(wù)完成度評估

Mobile-Agent-v2:GPT4v + 多Agent提高40%準(zhǔn)確率-AI.x社區(qū)圖片

Mobile-Agent-v2:GPT4v + 多Agent提高40%準(zhǔn)確率-AI.x社區(qū)圖片

上面兩個表分別展示了Mobile-Agent-v2在非英語和英語環(huán)境下的性能表現(xiàn)。相較于Mobile-Agent,Mobile-Agent-v2在基礎(chǔ)和高級指令的執(zhí)行上均有顯著提升。得益于多代理架構(gòu)的支持,即便面對極具挑戰(zhàn)性的高級指令,**Mobile-Agent-v2的成功率也能達(dá)到55%**,遠(yuǎn)高于Mobile-Agent的20%。在英語環(huán)境下,Mobile-Agent-v2同樣實(shí)現(xiàn)了顯著的性能提升,其成功率平均提高了27%,即便在Mobile-Agent本就表現(xiàn)較好的英語場景中。

2.2 反思能力評估

即便在知識注入的情況下,**決策準(zhǔn)確率可能無法達(dá)到100%,但完成率卻能達(dá)到100%**。這說明即便有外部知識輔助,Mobile-Agent-v2在決策時仍可能犯錯,正如人類一樣,完全避免決策錯誤是困難的。這突顯了反思代理的重要性。

2.3 應(yīng)用類型評估

綜合各項(xiàng)指標(biāo),可以發(fā)現(xiàn)所有方法在系統(tǒng)應(yīng)用上的性能普遍優(yōu)于第三方應(yīng)用。從多應(yīng)用的評估結(jié)果來看,Mobile-Agent-v2在成功率和完成率上相較于Mobile-Agent分別提升了37.5%和44.2%。與單一應(yīng)用任務(wù)相比,跨應(yīng)用任務(wù)更依賴于歷史操作和焦點(diǎn)內(nèi)容的檢索。這一顯著的性能提升證明了Mobile-Agent-v2的多代理架構(gòu)和記憶單元在其中扮演了重要角色

2.3 操作知識注入評估

Mobile-Agent-v2:GPT4v + 多Agent提高40%準(zhǔn)確率-AI.x社區(qū)圖片

Mobile-Agent-v2:GPT4v + 多Agent提高40%準(zhǔn)確率-AI.x社區(qū)圖片

從上面兩個表的知識注入結(jié)果來看,操作知識能顯著提高M(jìn)obile-Agent-v2的性能,表明人工注入的操作知識有助于克服代理在操作上的局限。這一發(fā)現(xiàn)意味著知識注入能夠擴(kuò)展Mobile-Agent-v2的應(yīng)用范圍,因?yàn)榧幢闶菑?fù)雜任務(wù),也可以通過人工編寫的操作教程來指導(dǎo)代理完成。這為移動設(shè)備自動化腳本測試提供了新思路,表明通過自動化生成高質(zhì)量的操作知識,可以進(jìn)一步提升Mobile-Agent-v2的性能。此外,知識注入的成功也為未來移動應(yīng)用測試開辟了新的可能性。目前移動應(yīng)用測試多依賴于手工腳本編寫,這限制了測試的普及性并提高了用戶使用門檻。通過將自然語言測試程序注入Mobile-Agent-v2,可以在移動界面元素大小或顏色發(fā)生變化時,保持系統(tǒng)的穩(wěn)定運(yùn)行,同時語言描述也省去了腳本編寫中所需的知識庫。

2.4 MLLMs性能評估

Mobile-Agent-v2:GPT4v + 多Agent提高40%準(zhǔn)確率-AI.x社區(qū)圖片

在上表中,對Mobile-Agent-v2框架下不同MLLMs的性能進(jìn)行了評估。由于部分模型不擅長處理序列輸入,特別挑選了特定指令,并調(diào)整了每一步,使其成為獨(dú)立的單步任務(wù)。因此,僅評估了成功率(等同于決策準(zhǔn)確率)。我們還評估了繞過代理架構(gòu),直接使用GPT-4V進(jìn)行端到端操作的效果。結(jié)果顯示,直接使用GPT-4V作為移動設(shè)備操作助手幾乎不可行。結(jié)合代理架構(gòu)使用的GPT-4V,仍然是實(shí)現(xiàn)操作能力的最優(yōu)配置

3. 使用案例

在WhatApp上回復(fù)消息:

Mobile-Agent-v2:GPT4v + 多Agent提高40%準(zhǔn)確率-AI.x社區(qū)圖片

在社交媒體X上搜索明星并關(guān)注:

Mobile-Agent-v2:GPT4v + 多Agent提高40%準(zhǔn)確率-AI.x社區(qū)圖片

在Tiktok上搜索視頻并評論:

Mobile-Agent-v2:GPT4v + 多Agent提高40%準(zhǔn)確率-AI.x社區(qū)圖片

在小紅書上搜索內(nèi)容:

Mobile-Agent-v2:GPT4v + 多Agent提高40%準(zhǔn)確率-AI.x社區(qū)圖片

根據(jù)微博內(nèi)容發(fā)表評論:

Mobile-Agent-v2:GPT4v + 多Agent提高40%準(zhǔn)確率-AI.x社區(qū)圖片

在b站搜索大v并關(guān)注:

Mobile-Agent-v2:GPT4v + 多Agent提高40%準(zhǔn)確率-AI.x社區(qū)圖片


? 論文原文: https://arxiv.org/abs/2406.01014

Mobile-Agent-v2:GPT4v + 多Agent提高40%準(zhǔn)確率-AI.x社區(qū)

本文轉(zhuǎn)載自??大語言模型論文跟蹤??,作者:HuggingAGI 

已于2024-6-7 12:27:33修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦