一句話手機自己打車，開源多智能體AI助手，非蘋果手機也能玩

作者：量子位 2024-06-13 17:51:47

這項成果來自阿里通義實驗室Mobile-Agent的v2版本更新，具體來說，本次升級有三大亮點。

一句話讓AI自動化操作手機，打個車已經(jīng)不是難事了。

從官方公布的演示視頻來看，用戶只需要說出目的地，Agent就能夠通過規(guī)劃、決策和反思的流程自動化幫用戶完成目的地輸入，呼叫車輛等操作，適用于老人及視障人群，解決他們不會使用或者無法使用手機APP的問題。

這項成果來自阿里通義實驗室Mobile-Agent的v2版本更新，具體來說，本次升級有三大亮點：

首次在手機操作任務(wù)上采用多智能體架構(gòu)，并延續(xù)了一代的純視覺方案
多智能體各司其職，實現(xiàn)了更有效的任務(wù)進度追蹤、任務(wù)相關(guān)信息記憶和操作反思
更強大的復雜指令拆解能力、跨應用操作能力和多語言場景操作能力

任務(wù)難度提升，v2也能搞定

首先我們關(guān)注一下Mobile-Agent-v2的演示效果。從作者團隊發(fā)布的演示視頻來看，Mobile-Agent-v2能夠完成的任務(wù)難度相比于Mobile-Agent有明顯的提升。下面將展示部分演示視頻中的例子。

在跨應用操作任務(wù)上，作者展示是查看聊天軟件中的未讀消息，并按照未讀消息的要求完成任務(wù)，其中未讀消息需要分享一個TikTok中寵物相關(guān)的視頻給消息發(fā)布者。

該任務(wù)的難點在于，指令的一部分存在于聊天軟件的未讀消息中，并且分享的鏈接需要從另一個應用中發(fā)送給當前聊天軟件的消息發(fā)布者。

從演示視頻來看，Mobile-Agent-v2先是打開了WhatsApp并查看了未讀消息。在得知需要從TikTok中找視頻并分享后，Mobile-Agent-v2退出當前應用并進入TikTok中刷視頻來尋找寵物相關(guān)的視頻。在找到視頻后，通過分享按鈕將視頻鏈接成功發(fā)送到WhatsApp的消息發(fā)布者的聊天界面內(nèi)。

接下來是一個社交媒體平臺的例子。

社交媒體平臺作為手機應用中日活躍量最大的應用類型，往往具有信息量大、界面復雜、干擾信息多等特點。

作者展示的是搜索名人“馬斯克”，關(guān)注他并且評論一個他的帖子。Mobile-Agent-v2首先準確地找到了搜索界面。在輸入“Musk”后，候選項中出現(xiàn)了大量的干擾選項，而Mobile-Agent-v2根據(jù)人物的全名和頭像選擇了目標名人，隨后點擊了關(guān)注。

在點擊關(guān)注之后，出現(xiàn)的推薦關(guān)注列表擋住了原來的帖子，而Mobile-Agent-v2仍然能正確理解界面，通過上劃的方式找到了帖子，最終完成了評論。

此外，作者還展示了一個在YouTube上完成類似關(guān)注和評論的任務(wù)。從上述演示視頻來看，Mobile-Agent-v2對于社交媒體和視頻平臺的操作能力十分驚艷。

另外，在初代Mobile-Agent中評測的那些任務(wù)，例如導航、下載安裝應用等，Mobile-Agent-v2也能輕松完成。

最后，作者還展示了Mobile-Agent-v2在中文應用上的表現(xiàn)，包括在小紅書中搜索攻略并評論，以及幫助用戶回微信。Mobile-Agent-v2可以根據(jù)帖子的內(nèi)容發(fā)布相關(guān)的評論，也能根據(jù)微信消息的內(nèi)容生成相關(guān)的回復，相比于傳統(tǒng)的評論和回復機器人更靈活。

規(guī)劃智能體+記憶單元

接下來我們將介紹Mobile-Agent-v2的背景、架構(gòu)設(shè)計和操作流程。

在一次手機操作任務(wù)中，智能體往往需要多步操作來完成任務(wù)的要求。在每次操作時，智能體都需要跟蹤當前任務(wù)的進度，即過去的操作具體完成了什么需求，以此來結(jié)合用戶的指令來推理出下一步的操作目意圖。

雖然在操作歷史中保存有每一步的具體操作和操作之后的屏幕狀態(tài)，但是隨著操作輪數(shù)的增加，操作歷史的序列將逐漸變長。冗長并且圖文交錯格式的操作歷史，會大大增加智能體追蹤任務(wù)進度的難度。

如下圖所示，在完成了7輪操作后，輸入的操作歷史的序列長度已經(jīng)有一萬多token，加之圖文交錯的數(shù)據(jù)格式，對于智能體追蹤任務(wù)進度是十分困難的。

因此，Mobile-Agent-v2引入了規(guī)劃智能體的角色，如下圖所示，它會為操作智能體提供一份任務(wù)進度，從而將長的操作歷史轉(zhuǎn)化為純文本的格式。

然而，規(guī)劃智能體雖然簡化了任務(wù)進度追蹤，但是也導致了丟失了歷史操作中的屏幕信息，這使得決策智能體無法檢索到來自歷史屏幕中的任務(wù)相關(guān)信息。例如在上圖的任務(wù)中，需要智能體查看天氣并寫一份穿衣指南。而在生成穿衣指南時，歷史屏幕中的天氣信息需要被利用。

因此，Mobile-Agent-v2引入了記憶單元，并由決策智能體更新單元內(nèi)的任務(wù)相關(guān)信息。此外，由于決策智能體無法觀察操作后的屏幕信息，Mobile-Agent-v2引入了反思智能體來觀察決策智能體操作前后的屏幕狀態(tài)變化，并決定操作是否正確。

在論文中，作者采用了動態(tài)評估，分別在英文和非英文應用上選擇了5個系統(tǒng)內(nèi)置應用和5個第三方應用，每個應用設(shè)計了2條基礎(chǔ)指令和2條進階指令。

同時，針對跨應用操作也設(shè)計了2條基礎(chǔ)指令和2條進階指令。英文場景和非英文場景的評估效果如下表所示。從結(jié)果中可以看出，Mobile-Agent-v2無論在英文場景還是非英文場景，無論是基礎(chǔ)指令還是進階指令，在多個指標上都獲得了全面的提升。

此外，通過人工引入額外的操作知識，能進一步提升性能（Mobile-Agent-v2 + Know.）。

作者在文章中展示了消融實驗的結(jié)果，如下表所示，在去除規(guī)劃智能體、決策智能體和記憶單元后，整個智能體的性能都出現(xiàn)了下降。

如下圖所示通過分析操作失敗的任務(wù)，作者發(fā)現(xiàn)Mobile-Agent的失敗操作大量集中在后程，而Mobile-Agent-v2則相對平均。這說明了Mobile-Agent-v2能更有效地解決長序列帶來的問題。

最后，文章展示了一個完整的操作流程和一個反思成功的例子，其中包括了每個角色的輸出。更多的例子展示在文章的結(jié)尾部分。

Mobile-Agent-v2的代碼和論文現(xiàn)已發(fā)布，相關(guān)鏈接如下：

論文：https://arxiv.org/abs/2406.01014

代碼：https://github.com/X-PLUG/MobileAgent

除此之外，Mobile-Agent-v2也已經(jīng)接入到魔搭的ModelScope-Agent中：
https://github.com/modelscope/modelscope-agent

責任編輯：張燕妮來源：量子位

AI 訓練

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

一句話手機自己打車，開源多智能體AI助手，非蘋果手機也能玩

任務(wù)難度提升，v2也能搞定

規(guī)劃智能體+記憶單元

一句話手機自己打車，開源多智能體AI助手，非蘋果手機也能玩

任務(wù)難度提升，v2也能搞定