一句話手機自己打車,開源多智能體AI助手,非蘋果手機也能玩
一句話讓AI自動化操作手機,打個車已經(jīng)不是難事了。
從官方公布的演示視頻來看,用戶只需要說出目的地,Agent就能夠通過規(guī)劃、決策和反思的流程自動化幫用戶完成目的地輸入,呼叫車輛等操作,適用于老人及視障人群,解決他們不會使用或者無法使用手機APP的問題。
這項成果來自阿里通義實驗室Mobile-Agent的v2版本更新,具體來說,本次升級有三大亮點:
- 首次在手機操作任務(wù)上采用多智能體架構(gòu),并延續(xù)了一代的純視覺方案
- 多智能體各司其職,實現(xiàn)了更有效的任務(wù)進度追蹤、任務(wù)相關(guān)信息記憶和操作反思
- 更強大的復雜指令拆解能力、跨應用操作能力和多語言場景操作能力
任務(wù)難度提升,v2也能搞定
首先我們關(guān)注一下Mobile-Agent-v2的演示效果。從作者團隊發(fā)布的演示視頻來看,Mobile-Agent-v2能夠完成的任務(wù)難度相比于Mobile-Agent有明顯的提升。下面將展示部分演示視頻中的例子。
在跨應用操作任務(wù)上,作者展示是查看聊天軟件中的未讀消息,并按照未讀消息的要求完成任務(wù),其中未讀消息需要分享一個TikTok中寵物相關(guān)的視頻給消息發(fā)布者。
該任務(wù)的難點在于,指令的一部分存在于聊天軟件的未讀消息中,并且分享的鏈接需要從另一個應用中發(fā)送給當前聊天軟件的消息發(fā)布者。
從演示視頻來看,Mobile-Agent-v2先是打開了WhatsApp并查看了未讀消息。在得知需要從TikTok中找視頻并分享后,Mobile-Agent-v2退出當前應用并進入TikTok中刷視頻來尋找寵物相關(guān)的視頻。在找到視頻后,通過分享按鈕將視頻鏈接成功發(fā)送到WhatsApp的消息發(fā)布者的聊天界面內(nèi)。
接下來是一個社交媒體平臺的例子。
社交媒體平臺作為手機應用中日活躍量最大的應用類型,往往具有信息量大、界面復雜、干擾信息多等特點。
作者展示的是搜索名人“馬斯克”,關(guān)注他并且評論一個他的帖子。Mobile-Agent-v2首先準確地找到了搜索界面。在輸入“Musk”后,候選項中出現(xiàn)了大量的干擾選項,而Mobile-Agent-v2根據(jù)人物的全名和頭像選擇了目標名人,隨后點擊了關(guān)注。
在點擊關(guān)注之后,出現(xiàn)的推薦關(guān)注列表擋住了原來的帖子,而Mobile-Agent-v2仍然能正確理解界面,通過上劃的方式找到了帖子,最終完成了評論。
此外,作者還展示了一個在YouTube上完成類似關(guān)注和評論的任務(wù)。從上述演示視頻來看,Mobile-Agent-v2對于社交媒體和視頻平臺的操作能力十分驚艷。
另外,在初代Mobile-Agent中評測的那些任務(wù),例如導航、下載安裝應用等,Mobile-Agent-v2也能輕松完成。
最后,作者還展示了Mobile-Agent-v2在中文應用上的表現(xiàn),包括在小紅書中搜索攻略并評論,以及幫助用戶回微信。Mobile-Agent-v2可以根據(jù)帖子的內(nèi)容發(fā)布相關(guān)的評論,也能根據(jù)微信消息的內(nèi)容生成相關(guān)的回復,相比于傳統(tǒng)的評論和回復機器人更靈活。
規(guī)劃智能體+記憶單元
接下來我們將介紹Mobile-Agent-v2的背景、架構(gòu)設(shè)計和操作流程。
在一次手機操作任務(wù)中,智能體往往需要多步操作來完成任務(wù)的要求。在每次操作時,智能體都需要跟蹤當前任務(wù)的進度,即過去的操作具體完成了什么需求,以此來結(jié)合用戶的指令來推理出下一步的操作目意圖。
雖然在操作歷史中保存有每一步的具體操作和操作之后的屏幕狀態(tài),但是隨著操作輪數(shù)的增加,操作歷史的序列將逐漸變長。冗長并且圖文交錯格式的操作歷史,會大大增加智能體追蹤任務(wù)進度的難度。
如下圖所示,在完成了7輪操作后,輸入的操作歷史的序列長度已經(jīng)有一萬多token,加之圖文交錯的數(shù)據(jù)格式,對于智能體追蹤任務(wù)進度是十分困難的。
因此,Mobile-Agent-v2引入了規(guī)劃智能體的角色,如下圖所示,它會為操作智能體提供一份任務(wù)進度,從而將長的操作歷史轉(zhuǎn)化為純文本的格式。
然而,規(guī)劃智能體雖然簡化了任務(wù)進度追蹤,但是也導致了丟失了歷史操作中的屏幕信息,這使得決策智能體無法檢索到來自歷史屏幕中的任務(wù)相關(guān)信息。例如在上圖的任務(wù)中,需要智能體查看天氣并寫一份穿衣指南。而在生成穿衣指南時,歷史屏幕中的天氣信息需要被利用。
因此,Mobile-Agent-v2引入了記憶單元,并由決策智能體更新單元內(nèi)的任務(wù)相關(guān)信息。此外,由于決策智能體無法觀察操作后的屏幕信息,Mobile-Agent-v2引入了反思智能體來觀察決策智能體操作前后的屏幕狀態(tài)變化,并決定操作是否正確。
在論文中,作者采用了動態(tài)評估,分別在英文和非英文應用上選擇了5個系統(tǒng)內(nèi)置應用和5個第三方應用,每個應用設(shè)計了2條基礎(chǔ)指令和2條進階指令。
同時,針對跨應用操作也設(shè)計了2條基礎(chǔ)指令和2條進階指令。英文場景和非英文場景的評估效果如下表所示。從結(jié)果中可以看出,Mobile-Agent-v2無論在英文場景還是非英文場景,無論是基礎(chǔ)指令還是進階指令,在多個指標上都獲得了全面的提升。
此外,通過人工引入額外的操作知識,能進一步提升性能(Mobile-Agent-v2 + Know.)。
作者在文章中展示了消融實驗的結(jié)果,如下表所示,在去除規(guī)劃智能體、決策智能體和記憶單元后,整個智能體的性能都出現(xiàn)了下降。
如下圖所示通過分析操作失敗的任務(wù),作者發(fā)現(xiàn)Mobile-Agent的失敗操作大量集中在后程,而Mobile-Agent-v2則相對平均。這說明了Mobile-Agent-v2能更有效地解決長序列帶來的問題。
最后,文章展示了一個完整的操作流程和一個反思成功的例子,其中包括了每個角色的輸出。更多的例子展示在文章的結(jié)尾部分。
Mobile-Agent-v2的代碼和論文現(xiàn)已發(fā)布,相關(guān)鏈接如下:
論文:https://arxiv.org/abs/2406.01014
代碼:https://github.com/X-PLUG/MobileAgent
除此之外,Mobile-Agent-v2也已經(jīng)接入到魔搭的ModelScope-Agent中:
https://github.com/modelscope/modelscope-agent