AI玩手機(jī)越玩越6!西湖大學(xué)發(fā)布新智能體:會(huì)自我進(jìn)化的AppAgentX
人工智能正迎來前所未有的變革,其中,大語言模型(LLM)的崛起推動(dòng)了智能系統(tǒng)從信息處理向自主交互邁進(jìn)。
以DeepSeek為代表的LLM,憑借強(qiáng)大的語言理解與推理能力,在文本創(chuàng)作、編程輔助、復(fù)雜任務(wù)規(guī)劃等領(lǐng)域展現(xiàn)出卓越表現(xiàn)。
然而,LLM的潛力遠(yuǎn)不止于文本生成,它們正在塑造一種全新的智能體形態(tài)——GUI代理(GUI Agents)。這類智能體不僅能理解指令,還能像人類一樣直接操作計(jì)算機(jī)和手機(jī),擺脫對(duì)預(yù)設(shè)規(guī)則或API的依賴,帶來更自然、高效的交互方式,使AI真正融入軟件生態(tài),成為智能操作系統(tǒng)的一部分。
問題在于,目前的LLM代理雖然具備強(qiáng)大的推理能力,卻在任務(wù)執(zhí)行效率上存在明顯瓶頸。
為了解決這個(gè)問題,現(xiàn)在,西湖大學(xué)AGI實(shí)驗(yàn)室張馳團(tuán)隊(duì)推出了AppAgentX——一款具備自我進(jìn)化能力的GUI代理。它能夠在不斷執(zhí)行任務(wù)的過程中學(xué)習(xí)并優(yōu)化自身的行為模式,實(shí)現(xiàn)更加高效的操作。
AppAgentX的核心創(chuàng)新在于:
- 自動(dòng)歸納高效操作模式:代理能夠在執(zhí)行任務(wù)時(shí),檢測(cè)重復(fù)性操作模式,并自動(dòng)總結(jié)成更高級(jí)別的“一鍵”操作。
- 任務(wù)執(zhí)行更快,減少重復(fù)計(jì)算:傳統(tǒng)的LLM代理每次執(zhí)行任務(wù)都需要重新思考操作流程,而AppAgentX能夠記住并復(fù)用執(zhí)行策略,從而避免重復(fù)推理,使得任務(wù)執(zhí)行更加流暢高效。
- 完全基于視覺操作,適用于各種軟件:傳統(tǒng)自動(dòng)化方法通常需要訪問后端API,而AppAgentX僅依賴屏幕視覺信息進(jìn)行操作,無需后端訪問,因此能夠在不同軟件、不同設(shè)備上通用,真正做到“即插即用”。
AppAgentX:讓智能體學(xué)會(huì)“進(jìn)化”
過去,計(jì)算機(jī)的自動(dòng)化操作主要依賴RPA(機(jī)器人流程自動(dòng)化),通過預(yù)設(shè)規(guī)則或API進(jìn)行固定任務(wù)的執(zhí)行。然而,這種方式需要大量手動(dòng)配置,缺乏靈活性。
GUI代理的出現(xiàn),改變了這一局面,被譽(yù)為軟件世界中的具身智能。
GUI代理不依賴后端API,而是像人類一樣,通過屏幕視覺、鼠標(biāo)和鍵盤直接操作軟件界面。這意味著,智能體可以自主學(xué)習(xí)如何操作各種應(yīng)用程序,甚至能夠在不同軟件之間切換,執(zhí)行復(fù)雜的跨應(yīng)用任務(wù)。例如:
- 辦公場(chǎng)景:自動(dòng)整理文檔、批量發(fā)送郵件
- 娛樂與創(chuàng)作:使用Photoshop處理圖像、生成視頻內(nèi)容
- 自動(dòng)化操作:批量錄入數(shù)據(jù)、自動(dòng)處理訂單
- 跨應(yīng)用任務(wù):從網(wǎng)頁爬取信息后填入Excel、在多個(gè)軟件之間進(jìn)行聯(lián)動(dòng)操作
正因如此,GUI代理被視為智能助手、數(shù)字員工、自動(dòng)化測(cè)試等領(lǐng)域的下一代解決方案,但現(xiàn)階段的挑戰(zhàn)也很突出:現(xiàn)有的智能體聰明但不夠高效。
現(xiàn)有的LLM代理通常采用逐步推理(Step-by-step Reasoning)的方式,即每次執(zhí)行操作前,模型都要推理下一步動(dòng)作。例如,在進(jìn)行網(wǎng)頁搜索時(shí),它可能會(huì)這樣決策:
- 識(shí)別需要搜索的信息;
- 點(diǎn)擊搜索框;
- 輸入關(guān)鍵詞;
- 點(diǎn)擊搜索按鈕。
這種方式賦予了智能體極強(qiáng)的泛化能力,使其能夠適應(yīng)新任務(wù)場(chǎng)景,但也帶來了執(zhí)行低效、重復(fù)計(jì)算嚴(yán)重的問題。
AppAgentX解決這一痛點(diǎn)的核心思路,是讓智能體學(xué)會(huì)“進(jìn)化”。
下面是一個(gè)AppAgentX執(zhí)行播放音樂的一個(gè)例子示意圖,當(dāng)找到了“一鍵”操作,就不需要每一步都耗費(fèi)大量時(shí)間思考下一步需要做什么,從而快速完成任務(wù)。
這里可以看出智能體進(jìn)化出一個(gè)高級(jí)操作“搜索”,它取代了一系列低效的低級(jí)操作。這種進(jìn)化避免了重復(fù)耗時(shí)的逐步推理,顯著提高了代理的效率。
△AppAgentX的功能示意圖
方法介紹
任務(wù)軌跡的分解
在執(zhí)行任務(wù)時(shí),AppAgentX會(huì)將整個(gè)過程分解成多個(gè)重疊的三元組(即由三個(gè)部分組成的組合)。這些三元組包含了頁面內(nèi)容和用戶界面(UI)元素的功能描述。
具體來說,智能體會(huì):
- 生成功能描述:利用大語言模型(LLM),為每個(gè)頁面和界面元素生成詳細(xì)的功能描述。這些描述幫助智能體理解每個(gè)部分的作用。
- 合并重復(fù)描述:如果某些頁面的描述是重復(fù)生成的,智能體會(huì)將這些描述合并,以減少冗余信息。
- 記錄交互歷史:整個(gè)交互過程會(huì)被記錄成一個(gè)節(jié)點(diǎn)鏈,形成一個(gè)完整的操作歷史,便于后續(xù)調(diào)用。
進(jìn)化機(jī)制與執(zhí)行過程
在任務(wù)執(zhí)行過程中,AppAgentX還引入了一種進(jìn)化機(jī)制,使得智能體能夠更高效地執(zhí)行操作。這個(gè)機(jī)制的核心在于生成“捷徑節(jié)點(diǎn)”,允許智能體在執(zhí)行一系列操作時(shí),跳過逐步推理的過程。具體步驟如下:
- 生成捷徑節(jié)點(diǎn):當(dāng)智能體識(shí)別到某些操作具有固定的執(zhí)行順序時(shí),它會(huì)創(chuàng)建捷徑節(jié)點(diǎn)。這些節(jié)點(diǎn)將多個(gè)底層操作整合為一個(gè)更高級(jí)的動(dòng)作。
- 高效執(zhí)行:通過調(diào)用這些捷徑節(jié)點(diǎn),智能體可以快速執(zhí)行一系列操作,而無需逐步推理每一步。這大大提高了任務(wù)執(zhí)行的效率。
從實(shí)驗(yàn)結(jié)果來看,AppAgentX從單步的執(zhí)行效率到總體的API token消耗,在多個(gè)GUI交互任務(wù)上展現(xiàn)出了顯著的“降本增效”。
總體來說,AppAgentX作為一項(xiàng)創(chuàng)新的移動(dòng)終端交互技術(shù),通過構(gòu)建鏈?zhǔn)街R(shí)存儲(chǔ)架構(gòu)與動(dòng)態(tài)匹配執(zhí)行機(jī)制,在保持大型語言模型代理靈活性的同時(shí)顯著提升執(zhí)行效能,實(shí)現(xiàn)了無需后端訪問的圖形界面智能操作系統(tǒng)。
該技術(shù)突破性地解決了傳統(tǒng)智能體在響應(yīng)速度與認(rèn)知能力間的平衡難題,為移動(dòng)端AI應(yīng)用開辟了新的技術(shù)路徑。此項(xiàng)研究不僅標(biāo)志著智能體技術(shù)在效率與智能動(dòng)態(tài)平衡方面取得重要突破,更為人機(jī)交互領(lǐng)域提供了可擴(kuò)展的技術(shù)范式。
項(xiàng)目地址:https://appagentx.github.io/
Github地址:https://github.com/Westlake-AGI-Lab/AppAgentX
Arxiv地址:https://arxiv.org/abs/2503.02268