AI玩手機(jī)越玩越6！西湖大學(xué)發(fā)布新智能體：會(huì)自我進(jìn)化的AppAgentX

作者：量子位 2025-03-10 09:15:00

西湖大學(xué)AGI實(shí)驗(yàn)室張馳團(tuán)隊(duì)推出了AppAgentX——一款具備自我進(jìn)化能力的GUI代理。

人工智能正迎來前所未有的變革，其中，大語言模型（LLM）的崛起推動(dòng)了智能系統(tǒng)從信息處理向自主交互邁進(jìn)。

以DeepSeek為代表的LLM，憑借強(qiáng)大的語言理解與推理能力，在文本創(chuàng)作、編程輔助、復(fù)雜任務(wù)規(guī)劃等領(lǐng)域展現(xiàn)出卓越表現(xiàn)。

然而，LLM的潛力遠(yuǎn)不止于文本生成，它們正在塑造一種全新的智能體形態(tài)——GUI代理（GUI Agents）。這類智能體不僅能理解指令，還能像人類一樣直接操作計(jì)算機(jī)和手機(jī)，擺脫對(duì)預(yù)設(shè)規(guī)則或API的依賴，帶來更自然、高效的交互方式，使AI真正融入軟件生態(tài)，成為智能操作系統(tǒng)的一部分。

問題在于，目前的LLM代理雖然具備強(qiáng)大的推理能力，卻在任務(wù)執(zhí)行效率上存在明顯瓶頸。

為了解決這個(gè)問題，現(xiàn)在，西湖大學(xué)AGI實(shí)驗(yàn)室張馳團(tuán)隊(duì)推出了AppAgentX——一款具備自我進(jìn)化能力的GUI代理。它能夠在不斷執(zhí)行任務(wù)的過程中學(xué)習(xí)并優(yōu)化自身的行為模式，實(shí)現(xiàn)更加高效的操作。

AppAgentX的核心創(chuàng)新在于：

自動(dòng)歸納高效操作模式：代理能夠在執(zhí)行任務(wù)時(shí)，檢測(cè)重復(fù)性操作模式，并自動(dòng)總結(jié)成更高級(jí)別的“一鍵”操作。
任務(wù)執(zhí)行更快，減少重復(fù)計(jì)算：傳統(tǒng)的LLM代理每次執(zhí)行任務(wù)都需要重新思考操作流程，而AppAgentX能夠記住并復(fù)用執(zhí)行策略，從而避免重復(fù)推理，使得任務(wù)執(zhí)行更加流暢高效。
完全基于視覺操作，適用于各種軟件：傳統(tǒng)自動(dòng)化方法通常需要訪問后端API，而AppAgentX僅依賴屏幕視覺信息進(jìn)行操作，無需后端訪問，因此能夠在不同軟件、不同設(shè)備上通用，真正做到“即插即用”。

AppAgentX：讓智能體學(xué)會(huì)“進(jìn)化”

過去，計(jì)算機(jī)的自動(dòng)化操作主要依賴RPA（機(jī)器人流程自動(dòng)化），通過預(yù)設(shè)規(guī)則或API進(jìn)行固定任務(wù)的執(zhí)行。然而，這種方式需要大量手動(dòng)配置，缺乏靈活性。

GUI代理的出現(xiàn)，改變了這一局面，被譽(yù)為軟件世界中的具身智能。

GUI代理不依賴后端API，而是像人類一樣，通過屏幕視覺、鼠標(biāo)和鍵盤直接操作軟件界面。這意味著，智能體可以自主學(xué)習(xí)如何操作各種應(yīng)用程序，甚至能夠在不同軟件之間切換，執(zhí)行復(fù)雜的跨應(yīng)用任務(wù)。例如：

辦公場(chǎng)景：自動(dòng)整理文檔、批量發(fā)送郵件
娛樂與創(chuàng)作：使用Photoshop處理圖像、生成視頻內(nèi)容
自動(dòng)化操作：批量錄入數(shù)據(jù)、自動(dòng)處理訂單
跨應(yīng)用任務(wù)：從網(wǎng)頁爬取信息后填入Excel、在多個(gè)軟件之間進(jìn)行聯(lián)動(dòng)操作

正因如此，GUI代理被視為智能助手、數(shù)字員工、自動(dòng)化測(cè)試等領(lǐng)域的下一代解決方案，但現(xiàn)階段的挑戰(zhàn)也很突出：現(xiàn)有的智能體聰明但不夠高效。

現(xiàn)有的LLM代理通常采用逐步推理（Step-by-step Reasoning）的方式，即每次執(zhí)行操作前，模型都要推理下一步動(dòng)作。例如，在進(jìn)行網(wǎng)頁搜索時(shí)，它可能會(huì)這樣決策：

識(shí)別需要搜索的信息；
點(diǎn)擊搜索框；
輸入關(guān)鍵詞；
點(diǎn)擊搜索按鈕。

這種方式賦予了智能體極強(qiáng)的泛化能力，使其能夠適應(yīng)新任務(wù)場(chǎng)景，但也帶來了執(zhí)行低效、重復(fù)計(jì)算嚴(yán)重的問題。

AppAgentX解決這一痛點(diǎn)的核心思路，是讓智能體學(xué)會(huì)“進(jìn)化”。

下面是一個(gè)AppAgentX執(zhí)行播放音樂的一個(gè)例子示意圖，當(dāng)找到了“一鍵”操作，就不需要每一步都耗費(fèi)大量時(shí)間思考下一步需要做什么，從而快速完成任務(wù)。

這里可以看出智能體進(jìn)化出一個(gè)高級(jí)操作“搜索”，它取代了一系列低效的低級(jí)操作。這種進(jìn)化避免了重復(fù)耗時(shí)的逐步推理，顯著提高了代理的效率。

△AppAgentX的功能示意圖

方法介紹

任務(wù)軌跡的分解

在執(zhí)行任務(wù)時(shí)，AppAgentX會(huì)將整個(gè)過程分解成多個(gè)重疊的三元組（即由三個(gè)部分組成的組合）。這些三元組包含了頁面內(nèi)容和用戶界面（UI）元素的功能描述。

具體來說，智能體會(huì)：

生成功能描述：利用大語言模型（LLM），為每個(gè)頁面和界面元素生成詳細(xì)的功能描述。這些描述幫助智能體理解每個(gè)部分的作用。
合并重復(fù)描述：如果某些頁面的描述是重復(fù)生成的，智能體會(huì)將這些描述合并，以減少冗余信息。
記錄交互歷史：整個(gè)交互過程會(huì)被記錄成一個(gè)節(jié)點(diǎn)鏈，形成一個(gè)完整的操作歷史，便于后續(xù)調(diào)用。

進(jìn)化機(jī)制與執(zhí)行過程

在任務(wù)執(zhí)行過程中，AppAgentX還引入了一種進(jìn)化機(jī)制，使得智能體能夠更高效地執(zhí)行操作。這個(gè)機(jī)制的核心在于生成“捷徑節(jié)點(diǎn)”，允許智能體在執(zhí)行一系列操作時(shí)，跳過逐步推理的過程。具體步驟如下：

生成捷徑節(jié)點(diǎn)：當(dāng)智能體識(shí)別到某些操作具有固定的執(zhí)行順序時(shí)，它會(huì)創(chuàng)建捷徑節(jié)點(diǎn)。這些節(jié)點(diǎn)將多個(gè)底層操作整合為一個(gè)更高級(jí)的動(dòng)作。
高效執(zhí)行：通過調(diào)用這些捷徑節(jié)點(diǎn)，智能體可以快速執(zhí)行一系列操作，而無需逐步推理每一步。這大大提高了任務(wù)執(zhí)行的效率。

從實(shí)驗(yàn)結(jié)果來看，AppAgentX從單步的執(zhí)行效率到總體的API token消耗，在多個(gè)GUI交互任務(wù)上展現(xiàn)出了顯著的“降本增效”。

總體來說，AppAgentX作為一項(xiàng)創(chuàng)新的移動(dòng)終端交互技術(shù)，通過構(gòu)建鏈?zhǔn)街R(shí)存儲(chǔ)架構(gòu)與動(dòng)態(tài)匹配執(zhí)行機(jī)制，在保持大型語言模型代理靈活性的同時(shí)顯著提升執(zhí)行效能，實(shí)現(xiàn)了無需后端訪問的圖形界面智能操作系統(tǒng)。

該技術(shù)突破性地解決了傳統(tǒng)智能體在響應(yīng)速度與認(rèn)知能力間的平衡難題，為移動(dòng)端AI應(yīng)用開辟了新的技術(shù)路徑。此項(xiàng)研究不僅標(biāo)志著智能體技術(shù)在效率與智能動(dòng)態(tài)平衡方面取得重要突破，更為人機(jī)交互領(lǐng)域提供了可擴(kuò)展的技術(shù)范式。

項(xiàng)目地址：https://appagentx.github.io/
Github地址：https://github.com/Westlake-AGI-Lab/AppAgentX
Arxiv地址：https://arxiv.org/abs/2503.02268

責(zé)任編輯：張燕妮來源：量子位

AGI 生成模型

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI玩手機(jī)越玩越6！西湖大學(xué)發(fā)布新智能體：會(huì)自我進(jìn)化的AppAgentX

AppAgentX：讓智能體學(xué)會(huì)“進(jìn)化”

方法介紹

任務(wù)軌跡的分解

進(jìn)化機(jī)制與執(zhí)行過程