DeepSeek的最佳用法？西湖大學(xué)發(fā)布可以自主進(jìn)化的手機(jī)智能體AppAgentX

作者：機(jī)器之心 2025-03-10 12:09:37

西湖大學(xué) AGI 實驗室提出了一種可進(jìn)化的 GUI 智能體框架 ——AppAgent X。

1. 背景介紹

近年來，大語言模型（LLM）的快速發(fā)展正推動人工智能邁向新的高度。像 DeepSeek-R1 這樣的模型因其強(qiáng)大的理解和生成能力，已經(jīng)在對話生成、代碼編寫、知識問答等任務(wù)中展現(xiàn)出了卓越的表現(xiàn)。如今，LLM 的應(yīng)用范圍正進(jìn)一步拓展，催生了一類新的智能體 —— 基于 LLM 的 GUI 智能體（GUI Agents），它們能夠像人類一樣，直接通過鼠標(biāo)、鍵盤與計算機(jī)或手機(jī)進(jìn)行交互。

這類智能體不再依賴傳統(tǒng) RPA（機(jī)器人流程自動化）方式，即基于預(yù)定義的規(guī)則和腳本執(zhí)行任務(wù)，而是能夠通過自然語言理解用戶指令，自主完成操作。例如，它們可以打開應(yīng)用、編輯文檔、瀏覽網(wǎng)頁，甚至執(zhí)行跨軟件的復(fù)雜任務(wù)，而無需開發(fā)者手動編寫繁瑣的自動化腳本。相比 RPA，這類智能體的優(yōu)勢在于靈活性和泛化能力，能夠適應(yīng)不同任務(wù)場景。

這一趨勢讓人們對 AI 助手的想象逐漸成為現(xiàn)實?？苹秒娪爸械?賈維斯（Jarvis），能夠理解自然語言并自主操作計算機(jī)，而今天的 LLM 智能體正在向這一方向邁進(jìn)。企業(yè)中也正在推廣數(shù)字員工（Digital Workers），他們可以自動完成數(shù)據(jù)錄入、報表生成、郵件回復(fù)等重復(fù)性任務(wù)，從而提高生產(chǎn)力。此外，智能體還被應(yīng)用于自動化軟件測試、遠(yuǎn)程控制、智能辦公助手等場景，使人們能夠自然地用語言指令控制計算機(jī)甚至整個企業(yè) IT 系統(tǒng)。

然而，目前的 LLM 智能體在實際應(yīng)用中仍然存在效率問題?，F(xiàn)有方法依賴逐步推理，即每執(zhí)行一個操作前，模型都要 “思考” 下一步該做什么。例如，在執(zhí)行簡單的搜索任務(wù)時，智能體需要分別推理 “點擊搜索框” → “輸入關(guān)鍵詞” → “點擊搜索按鈕”，即便是簡單的步驟，也需要耗費額外的計算資源。這種模式雖然提高了通用性，但在應(yīng)對大量重復(fù)性任務(wù) 時，效率卻遠(yuǎn)不如傳統(tǒng)的 RPA。

因此，一個關(guān)鍵問題是：是否可以讓智能智能體既保留推理能力，能夠靈活應(yīng)對新任務(wù)，同時又能像 RPA 一樣高效執(zhí)行常見任務(wù)？

為了解決這一問題，西湖大學(xué) AGI 實驗室提出了一種可進(jìn)化的 GUI 智能體框架 ——AppAgent X。這是 GUI 智能體先驅(qū)工作 AppAgent 的最新版本，它讓 LLM 驅(qū)動的智能體能夠從自身的操作經(jīng)驗中學(xué)習(xí)，不斷進(jìn)化更高效的行為模式。簡單來說，AppAgent X 讓智能體能夠在任務(wù)執(zhí)行過程中識別重復(fù)性操作模式，并將一系列低層級的操作自動歸納為更高級的 “一鍵” 操作。例如，智能體可以學(xué)習(xí)到 “搜索” 這一任務(wù)模式，并自動將其抽象為一個高層級操作，而無需每次都推理具體步驟。這意味著，智能體在使用過程中會變得越來越高效，越用越聰明。

論文標(biāo)題：AppAgentX: Evolving GUI Agents as Proficient Smartphone Users
項目地址：https://appagentx.github.io/
Github 地址：https://github.com/Westlake-AGI-Lab/AppAgentX
Arxiv 地址：https://arxiv.org/abs/2503.02268

論文的第一作者是來自西湖大學(xué)的研究人員蔣文嘉，指導(dǎo)老師為西湖大學(xué) AGI 實驗室的負(fù)責(zé)人張馳助理教授。實驗室的研究方向聚焦于生成式人工智能和多模態(tài)機(jī)器學(xué)習(xí)。

AppAgent X的功能示意圖

2. AppAgent 的解決方案

在大語言模型與屏幕進(jìn)行交互的時候，主流工作例如 AppAgent 定義了一系列模擬人類的動作，例如點擊、滑動、輸入。這些操作共同定義了一個基本的、與應(yīng)用程序無關(guān)的操作空間，用于模擬人類與智能手機(jī)界面的典型交互。

在不斷的屏幕感知與動作執(zhí)行的循環(huán)中，直到任務(wù)的完成。

3. 挑戰(zhàn)：智能與效率的平衡

在大模型驅(qū)動的 GUI 智能體中，一個關(guān)鍵問題是如何在智能決策與執(zhí)行效率之間取得良好平衡?，F(xiàn)有方法雖然能借助大模型的強(qiáng)大推理能力理解界面，并逐步規(guī)劃點擊、輸入、滑動等交互操作，但這種逐步推理的方式往往導(dǎo)致較高的計算成本和執(zhí)行延遲。例如，在完成一個簡單的搜索任務(wù)時，智能體可能需要針對 “點擊搜索框、輸入關(guān)鍵詞、點擊搜索按鈕” 三個步驟逐一推理，而這種方式雖然保證了決策的準(zhǔn)確性，卻犧牲了執(zhí)行速度。

相較之下，傳統(tǒng)的機(jī)器人流程自動化（RPA）工具雖然缺乏靈活性，但基于固定腳本的執(zhí)行策略允許其在預(yù)定義任務(wù)上實現(xiàn)極高的執(zhí)行效率。對比二者，大模型智能體的優(yōu)勢在于適應(yīng)性強(qiáng)，能夠在復(fù)雜或未知界面中推理最優(yōu)交互方式，而 RPA 的優(yōu)勢則在于執(zhí)行速度快，能夠高效完成固定任務(wù)。如何在大模型智能體的智能性與執(zhí)行效率之間找到最佳結(jié)合點，成為推動該技術(shù)落地的重要挑戰(zhàn)。

4. 進(jìn)化機(jī)制下的 AppAgentX

AppAgentX 提出了一種可進(jìn)化的 GUI 智能體框架，使得智能體不僅能像人類一樣自主探索和理解界面，還能通過學(xué)習(xí)自身的歷史交互模式，逐漸優(yōu)化執(zhí)行過程，實現(xiàn)智能與效率的最佳結(jié)合。

通過引入鏈?zhǔn)酱鎯C(jī)制和動態(tài)匹配執(zhí)行機(jī)制，使得智能體能夠高效記憶、歸納并優(yōu)化自身的操作軌跡，從而在后續(xù)任務(wù)中復(fù)用高效的執(zhí)行策略，減少重復(fù)推理，提高整體任務(wù)完成速度。

4.1 基于鏈?zhǔn)降拇鎯C(jī)制

研究者為智能體設(shè)計了一種鏈?zhǔn)街R存儲機(jī)制，用于記錄每次任務(wù)執(zhí)行時的完整交互流程。具體來說，智能體的每次操作都會被存儲形成一個 “鏈”，其中包括：

頁面節(jié)點：記錄界面的詳細(xì)描述與可交互組件，幫助智能體回憶不同界面的功能。
元素節(jié)點：針對界面上的按鈕、輸入框等交互元素，存儲其視覺特征及歷史操作方式。
捷徑節(jié)點：對過去的操作步驟進(jìn)行歸納，使智能體能夠復(fù)用已有的成功經(jīng)驗。

在此基礎(chǔ)上，研究者利用大模型從歷史操作路徑中提取任務(wù)邏輯，并自動總結(jié)出頁面和交互元素的功能描述。例如，智能體可以總結(jié)出 “搜索框 + 確認(rèn)按鈕” 這一模式，并將其作為高層級的語義單元記錄下來。這樣，在未來遇到類似界面時，智能體便無需從零開始推理，而是可以直接調(diào)用已學(xué)習(xí)到的高效解決方案。

4.2 動態(tài)匹配的執(zhí)行機(jī)制

基于存儲的交互鏈，AppAgentX 能夠通過進(jìn)化機(jī)制自動提煉出高效的執(zhí)行方式。當(dāng)智能體識別到某些操作模式具有固定的執(zhí)行順序時（例如點擊搜索框 → 輸入內(nèi)容 → 提交搜索），它將動態(tài)創(chuàng)建一個捷徑節(jié)點（shortcut node），將多個底層操作整合為一個更高級的動作，從而減少不必要的推理和執(zhí)行時間。

在后續(xù)任務(wù)中，智能體會優(yōu)先匹配當(dāng)前界面與已有的鏈?zhǔn)酱鎯τ涗洠⑴袛嗍欠窨梢灾苯诱{(diào)用高級操作節(jié)點。如果匹配成功，智能體便無需逐步推理所有低層操作，而是直接執(zhí)行已經(jīng)優(yōu)化的快捷路徑，提高任務(wù)執(zhí)行效率。此外，對于未匹配到的任務(wù)，智能體仍能夠基于基礎(chǔ)動作空間進(jìn)行動態(tài)推理，確保智能性和靈活性不受影響。

這一機(jī)制的優(yōu)勢在于，它使得智能體的推理能力與執(zhí)行效率可以動態(tài)調(diào)節(jié)：

對于復(fù)雜任務(wù)，智能體依然可以依靠大模型的推理能力逐步探索執(zhí)行路徑；
對于重復(fù)性任務(wù)，智能體能高效調(diào)用歷史優(yōu)化的快捷操作，提高執(zhí)行速度；
自適應(yīng)進(jìn)化，智能體能夠不斷優(yōu)化自身的決策，使其在長期運行中表現(xiàn)越來越高效。

5. 結(jié)論與展望

隨著大語言模型（LLM）的快速發(fā)展，智能體正逐步從簡單的文本交互進(jìn)化到能夠直接操作操作系統(tǒng)和 GUI 界面的自主智能體。然而，現(xiàn)有方法在效率和執(zhí)行智能化之間存在權(quán)衡，導(dǎo)致 LLM 智能體在面對重復(fù)性任務(wù)時表現(xiàn)低效。AppAgent X 提出了一種可進(jìn)化的 GUI 智能體框架，使智能體能夠從自身的任務(wù)執(zhí)行經(jīng)驗中學(xué)習(xí)，逐步形成更高效的操作策略。通過這一方法，AppAgent X 兼顧了 LLM 智能體的靈活性和 RPA 智能體的執(zhí)行效率，實現(xiàn)了高效、智能、無需后端訪問的 GUI 操作。

在實驗中，AppAgent X 在多個 GUI 交互任務(wù)上展現(xiàn)出了顯著的效率提升，并優(yōu)于現(xiàn)有 SOTA 方法。它的進(jìn)化能力使得智能體能夠不斷優(yōu)化自身的操作流程，為未來的智能化人機(jī)交互奠定了新的基礎(chǔ)。

展望未來，GUI 智能體的進(jìn)化將是 LLM 智能體發(fā)展的關(guān)鍵方向之一。我們相信，隨著 LLM 在推理能力上的持續(xù)進(jìn)步，智能體可以進(jìn)一步拓展至更復(fù)雜的應(yīng)用場景。

責(zé)任編輯：張燕妮來源：機(jī)器之心

AI 智能體模型