DeepSeek的最佳用法?西湖大學(xué)發(fā)布可以自主進(jìn)化的手機(jī)智能體AppAgentX
1. 背景介紹
近年來,大語言模型(LLM) 的快速發(fā)展正推動人工智能邁向新的高度。像 DeepSeek-R1 這樣的模型因其強(qiáng)大的理解和生成能力,已經(jīng)在 對話生成、代碼編寫、知識問答 等任務(wù)中展現(xiàn)出了卓越的表現(xiàn)。如今,LLM 的應(yīng)用范圍正進(jìn)一步拓展,催生了一類新的智能體 —— 基于 LLM 的 GUI 智能體(GUI Agents),它們能夠像人類一樣,直接通過鼠標(biāo)、鍵盤與計算機(jī)或手機(jī)進(jìn)行交互。
這類智能體不再依賴傳統(tǒng) RPA(機(jī)器人流程自動化) 方式,即基于預(yù)定義的規(guī)則和腳本執(zhí)行任務(wù),而是能夠通過自然語言理解用戶指令,自主完成操作。例如,它們可以打開應(yīng)用、編輯文檔、瀏覽網(wǎng)頁,甚至執(zhí)行跨軟件的復(fù)雜任務(wù),而無需開發(fā)者手動編寫繁瑣的自動化腳本。相比 RPA,這類智能體的優(yōu)勢在于靈活性和泛化能力,能夠適應(yīng)不同任務(wù)場景。
這一趨勢讓人們對 AI 助手的想象逐漸成為現(xiàn)實??苹秒娪爸械?賈維斯(Jarvis),能夠理解自然語言并自主操作計算機(jī),而今天的 LLM 智能體正在向這一方向邁進(jìn)。企業(yè)中也正在推廣 數(shù)字員工(Digital Workers),他們可以自動完成數(shù)據(jù)錄入、報表生成、郵件回復(fù)等重復(fù)性任務(wù),從而提高生產(chǎn)力。此外,智能體還被應(yīng)用于 自動化軟件測試、遠(yuǎn)程控制、智能辦公助手 等場景,使人們能夠自然地用語言指令控制計算機(jī)甚至整個企業(yè) IT 系統(tǒng)。
然而,目前的 LLM 智能體在實際應(yīng)用中仍然存在效率問題?,F(xiàn)有方法依賴 逐步推理,即每執(zhí)行一個操作前,模型都要 “思考” 下一步該做什么。例如,在執(zhí)行簡單的搜索任務(wù)時,智能體需要分別推理 “點擊搜索框” → “輸入關(guān)鍵詞” → “點擊搜索按鈕”,即便是簡單的步驟,也需要耗費額外的計算資源。這種模式雖然提高了通用性,但在應(yīng)對大量 重復(fù)性任務(wù) 時,效率卻遠(yuǎn)不如傳統(tǒng)的 RPA。
因此,一個關(guān)鍵問題是:是否可以讓智能智能體既保留推理能力,能夠靈活應(yīng)對新任務(wù),同時又能像 RPA 一樣高效執(zhí)行常見任務(wù)?
為了解決這一問題,西湖大學(xué) AGI 實驗室 提出了一種可進(jìn)化的 GUI 智能體框架 ——AppAgent X。這是 GUI 智能體先驅(qū)工作 AppAgent 的最新版本,它讓 LLM 驅(qū)動的智能體能夠從自身的操作經(jīng)驗中學(xué)習(xí),不斷進(jìn)化更高效的行為模式。簡單來說,AppAgent X 讓智能體能夠在任務(wù)執(zhí)行過程中識別 重復(fù)性操作模式,并將一系列低層級的操作自動歸納為更高級的 “一鍵” 操作。例如,智能體可以學(xué)習(xí)到 “搜索” 這一任務(wù)模式,并自動將其抽象為一個高層級操作,而無需每次都推理具體步驟。這意味著,智能體在使用過程中會變得越來越高效,越用越聰明。
- 論文標(biāo)題:AppAgentX: Evolving GUI Agents as Proficient Smartphone Users
- 項目地址:https://appagentx.github.io/
- Github 地址:https://github.com/Westlake-AGI-Lab/AppAgentX
- Arxiv 地址:https://arxiv.org/abs/2503.02268
論文的第一作者是來自西湖大學(xué)的研究人員蔣文嘉,指導(dǎo)老師為西湖大學(xué) AGI 實驗室的負(fù)責(zé)人張馳助理教授。實驗室的研究方向聚焦于生成式人工智能和多模態(tài)機(jī)器學(xué)習(xí)。
AppAgent X的功能示意圖
2. AppAgent 的解決方案
在大語言模型與屏幕進(jìn)行交互的時候,主流工作例如 AppAgent 定義了一系列模擬人類的動作,例如點擊、滑動、輸入。這些操作共同定義了一個基本的、與應(yīng)用程序無關(guān)的操作空間,用于模擬人類與智能手機(jī)界面的典型交互。
在不斷的屏幕感知與動作執(zhí)行的循環(huán)中,直到任務(wù)的完成。
3. 挑戰(zhàn):智能與效率的平衡
在大模型驅(qū)動的 GUI 智能體中,一個關(guān)鍵問題是如何在智能決策與執(zhí)行效率之間取得良好平衡?,F(xiàn)有方法雖然能借助大模型的強(qiáng)大推理能力理解界面,并逐步規(guī)劃點擊、輸入、滑動等交互操作,但這種逐步推理的方式往往導(dǎo)致較高的計算成本和執(zhí)行延遲。例如,在完成一個簡單的搜索任務(wù)時,智能體可能需要針對 “點擊搜索框、輸入關(guān)鍵詞、點擊搜索按鈕” 三個步驟逐一推理,而這種方式雖然保證了決策的準(zhǔn)確性,卻犧牲了執(zhí)行速度。
相較之下,傳統(tǒng)的機(jī)器人流程自動化(RPA)工具雖然缺乏靈活性,但基于固定腳本的執(zhí)行策略允許其在預(yù)定義任務(wù)上實現(xiàn)極高的執(zhí)行效率。對比二者,大模型智能體的優(yōu)勢在于適應(yīng)性強(qiáng),能夠在復(fù)雜或未知界面中推理最優(yōu)交互方式,而 RPA 的優(yōu)勢則在于執(zhí)行速度快,能夠高效完成固定任務(wù)。如何在大模型智能體的智能性與執(zhí)行效率之間找到最佳結(jié)合點,成為推動該技術(shù)落地的重要挑戰(zhàn)。
4. 進(jìn)化機(jī)制下的 AppAgentX
AppAgentX 提出了一種可進(jìn)化的 GUI 智能體框架,使得智能體不僅能像人類一樣自主探索和理解界面,還能通過學(xué)習(xí)自身的歷史交互模式,逐漸優(yōu)化執(zhí)行過程,實現(xiàn)智能與效率的最佳結(jié)合。
通過引入鏈?zhǔn)酱鎯C(jī)制和動態(tài)匹配執(zhí)行機(jī)制,使得智能體能夠高效記憶、歸納并優(yōu)化自身的操作軌跡,從而在后續(xù)任務(wù)中復(fù)用高效的執(zhí)行策略,減少重復(fù)推理,提高整體任務(wù)完成速度。
4.1 基于鏈?zhǔn)降拇鎯C(jī)制
研究者為智能體設(shè)計了一種鏈?zhǔn)街R存儲機(jī)制,用于記錄每次任務(wù)執(zhí)行時的完整交互流程。具體來說,智能體的每次操作都會被存儲形成一個 “鏈”,其中包括:
- 頁面節(jié)點:記錄界面的詳細(xì)描述與可交互組件,幫助智能體回憶不同界面的功能。
- 元素節(jié)點:針對界面上的按鈕、輸入框等交互元素,存儲其視覺特征及歷史操作方式。
- 捷徑節(jié)點:對過去的操作步驟進(jìn)行歸納,使智能體能夠復(fù)用已有的成功經(jīng)驗。
在此基礎(chǔ)上,研究者利用大模型從歷史操作路徑中提取任務(wù)邏輯,并自動總結(jié)出頁面和交互元素的功能描述。例如,智能體可以總結(jié)出 “搜索框 + 確認(rèn)按鈕” 這一模式,并將其作為高層級的語義單元記錄下來。這樣,在未來遇到類似界面時,智能體便無需從零開始推理,而是可以直接調(diào)用已學(xué)習(xí)到的高效解決方案。
4.2 動態(tài)匹配的執(zhí)行機(jī)制
基于存儲的交互鏈,AppAgentX 能夠通過進(jìn)化機(jī)制自動提煉出高效的執(zhí)行方式。當(dāng)智能體識別到某些操作模式具有固定的執(zhí)行順序時(例如點擊搜索框 → 輸入內(nèi)容 → 提交搜索),它將動態(tài)創(chuàng)建一個捷徑節(jié)點(shortcut node) ,將多個底層操作整合為一個更高級的動作,從而減少不必要的推理和執(zhí)行時間。
在后續(xù)任務(wù)中,智能體會優(yōu)先匹配當(dāng)前界面與已有的鏈?zhǔn)酱鎯τ涗洠⑴袛嗍欠窨梢灾苯诱{(diào)用高級操作節(jié)點。如果匹配成功,智能體便無需逐步推理所有低層操作,而是直接執(zhí)行已經(jīng)優(yōu)化的快捷路徑,提高任務(wù)執(zhí)行效率。此外,對于未匹配到的任務(wù),智能體仍能夠基于基礎(chǔ)動作空間進(jìn)行動態(tài)推理,確保智能性和靈活性不受影響。
這一機(jī)制的優(yōu)勢在于,它使得智能體的推理能力與執(zhí)行效率可以動態(tài)調(diào)節(jié):
- 對于復(fù)雜任務(wù),智能體依然可以依靠大模型的推理能力逐步探索執(zhí)行路徑;
- 對于重復(fù)性任務(wù),智能體能高效調(diào)用歷史優(yōu)化的快捷操作,提高執(zhí)行速度;
- 自適應(yīng)進(jìn)化,智能體能夠不斷優(yōu)化自身的決策,使其在長期運行中表現(xiàn)越來越高效。
5. 結(jié)論與展望
隨著大語言模型(LLM)的快速發(fā)展,智能體正逐步從簡單的文本交互進(jìn)化到能夠直接操作操作系統(tǒng)和 GUI 界面的自主智能體。然而,現(xiàn)有方法在效率和執(zhí)行智能化之間存在權(quán)衡,導(dǎo)致 LLM 智能體在面對重復(fù)性任務(wù)時表現(xiàn)低效。AppAgent X 提出了一種可進(jìn)化的 GUI 智能體框架,使智能體能夠從自身的任務(wù)執(zhí)行經(jīng)驗中學(xué)習(xí),逐步形成更高效的操作策略。通過這一方法,AppAgent X 兼顧了 LLM 智能體的靈活性和 RPA 智能體的執(zhí)行效率,實現(xiàn)了高效、智能、無需后端訪問的 GUI 操作。
在實驗中,AppAgent X 在多個 GUI 交互任務(wù)上展現(xiàn)出了顯著的效率提升,并優(yōu)于現(xiàn)有 SOTA 方法。它的進(jìn)化能力使得智能體能夠不斷優(yōu)化自身的操作流程,為未來的智能化人機(jī)交互奠定了新的基礎(chǔ)。
展望未來,GUI 智能體的進(jìn)化將是 LLM 智能體發(fā)展的關(guān)鍵方向之一。我們相信,隨著 LLM 在推理能力上的持續(xù)進(jìn)步,智能體可以進(jìn)一步拓展至更復(fù)雜的應(yīng)用場景。