自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI玩手機(jī)越玩越6!西湖大學(xué)發(fā)布新智能體:會(huì)自我進(jìn)化的AppAgentX

人工智能 新聞
西湖大學(xué)AGI實(shí)驗(yàn)室張馳團(tuán)隊(duì)推出了AppAgentX——一款具備自我進(jìn)化能力的GUI代理。

人工智能正迎來前所未有的變革,其中,大語言模型(LLM)的崛起推動(dòng)了智能系統(tǒng)從信息處理向自主交互邁進(jìn)。

以DeepSeek為代表的LLM,憑借強(qiáng)大的語言理解與推理能力,在文本創(chuàng)作、編程輔助、復(fù)雜任務(wù)規(guī)劃等領(lǐng)域展現(xiàn)出卓越表現(xiàn)。

然而,LLM的潛力遠(yuǎn)不止于文本生成,它們正在塑造一種全新的智能體形態(tài)——GUI代理(GUI Agents)。這類智能體不僅能理解指令,還能像人類一樣直接操作計(jì)算機(jī)和手機(jī),擺脫對(duì)預(yù)設(shè)規(guī)則或API的依賴,帶來更自然、高效的交互方式,使AI真正融入軟件生態(tài),成為智能操作系統(tǒng)的一部分。

問題在于,目前的LLM代理雖然具備強(qiáng)大的推理能力,卻在任務(wù)執(zhí)行效率上存在明顯瓶頸

為了解決這個(gè)問題,現(xiàn)在,西湖大學(xué)AGI實(shí)驗(yàn)室張馳團(tuán)隊(duì)推出了AppAgentX——一款具備自我進(jìn)化能力的GUI代理。它能夠在不斷執(zhí)行任務(wù)的過程中學(xué)習(xí)并優(yōu)化自身的行為模式,實(shí)現(xiàn)更加高效的操作。

AppAgentX的核心創(chuàng)新在于:

  • 自動(dòng)歸納高效操作模式:代理能夠在執(zhí)行任務(wù)時(shí),檢測(cè)重復(fù)性操作模式,并自動(dòng)總結(jié)成更高級(jí)別的“一鍵”操作。
  • 任務(wù)執(zhí)行更快,減少重復(fù)計(jì)算:傳統(tǒng)的LLM代理每次執(zhí)行任務(wù)都需要重新思考操作流程,而AppAgentX能夠記住并復(fù)用執(zhí)行策略,從而避免重復(fù)推理,使得任務(wù)執(zhí)行更加流暢高效。
  • 完全基于視覺操作,適用于各種軟件:傳統(tǒng)自動(dòng)化方法通常需要訪問后端API,而AppAgentX僅依賴屏幕視覺信息進(jìn)行操作,無需后端訪問,因此能夠在不同軟件、不同設(shè)備上通用,真正做到“即插即用”。

AppAgentX:讓智能體學(xué)會(huì)“進(jìn)化”

過去,計(jì)算機(jī)的自動(dòng)化操作主要依賴RPA(機(jī)器人流程自動(dòng)化),通過預(yù)設(shè)規(guī)則或API進(jìn)行固定任務(wù)的執(zhí)行。然而,這種方式需要大量手動(dòng)配置,缺乏靈活性。

GUI代理的出現(xiàn),改變了這一局面,被譽(yù)為軟件世界中的具身智能。

GUI代理不依賴后端API,而是像人類一樣,通過屏幕視覺、鼠標(biāo)和鍵盤直接操作軟件界面。這意味著,智能體可以自主學(xué)習(xí)如何操作各種應(yīng)用程序,甚至能夠在不同軟件之間切換,執(zhí)行復(fù)雜的跨應(yīng)用任務(wù)。例如:

  • 辦公場(chǎng)景:自動(dòng)整理文檔、批量發(fā)送郵件
  • 娛樂與創(chuàng)作:使用Photoshop處理圖像、生成視頻內(nèi)容
  • 自動(dòng)化操作:批量錄入數(shù)據(jù)、自動(dòng)處理訂單
  • 跨應(yīng)用任務(wù):從網(wǎng)頁爬取信息后填入Excel、在多個(gè)軟件之間進(jìn)行聯(lián)動(dòng)操作

正因如此,GUI代理被視為智能助手、數(shù)字員工、自動(dòng)化測(cè)試等領(lǐng)域的下一代解決方案,但現(xiàn)階段的挑戰(zhàn)也很突出:現(xiàn)有的智能體聰明但不夠高效。

現(xiàn)有的LLM代理通常采用逐步推理(Step-by-step Reasoning)的方式,即每次執(zhí)行操作前,模型都要推理下一步動(dòng)作。例如,在進(jìn)行網(wǎng)頁搜索時(shí),它可能會(huì)這樣決策:

  1. 識(shí)別需要搜索的信息;
  2. 點(diǎn)擊搜索框;
  3. 輸入關(guān)鍵詞;
  4. 點(diǎn)擊搜索按鈕。

這種方式賦予了智能體極強(qiáng)的泛化能力,使其能夠適應(yīng)新任務(wù)場(chǎng)景,但也帶來了執(zhí)行低效、重復(fù)計(jì)算嚴(yán)重的問題。

AppAgentX解決這一痛點(diǎn)的核心思路,是讓智能體學(xué)會(huì)“進(jìn)化”。

下面是一個(gè)AppAgentX執(zhí)行播放音樂的一個(gè)例子示意圖,當(dāng)找到了“一鍵”操作,就不需要每一步都耗費(fèi)大量時(shí)間思考下一步需要做什么,從而快速完成任務(wù)。

圖片

這里可以看出智能體進(jìn)化出一個(gè)高級(jí)操作“搜索”,它取代了一系列低效的低級(jí)操作。這種進(jìn)化避免了重復(fù)耗時(shí)的逐步推理,顯著提高了代理的效率。   

△AppAgentX的功能示意圖

方法介紹

圖片

任務(wù)軌跡的分解

在執(zhí)行任務(wù)時(shí),AppAgentX會(huì)將整個(gè)過程分解成多個(gè)重疊的三元組(即由三個(gè)部分組成的組合)。這些三元組包含了頁面內(nèi)容和用戶界面(UI)元素的功能描述。

具體來說,智能體會(huì):

  • 生成功能描述:利用大語言模型(LLM),為每個(gè)頁面和界面元素生成詳細(xì)的功能描述。這些描述幫助智能體理解每個(gè)部分的作用。
  • 合并重復(fù)描述:如果某些頁面的描述是重復(fù)生成的,智能體會(huì)將這些描述合并,以減少冗余信息。
  • 記錄交互歷史:整個(gè)交互過程會(huì)被記錄成一個(gè)節(jié)點(diǎn)鏈,形成一個(gè)完整的操作歷史,便于后續(xù)調(diào)用。

進(jìn)化機(jī)制與執(zhí)行過程

在任務(wù)執(zhí)行過程中,AppAgentX還引入了一種進(jìn)化機(jī)制,使得智能體能夠更高效地執(zhí)行操作。這個(gè)機(jī)制的核心在于生成“捷徑節(jié)點(diǎn)”,允許智能體在執(zhí)行一系列操作時(shí),跳過逐步推理的過程。具體步驟如下:

  • 生成捷徑節(jié)點(diǎn):當(dāng)智能體識(shí)別到某些操作具有固定的執(zhí)行順序時(shí),它會(huì)創(chuàng)建捷徑節(jié)點(diǎn)。這些節(jié)點(diǎn)將多個(gè)底層操作整合為一個(gè)更高級(jí)的動(dòng)作。
  • 高效執(zhí)行:通過調(diào)用這些捷徑節(jié)點(diǎn),智能體可以快速執(zhí)行一系列操作,而無需逐步推理每一步。這大大提高了任務(wù)執(zhí)行的效率。

圖片

從實(shí)驗(yàn)結(jié)果來看,AppAgentX從單步的執(zhí)行效率到總體的API token消耗,在多個(gè)GUI交互任務(wù)上展現(xiàn)出了顯著的“降本增效”。

總體來說,AppAgentX作為一項(xiàng)創(chuàng)新的移動(dòng)終端交互技術(shù),通過構(gòu)建鏈?zhǔn)街R(shí)存儲(chǔ)架構(gòu)與動(dòng)態(tài)匹配執(zhí)行機(jī)制,在保持大型語言模型代理靈活性的同時(shí)顯著提升執(zhí)行效能,實(shí)現(xiàn)了無需后端訪問的圖形界面智能操作系統(tǒng)。

該技術(shù)突破性地解決了傳統(tǒng)智能體在響應(yīng)速度與認(rèn)知能力間的平衡難題,為移動(dòng)端AI應(yīng)用開辟了新的技術(shù)路徑。此項(xiàng)研究不僅標(biāo)志著智能體技術(shù)在效率與智能動(dòng)態(tài)平衡方面取得重要突破,更為人機(jī)交互領(lǐng)域提供了可擴(kuò)展的技術(shù)范式。

項(xiàng)目地址:https://appagentx.github.io/
Github地址:https://github.com/Westlake-AGI-Lab/AppAgentX
Arxiv地址:https://arxiv.org/abs/2503.02268

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-03-10 12:09:37

2024-07-25 12:35:33

2024-07-29 07:04:00

大模型AI訓(xùn)AI人工智能

2021-12-23 23:04:54

手機(jī)蘋果國產(chǎn)

2013-08-02 10:14:53

移動(dòng)OS進(jìn)化定制ROM移動(dòng)市場(chǎng)

2024-09-09 10:20:00

AI模型

2024-06-13 09:20:26

2021-11-14 22:04:55

iPhone安卓手機(jī)

2021-03-03 11:13:30

APP手機(jī)打車軟件

2021-10-15 21:16:00

手機(jī)內(nèi)存漏洞

2021-09-30 22:37:01

手機(jī)內(nèi)存技術(shù)

2018-10-09 15:21:09

路由器定期重啟

2018-05-05 08:54:24

2021-04-15 13:48:08

視頻監(jiān)控視頻分析智能安防

2009-11-26 10:15:00

IT職場(chǎng)

2021-12-01 15:50:12

手機(jī)廠商處理器

2021-05-09 22:34:38

手機(jī)蘋果卡頓

2021-03-15 10:31:48

手機(jī)安卓蘋果

2021-08-03 11:09:41

智能手機(jī)功能技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)