自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

阿里PC-Agent重構(gòu)人機(jī)交互,精準(zhǔn)拆解跨應(yīng)用指令,自動(dòng)化辦公更進(jìn)一步

人工智能 新聞
近期,基于多模態(tài)大模型(MLLM)構(gòu)建GUI智能體以實(shí)現(xiàn)智能設(shè)備上(如手機(jī)、PC)的任務(wù)自動(dòng)化,受到了廣泛的關(guān)注。

面向復(fù)雜PC任務(wù)的多模態(tài)智能體框架PC-Agent,來(lái)自阿里通義實(shí)驗(yàn)室。

從Office到瀏覽器,跨APP工作流都可以交給AI來(lái)完成了。

圖片

指令1(翻譯):在記事本應(yīng)用程序中,打開(kāi)“文檔”中的“備忘錄”文件,查看上午的第二項(xiàng)活動(dòng)。在時(shí)鐘應(yīng)用程序中,在該活動(dòng)開(kāi)始前1小時(shí)設(shè)置鬧鐘。

指令2(翻譯):在文件資源管理器中,打開(kāi)“文檔”中的“旅行計(jì)劃”文件,查看旅行計(jì)劃的目的地。將旅行目的地添加到時(shí)鐘應(yīng)用程序的世界時(shí)鐘列表中。在Chrome瀏覽器上搜索從北京到旅行目的地的航班時(shí)間。

指令3(翻譯):在Chrome瀏覽器中分別搜索英偉達(dá)(Nvidia)和蘋果(Apple)的當(dāng)前股價(jià)。在Excel中打開(kāi)“stock_prices”文件,將公司名稱寫(xiě)入A列,相應(yīng)的股價(jià)寫(xiě)入B列。

指令4(翻譯):在Outlook中讀取發(fā)給豪伊的主題為“旅行”的已讀郵件,記錄行程的出發(fā)地、目的地和出發(fā)日期。在Chrome瀏覽器上的booking.com網(wǎng)站搜索單程機(jī)票。

指令5(翻譯):在文件資源管理器中打開(kāi)“文檔”文件夾里的“test_doc1”文件,在Word中將標(biāo)題設(shè)為加粗,并將前兩段的行距設(shè)為1.5倍。

近期,基于多模態(tài)大模型(MLLM)構(gòu)建GUI智能體以實(shí)現(xiàn)智能設(shè)備上(如手機(jī)、PC)的任務(wù)自動(dòng)化,受到了廣泛的關(guān)注。

如下圖所示,與手機(jī)相比,PC場(chǎng)景的復(fù)雜性體現(xiàn)在兩方面:

一是PC的圖形界面包含了更密集多樣的可交互元素,以及不同布局的文本,給細(xì)粒度感知帶來(lái)了挑戰(zhàn);二是PC常用于生產(chǎn)力場(chǎng)景,涉及更多復(fù)雜的App內(nèi)及跨App工作流,因此包含更復(fù)雜的任務(wù)序列。

現(xiàn)有工作如UFO、Agent-S等,對(duì)文本的精細(xì)感知和操作能力不足,并且忽視了子任務(wù)之間的復(fù)雜依賴,因此在復(fù)雜PC任務(wù)上存在局限性。

圖片

針對(duì)這一問(wèn)題,阿里通義實(shí)驗(yàn)室的研究人員提出面向復(fù)雜PC任務(wù)的多模態(tài)智能體框架PC-Agent:

(1)設(shè)計(jì)主動(dòng)感知模塊(APM)實(shí)現(xiàn)對(duì)屏幕內(nèi)容的精細(xì)感知和操作;

(2)提出層次化多智能體協(xié)作結(jié)構(gòu),將復(fù)雜指令分解為指令-子任務(wù)-動(dòng)作3個(gè)層次,并在相應(yīng)層次設(shè)置Manager、Progress、Decision及Reflection智能體,實(shí)現(xiàn)對(duì)復(fù)雜指令自上而下的難度分解,以及自下而上的精確反饋。

為了更好地評(píng)估智能體在復(fù)雜PC任務(wù)上的表現(xiàn),作者還構(gòu)建了一個(gè)涉及8個(gè)常用PC應(yīng)用的復(fù)雜指令集,實(shí)驗(yàn)評(píng)估發(fā)現(xiàn),所提出的PC-Agent框架在復(fù)雜任務(wù)上的表現(xiàn)顯著超越已有方法。

主動(dòng)感知模塊APM

對(duì)于可交互元素,通過(guò)提取屏幕的accessibility tree來(lái)獲取其位置及功能描述信息。對(duì)于文本信息,當(dāng)決策智能體觸發(fā)Select (目標(biāo)文本)動(dòng)作時(shí),主動(dòng)感知模塊通過(guò)基于MLLM的意圖理解模塊提取目標(biāo)文本的起止范圍,然后利用OCR工具進(jìn)行精確定位及后續(xù)精細(xì)操作。

圖片主動(dòng)感知模塊示意圖

層次化多智能體協(xié)作

PC-Agent將復(fù)雜指令的執(zhí)行分解為3個(gè)層次:指令-子任務(wù)-動(dòng)作。

(1)在指令層次,設(shè)置Manager智能體負(fù)責(zé)將復(fù)雜指令拆分為子任務(wù),以及進(jìn)行跨子任務(wù)通信。如上圖所示,復(fù)雜指令的子任務(wù)之間往往相互依賴,部分子任務(wù)需要前序子任務(wù)的執(zhí)行結(jié)果才能實(shí)例化為一個(gè)可獨(dú)立執(zhí)行的子任務(wù)。設(shè)置Manager智能體,有助于處理子任務(wù)之間復(fù)雜的依賴關(guān)系,并有效降低單一子任務(wù)的決策難度。

(2)在子任務(wù)層次,設(shè)置Progress智能體,負(fù)責(zé)跟蹤和總結(jié)子任務(wù)的執(zhí)行進(jìn)度,從而實(shí)現(xiàn)更精確的進(jìn)度感知,并避免冗長(zhǎng)模糊的操作歷史干擾決策。

(3)在動(dòng)作層次,設(shè)置Decision智能體和Reflection智能體。對(duì)于當(dāng)前子任務(wù)的每個(gè)步驟,Decision智能體通過(guò)感知模塊觀察屏幕,并結(jié)合Progress智能體輸出的進(jìn)度信息和Reflection智能體輸出的反思信息,生成當(dāng)前步驟的操作決策。Reflection智能體則根據(jù)每個(gè)步驟操作前后屏幕的變化,判斷該步驟是否達(dá)到了預(yù)期的效果,并將可能出現(xiàn)的異常情況反饋給Progress和Decision智能體。

圖片PC-Agent框架示意圖

PC-Eval指令集

由于現(xiàn)有基于真實(shí)PC環(huán)境的動(dòng)態(tài)評(píng)測(cè)數(shù)據(jù)集(如WindowsAgentArena)主要由相對(duì)基礎(chǔ)的指令構(gòu)成,為了更好地評(píng)估智能體在實(shí)際場(chǎng)景復(fù)雜指令的表現(xiàn),作者提出了一個(gè)新的評(píng)測(cè)指令集PC-Eval,包含涉及8個(gè)常用PC應(yīng)用的25條復(fù)雜用戶指令。

每條指令由若干具有依賴關(guān)系的子任務(wù)構(gòu)成,強(qiáng)調(diào)精細(xì)化操作及長(zhǎng)程決策,并與現(xiàn)實(shí)場(chǎng)景工作流相對(duì)應(yīng)。下表列舉了部分指令的示例。

圖片

實(shí)驗(yàn)結(jié)果

現(xiàn)有基于先進(jìn)MLLM(如GPT-4o、Claude-3.5)的單智能體方法,幾乎無(wú)法完成任何復(fù)雜指令,驗(yàn)證了PC復(fù)雜場(chǎng)景在感知、決策方面極具挑戰(zhàn)性。此外,對(duì)比分析現(xiàn)有的開(kāi)源多智能體方法UFO及Agent-S的測(cè)試結(jié)果,可以發(fā)現(xiàn):

(1)現(xiàn)有方法的精細(xì)感知和操作能力較弱,例如UFO在Excel表格場(chǎng)景會(huì)將多個(gè)信息重復(fù)填入同一單元格,而UFO和Agent-S均無(wú)法執(zhí)行Word文檔的編輯操作。

(2)現(xiàn)有方法無(wú)法有效處理子任務(wù)間復(fù)雜的依賴,例如對(duì)于“打開(kāi)文檔A,翻譯其內(nèi)容,新建文檔B,將文檔A內(nèi)容的翻譯寫(xiě)在文檔B中”這樣的指令,Agent-S會(huì)在新建的文檔中寫(xiě)下“The translation of the content”這句話,而非實(shí)際的翻譯內(nèi)容。

(3)相比之下,主動(dòng)感知模塊使得PC-Agent具備精細(xì)感知與操作能力,層次化多智能體協(xié)作也實(shí)現(xiàn)了有效的指令拆解、子任務(wù)間通信、進(jìn)度感知以及錯(cuò)誤反饋,從而顯著提升了PC-Agent在復(fù)雜任務(wù)上的性能表現(xiàn)。

圖片

樣例展示

圖片

搜索多項(xiàng)信息并編輯Excel表格的操作序列

圖片

Reflection智能體發(fā)現(xiàn)無(wú)效操作并反饋給Decision智能體

圖片

Word文檔中的居中、添加下劃線等編輯操作

論文鏈接:https://arxiv.org/pdf/2502.14282

代碼鏈接:https://github.com/X-PLUG/MobileAgent/tree/main/PC-Agent

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2010-03-15 09:40:19

Windows 8研發(fā)

2009-03-31 11:12:59

萬(wàn)兆以太網(wǎng)

2020-09-22 10:49:12

大數(shù)據(jù)旅游技術(shù)

2014-11-28 13:37:30

DCN無(wú)線

2021-04-27 11:20:20

機(jī)器學(xué)習(xí)骨科醫(yī)療

2023-04-12 16:12:09

2011-08-02 14:31:16

激光打印機(jī)用戶體驗(yàn)

2014-11-13 15:54:23

Imperva亞馬遜

2021-01-29 17:57:32

存儲(chǔ)

2016-09-07 15:38:13

綠色數(shù)據(jù)中心能源消耗

2015-05-27 14:38:14

戴爾云計(jì)算

2022-07-27 22:15:20

HarmonyOS鴻蒙鴻蒙系統(tǒng)

2013-08-29 10:16:39

企業(yè)管理社交化云之家

2011-09-16 11:38:34

AVGQQ電腦管家

2023-12-18 13:06:25

腦機(jī)接口AI

2021-05-31 20:28:11

AI

2017-12-27 10:40:13

UnixLinux習(xí)慣

2020-07-05 07:56:58

Python語(yǔ)言開(kāi)發(fā)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)