自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

突破數(shù)據(jù)瓶頸!交大研發(fā)電腦智能體,讓 AI 替你熬夜做 PPT

人工智能 新聞
他們提出認知遷移的方法,通過高效收集人類認知軌跡,打造(訓練,非 API 調(diào)用)了能夠像人類一樣閱讀電腦屏幕,精準操控鍵盤鼠標,執(zhí)行長達數(shù)十步、跨軟件的復雜生產(chǎn)任務(wù)的 PC Agent,標志著 AI 真正為人類減負的重要一步!

本文共同第一作者為上海交通大學 ACM 班的三年級本科生何彥衡,金嘉禾,兩人均為 GAIR 實驗室成員,指導老師為劉鵬飛副教授。上海交通大學生成式人工智能實驗室 (GAIR Lab)的主要研究方向為:大模型的復雜推理,大模型預訓練中的數(shù)據(jù)工程,多模態(tài)大模型,以及智能體。實驗室主頁:https://plms.ai/

想象這樣一個場景:深夜 11 點,你已經(jīng)忙碌了一天,正準備休息,卻想起明天早上還得分享一篇經(jīng)典論文《Attention Is All You Need》,需要準備幻燈片。這時,你突然想到了自己的 AI 助手 —— PC Agent。你告訴它演講的要點以及 PPT 要保存的地方,然后就安心睡去。第二天醒來,一份內(nèi)容完備、制作精美的 PPT 已經(jīng)在電腦中準備妥當。

這個聽起來如同科幻的場景,已經(jīng)被上海交通大學 GAIR 實驗室的研究者們變成了現(xiàn)實!他們提出認知遷移的方法,通過高效收集人類認知軌跡,打造(訓練,非 API 調(diào)用)了能夠像人類一樣閱讀電腦屏幕,精準操控鍵盤鼠標,執(zhí)行長達數(shù)十步、跨軟件的復雜生產(chǎn)任務(wù)的 PC Agent,標志著 AI 真正為人類減負的重要一步!

Sam Altman 說,比起讓智能體「訂一家餐廳」,真正有趣的是讓它「咨詢 300 家餐廳」來找到最符合的口味。這樣大量重復性的工作,對 PC Agent 而言也不在話下。比如,它可以一口氣為多位圖靈獎得主分別制作海報:

圖片

此外,PC Agent 也能輕松對標類似 Claude 3.5 Sonnet 的演示任務(wù) —— 展現(xiàn) “AI 調(diào)用 AI” 完成工作的巧妙設(shè)計。視頻展示了它如何為自己創(chuàng)造一個網(wǎng)站:

圖片

  • 論文標題:PC Agent: While You Sleep, AI Works - A Cognitive Journey into Digital World
  • 論文地址:https://arxiv.org/pdf/2412.17589
  • 代碼地址:https://github.com/GAIR-NLP/PC-Agent

我們需要真正能為人類減負的智能體

數(shù)字智能體的革命性時刻

近期,Claude 3.5 Sonnet 的升級吸引了整個領(lǐng)域的目光。與 Siri 等依賴后端 API 調(diào)用的傳統(tǒng)智能助手不同,它能根據(jù)用戶指令,像人一樣操控電腦,解讀計算機屏幕,執(zhí)行鍵盤鼠標操作。這種擬人的 GUI 前端交互模式具有高度通用性,賦予 AI 幾乎無限的可能。

圖片

兩年以來,隨著大語言模型的突破性進展,AI 已經(jīng)實現(xiàn)了一個又一個里程碑,但依然局限于對話窗口,而無法邁入真實世界工作。我們需要讓智能體切實減輕人類的負擔,邁向 OpenAI 通往 AGI 五級目標中的第三級。

圖片

關(guān)鍵性挑戰(zhàn)

然而,當下智能體的電腦使用能力依然遠遜色于人類,并未達到真正能為人類減負的水平,對開源社區(qū)來說更是如此。團隊指出了兩個關(guān)鍵的技術(shù)挑戰(zhàn):深度的電腦理解認知與精準的視覺定位能力。

1. 視覺定位:GUI 交互的基礎(chǔ)

為了像人類一樣使用電腦,智能體需要能為鼠標操作輸出精確的坐標,視覺定位 —— 即精準定位元素(如 “最小化” 按鈕)位置的能力,成為了 GUI 交互的基礎(chǔ)。

然而,目前絕大多數(shù)的視覺語言模型,包括最先進的 GPT-4o,仍缺乏這一基本能力。近期有些研究試圖通過在大規(guī)模 GUI 視覺定位數(shù)據(jù)集上微調(diào)模型來解決此問題,但這種辦法往往犧牲了模型的通用能力。

2. 認知理解:勝任復雜任務(wù)的關(guān)鍵

即使具備了基礎(chǔ)的視覺定位能力,當前模型依然無法勝任真正復雜的任務(wù)。團隊認為,關(guān)鍵在于模型缺乏對電腦使用的認知理解。這體現(xiàn)在兩個方面:

?缺乏細粒度的電腦操作知識

例如,為了在 PowerPoint 中添加標題,需要先點擊文本框再輸入。這對人類來講非常直觀,卻能難倒目前的智能體。細粒度電腦操作知識的缺乏要求我們從人類認知的角度補充訓練數(shù)據(jù),因為 GUI 是為人類而設(shè)計的。

?缺乏智能體導向的訓練

現(xiàn)有大語言模型展現(xiàn)出強大的能力,但未能完美勝任智能體工作流的需求,包括在長過程中充分關(guān)注上下文,根據(jù)變化的環(huán)境做出決策,并根據(jù)反饋調(diào)整策略。雖然提示工程可以在一定程度上彌補這一差距,但實現(xiàn)真正強大的智能體還需要專門的訓練。

認知遷移 (Congition Transfer) 

AI 從對話窗口到數(shù)字世界的關(guān)鍵道路

面對認知理解的挑戰(zhàn),團隊提出人類認知遷移的方法,包括首個高效采集大規(guī)模人機交互數(shù)據(jù)的輕量級工具和從原始交互數(shù)據(jù)重建背后人類認知的完整流水線。通過開源相關(guān)代碼,團隊希望加速整個社區(qū)對數(shù)字智能體的研究進展。

具體來說,他們 1)首先采集人類使用電腦的原始操作軌跡,2)然后使用大模型重建無法被采集的人類認知 ,最終得到包含人類認知的交互軌跡(Cognitive trajectory)。通過模仿學習人類認知軌跡,AI 不僅能夠模仿具體的動作,還能學習動作背后人類對電腦使用的認知理解。

初步實驗表明,僅在 133 條認知軌跡數(shù)據(jù)上訓練,PC Agent 就能夠?qū)W會執(zhí)行高達 50 步的復雜任務(wù),極大證明了人類認知遷移方法的高效性。

圖片

一、首個高效采集大規(guī)模人機交互數(shù)據(jù)的輕量級工具

團隊破解了一個阻礙智能體發(fā)展的關(guān)鍵瓶頸:訓練數(shù)據(jù)的稀缺。他們開發(fā)了首個高效采集人機交互數(shù)據(jù)的輕量級工具 —— PC Tracker,旨在通過大規(guī)模收集真實人類動作軌跡來應對這一數(shù)據(jù)挑戰(zhàn)。

類似于屏幕錄制,PC Tracker 在后臺運行,通過監(jiān)控鍵盤和鼠標的活動來記錄用戶動作,同時捕捉屏幕截圖以記錄狀態(tài)觀察。

下面是 PC Tracker 采集的軌跡的示例:在桌面上創(chuàng)建一個標題為 “Hello,world” 的幻燈片。

圖片

具體而言,PC Tracker 具備以下關(guān)鍵特性:

圖片

1. 輕量級數(shù)據(jù)采集

不同于冗余的錄屏方案,PC Tracker 僅捕捉關(guān)鍵事件 —— 僅當用戶動作發(fā)生時,才會觸發(fā)記錄,從而減小存儲開銷。

2. 無損用戶體驗

PC Tracker 在后臺運行,在持續(xù)記錄的同時不會影響用戶體驗。軟件不會記錄可訪問樹,因為爬取過程會引入明顯的延遲,干擾用戶操作。而且隨著視覺語言模型的發(fā)展,團隊認為可訪問樹信息對未來模型不再必要。

3. 大規(guī)模數(shù)據(jù)采集

輕量級采集與無損用戶體驗的設(shè)計確保了大規(guī)模長期部署的可行性,使得 PC Tracker 支持無限規(guī)模的人機交互數(shù)據(jù)收集。團隊統(tǒng)計表明,一小時的電腦使用即可產(chǎn)生約 2000 個事件,展現(xiàn)出巨大的數(shù)據(jù)潛力。

4. 統(tǒng)一動作空間

PC Tracker 支持一個為 AI 設(shè)計的統(tǒng)一動作空間,人類原始的離散鍵鼠操作會被合并封裝成如雙擊、輸入(type)等更具語義信息的動作。

5. 雙采集模式

PC Tracker 支持任務(wù)(task oriented)和無任務(wù) (non-task oriented) 兩種采集模式。無任務(wù)模式記錄用戶自由的交互軌跡,非常適合長期、大規(guī)模的數(shù)據(jù)收集;而任務(wù)模式記錄用戶完成特定任務(wù)的交互軌跡,主要用于監(jiān)督微調(diào)的數(shù)據(jù)標注。

6. 數(shù)據(jù)透明與隱私

所有記錄數(shù)據(jù)均在用戶本地存儲并提供 Markdown 可視化文件,用戶也可以在采集過程中方便控制記錄的終止以及數(shù)據(jù)的丟棄,以確保隱私。

二、從原始交互數(shù)據(jù)重建認知軌跡

人類行為是大腦認知活動的外在投射。在使用電腦時,我們的腦中經(jīng)歷了自然的認知活動過程,包括對歷史進展和當前狀態(tài)的分析,作出下一步?jīng)Q策的推理等。這一思考過程蘊含了人類對電腦使用的認知,但大腦活動無法被直接記錄。為此,團隊利用大模型分兩階段對軌跡數(shù)據(jù)進行認知重建:

1. 動作語義重建 

原始點擊動作僅包括數(shù)值坐標位置,與其他動作(如鍵盤輸入)相比缺乏直接的語義信息,因此首先進行的處理是點擊動作的語義信息重建。具體而言,這一步為點擊的目標生成了自然語言描述,如下圖所示為點擊位置 (717, 387) 生成描述 “TripAdvisor 網(wǎng)站上方中部的搜索框”。

圖片

2. 思考過程重建

利用軌跡數(shù)據(jù)中的上下文信息和補全的動作語義,團隊迭代提示大模型生成每步動作背后的思考過程。如圖所示,人類動作 “點擊 TripAdvisor 網(wǎng)站上方中部的搜索框” 背后的思考過程被成功重建:我想要找埃菲爾鐵塔的高分餐廳,雖然已經(jīng)查看了關(guān)于 “埃菲爾鐵塔餐廳” 的信息,但需要擴大搜索范圍。通過點擊搜索框,我可以輸入一個更廣泛的查詢......”

三、構(gòu)建能夠完成復雜任務(wù)的數(shù)字智能體

基于對當前智能體面臨的主要挑戰(zhàn)(視覺定位與認知理解)的深刻理解,團隊分別提出解決方案,打造了一個能夠完成真正復雜任務(wù)的 PC Agent:

1. 以認知軌跡訓練規(guī)劃智能體

使用 PC Tracker 采集并重建認知后得到的認知軌跡,是訓練智能體的高質(zhì)量數(shù)據(jù)。團隊選擇了 PPT 制作(包括上網(wǎng)收集資源)這一綜合任務(wù)作為初步實驗場景,僅在 133 條認知軌跡上訓練以驗證其數(shù)據(jù)效率。這些軌跡分為自由(使用 Chrome 和 PowerPoint)任務(wù)與 PPT 制作任務(wù)兩類,動作數(shù)量明顯高于現(xiàn)有公開軌跡數(shù)據(jù),如下圖所示。

圖片

2. 通過自我驗證實現(xiàn)精準視覺定位

團隊發(fā)現(xiàn),Ai2 近期發(fā)布的開源通用視覺語言模型 Molmo,通過引入創(chuàng)新的指令微調(diào)數(shù)據(jù) Pixmo,展現(xiàn)了良好的視覺定位能力。因此,團隊將其作為視覺定位智能體的基礎(chǔ)模型。然而,Molmo 仍會偶爾出現(xiàn)定位偏差,而操作電腦時微小的點擊錯位也可能導致災難性后果,如不慎關(guān)閉瀏覽器 —— 當前的智能體很難從這些錯誤中恢復。

團隊提出了一種創(chuàng)新方法,進一步增強其視覺定位能力,幾乎能達到人類的完美水平:Molmo 可以借助來自系統(tǒng)接口的外部反饋,自我驗證其視覺定位的準確性。如下圖所示,定位智能體會先根據(jù)點擊目標描述生成一個初步的坐標,然后從系統(tǒng)接口中獲取該坐標對應的元素信息,判斷是否與目標描述匹配。如不匹配,定位過程將重新進行。

圖片

3. 多智能體協(xié)作

在 PC Agent 的初步實現(xiàn)中,為了更好的利用現(xiàn)有模型的能力,團隊采用了一個多智能體架構(gòu)。其中,規(guī)劃智能體負責動作決策,視覺定位智能體負責點擊動作執(zhí)行。值得指出的是,此系統(tǒng)完全基于開源模型構(gòu)建。

具體來說,兩個智能體如此協(xié)作:規(guī)劃智能體首先分析任務(wù)并觀察狀態(tài),以作出動作決策。非點擊相關(guān)動作將被直接執(zhí)行,而對于點擊相關(guān)動作,規(guī)劃智能體生成的點擊目標描述將被轉(zhuǎn)發(fā)給視覺定位智能體,由其生成具體坐標。如果它發(fā)現(xiàn)目標在屏幕上不存在,將提示規(guī)劃智能體重新決策。具體的動作執(zhí)行將調(diào)用 pyautogui 函數(shù)完成。下圖為一個協(xié)作的示例。

圖片

結(jié)論與展望

團隊提出了一種創(chuàng)新的認知遷移框架,包括首個高效采集人機交互數(shù)據(jù)的工具 PC Tracker 和完整的認知重建過程,并初步驗證了方法的高效性。PC Agent 在 PPT 制作場景下展示了執(zhí)行復雜長程任務(wù)的能力,標志 AI 真正為人類減負邁出的重要一步。

展望未來,團隊確定了幾個重要的研究方向:

1. 大規(guī)模泛化實驗:盡管已在有限的訓練數(shù)據(jù)下初步實驗,但泛化能力的驗證仍需跨軟件和跨任務(wù)的更大規(guī)模實驗。

2. 長程規(guī)劃與魯棒性:OpenAI o1 所展現(xiàn)的推理與自我糾錯能力,為在長序列中實現(xiàn)魯棒操作提供了有力支撐。在面對復雜任務(wù)時,如何保持行動與目標的一致性,以及如何建立更加完善的糾錯機制,仍是亟待深入討論的問題。

3. 無任務(wù)數(shù)據(jù)的利用:PC Tracker 可以在不限制特定任務(wù)的情況下提供近乎無限規(guī)模的自然人機交互數(shù)據(jù),這些數(shù)據(jù)包含了豐富的人類一般操作策略與行為偏好信息,可應用于預訓練、監(jiān)督微調(diào)和強化學習等多個場景。探索有效的方法來利用這些數(shù)據(jù)是重要而有前景的方向。

4. 動作空間優(yōu)化:針對拖拽等復雜鼠標操作的特殊挑戰(zhàn),需要開發(fā)更精確的空間關(guān)系理解機制,并優(yōu)化數(shù)據(jù)收集策略。

5. 復雜任務(wù)的評估:當前對數(shù)字智能體的評估基準主要關(guān)注基礎(chǔ)任務(wù)的成功率。然而,對于像 PPT 制作這樣的真實世界復雜任務(wù),我們需要更加全面的評估框架,不僅關(guān)注任務(wù)成功率,還要考慮完成質(zhì)量、專業(yè)性等多維度指標。

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2022-01-06 22:29:35

人工智能機器人自動化

2024-12-13 14:30:00

AI模型數(shù)據(jù)

2013-01-31 09:45:14

斯坦福超級電腦百萬內(nèi)核

2024-01-22 12:31:18

模型訓練

2021-12-06 12:06:59

蘋果汽車技術(shù)

2023-02-28 17:53:20

江行智能

2021-07-13 18:57:33

人工智能AI

2013-05-22 13:06:14

aerohive協(xié)同控制WLAN

2017-10-13 11:50:17

人工智能PinoAI

2021-12-03 13:52:25

AI 數(shù)據(jù)人工智能

2017-06-23 16:06:58

2023-05-10 08:32:42

ISlidePPT插件工具

2024-11-14 18:40:57

2024-11-26 00:14:08

2014-07-22 10:32:19

2022-08-18 15:08:16

智能AI

2024-10-18 15:20:00

2025-04-22 09:47:07

點贊
收藏

51CTO技術(shù)棧公眾號