Manus 爆火,再次證明 Computer Use Agent 的潛力
2025年3月4號(hào)晚,Monica.im 發(fā)布了一款通用型 AI Agent 產(chǎn)品: Manus(https://manus.im/),從官網(wǎng)透露出的視頻來(lái)看,這是一款基于 Computer Use 實(shí)現(xiàn)的 AI Agent,特點(diǎn)在于能夠自主操作計(jì)算機(jī)完成更復(fù)雜的任務(wù),例如做 PPT,分析股票市場(chǎng)變化,整理數(shù)據(jù)等。
本文無(wú)意探討 Manus 的具體能力,畢竟咱也沒(méi)試用過(guò),沒(méi)資格評(píng)價(jià)。今天我更想聊聊它背后的技術(shù):Computer use,這個(gè)概念最早由 Anthropic 在 24年11月提出,雖然國(guó)內(nèi)討論的聲浪并不大,但這種通過(guò) LLM 自行操作計(jì)算機(jī)系統(tǒng),進(jìn)而實(shí)現(xiàn)更通用 Agent 能力的技術(shù),卻又非常大的想象空間,國(guó)外有不少?gòu)S商陸續(xù)跟進(jìn),做出了許多優(yōu)秀作品。
我認(rèn)為,Computer Use 將會(huì)成為未來(lái) AI Agent 的一種重要設(shè)計(jì)模式,因此有必要更深入理解這一概念以及背后的執(zhí)行原理。
Computer Use 是什么
24年11月,Anthropic官宣了Claude 3.5的同時(shí),也低調(diào)官宣了一個(gè)Beta版本的能力 Computer Use,目前處于公開(kāi)測(cè)試階段,這項(xiàng)功能允許 Claude 像人類一樣使用計(jì)算機(jī),具體表現(xiàn)為:用戶可以指導(dǎo) Claude 像人類一樣使用計(jì)算機(jī) —— 通過(guò)查看屏幕、移動(dòng)光標(biāo)、單擊按鈕和輸入文本,來(lái)完成各類任務(wù)。
這項(xiàng)技術(shù)旨在教會(huì)Claude通用的計(jì)算機(jī)操作技能,包括理解用戶界面內(nèi)容和執(zhí)行界面交互,而無(wú)需為每種軟件單獨(dú)開(kāi)發(fā)代理程序,這使得 Claude 模型得以實(shí)現(xiàn):
- 跨平臺(tái)界面解析:基于計(jì)算機(jī)視覺(jué)實(shí)時(shí)識(shí)別GUI元素(按鈕/輸入框/菜單欄等),準(zhǔn)確率達(dá)92%
參考:https://www.mittrchina.com/news/detail/13924?locale=zh_CN
- 擬人化操作鏈:構(gòu)建「屏幕感知→光標(biāo)定位→點(diǎn)擊/輸入→結(jié)果驗(yàn)證」的完整動(dòng)作流:
- 自適應(yīng)學(xué)習(xí)框架:通過(guò)強(qiáng)化學(xué)習(xí)動(dòng)態(tài)優(yōu)化操作路徑,處理非結(jié)構(gòu)化界面時(shí)響應(yīng)速度提升40%
- 雙向反饋機(jī)制:在執(zhí)行過(guò)程中實(shí)時(shí)捕獲屏幕變化,動(dòng)態(tài)調(diào)整操作策略
- 等等
特別適合替代人類完成一些常規(guī)計(jì)算機(jī)操作任務(wù),如端到端測(cè)試(E2E)、自動(dòng)化重復(fù)流程處理,以及將簡(jiǎn)單指令轉(zhuǎn)化為復(fù)雜計(jì)算機(jī)指令等。
Computer Use 解決了什么問(wèn)題
Computer Use 技術(shù)極具想象空間,設(shè)想一套 Agent 軟件就能將自然語(yǔ)言精確轉(zhuǎn)換為復(fù)雜的系統(tǒng)操作指令,未來(lái)工作中可能不再需要耗費(fèi)精力學(xué)習(xí)各類專業(yè)軟件(如 excel、word等)的繁瑣操作邏輯,只需以自然語(yǔ)言方式發(fā)出指令即可完成各種常見(jiàn)工作任務(wù),AI 輻射范圍將會(huì)進(jìn)一步涵蓋所有依賴計(jì)算機(jī)的工種。
也因此,多家團(tuán)隊(duì)正在積極探索推動(dòng)這一技術(shù)落地應(yīng)用:
- OpenAI 發(fā)布 Operator,可根據(jù)用戶指令操縱瀏覽器:
- Xlang Lab 發(fā)起的 Computer Agent Arena;
- 開(kāi)源 Agent browser-use,可根據(jù)用戶指令操作瀏覽器;
- 以及最近剛發(fā)布的國(guó)產(chǎn)通用 Agent :Manus
- 等等
甚至可以說(shuō),Computer Use 的設(shè)計(jì)算是對(duì)當(dāng)前 AI 系統(tǒng)工具使用范式做了一次根本性重構(gòu),過(guò)去實(shí)現(xiàn) LLM 與外部通訊手段多是集中在:function call、MCP 等技術(shù),而這類技術(shù)都需要 case by case 地針對(duì)各類具體場(chǎng)景設(shè)計(jì)實(shí)現(xiàn),而 computer use 則可以直接讀取、操作電腦,就像一個(gè)極高性能又通用的人類一樣,能夠理解各種復(fù)雜計(jì)算機(jī)界面并完成任務(wù),進(jìn)而降低 agent 的開(kāi)發(fā)成本(理論上)。
方案1:使用 VLM 模型
Computer Use Agent 重點(diǎn)在于理解計(jì)算機(jī)界面,因此通常強(qiáng)依賴于 VLM(Vision-Language Model)模型作為核心決策單元,通過(guò)多模態(tài)交互實(shí)現(xiàn)自動(dòng)化的計(jì)算機(jī)操作。流程上整體遵循感知-決策-執(zhí)行的控制范式:
大致包含三個(gè)步驟:
- 感知:采用動(dòng)態(tài)屏幕捕捉技術(shù)獲取RGB像素流,通過(guò)GPU加速實(shí)現(xiàn)≤100ms的實(shí)時(shí)幀捕獲,同步記錄界面元數(shù)據(jù)(窗口層級(jí)/控件屬性/焦點(diǎn)等);
- 決策:使用 VLM(Vision-Language Model) 實(shí)現(xiàn)界面元素檢測(cè)(Faster R-CNN)+語(yǔ)義分割(Mask R-CNN),理解屏幕截圖和用戶輸入,從而制定相應(yīng)的行為策略,例如鼠標(biāo)移動(dòng)到哪里,點(diǎn)擊哪里;在哪里輸入文本等等;
- 執(zhí)行:最后,通過(guò)系統(tǒng)級(jí)輸入驅(qū)動(dòng)來(lái)執(zhí)行相應(yīng)的操作指令;
持續(xù)執(zhí)行上述循環(huán),直到大語(yǔ)言模型(LLM)判斷任務(wù)完成、達(dá)到預(yù)設(shè)的最大操作次數(shù),或超出上下文限制為止。
這種模式的優(yōu)點(diǎn)是清晰簡(jiǎn)潔,容易理解上手。但是:對(duì)VLM本身的能力要求非常高,需要能夠可靠地識(shí)別用戶界面中的可交互圖標(biāo),以及理解屏幕截圖中各種元素的語(yǔ)義,并準(zhǔn)確地將預(yù)期作與屏幕上的相應(yīng)區(qū)域相關(guān)聯(lián),想要實(shí)現(xiàn)精確點(diǎn)擊和移動(dòng),難度很大。
方案2:基于VLM與OCR融合的增強(qiáng)型 CUA
在上述 VLM 技術(shù)的基礎(chǔ)上,我們還可以疊加 OCR 技術(shù)實(shí)現(xiàn)更精確的內(nèi)容理解與定位操作,實(shí)現(xiàn)流程:
- 截圖
- 基于視覺(jué)語(yǔ)言大模型(Vision-Language Model, VLM)+ OCR 實(shí)現(xiàn)多模態(tài)推理
[{{ "reasoning": "cognitive process here", "action_type": "click", "target_text": "target element"}}]
- 結(jié)合OCR文本定位與視覺(jué)特征,進(jìn)行坐標(biāo)映射計(jì)算
- 輸入屏幕快照與用戶指令,生成操作指令集
- 當(dāng)指令類型為指針交互時(shí),模型輸出結(jié)構(gòu)化定位請(qǐng)求:
- 通過(guò)系統(tǒng)級(jí)輸入驅(qū)動(dòng)執(zhí)行操作指令
直至LLM認(rèn)為任務(wù)完成,或者達(dá)到設(shè)定的最大行為次數(shù),或者超出上下文上限。
這個(gè)過(guò)程中,VLM作為系統(tǒng)的認(rèn)知中樞,負(fù)責(zé)跨模態(tài)信息融合相關(guān)的工作,包括視覺(jué)-語(yǔ)言對(duì)齊、指令上下文建模與推理、隱含需求推理等;而 OCR 主要負(fù)責(zé)解析界面文本信息的原子化解析,解決字形干擾、多語(yǔ)言支持、藝術(shù)字體解析等問(wèn)題,進(jìn)一步提升結(jié)果的準(zhǔn)確度。
方案3:使用 MicroSoft Omniparser V2 實(shí)現(xiàn) CUA
2025年2月,Microsoft研究院發(fā)布Omniparser V2范式轉(zhuǎn)換技術(shù),可將任意大型語(yǔ)言模型(LLM)轉(zhuǎn)化為能直接操作計(jì)算機(jī)的智能代理。它通過(guò)實(shí)時(shí)解析屏幕界面元素(如按鈕、圖標(biāo)),將其轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),使AI能理解用戶指令并執(zhí)行點(diǎn)擊、輸入等操作,無(wú)需針對(duì)特定界面微調(diào)。該技術(shù)顯著提升了處理效率(延遲降低60%)和精準(zhǔn)度(在復(fù)雜界面測(cè)試中達(dá)先進(jìn)水平),成為實(shí)現(xiàn)跨平臺(tái)、跨應(yīng)用的智能自動(dòng)化操作的核心工具。
本質(zhì)上,OmniParser 與上面提到的 VLM 與 ocr 等技術(shù)相似,只是實(shí)現(xiàn)精度、準(zhǔn)確度更高一些,整體邏輯:
- 執(zhí)行動(dòng)態(tài)屏幕狀態(tài)捕獲(ScreenState Capture)
- 通過(guò)OmniParser V2進(jìn)行多模態(tài)界面解析,輸出符合W3C ARIA標(biāo)準(zhǔn)的可交互元素元數(shù)據(jù):
- 構(gòu)建VLM推理上下文
- 調(diào)用系統(tǒng)級(jí)輸入模擬引擎執(zhí)行操作
總結(jié)
或許在未來(lái),Computer Use 這種"所見(jiàn)即所控"的模式將徹底重構(gòu)人機(jī)協(xié)作邊界,并且很可能催生新的操作系統(tǒng)范式——AI將作為原生交互層直接駕馭數(shù)字世界。
不過(guò)就當(dāng)下而言,各家產(chǎn)品都存在比較嚴(yán)重的性能問(wèn)題,交互效率并不高,可以保持觀望吧。對(duì)程序員群體而言,也應(yīng)該理解 CUA 未來(lái)可能會(huì)成為一種主流 Agent 架構(gòu),值得提前投入精力學(xué)習(xí)。