還拿不到Manus邀請(qǐng)碼?試試這幾款開箱即用的computer use智能體,附教程
我在今年1月初寫了2025年的AI Agent發(fā)展十三大趨勢(shì),其中兩個(gè)趨勢(shì)是多Agent系統(tǒng)開始流行和GUI Agent產(chǎn)品得到更多應(yīng)用,沒想到來(lái)得這么快。
推薦閱讀:???智能體商用元年開啟,2025年AI Agent行業(yè)發(fā)展十三大趨勢(shì)??
最近幾天,集多Agent架構(gòu)、computer use、GUI智能體等技術(shù)和概念于一身的Manus,通過(guò)一些媒體、科技博主的報(bào)道和渲染,在 “比肩DeepSeek” “AI Agent 的GPT時(shí)刻” 等一浪強(qiáng)過(guò)一浪的聲浪中,Manus一夜出圈。
官方資料顯示,Manus通過(guò)多Agent架構(gòu)(Multiple Agent)將任務(wù)拆分為規(guī)劃、執(zhí)行、驗(yàn)證等子模塊,每個(gè)Agent基于獨(dú)立的語(yǔ)言模型或強(qiáng)化學(xué)習(xí)模型,通過(guò)API協(xié)同工作,最終在虛擬機(jī)中調(diào)用工具(如編寫代碼、爬取數(shù)據(jù))完成任務(wù)。這些特性,是多智能體架構(gòu)的通性。
這樣的項(xiàng)目實(shí)現(xiàn),對(duì)于不懂代碼的可能很難。對(duì)于懂代碼的來(lái)說(shuō),好吧,來(lái)自知名多Agent架構(gòu)MetaGPT的3個(gè)小伙子僅用了3個(gè)小時(shí)就把Manus復(fù)現(xiàn)了。這個(gè)項(xiàng)目叫OpenManus,到這篇文章發(fā)布時(shí)已經(jīng)有16.3k stars了。Manus的出圈以及短期內(nèi)體驗(yàn),間接捧紅了這個(gè)同類型開源項(xiàng)目,潑天富貴就這樣簡(jiǎn)單地轉(zhuǎn)移了。
項(xiàng)目地址:???https://github.com/mannaandpoem/OpenManus???
當(dāng)然快速?gòu)?fù)現(xiàn)Manus的團(tuán)隊(duì)不只一個(gè),同樣是知名多Agent架構(gòu)的Camal團(tuán)隊(duì)也僅用了0天就復(fù)刻了Manus,這個(gè)項(xiàng)目叫作owl,目前也有4K stars了。
項(xiàng)目地址:https://github.com/camel-ai/owl
也就在這幾天之內(nèi),已經(jīng)出現(xiàn)了多個(gè)復(fù)刻Manus的開源項(xiàng)目。3月這才剛開始,多智能體架構(gòu)、computer use、GUI智能體的概念就徹底爆發(fā)了。
再說(shuō)回Manus。
在應(yīng)用場(chǎng)景方面,Manus覆蓋旅行規(guī)劃、股票分析、教育內(nèi)容生成等40余個(gè)領(lǐng)域。這么多場(chǎng)景任務(wù)都能實(shí)現(xiàn),再加上自主執(zhí)行的能力,當(dāng)真是媲美鋼鐵俠的“賈維斯”助手了。這樣的噱頭,想不吸引人都難。
所以,其核心賣點(diǎn)在放在了“自主執(zhí)行”能力上與場(chǎng)景通用上。
Manus的核心架構(gòu)與Anthropic的“Computer Use”高度相似,依賴多Agent虛擬機(jī)環(huán)境完成任務(wù)?!白灾饕?guī)劃”能力則基于現(xiàn)有大語(yǔ)言模型(如GPT-4)的調(diào)用,很有可能在任務(wù)規(guī)劃模型上也用了DeepSeek,可以大大降低成本。
因?yàn)镸anus沒有自研基礎(chǔ)大模型,而是通過(guò)整合OpenAI的GPT-4、Anthropic 的Claude等第三方模型實(shí)現(xiàn)功能,其核心架構(gòu)被定義為「虛擬機(jī)+多模型協(xié)同」的封裝模式?。這種做法,也就是業(yè)界所謂的“套殼”。
有業(yè)內(nèi)人士直言,Manus的核心能力,如任務(wù)拆解其實(shí)與Devin、Cursor等現(xiàn)有產(chǎn)品相似,其創(chuàng)新更多體現(xiàn)在工程封裝而非底層技術(shù)突破。
Manus號(hào)稱全球首款通用AI Agent,對(duì)于此只能說(shuō)智者見智了。通用AI Agent意味著多場(chǎng)景匹配、跨場(chǎng)景應(yīng)用 多智能體協(xié)作乃至跨平臺(tái)應(yīng)用,背后需要強(qiáng)大算力和穩(wěn)定網(wǎng)絡(luò)的支撐,需要多重模型的綜合應(yīng)用,更需要對(duì)高并發(fā)支持。
LLM Based Agent,性能和功能取決于LLM的能力,理論上當(dāng)前的大語(yǔ)言模型可以支撐通用AI Agent實(shí)現(xiàn),但在任務(wù)執(zhí)行時(shí)間 任務(wù)完成度上對(duì)用戶體驗(yàn)是很大的考驗(yàn),一個(gè)復(fù)雜的任務(wù)可能會(huì)需要很長(zhǎng)時(shí)間,一些用戶的體驗(yàn)記錄也證實(shí)了這一點(diǎn)。
更長(zhǎng)的任務(wù)執(zhí)行時(shí)間,意味著更多token的消耗。面對(duì)一個(gè)動(dòng)輒需要數(shù)十分鐘才能完成任務(wù),token消耗會(huì)是一個(gè)無(wú)底洞,也就意味著更高的成本,這樣的性價(jià)比估計(jì)也只有特殊需求的企業(yè)能考慮了。至于有些視頻說(shuō)的提交了任務(wù)明天等著任務(wù)完成,不怕燒錢的用戶當(dāng)然也是沒問(wèn)題的。
性價(jià)比與成效比,決定了很多大廠至今也沒有打出通用AI Agent的旗號(hào),還是主要在攻擊垂直智能體,這也是近幾年智能體的主要發(fā)展方向。 讓人有些不爽的是,一邊轟轟烈烈的宣傳,一邊卻疑似卻搞起了饑餓營(yíng)銷?,F(xiàn)在,邀請(qǐng)碼仍一碼難求,當(dāng)然也給了很多人炒作邀請(qǐng)碼的機(jī)會(huì),商機(jī)無(wú)處不在。
邀請(qǐng)碼一碼難求的原因,或許是申請(qǐng)的人太多,也有可能是根本不想放碼。不放邀請(qǐng)碼的好處是體驗(yàn)的人少負(fù)面評(píng)論少挨罵就少,壞處是因?yàn)榇蠹殷w驗(yàn)不到挨罵也不少。據(jù)說(shuō),就連一些力捧Mannus的AI大V和公知也有塌房的風(fēng)險(xiǎn)。
當(dāng)然更有可能是官方目前購(gòu)買的算力無(wú)法支撐這么多人同時(shí)體驗(yàn),畢竟高并發(fā)需要大算力和強(qiáng)網(wǎng)絡(luò)。
不過(guò)也沒有關(guān)系,既然還拿不到邀請(qǐng)碼體驗(yàn)不了Manus,我們可以體驗(yàn)幾個(gè)同類產(chǎn)品和項(xiàng)目。這里,王吉偉頻道就為大家介紹幾款computer use、GUI的開源項(xiàng)目。除了最后一個(gè),都是開箱即用的。
1、Goole AI Studio
Google AI Studio 是一個(gè)集成了多種 AI 功能且易于使用的 AI 開發(fā)平臺(tái),專注于簡(jiǎn)化 AI 模型的創(chuàng)建、優(yōu)化和部署流程。它旨在降低 AI 開發(fā)的門檻,使開發(fā)者無(wú)需深厚的機(jī)器學(xué)習(xí)背景也能快速上手,同時(shí)為專業(yè)開發(fā)者提供強(qiáng)大的工具支持,以滿足復(fù)雜項(xiàng)目的需求,快速實(shí)現(xiàn) AI 驅(qū)動(dòng)的創(chuàng)新項(xiàng)目。
想要在Google AI Studio體驗(yàn)與程序互動(dòng)很簡(jiǎn)單,只需要點(diǎn)擊頁(yè)面左上角的實(shí)時(shí)流,右面設(shè)置欄模型默認(rèn)Gemini 2.0 Flash,輸出格式選擇文本或者語(yǔ)音。
選擇想用的工具,再點(diǎn)擊頁(yè)面中下部的 共享屏幕 ,選擇與窗口、瀏覽器標(biāo)簽頁(yè)或者整個(gè)屏幕活動(dòng),就可以進(jìn)行交互了。
這里我選了一個(gè)名為 AI Agent的GPT時(shí)刻的瀏覽器標(biāo)簽頁(yè),并詢問(wèn)Manus是什么,截圖如下。事實(shí)證明,語(yǔ)言交互體驗(yàn)更好一些。
同樣大家還可以選擇與Gemini實(shí)時(shí)對(duì)話,或者與Gemini交流通過(guò)攝像頭觀察到的各種實(shí)物,未來(lái)應(yīng)用非常有想象空間。
在入門應(yīng)用程序中還有一個(gè)視頻分析器,怎么使用待大家自行探索。
對(duì)于一個(gè)相對(duì)成熟的網(wǎng)頁(yè)端AI應(yīng)用,應(yīng)用起來(lái)并不難,大家可以自行體驗(yàn),這里就不多做介紹了。當(dāng)然對(duì)于開發(fā)人員,Google AI Studio 還可以開發(fā)出更多功能。
這個(gè)產(chǎn)品最大的痛點(diǎn)是需要科學(xué)上網(wǎng),相信聰明如你一定能解決這個(gè)問(wèn)題。實(shí)在不方便的朋友,可以選擇體驗(yàn)后面的幾個(gè)項(xiàng)目。
體驗(yàn)地址:https://aistudio.google.com/prompts/new_chat
2、UI-TARS-desktop
UI-TARS Desktop 是由字節(jié)跳動(dòng)開發(fā)的一款基于 UI-TARS(視覺 - 語(yǔ)言模型)的 GUI Agent應(yīng)用程序,它允許用戶通過(guò)自然語(yǔ)言控制計(jì)算機(jī)。
該應(yīng)用支持跨平臺(tái)(Windows/MacOS)、實(shí)時(shí)反饋、本地處理等特性,還提供云部署和本地部署指南。用戶可通過(guò)自然語(yǔ)言指令完成截圖、鼠標(biāo)鍵盤操作等任務(wù),其模型有多種大小可供選擇,以適應(yīng)不同硬件配置。該項(xiàng)目在Github,目前已經(jīng)有3K star。
項(xiàng)目地址:https://github.com/bytedance/UI-TARS-desktop
這個(gè)項(xiàng)目提供了安裝程序,用戶可從項(xiàng)目發(fā)布頁(yè)面下載最新版本,MacOS系統(tǒng)和Windows系統(tǒng)都適用。
使用起來(lái)也很簡(jiǎn)單,在下面的頁(yè)面根據(jù)自己的系統(tǒng)情況下載最新的0.06版本,安裝玩打開軟件程序。軟件長(zhǎng)這樣,界面非常簡(jiǎn)潔,很難跟智能體聯(lián)系到一塊。
下載頁(yè)面:https://github.com/bytedance/UI-TARS-desktop/releases/tag/v0.0.6
當(dāng)然,我也為不能下載的小伙伴準(zhǔn)備了安裝包,后臺(tái)回復(fù) 0307 獲取。
想要體驗(yàn)操控電腦的關(guān)鍵,是要調(diào)用字節(jié)開發(fā)的視覺語(yǔ)言模型UI-TARS。部署該模型有兩種方式,云部署和本地部署。
- 云部署 :推薦使用 HuggingFace 推理端點(diǎn)進(jìn)行快速部署,提供了英文和中文的部署指南。
- 本地部署 [vLLM] :推薦使用 vLLM 進(jìn)行快速部署和推理,需安裝 vllm>=0.6.1。項(xiàng)目提供了不同大小的模型供用戶根據(jù)硬件配置選擇,并給出了啟動(dòng) OpenAI 兼容 API 服務(wù)的命令。
本地部署對(duì)于沒有代碼基礎(chǔ)的朋友有些麻煩,這里我們選擇云部署。官方在Hugging Face 上提供了三種型號(hào)尺寸:2B、7B 和 72B。為了實(shí)現(xiàn)最佳性能,建議使用 7B-DPO 或 72B-DPO 型號(hào)(根據(jù)您的硬件配置)。
對(duì)于云部署,官方目前提供了火山引擎部署、魔搭部署和Huggingface Inference Endpoints云部署三種,都需要充點(diǎn)小錢??紤]網(wǎng)絡(luò)速度、穩(wěn)定性以及充值方式,Huggingface被排除。剩下的兩個(gè)國(guó)內(nèi)云廠商,因?yàn)榘⒗镌圃缬匈~戶就選了阿里云。這里以UI-TARS-7B-DPO為例,教大家怎么通過(guò)魔搭進(jìn)入阿里云PAI入口部署該模型。
通過(guò)下面網(wǎng)址,進(jìn)入魔搭的模型信息界面。目前新用戶注冊(cè),限時(shí)贈(zèng)送100小時(shí)免費(fèi)GPU算力,包含100小時(shí)32GB顯存GPU+長(zhǎng)期免費(fèi)CPU計(jì)算資源(不是廣告)。
???https://www.modelscope.cn/models/bytedance-research/UI-TARS-7B-DPO???
鼠標(biāo)劃到該頁(yè)面右上方的 部署 按鈕,點(diǎn)擊彈出的菜單,會(huì)進(jìn)入阿里云PAI平臺(tái)的該模型界面,并自動(dòng)進(jìn)入U(xiǎn)I-TARS-7B-DPO模型的部署頁(yè)面,頁(yè)面右半部分是部署操作菜單。如果沒有彈出部署菜單,點(diǎn)擊頁(yè)面右上角的部署按鈕。記得在頁(yè)面左上角,確認(rèn)是不是要部署的模型。
模型部署頁(yè)面都保持默認(rèn)就行,默認(rèn)是一臺(tái)30G的Nvidia A10顯卡云主機(jī)。我們要做的,就是在這臺(tái)云主機(jī)上部署UI-TARS-7B-DPO模型。最后點(diǎn)擊模型部署頁(yè)面左下角的部署按鈕。進(jìn)入部署頁(yè)面,等待幾分鐘。
點(diǎn)擊頁(yè)面左側(cè) 模型部署 下的 模型在線服務(wù),右面主體部分就會(huì)顯示你已經(jīng)部署好的主機(jī)。如果賬戶有錢,主機(jī)會(huì)處于啟動(dòng)狀態(tài)。
這臺(tái)服務(wù)器機(jī)型,目前的費(fèi)用是10.5元/小時(shí),體驗(yàn)完記得停止,不然會(huì)一直消費(fèi)。我充了50元,但體驗(yàn)完忘了關(guān)機(jī),今天已經(jīng)因?yàn)榍焚M(fèi)而停機(jī)。
阿里云充值頁(yè)面,如下:
???https://billing-cost.console.aliyun.com/fortune/fund-management/recharge???
下面說(shuō)一下如何在UI-TARS-desktop調(diào)用UI-TARS模型。點(diǎn)擊 模型在線服務(wù) 頁(yè)面的你所部署主機(jī)的調(diào)用信息,會(huì)彈出調(diào)用信息的詳細(xì)頁(yè)面。
打開UI-TARS-desktop軟件程序,點(diǎn)擊右上角的 齒輪 按鈕,彈出模型設(shè)置窗口。
語(yǔ)言選中文,VLM Provider選vLLM。VLM Base URL一欄,填云主機(jī)的訪問(wèn)地址。VLM API Key一欄,填寫云主機(jī)的Token密碼。VLM Model Namet填寫模型名稱UI-TARS-7B-DPO。其他選項(xiàng),保持默認(rèn)。
點(diǎn)擊左下角的 Save 按鈕,保存模型信息。關(guān)閉軟件,再次打開(這點(diǎn)很重要),就可以使用了。下面放兩個(gè)官方案例視頻,大家可以試著復(fù)現(xiàn)一下。
使用Web瀏覽器獲取 SF 的當(dāng)前天氣
發(fā)送內(nèi)容為“hello world”的 Twitter
至于更多的玩法,就交給大家去探索了。
3、midscene
Midscene.js是一個(gè)Web 自動(dòng)化開源項(xiàng)目,旨在讓AI成為瀏覽器操作員。用戶只需用自然語(yǔ)言描述需求,AI就能操作網(wǎng)頁(yè)、驗(yàn)證內(nèi)容和提取數(shù)據(jù)。它支持多種模型,包括UI-TARS和Qwen2.5-VL等開源模型,適用于UI自動(dòng)化場(chǎng)景。
項(xiàng)目特點(diǎn)包括自然語(yǔ)言交互、Chrome擴(kuò)展體驗(yàn)、與Puppeteer/Playwright集成、支持開源和通用模型、可視化調(diào)試報(bào)告、緩存支持以及完全開源。Midscene.js提供豐富的資源和社區(qū)支持,方便開發(fā)者快速上手和深入開發(fā)。
項(xiàng)目地址:https://github.com/web-infra-dev/midscene?tab=readme-ov-file
UI-TARS在項(xiàng)目頁(yè)推薦用Midscene.js體驗(yàn)?zāi)P偷腤eb自動(dòng)化,開發(fā)者可以用自然語(yǔ)言對(duì)網(wǎng)頁(yè)進(jìn)行控制和交互,能夠充分發(fā)揮UI-TARS的能力。
Midscene.js目前支持GPT-4o、Qwen-2.5-VL和UI-TARS三種多模態(tài)模型。三種模型各有特點(diǎn):
- GPT-4o:平衡模型,使用更多代幣。
- Qwen-2.5-VL:開源 VL 模型,性能與 GPT-4o 幾乎相同,使用阿里云服務(wù)時(shí)成本更低。
- UI-TARS:開源、端到端的 GUI Agent模型,擅長(zhǎng)目標(biāo)驅(qū)動(dòng)任務(wù)和糾錯(cuò)。
Qwen-2.5-VL目前還在優(yōu)惠期,免費(fèi)贈(zèng)送用戶1000000 token,當(dāng)然體驗(yàn)要用它了。下面,我來(lái)教大家如何使用Midscene.js調(diào)用Qwen-2.5-VL體驗(yàn)大模型的網(wǎng)頁(yè)自動(dòng)化操作。
首先,需要找到模型調(diào)用地址。通過(guò)下面網(wǎng)址,打開阿里云百煉大模型平臺(tái),如果沒有注冊(cè)需要注冊(cè)成為阿里云用戶。
???https://bailian.console.aliyun.com/???
然后在模型廣場(chǎng),找到通義千問(wèn)2.5-VL-72B這個(gè)模型,點(diǎn)擊查看詳情。
在打開的模型詳情頁(yè),我們可以看到模型介紹、計(jì)費(fèi)詳情、免費(fèi)額度、模型限流等模型信息。在 模型授權(quán)下面的模型調(diào)用選項(xiàng),點(diǎn)擊右面的 授權(quán) 按鈕,在彈出的頁(yè)面點(diǎn)擊 確定 按鈕,即可完成模型授權(quán)。
點(diǎn)擊頁(yè)面上方的 API示例 ,在打開的頁(yè)面找到 使用SDK調(diào)用時(shí)需配置的base_url ,記住這個(gè)地址,可以臨時(shí)粘貼到文本編輯工具中。
在軟件程序中調(diào)用大模型,除了 base_url ,還需要知道API KEY。點(diǎn)擊頁(yè)面右上角的 查看我的API-KEY ,在彈出的的頁(yè)面,如果已經(jīng)創(chuàng)建了,點(diǎn) 查看 并復(fù)制API-KEY。
如果沒有創(chuàng)建,需要點(diǎn)擊 創(chuàng)建API-KEY 按鈕,創(chuàng)建一個(gè)新的API-KEY。在創(chuàng)建頁(yè)面,描述可以隨便填,點(diǎn)擊確定就好了。然后查看并復(fù)制你的API-KEY,也記住這一串密碼。
到這里,大模型調(diào)用的準(zhǔn)備工作完成。接下來(lái),進(jìn)行Midscene.js的安裝、配置和使用。
用chrome瀏覽器或者egde瀏覽器覺得打開下面網(wǎng)址,安裝 Midscene.js的Chrome擴(kuò)展程序。安裝擴(kuò)展程序,需要科學(xué)上網(wǎng)。
???https://chromewebstore.google.com/detail/midscenejs/gbldofcpkknbggpkmbdaefngejllnief???
安裝好以后,把Midscene.js擴(kuò)展程序在工具欄中顯示。點(diǎn)擊Midscene.js打開瀏覽器側(cè)邊欄,第一次打開需要配置大模型信息。點(diǎn)擊 Click to set up 按鈕,打開模型信息輸入頁(yè)面(Env Config)。
還記得剛才讓你記錄的阿里云百煉Qwen-2.5-VL模型的base_url 和API-KEY嗎?這里只需要將下面的API-KEY改成你的就行。
OPENAI_BASE_URL="https://dashscope.aliyuncs.com/compatible-mode/v1"
OPENAI_API_KEY="你的API-KEY"
MIDSCENE_MODEL_NAME="qwen2.5-vl-72b-instruct"
MIDSCENE_USE_VLM_UI_TARS=1
如果使用之前在阿里云PAI平臺(tái)購(gòu)買云主機(jī)配置的UI-TARS-7B-DPO模型,模型信息按下面配置:
OPENAI_BASE_URL="你的訪問(wèn)地址/v1"
OPENAI_API_KEY="你的token密碼"
MIDSCENE_MODEL_NAME="UI-TARS-7B-DPO"
MIDSCENE_USE_VLM_UI_TARS=1
這里我們把qwen2.5-vl-72b-instruct的配置信息粘貼到Midscene的Env Config框,點(diǎn)擊 save 按鈕保存。
配置完成后,可以立即體驗(yàn) Midscene。擴(kuò)展中有三個(gè)主要選項(xiàng)卡,功能簡(jiǎn)介如下:
- Action:使用 action 與網(wǎng)頁(yè)交互,例如“在搜索框中鍵入“Midscene”或“單擊登錄按鈕”。
- Query:使用 query 從 Web 頁(yè)面中提取 JSON 數(shù)據(jù),如 “extract the user id from the page, return in { id: string }”。
- Assert:使用 assert 驗(yàn)證網(wǎng)頁(yè),例如“the page title is ”Midscene”。
我們?cè)囈幌翧ction功能。打開微博主頁(yè),在Midscene的指令輸入框輸入 ”發(fā)一條新微博:大家好,我正在使用 Midscene的Action功能?!?/p>
操作過(guò)程見下圖,網(wǎng)頁(yè)周邊有藍(lán)色彩條,就是它在工作了。這個(gè)視頻動(dòng)圖進(jìn)行了加速,全程實(shí)際用時(shí)大概1分20秒。每完成一次任務(wù),Midscene都會(huì)生成一個(gè)任務(wù)流程視頻。
我們?cè)袤w驗(yàn)一下它的Query數(shù)據(jù)提取功能。打開小紅書主頁(yè),在Midscene的指令輸入框輸入 ”提取頁(yè)面的前10條內(nèi)容的標(biāo)題、用戶名和點(diǎn)贊數(shù)“。
同樣視頻動(dòng)圖也加速了,執(zhí)行這個(gè)任務(wù),大概用了1分鐘40秒左右。
關(guān)于midscene的網(wǎng)頁(yè)自動(dòng)化操作,大家可以試著解鎖其他技能。此外,Midscene Chrome 擴(kuò)展還支持一種橋接模式,允許用戶使用本地腳本來(lái)控制 Chrome的桌面版本。下面是關(guān)于橋接模式的說(shuō)明文檔,感興趣的小伙伴可以自行探索。
???https://midscenejs.com/bridge-mode-by-chrome-extension.html???
4、智譜GLM-PC
GLM-PC是智譜公司推出的一款基于多模態(tài)大模型CogAgent的電腦智能體。它能夠像人類一樣“觀察”和“操作”計(jì)算機(jī),協(xié)助用戶高效完成各類電腦任務(wù),如文檔處理、網(wǎng)頁(yè)搜索、信息整理、社交互動(dòng)等。
目前GLM-PC 已經(jīng)迭代升級(jí)到基于智譜多模態(tài)大模型 CogAgent的1.1.1版本,推出“深度思考”模式,同時(shí)支持 Windows和Mac 系統(tǒng)。
開箱即用,是GLM-PC的主要特點(diǎn),不需要再做大模型的適配。
大家可以通過(guò)以下網(wǎng)址,訪問(wèn)GLM-PC官網(wǎng),下載適合自己系統(tǒng)的軟件版本,這里也附上安裝指南。
下載:https://cogagent.aminer.cn/home#/downloads
教學(xué)視頻:https://zhipu-ai.feishu.cn/docx/PVEdd0C6yoZJl5xevsRcupYtnvg
需要說(shuō)明的是,目前該產(chǎn)品還在內(nèi)測(cè)階段,需要申請(qǐng)內(nèi)測(cè)體驗(yàn)資格。申請(qǐng)一般一天之內(nèi)通過(guò),被加入白名單后就可以通過(guò)手機(jī)發(fā)送驗(yàn)證碼登錄了。
申請(qǐng)?bào)w驗(yàn):https://www.wjx.cn/vm/YtHMOrW.aspx#
這里我用Windows 10來(lái)安裝和演示,安裝后打開軟件,軟件界面是這樣的。
下面開啟體驗(yàn)時(shí)間。我們來(lái)根據(jù)官方的教學(xué)視頻,做一個(gè)案例復(fù)現(xiàn)。
GLM-PC有兩種模式,點(diǎn)擊 新建對(duì)話 按鈕后,會(huì)讓你選擇使用極速模式還是深度思考模式。
先體驗(yàn)急速模式,打開小紅書,登錄賬號(hào)。在GLM-PC的對(duì)話框指派任務(wù),輸入指令:
打開這個(gè)網(wǎng)址「11 【2024款小米su7落地價(jià)與配置參考 - 漂亮妹妹 | 小紅書 - 你的生活指南】 ?? zd6bLT3R0aC1cgY ?? https://www.xiaohongshu.com/discovery/item/6710759d0000000024019e5a?source=webshare&xhsshare=pc_web&xsec_token=ABsV-IYvSAwtUlCA_lC0SCYnEhX-KO0eZCpFloefapQrE=&xsec_source=pc_share 」,把這個(gè)視頻的賬號(hào)昵稱、點(diǎn)贊、收藏、評(píng)論數(shù)據(jù),保存到新建Excel表中,保存命名為“小紅書數(shù)據(jù)”
任務(wù)執(zhí)行過(guò)程獲取了數(shù)據(jù),也打開了電腦上的WPS,但是卡在新建表格的循環(huán)中,沒有成功執(zhí)行任務(wù)。
再體驗(yàn)深度思考模式。同樣的指令,輸入到對(duì)話框。
GLM-PC經(jīng)過(guò)指令分析后進(jìn)行任務(wù)分解,然后執(zhí)行。會(huì)打開系統(tǒng)默認(rèn)瀏覽器,打開小紅書網(wǎng)頁(yè),然后按照分解的任務(wù)執(zhí)行。
任務(wù)執(zhí)行過(guò)程中,打開小紅書的操作可以看到,提取數(shù)據(jù)和把數(shù)據(jù)寫入Excel表格的過(guò)程看不見,但真的生成了表格并放到電腦桌面,任務(wù)執(zhí)行成功。全程大概用了50秒,執(zhí)行過(guò)程及結(jié)果見下圖,動(dòng)圖有加速。
再來(lái)復(fù)現(xiàn)一個(gè)案例。還是在深度思考模式下,輸入以下指令:
在這個(gè)「https://www.dxsbb.com/news/277.html」六級(jí)詞匯里面找3個(gè),然后把給每個(gè)詞造句,把詞匯和對(duì)應(yīng)的造句粘貼到新建Word文檔中,保存命名為“六級(jí)英語(yǔ)詞匯學(xué)習(xí)"
任務(wù)執(zhí)行完以后,可以在電腦桌面找到一個(gè)名為 六級(jí)詞匯 的word文檔,打開以后有相關(guān)內(nèi)容,執(zhí)行結(jié)果見下圖。
這個(gè)任務(wù)的執(zhí)行時(shí)間,大概用了1分3秒,動(dòng)圖有加速。
測(cè)試多個(gè)案例后,一個(gè)簡(jiǎn)單的體會(huì)是它需要清晰明確的指令,對(duì)于直接給出網(wǎng)址的操作很準(zhǔn)確,但在本地其他軟件上的操作比如文本發(fā)送等還不是足夠精準(zhǔn),微信發(fā)送信息和文件的操作,我是一次沒有成功。但是在web頁(yè)的操作方面,比如小紅書的信息提取和保存,任務(wù)執(zhí)行尚可。
其他教學(xué)視頻的案例,大家可以自行去嘗試。如果這些教學(xué)案例都能實(shí)現(xiàn),就可以在他們的基礎(chǔ)上加一些料了,可以有更多玩法。
5、Open Manus
最后,再來(lái)體驗(yàn)一下文章開頭提到的MateGPT團(tuán)隊(duì)用3個(gè)小時(shí)開發(fā)復(fù)現(xiàn)Manus的項(xiàng)目Open Manus。這是一個(gè)無(wú)需邀請(qǐng)碼即可實(shí)現(xiàn)任何創(chuàng)意的項(xiàng)目,由 MetaGPT 的團(tuán)隊(duì)成員在 3 小時(shí)內(nèi)完成開發(fā),是一個(gè)簡(jiǎn)潔的實(shí)現(xiàn)方案。
對(duì)于這個(gè)已經(jīng)有16K stars的開源項(xiàng)目,為了滿足大家的好奇,這里也來(lái)簡(jiǎn)單體驗(yàn)一下。
雖然涉及到代碼,但Open Manus的部署相對(duì)簡(jiǎn)單。只要你懂點(diǎn)代碼,并且電腦上裝有Anaconda,就可以通過(guò)以下步驟安裝。
安裝
創(chuàng)建新的 conda 環(huán)境:
conda create -n open_manus pythnotallow=3.12
conda activate open_manus
克隆倉(cāng)庫(kù):
git clone https://github.com/mannaandpoem/OpenManus.git
cd OpenManus
安裝依賴:
pip install -r requirements.txt
配置
OpenManus 需要配置使用的 LLM API,請(qǐng)按以下步驟設(shè)置:
在 config目錄創(chuàng)建 config.toml文件(可從示例復(fù)制):
cp config/config.example.toml config/config.toml
編輯 config/config.toml添加 API 密鑰和自定義設(shè)置:
# 全局 LLM 配置
[llm]
model = "gpt-4o"
base_url = "https://api.openai.com/v1"
api_key = "sk-..." # 替換為真實(shí) API 密鑰
max_tokens = 4096
temperature = 0.0
# 可選特定 LLM 模型配置
[llm.vision]
model = "gpt-4o"
base_url = "https://api.openai.com/v1"
api_key = "sk-..." # 替換為真實(shí) API 密鑰
快速啟動(dòng)
一行命令運(yùn)行 OpenManus:
python main.py
接下來(lái),就可以通過(guò)終端輸入你的需求和創(chuàng)意了。如需體驗(yàn)開發(fā)中版本,可運(yùn)行:
python run_flow.py
模型需要選擇兼容OpenAI Function Call的模型,這里我使用了通義千問(wèn)的qwen-max-2025-01-25模型,直接調(diào)用即可,目前有1000000免費(fèi)使用額度。執(zhí)行任務(wù)之前記得打開科學(xué)上網(wǎng),網(wǎng)絡(luò)搜索默認(rèn)調(diào)用google_search工具。
輸入一個(gè)簡(jiǎn)單的指令:到谷歌搜索AI Agent,提取前10條搜索結(jié)果的標(biāo)題和鏈接,保存為.txt文件。
回車后,OpenManus開始運(yùn)行,它會(huì)把你指定的任務(wù)分解為30步,一步一步開始執(zhí)行。我這個(gè)指令不需要執(zhí)行太多的步驟,只執(zhí)行到第4步任務(wù)就結(jié)束了。
執(zhí)行完畢后,它自動(dòng)生成一個(gè)名為 AI_Agents_Search_Results 的txt文件,保存在了項(xiàng)目主目錄。打開以后,是這樣的。
部署完以后,目前體驗(yàn)起來(lái)還感覺不到驚艷。簡(jiǎn)單的任務(wù)還好說(shuō),復(fù)雜的任務(wù)不好執(zhí)行。30步的任務(wù)分解,如果30步都執(zhí)行完,需要大量消耗token不說(shuō),還需要很長(zhǎng)的等待時(shí)間。
所以目前這個(gè)版本,能夠完成完整的30步任務(wù)執(zhí)行就已經(jīng)算是成功了,體驗(yàn)上任務(wù)完成度并不是很好。有技術(shù)人員調(diào)試程序,一晚上就消耗了100萬(wàn)+的token。
基于大模型的AI Agent尤其是多Agent的性能和體驗(yàn),最終還是體現(xiàn)在大模型上?;谀壳耙延写竽P蛨?zhí)行任務(wù)能到這種程度,已經(jīng)是很大的進(jìn)步了。
從大家的試用反饋來(lái)看,仍然是Claude 3.5\3.7以及GPT-4o等模型,在任務(wù)執(zhí)行中表現(xiàn)得相對(duì)好一些。國(guó)產(chǎn)模型,目前大多選擇通義千問(wèn)或者DeepSeek,官網(wǎng)以及硅基流動(dòng)調(diào)用API都可以。
有些技術(shù)達(dá)人已經(jīng)實(shí)現(xiàn)了本地模型調(diào)用與部署,這一塊兒我也會(huì)繼續(xù)跟進(jìn)。
對(duì)于OpenManus這個(gè)項(xiàng)目,官方說(shuō)以后會(huì)以3-4天為周期進(jìn)行迭代,可見其還是足夠重視的。后續(xù)會(huì)有很多新版本優(yōu)化,感興趣的同學(xué)可以在其發(fā)布新版本后入手體驗(yàn),到時(shí)候可能就會(huì)出現(xiàn)一些項(xiàng)目的資源整合包了。
目前開源社區(qū)正在快速出現(xiàn)類Manus的多智能體架構(gòu)computer use AI Agent項(xiàng)目,王吉偉頻道也在持續(xù)關(guān)注。如果大家對(duì)相關(guān)開源項(xiàng)目部署感興趣,后面我也可以出一些教程。
后記:讓子彈再飛一會(huì)兒
說(shuō)實(shí)話,體驗(yàn)完這幾款computer use智能體產(chǎn)品以后,從等待時(shí)間、操作過(guò)程和最終結(jié)果來(lái)看,王吉偉頻道又開始懷念RPA了。目前能夠流暢操作PC的,仍然是RPA類的工具,并且RPA也正在向Agent過(guò)渡與迭代。后面有時(shí)間,我看看能不能體驗(yàn)幾個(gè)RPA Agent類產(chǎn)品,把過(guò)程分享給大家。
Manus能火多久,尚未可知。但Manus確實(shí)再次成功引起了大家對(duì)多智能體、Computer/phone use、GUI智能體等技術(shù)和概念的注意,這對(duì)于智能體行業(yè)的整體發(fā)展大有裨益。
上一個(gè)如此被關(guān)注的產(chǎn)品,是4個(gè)月前Anthropic的claude 3.5 sonnet computer use,國(guó)內(nèi)則是智譜的AutoGLM。Manus畢竟也是國(guó)產(chǎn)的產(chǎn)品,需要給予一些寬容和成長(zhǎng)時(shí)間。
Manus出圈后,一些人認(rèn)為Manus可能會(huì)是ChatGPT之后的Sora。尤其是在“智能體的iPhone時(shí)刻”這類觀點(diǎn)的推動(dòng)下,又一個(gè)神被造出來(lái)了。
于是“再不學(xué)DeepSeek就跟不上時(shí)代了”這樣的邏輯,開始換成Manus ,且一樣行得通。又一個(gè)99%的人還沒有拿到邀請(qǐng)碼的被譽(yù)為媲美DeepSeek的套殼智能體應(yīng)用,成了新的焦慮制造機(jī)。
就這樣,一個(gè)邀請(qǐng)碼就在一天內(nèi)被炒到接近10萬(wàn)元,直播間開始直播Manus教程,越來(lái)越多的人求碼求體驗(yàn)被忽悠。所以與其現(xiàn)在就被各種割韭菜,不如讓子彈再飛一會(huì)兒,孰輕孰重大家自然一目了然。
通過(guò)營(yíng)銷創(chuàng)作的這一波Manus熱,反映出了更多人對(duì)于智能體的一知半解。當(dāng)然可能也有一些人屬于明知故作,原因嗎大家都懂,畢竟?fàn)I銷本質(zhì)的一面就是金錢開道。所以有觀點(diǎn)認(rèn)為, Manus出圈告訴大家什么才是真正的AI Agent,蠻有意思。
看來(lái),我輩專注智能體之人,還需要繼續(xù)努力普及AI Agent相關(guān)知識(shí)了。
