自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="buhoj"></sub>

<cite id="buhoj"><label id="buhoj"></label></cite>

<legend id="buhoj"><track id="buhoj"><dfn id="buhoj"></dfn></track></legend>

<strong id="buhoj"><button id="buhoj"><span id="buhoj"></span></button></strong>

^{<blockquote id="buhoj"></blockquote>}

<cite id="buhoj"></cite>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

還拿不到Manus邀請(qǐng)碼？試試這幾款開箱即用的computer use智能體，附教程

王吉偉自頻道

發(fā)布于 2025-3-11 07:24

瀏覽

0收藏

我在今年1月初寫了2025年的AI Agent發(fā)展十三大趨勢(shì)，其中兩個(gè)趨勢(shì)是多Agent系統(tǒng)開始流行和GUI Agent產(chǎn)品得到更多應(yīng)用，沒想到來(lái)得這么快。

推薦閱讀：???智能體商用元年開啟，2025年AI Agent行業(yè)發(fā)展十三大趨勢(shì)??

最近幾天，集多Agent架構(gòu)、computer use、GUI智能體等技術(shù)和概念于一身的Manus，通過(guò)一些媒體、科技博主的報(bào)道和渲染，在 “比肩DeepSeek” “AI Agent 的GPT時(shí)刻” 等一浪強(qiáng)過(guò)一浪的聲浪中，Manus一夜出圈。

官方資料顯示，Manus通過(guò)多Agent架構(gòu)（Multiple Agent）將任務(wù)拆分為規(guī)劃、執(zhí)行、驗(yàn)證等子模塊，每個(gè)Agent基于獨(dú)立的語(yǔ)言模型或強(qiáng)化學(xué)習(xí)模型，通過(guò)API協(xié)同工作，最終在虛擬機(jī)中調(diào)用工具（如編寫代碼、爬取數(shù)據(jù)）完成任務(wù)。這些特性，是多智能體架構(gòu)的通性。

這樣的項(xiàng)目實(shí)現(xiàn)，對(duì)于不懂代碼的可能很難。對(duì)于懂代碼的來(lái)說(shuō)，好吧，來(lái)自知名多Agent架構(gòu)MetaGPT的3個(gè)小伙子僅用了3個(gè)小時(shí)就把Manus復(fù)現(xiàn)了。這個(gè)項(xiàng)目叫OpenManus，到這篇文章發(fā)布時(shí)已經(jīng)有16.3k stars了。Manus的出圈以及短期內(nèi)體驗(yàn)，間接捧紅了這個(gè)同類型開源項(xiàng)目，潑天富貴就這樣簡(jiǎn)單地轉(zhuǎn)移了。

項(xiàng)目地址：???https://github.com/mannaandpoem/OpenManus???

當(dāng)然快速?gòu)?fù)現(xiàn)Manus的團(tuán)隊(duì)不只一個(gè)，同樣是知名多Agent架構(gòu)的Camal團(tuán)隊(duì)也僅用了0天就復(fù)刻了Manus，這個(gè)項(xiàng)目叫作owl，目前也有4K stars了。

項(xiàng)目地址：https://github.com/camel-ai/owl

也就在這幾天之內(nèi)，已經(jīng)出現(xiàn)了多個(gè)復(fù)刻Manus的開源項(xiàng)目。3月這才剛開始，多智能體架構(gòu)、computer use、GUI智能體的概念就徹底爆發(fā)了。

再說(shuō)回Manus。

在應(yīng)用場(chǎng)景方面，Manus覆蓋旅行規(guī)劃、股票分析、教育內(nèi)容生成等40余個(gè)領(lǐng)域。這么多場(chǎng)景任務(wù)都能實(shí)現(xiàn)，再加上自主執(zhí)行的能力，當(dāng)真是媲美鋼鐵俠的“賈維斯”助手了。這樣的噱頭，想不吸引人都難。

所以，其核心賣點(diǎn)在放在了“自主執(zhí)行”能力上與場(chǎng)景通用上。

還拿不到Manus邀請(qǐng)碼？試試這幾款開箱即用的computer use智能體，附教程-AI.x社區(qū)

Manus的核心架構(gòu)與Anthropic的“Computer Use”高度相似，依賴多Agent虛擬機(jī)環(huán)境完成任務(wù)?！白灾饕?guī)劃”能力則基于現(xiàn)有大語(yǔ)言模型（如GPT-4）的調(diào)用，很有可能在任務(wù)規(guī)劃模型上也用了DeepSeek，可以大大降低成本。

因?yàn)镸anus沒有自研基礎(chǔ)大模型，而是通過(guò)整合OpenAI的GPT-4、Anthropic 的Claude等第三方模型實(shí)現(xiàn)功能，其核心架構(gòu)被定義為「虛擬機(jī)+多模型協(xié)同」的封裝模式?。這種做法，也就是業(yè)界所謂的“套殼”。

有業(yè)內(nèi)人士直言，Manus的核心能力，如任務(wù)拆解其實(shí)與Devin、Cursor等現(xiàn)有產(chǎn)品相似，其創(chuàng)新更多體現(xiàn)在工程封裝而非底層技術(shù)突破。

Manus號(hào)稱全球首款通用AI Agent，對(duì)于此只能說(shuō)智者見智了。通用AI Agent意味著多場(chǎng)景匹配、跨場(chǎng)景應(yīng)用多智能體協(xié)作乃至跨平臺(tái)應(yīng)用，背后需要強(qiáng)大算力和穩(wěn)定網(wǎng)絡(luò)的支撐，需要多重模型的綜合應(yīng)用，更需要對(duì)高并發(fā)支持。

LLM Based Agent，性能和功能取決于LLM的能力，理論上當(dāng)前的大語(yǔ)言模型可以支撐通用AI Agent實(shí)現(xiàn)，但在任務(wù)執(zhí)行時(shí)間任務(wù)完成度上對(duì)用戶體驗(yàn)是很大的考驗(yàn)，一個(gè)復(fù)雜的任務(wù)可能會(huì)需要很長(zhǎng)時(shí)間，一些用戶的體驗(yàn)記錄也證實(shí)了這一點(diǎn)。

還拿不到Manus邀請(qǐng)碼？試試這幾款開箱即用的computer use智能體，附教程-AI.x社區(qū)

更長(zhǎng)的任務(wù)執(zhí)行時(shí)間，意味著更多token的消耗。面對(duì)一個(gè)動(dòng)輒需要數(shù)十分鐘才能完成任務(wù)，token消耗會(huì)是一個(gè)無(wú)底洞，也就意味著更高的成本，這樣的性價(jià)比估計(jì)也只有特殊需求的企業(yè)能考慮了。至于有些視頻說(shuō)的提交了任務(wù)明天等著任務(wù)完成，不怕燒錢的用戶當(dāng)然也是沒問(wèn)題的。

性價(jià)比與成效比，決定了很多大廠至今也沒有打出通用AI Agent的旗號(hào)，還是主要在攻擊垂直智能體，這也是近幾年智能體的主要發(fā)展方向。讓人有些不爽的是，一邊轟轟烈烈的宣傳，一邊卻疑似卻搞起了饑餓營(yíng)銷?，F(xiàn)在，邀請(qǐng)碼仍一碼難求，當(dāng)然也給了很多人炒作邀請(qǐng)碼的機(jī)會(huì)，商機(jī)無(wú)處不在。

邀請(qǐng)碼一碼難求的原因，或許是申請(qǐng)的人太多，也有可能是根本不想放碼。不放邀請(qǐng)碼的好處是體驗(yàn)的人少負(fù)面評(píng)論少挨罵就少，壞處是因?yàn)榇蠹殷w驗(yàn)不到挨罵也不少。據(jù)說(shuō)，就連一些力捧Mannus的AI大V和公知也有塌房的風(fēng)險(xiǎn)。

當(dāng)然更有可能是官方目前購(gòu)買的算力無(wú)法支撐這么多人同時(shí)體驗(yàn)，畢竟高并發(fā)需要大算力和強(qiáng)網(wǎng)絡(luò)。

還拿不到Manus邀請(qǐng)碼？試試這幾款開箱即用的computer use智能體，附教程-AI.x社區(qū)

不過(guò)也沒有關(guān)系，既然還拿不到邀請(qǐng)碼體驗(yàn)不了Manus，我們可以體驗(yàn)幾個(gè)同類產(chǎn)品和項(xiàng)目。這里，王吉偉頻道就為大家介紹幾款computer use、GUI的開源項(xiàng)目。除了最后一個(gè)，都是開箱即用的。

1、Goole AI Studio

Google AI Studio 是一個(gè)集成了多種 AI 功能且易于使用的 AI 開發(fā)平臺(tái)，專注于簡(jiǎn)化 AI 模型的創(chuàng)建、優(yōu)化和部署流程。它旨在降低 AI 開發(fā)的門檻，使開發(fā)者無(wú)需深厚的機(jī)器學(xué)習(xí)背景也能快速上手，同時(shí)為專業(yè)開發(fā)者提供強(qiáng)大的工具支持，以滿足復(fù)雜項(xiàng)目的需求，快速實(shí)現(xiàn) AI 驅(qū)動(dòng)的創(chuàng)新項(xiàng)目。

想要在Google AI Studio體驗(yàn)與程序互動(dòng)很簡(jiǎn)單，只需要點(diǎn)擊頁(yè)面左上角的實(shí)時(shí)流，右面設(shè)置欄模型默認(rèn)Gemini 2.0 Flash，輸出格式選擇文本或者語(yǔ)音。

還拿不到Manus邀請(qǐng)碼？試試這幾款開箱即用的computer use智能體，附教程-AI.x社區(qū)

選擇想用的工具，再點(diǎn)擊頁(yè)面中下部的共享屏幕，選擇與窗口、瀏覽器標(biāo)簽頁(yè)或者整個(gè)屏幕活動(dòng)，就可以進(jìn)行交互了。

還拿不到Manus邀請(qǐng)碼？試試這幾款開箱即用的computer use智能體，附教程-AI.x社區(qū)

這里我選了一個(gè)名為 AI Agent的GPT時(shí)刻的瀏覽器標(biāo)簽頁(yè)，并詢問(wèn)Manus是什么，截圖如下。事實(shí)證明，語(yǔ)言交互體驗(yàn)更好一些。

還拿不到Manus邀請(qǐng)碼？試試這幾款開箱即用的computer use智能體，附教程-AI.x社區(qū)

同樣大家還可以選擇與Gemini實(shí)時(shí)對(duì)話，或者與Gemini交流通過(guò)攝像頭觀察到的各種實(shí)物，未來(lái)應(yīng)用非常有想象空間。

在入門應(yīng)用程序中還有一個(gè)視頻分析器，怎么使用待大家自行探索。

對(duì)于一個(gè)相對(duì)成熟的網(wǎng)頁(yè)端AI應(yīng)用，應(yīng)用起來(lái)并不難，大家可以自行體驗(yàn)，這里就不多做介紹了。當(dāng)然對(duì)于開發(fā)人員，Google AI Studio 還可以開發(fā)出更多功能。

這個(gè)產(chǎn)品最大的痛點(diǎn)是需要科學(xué)上網(wǎng)，相信聰明如你一定能解決這個(gè)問(wèn)題。實(shí)在不方便的朋友，可以選擇體驗(yàn)后面的幾個(gè)項(xiàng)目。

體驗(yàn)地址：https://aistudio.google.com/prompts/new_chat

2、UI-TARS-desktop

UI-TARS Desktop 是由字節(jié)跳動(dòng)開發(fā)的一款基于 UI-TARS（視覺 - 語(yǔ)言模型）的 GUI Agent應(yīng)用程序，它允許用戶通過(guò)自然語(yǔ)言控制計(jì)算機(jī)。

該應(yīng)用支持跨平臺(tái)（Windows/MacOS）、實(shí)時(shí)反饋、本地處理等特性，還提供云部署和本地部署指南。用戶可通過(guò)自然語(yǔ)言指令完成截圖、鼠標(biāo)鍵盤操作等任務(wù)，其模型有多種大小可供選擇，以適應(yīng)不同硬件配置。該項(xiàng)目在Github，目前已經(jīng)有3K star。

項(xiàng)目地址：https://github.com/bytedance/UI-TARS-desktop

這個(gè)項(xiàng)目提供了安裝程序，用戶可從項(xiàng)目發(fā)布頁(yè)面下載最新版本，MacOS系統(tǒng)和Windows系統(tǒng)都適用。

使用起來(lái)也很簡(jiǎn)單，在下面的頁(yè)面根據(jù)自己的系統(tǒng)情況下載最新的0.06版本，安裝玩打開軟件程序。軟件長(zhǎng)這樣，界面非常簡(jiǎn)潔，很難跟智能體聯(lián)系到一塊。

還拿不到Manus邀請(qǐng)碼？試試這幾款開箱即用的computer use智能體，附教程-AI.x社區(qū)

下載頁(yè)面：https://github.com/bytedance/UI-TARS-desktop/releases/tag/v0.0.6

當(dāng)然，我也為不能下載的小伙伴準(zhǔn)備了安裝包，后臺(tái)回復(fù) 0307 獲取。

想要體驗(yàn)操控電腦的關(guān)鍵，是要調(diào)用字節(jié)開發(fā)的視覺語(yǔ)言模型UI-TARS。部署該模型有兩種方式，云部署和本地部署。

云部署：推薦使用 HuggingFace 推理端點(diǎn)進(jìn)行快速部署，提供了英文和中文的部署指南。
本地部署 [vLLM] ：推薦使用 vLLM 進(jìn)行快速部署和推理，需安裝 vllm>=0.6.1。項(xiàng)目提供了不同大小的模型供用戶根據(jù)硬件配置選擇，并給出了啟動(dòng) OpenAI 兼容 API 服務(wù)的命令。

本地部署對(duì)于沒有代碼基礎(chǔ)的朋友有些麻煩，這里我們選擇云部署。官方在Hugging Face 上提供了三種型號(hào)尺寸：2B、7B 和 72B。為了實(shí)現(xiàn)最佳性能，建議使用 7B-DPO 或 72B-DPO 型號(hào)（根據(jù)您的硬件配置）。

對(duì)于云部署，官方目前提供了火山引擎部署、魔搭部署和Huggingface Inference Endpoints云部署三種，都需要充點(diǎn)小錢?？紤]網(wǎng)絡(luò)速度、穩(wěn)定性以及充值方式，Huggingface被排除。剩下的兩個(gè)國(guó)內(nèi)云廠商，因?yàn)榘⒗镌圃缬匈~戶就選了阿里云。這里以UI-TARS-7B-DPO為例，教大家怎么通過(guò)魔搭進(jìn)入阿里云PAI入口部署該模型。

通過(guò)下面網(wǎng)址，進(jìn)入魔搭的模型信息界面。目前新用戶注冊(cè)，限時(shí)贈(zèng)送100小時(shí)免費(fèi)GPU算力，包含100小時(shí)32GB顯存GPU+長(zhǎng)期免費(fèi)CPU計(jì)算資源（不是廣告）。

???https://www.modelscope.cn/models/bytedance-research/UI-TARS-7B-DPO???

還拿不到Manus邀請(qǐng)碼？試試這幾款開箱即用的computer use智能體，附教程-AI.x社區(qū)

鼠標(biāo)劃到該頁(yè)面右上方的部署按鈕，點(diǎn)擊彈出的菜單，會(huì)進(jìn)入阿里云PAI平臺(tái)的該模型界面，并自動(dòng)進(jìn)入U(xiǎn)I-TARS-7B-DPO模型的部署頁(yè)面，頁(yè)面右半部分是部署操作菜單。如果沒有彈出部署菜單，點(diǎn)擊頁(yè)面右上角的部署按鈕。記得在頁(yè)面左上角，確認(rèn)是不是要部署的模型。

還拿不到Manus邀請(qǐng)碼？試試這幾款開箱即用的computer use智能體，附教程-AI.x社區(qū)

模型部署頁(yè)面都保持默認(rèn)就行，默認(rèn)是一臺(tái)30G的Nvidia A10顯卡云主機(jī)。我們要做的，就是在這臺(tái)云主機(jī)上部署UI-TARS-7B-DPO模型。最后點(diǎn)擊模型部署頁(yè)面左下角的部署按鈕。進(jìn)入部署頁(yè)面，等待幾分鐘。

點(diǎn)擊頁(yè)面左側(cè) 模型部署下的模型在線服務(wù)，右面主體部分就會(huì)顯示你已經(jīng)部署好的主機(jī)。如果賬戶有錢，主機(jī)會(huì)處于啟動(dòng)狀態(tài)。

這臺(tái)服務(wù)器機(jī)型，目前的費(fèi)用是10.5元/小時(shí)，體驗(yàn)完記得停止，不然會(huì)一直消費(fèi)。我充了50元，但體驗(yàn)完忘了關(guān)機(jī)，今天已經(jīng)因?yàn)榍焚M(fèi)而停機(jī)。

還拿不到Manus邀請(qǐng)碼？試試這幾款開箱即用的computer use智能體，附教程-AI.x社區(qū)

阿里云充值頁(yè)面，如下：

???https://billing-cost.console.aliyun.com/fortune/fund-management/recharge???

下面說(shuō)一下如何在UI-TARS-desktop調(diào)用UI-TARS模型。點(diǎn)擊模型在線服務(wù) 頁(yè)面的你所部署主機(jī)的調(diào)用信息，會(huì)彈出調(diào)用信息的詳細(xì)頁(yè)面。

還拿不到Manus邀請(qǐng)碼？試試這幾款開箱即用的computer use智能體，附教程-AI.x社區(qū)

打開UI-TARS-desktop軟件程序，點(diǎn)擊右上角的齒輪按鈕，彈出模型設(shè)置窗口。

還拿不到Manus邀請(qǐng)碼？試試這幾款開箱即用的computer use智能體，附教程-AI.x社區(qū)

語(yǔ)言選中文，VLM Provider選vLLM。VLM Base URL一欄，填云主機(jī)的訪問(wèn)地址。VLM API Key一欄，填寫云主機(jī)的Token密碼。VLM Model Namet填寫模型名稱UI-TARS-7B-DPO。其他選項(xiàng)，保持默認(rèn)。

還拿不到Manus邀請(qǐng)碼？試試這幾款開箱即用的computer use智能體，附教程-AI.x社區(qū)

點(diǎn)擊左下角的 Save 按鈕，保存模型信息。關(guān)閉軟件，再次打開（這點(diǎn)很重要），就可以使用了。下面放兩個(gè)官方案例視頻，大家可以試著復(fù)現(xiàn)一下。

還拿不到Manus邀請(qǐng)碼？試試這幾款開箱即用的computer use智能體，附教程-AI.x社區(qū)

使用Web瀏覽器獲取 SF 的當(dāng)前天氣

還拿不到Manus邀請(qǐng)碼？試試這幾款開箱即用的computer use智能體，附教程-AI.x社區(qū)

發(fā)送內(nèi)容為“hello world”的 Twitter

至于更多的玩法，就交給大家去探索了。

3、midscene

Midscene.js是一個(gè)Web 自動(dòng)化開源項(xiàng)目，旨在讓AI成為瀏覽器操作員。用戶只需用自然語(yǔ)言描述需求，AI就能操作網(wǎng)頁(yè)、驗(yàn)證內(nèi)容和提取數(shù)據(jù)。它支持多種模型，包括UI-TARS和Qwen2.5-VL等開源模型，適用于UI自動(dòng)化場(chǎng)景。

還拿不到Manus邀請(qǐng)碼？試試這幾款開箱即用的computer use智能體，附教程-AI.x社區(qū)

項(xiàng)目特點(diǎn)包括自然語(yǔ)言交互、Chrome擴(kuò)展體驗(yàn)、與Puppeteer/Playwright集成、支持開源和通用模型、可視化調(diào)試報(bào)告、緩存支持以及完全開源。Midscene.js提供豐富的資源和社區(qū)支持，方便開發(fā)者快速上手和深入開發(fā)。

項(xiàng)目地址：https://github.com/web-infra-dev/midscene?tab=readme-ov-file

UI-TARS在項(xiàng)目頁(yè)推薦用Midscene.js體驗(yàn)?zāi)Ｐ偷腤eb自動(dòng)化，開發(fā)者可以用自然語(yǔ)言對(duì)網(wǎng)頁(yè)進(jìn)行控制和交互，能夠充分發(fā)揮UI-TARS的能力。

Midscene.js目前支持GPT-4o、Qwen-2.5-VL和UI-TARS三種多模態(tài)模型。三種模型各有特點(diǎn)：

GPT-4o：平衡模型，使用更多代幣。
Qwen-2.5-VL：開源 VL 模型，性能與 GPT-4o 幾乎相同，使用阿里云服務(wù)時(shí)成本更低。
UI-TARS：開源、端到端的 GUI Agent模型，擅長(zhǎng)目標(biāo)驅(qū)動(dòng)任務(wù)和糾錯(cuò)。

Qwen-2.5-VL目前還在優(yōu)惠期，免費(fèi)贈(zèng)送用戶1000000 token，當(dāng)然體驗(yàn)要用它了。下面，我來(lái)教大家如何使用Midscene.js調(diào)用Qwen-2.5-VL體驗(yàn)大模型的網(wǎng)頁(yè)自動(dòng)化操作。

首先，需要找到模型調(diào)用地址。通過(guò)下面網(wǎng)址，打開阿里云百煉大模型平臺(tái)，如果沒有注冊(cè)需要注冊(cè)成為阿里云用戶。

???https://bailian.console.aliyun.com/???

然后在模型廣場(chǎng)，找到通義千問(wèn)2.5-VL-72B這個(gè)模型，點(diǎn)擊查看詳情。

還拿不到Manus邀請(qǐng)碼？試試這幾款開箱即用的computer use智能體，附教程-AI.x社區(qū)

在打開的模型詳情頁(yè)，我們可以看到模型介紹、計(jì)費(fèi)詳情、免費(fèi)額度、模型限流等模型信息。在模型授權(quán)下面的模型調(diào)用選項(xiàng)，點(diǎn)擊右面的授權(quán) 按鈕，在彈出的頁(yè)面點(diǎn)擊確定按鈕，即可完成模型授權(quán)。

還拿不到Manus邀請(qǐng)碼？試試這幾款開箱即用的computer use智能體，附教程-AI.x社區(qū)

點(diǎn)擊頁(yè)面上方的 API示例，在打開的頁(yè)面找到使用SDK調(diào)用時(shí)需配置的base_url ，記住這個(gè)地址，可以臨時(shí)粘貼到文本編輯工具中。

還拿不到Manus邀請(qǐng)碼？試試這幾款開箱即用的computer use智能體，附教程-AI.x社區(qū)

在軟件程序中調(diào)用大模型，除了 base_url ，還需要知道API KEY。點(diǎn)擊頁(yè)面右上角的查看我的API-KEY ，在彈出的的頁(yè)面，如果已經(jīng)創(chuàng)建了，點(diǎn) 查看并復(fù)制API-KEY。

還拿不到Manus邀請(qǐng)碼？試試這幾款開箱即用的computer use智能體，附教程-AI.x社區(qū)

如果沒有創(chuàng)建，需要點(diǎn)擊創(chuàng)建API-KEY 按鈕，創(chuàng)建一個(gè)新的API-KEY。在創(chuàng)建頁(yè)面，描述可以隨便填，點(diǎn)擊確定就好了。然后查看并復(fù)制你的API-KEY，也記住這一串密碼。

到這里，大模型調(diào)用的準(zhǔn)備工作完成。接下來(lái)，進(jìn)行Midscene.js的安裝、配置和使用。

用chrome瀏覽器或者egde瀏覽器覺得打開下面網(wǎng)址，安裝 Midscene.js的Chrome擴(kuò)展程序。安裝擴(kuò)展程序，需要科學(xué)上網(wǎng)。

???https://chromewebstore.google.com/detail/midscenejs/gbldofcpkknbggpkmbdaefngejllnief???

還拿不到Manus邀請(qǐng)碼？試試這幾款開箱即用的computer use智能體，附教程-AI.x社區(qū)

安裝好以后，把Midscene.js擴(kuò)展程序在工具欄中顯示。點(diǎn)擊Midscene.js打開瀏覽器側(cè)邊欄，第一次打開需要配置大模型信息。點(diǎn)擊 Click to set up 按鈕，打開模型信息輸入頁(yè)面（Env Config）。

還拿不到Manus邀請(qǐng)碼？試試這幾款開箱即用的computer use智能體，附教程-AI.x社區(qū)

還記得剛才讓你記錄的阿里云百煉Qwen-2.5-VL模型的base_url 和API-KEY嗎？這里只需要將下面的API-KEY改成你的就行。

OPENAI_BASE_URL="https://dashscope.aliyuncs.com/compatible-mode/v1" 
OPENAI_API_KEY="你的API-KEY" 
MIDSCENE_MODEL_NAME="qwen2.5-vl-72b-instruct" 
MIDSCENE_USE_VLM_UI_TARS=1

如果使用之前在阿里云PAI平臺(tái)購(gòu)買云主機(jī)配置的UI-TARS-7B-DPO模型，模型信息按下面配置：

OPENAI_BASE_URL="你的訪問(wèn)地址/v1" 
OPENAI_API_KEY="你的token密碼" 
MIDSCENE_MODEL_NAME="UI-TARS-7B-DPO" 
MIDSCENE_USE_VLM_UI_TARS=1

這里我們把qwen2.5-vl-72b-instruct的配置信息粘貼到Midscene的Env Config框，點(diǎn)擊 save 按鈕保存。

還拿不到Manus邀請(qǐng)碼？試試這幾款開箱即用的computer use智能體，附教程-AI.x社區(qū)

配置完成后，可以立即體驗(yàn) Midscene。擴(kuò)展中有三個(gè)主要選項(xiàng)卡，功能簡(jiǎn)介如下：

Action：使用 action 與網(wǎng)頁(yè)交互，例如“在搜索框中鍵入“Midscene”或“單擊登錄按鈕”。
Query：使用 query 從 Web 頁(yè)面中提取 JSON 數(shù)據(jù)，如 “extract the user id from the page， return in { id： string }”。
Assert：使用 assert 驗(yàn)證網(wǎng)頁(yè)，例如“the page title is ”Midscene”。

我們?cè)囈幌翧ction功能。打開微博主頁(yè)，在Midscene的指令輸入框輸入 ”發(fā)一條新微博：大家好，我正在使用 Midscene的Action功能?！?/p>

還拿不到Manus邀請(qǐng)碼？試試這幾款開箱即用的computer use智能體，附教程-AI.x社區(qū)

操作過(guò)程見下圖，網(wǎng)頁(yè)周邊有藍(lán)色彩條，就是它在工作了。這個(gè)視頻動(dòng)圖進(jìn)行了加速，全程實(shí)際用時(shí)大概1分20秒。每完成一次任務(wù)，Midscene都會(huì)生成一個(gè)任務(wù)流程視頻。

我們?cè)袤w驗(yàn)一下它的Query數(shù)據(jù)提取功能。打開小紅書主頁(yè)，在Midscene的指令輸入框輸入 ”提取頁(yè)面的前10條內(nèi)容的標(biāo)題、用戶名和點(diǎn)贊數(shù)“。

還拿不到Manus邀請(qǐng)碼？試試這幾款開箱即用的computer use智能體，附教程-AI.x社區(qū)

同樣視頻動(dòng)圖也加速了，執(zhí)行這個(gè)任務(wù)，大概用了1分鐘40秒左右。

關(guān)于midscene的網(wǎng)頁(yè)自動(dòng)化操作，大家可以試著解鎖其他技能。此外，Midscene Chrome 擴(kuò)展還支持一種橋接模式，允許用戶使用本地腳本來(lái)控制 Chrome的桌面版本。下面是關(guān)于橋接模式的說(shuō)明文檔，感興趣的小伙伴可以自行探索。

???https://midscenejs.com/bridge-mode-by-chrome-extension.html???

4、智譜GLM-PC

GLM-PC是智譜公司推出的一款基于多模態(tài)大模型CogAgent的電腦智能體。它能夠像人類一樣“觀察”和“操作”計(jì)算機(jī)，協(xié)助用戶高效完成各類電腦任務(wù)，如文檔處理、網(wǎng)頁(yè)搜索、信息整理、社交互動(dòng)等。

目前GLM-PC 已經(jīng)迭代升級(jí)到基于智譜多模態(tài)大模型 CogAgent的1.1.1版本，推出“深度思考”模式，同時(shí)支持 Windows和Mac 系統(tǒng)。

開箱即用，是GLM-PC的主要特點(diǎn)，不需要再做大模型的適配。

大家可以通過(guò)以下網(wǎng)址，訪問(wèn)GLM-PC官網(wǎng)，下載適合自己系統(tǒng)的軟件版本，這里也附上安裝指南。

下載：https://cogagent.aminer.cn/home#/downloads

教學(xué)視頻：https://zhipu-ai.feishu.cn/docx/PVEdd0C6yoZJl5xevsRcupYtnvg

需要說(shuō)明的是，目前該產(chǎn)品還在內(nèi)測(cè)階段，需要申請(qǐng)內(nèi)測(cè)體驗(yàn)資格。申請(qǐng)一般一天之內(nèi)通過(guò)，被加入白名單后就可以通過(guò)手機(jī)發(fā)送驗(yàn)證碼登錄了。

申請(qǐng)?bào)w驗(yàn)：https://www.wjx.cn/vm/YtHMOrW.aspx#

這里我用Windows 10來(lái)安裝和演示，安裝后打開軟件，軟件界面是這樣的。

還拿不到Manus邀請(qǐng)碼？試試這幾款開箱即用的computer use智能體，附教程-AI.x社區(qū)

下面開啟體驗(yàn)時(shí)間。我們來(lái)根據(jù)官方的教學(xué)視頻，做一個(gè)案例復(fù)現(xiàn)。

GLM-PC有兩種模式，點(diǎn)擊新建對(duì)話按鈕后，會(huì)讓你選擇使用極速模式還是深度思考模式。

先體驗(yàn)急速模式，打開小紅書，登錄賬號(hào)。在GLM-PC的對(duì)話框指派任務(wù)，輸入指令：

打開這個(gè)網(wǎng)址「11 【2024款小米su7落地價(jià)與配置參考 - 漂亮妹妹 | 小紅書 - 你的生活指南】 ?? zd6bLT3R0aC1cgY ?? https://www.xiaohongshu.com/discovery/item/6710759d0000000024019e5a?source=webshare&xhsshare=pc_web&xsec_token=ABsV-IYvSAwtUlCA_lC0SCYnEhX-KO0eZCpFloefapQrE=&xsec_source=pc_share 」，把這個(gè)視頻的賬號(hào)昵稱、點(diǎn)贊、收藏、評(píng)論數(shù)據(jù)，保存到新建Excel表中，保存命名為“小紅書數(shù)據(jù)”

任務(wù)執(zhí)行過(guò)程獲取了數(shù)據(jù)，也打開了電腦上的WPS，但是卡在新建表格的循環(huán)中，沒有成功執(zhí)行任務(wù)。

再體驗(yàn)深度思考模式。同樣的指令，輸入到對(duì)話框。

GLM-PC經(jīng)過(guò)指令分析后進(jìn)行任務(wù)分解，然后執(zhí)行。會(huì)打開系統(tǒng)默認(rèn)瀏覽器，打開小紅書網(wǎng)頁(yè)，然后按照分解的任務(wù)執(zhí)行。

任務(wù)執(zhí)行過(guò)程中，打開小紅書的操作可以看到，提取數(shù)據(jù)和把數(shù)據(jù)寫入Excel表格的過(guò)程看不見，但真的生成了表格并放到電腦桌面，任務(wù)執(zhí)行成功。全程大概用了50秒，執(zhí)行過(guò)程及結(jié)果見下圖，動(dòng)圖有加速。

還拿不到Manus邀請(qǐng)碼？試試這幾款開箱即用的computer use智能體，附教程-AI.x社區(qū)

再來(lái)復(fù)現(xiàn)一個(gè)案例。還是在深度思考模式下，輸入以下指令：

在這個(gè)「https://www.dxsbb.com/news/277.html」六級(jí)詞匯里面找3個(gè)，然后把給每個(gè)詞造句，把詞匯和對(duì)應(yīng)的造句粘貼到新建Word文檔中，保存命名為“六級(jí)英語(yǔ)詞匯學(xué)習(xí)"

任務(wù)執(zhí)行完以后，可以在電腦桌面找到一個(gè)名為六級(jí)詞匯的word文檔，打開以后有相關(guān)內(nèi)容，執(zhí)行結(jié)果見下圖。

還拿不到Manus邀請(qǐng)碼？試試這幾款開箱即用的computer use智能體，附教程-AI.x社區(qū)

這個(gè)任務(wù)的執(zhí)行時(shí)間，大概用了1分3秒，動(dòng)圖有加速。

測(cè)試多個(gè)案例后，一個(gè)簡(jiǎn)單的體會(huì)是它需要清晰明確的指令，對(duì)于直接給出網(wǎng)址的操作很準(zhǔn)確，但在本地其他軟件上的操作比如文本發(fā)送等還不是足夠精準(zhǔn)，微信發(fā)送信息和文件的操作，我是一次沒有成功。但是在web頁(yè)的操作方面，比如小紅書的信息提取和保存，任務(wù)執(zhí)行尚可。

其他教學(xué)視頻的案例，大家可以自行去嘗試。如果這些教學(xué)案例都能實(shí)現(xiàn)，就可以在他們的基礎(chǔ)上加一些料了，可以有更多玩法。

5、Open Manus

最后，再來(lái)體驗(yàn)一下文章開頭提到的MateGPT團(tuán)隊(duì)用3個(gè)小時(shí)開發(fā)復(fù)現(xiàn)Manus的項(xiàng)目Open Manus。這是一個(gè)無(wú)需邀請(qǐng)碼即可實(shí)現(xiàn)任何創(chuàng)意的項(xiàng)目，由 MetaGPT 的團(tuán)隊(duì)成員在 3 小時(shí)內(nèi)完成開發(fā)，是一個(gè)簡(jiǎn)潔的實(shí)現(xiàn)方案。

還拿不到Manus邀請(qǐng)碼？試試這幾款開箱即用的computer use智能體，附教程-AI.x社區(qū)

對(duì)于這個(gè)已經(jīng)有16K stars的開源項(xiàng)目，為了滿足大家的好奇，這里也來(lái)簡(jiǎn)單體驗(yàn)一下。

雖然涉及到代碼，但Open Manus的部署相對(duì)簡(jiǎn)單。只要你懂點(diǎn)代碼，并且電腦上裝有Anaconda，就可以通過(guò)以下步驟安裝。

安裝

創(chuàng)建新的 conda 環(huán)境：

conda create -n open_manus pythnotallow=3.12
conda activate open_manus

克隆倉(cāng)庫(kù)：

git clone https://github.com/mannaandpoem/OpenManus.git
cd OpenManus

安裝依賴：

pip install -r requirements.txt

配置

OpenManus 需要配置使用的 LLM API，請(qǐng)按以下步驟設(shè)置：

在 config目錄創(chuàng)建 config.toml文件（可從示例復(fù)制）：

cp config/config.example.toml config/config.toml

編輯 config/config.toml添加 API 密鑰和自定義設(shè)置：

# 全局 LLM 配置
[llm]
model = "gpt-4o"
base_url = "https://api.openai.com/v1"
api_key = "sk-..."  # 替換為真實(shí) API 密鑰
max_tokens = 4096
temperature = 0.0


# 可選特定 LLM 模型配置
[llm.vision]
model = "gpt-4o"
base_url = "https://api.openai.com/v1"
api_key = "sk-..."  # 替換為真實(shí) API 密鑰

快速啟動(dòng)

一行命令運(yùn)行 OpenManus：

python main.py

接下來(lái)，就可以通過(guò)終端輸入你的需求和創(chuàng)意了。如需體驗(yàn)開發(fā)中版本，可運(yùn)行：

python run_flow.py

模型需要選擇兼容OpenAI Function Call的模型，這里我使用了通義千問(wèn)的qwen-max-2025-01-25模型，直接調(diào)用即可，目前有1000000免費(fèi)使用額度。執(zhí)行任務(wù)之前記得打開科學(xué)上網(wǎng)，網(wǎng)絡(luò)搜索默認(rèn)調(diào)用google_search工具。

輸入一個(gè)簡(jiǎn)單的指令：到谷歌搜索AI Agent，提取前10條搜索結(jié)果的標(biāo)題和鏈接，保存為.txt文件。

回車后，OpenManus開始運(yùn)行，它會(huì)把你指定的任務(wù)分解為30步，一步一步開始執(zhí)行。我這個(gè)指令不需要執(zhí)行太多的步驟，只執(zhí)行到第4步任務(wù)就結(jié)束了。

還拿不到Manus邀請(qǐng)碼？試試這幾款開箱即用的computer use智能體，附教程-AI.x社區(qū)

執(zhí)行完畢后，它自動(dòng)生成一個(gè)名為 AI_Agents_Search_Results 的txt文件，保存在了項(xiàng)目主目錄。打開以后，是這樣的。

還拿不到Manus邀請(qǐng)碼？試試這幾款開箱即用的computer use智能體，附教程-AI.x社區(qū)

部署完以后，目前體驗(yàn)起來(lái)還感覺不到驚艷。簡(jiǎn)單的任務(wù)還好說(shuō)，復(fù)雜的任務(wù)不好執(zhí)行。30步的任務(wù)分解，如果30步都執(zhí)行完，需要大量消耗token不說(shuō)，還需要很長(zhǎng)的等待時(shí)間。

所以目前這個(gè)版本，能夠完成完整的30步任務(wù)執(zhí)行就已經(jīng)算是成功了，體驗(yàn)上任務(wù)完成度并不是很好。有技術(shù)人員調(diào)試程序，一晚上就消耗了100萬(wàn)+的token。

基于大模型的AI Agent尤其是多Agent的性能和體驗(yàn)，最終還是體現(xiàn)在大模型上?；谀壳耙延写竽Ｐ蛨?zhí)行任務(wù)能到這種程度，已經(jīng)是很大的進(jìn)步了。

從大家的試用反饋來(lái)看，仍然是Claude 3.5\3.7以及GPT-4o等模型，在任務(wù)執(zhí)行中表現(xiàn)得相對(duì)好一些。國(guó)產(chǎn)模型，目前大多選擇通義千問(wèn)或者DeepSeek，官網(wǎng)以及硅基流動(dòng)調(diào)用API都可以。

還拿不到Manus邀請(qǐng)碼？試試這幾款開箱即用的computer use智能體，附教程-AI.x社區(qū)

有些技術(shù)達(dá)人已經(jīng)實(shí)現(xiàn)了本地模型調(diào)用與部署，這一塊兒我也會(huì)繼續(xù)跟進(jìn)。

對(duì)于OpenManus這個(gè)項(xiàng)目，官方說(shuō)以后會(huì)以3-4天為周期進(jìn)行迭代，可見其還是足夠重視的。后續(xù)會(huì)有很多新版本優(yōu)化，感興趣的同學(xué)可以在其發(fā)布新版本后入手體驗(yàn)，到時(shí)候可能就會(huì)出現(xiàn)一些項(xiàng)目的資源整合包了。

目前開源社區(qū)正在快速出現(xiàn)類Manus的多智能體架構(gòu)computer use AI Agent項(xiàng)目，王吉偉頻道也在持續(xù)關(guān)注。如果大家對(duì)相關(guān)開源項(xiàng)目部署感興趣，后面我也可以出一些教程。

后記：讓子彈再飛一會(huì)兒

說(shuō)實(shí)話，體驗(yàn)完這幾款computer use智能體產(chǎn)品以后，從等待時(shí)間、操作過(guò)程和最終結(jié)果來(lái)看，王吉偉頻道又開始懷念RPA了。目前能夠流暢操作PC的，仍然是RPA類的工具，并且RPA也正在向Agent過(guò)渡與迭代。后面有時(shí)間，我看看能不能體驗(yàn)幾個(gè)RPA Agent類產(chǎn)品，把過(guò)程分享給大家。

Manus能火多久，尚未可知。但Manus確實(shí)再次成功引起了大家對(duì)多智能體、Computer/phone use、GUI智能體等技術(shù)和概念的注意，這對(duì)于智能體行業(yè)的整體發(fā)展大有裨益。

上一個(gè)如此被關(guān)注的產(chǎn)品，是4個(gè)月前Anthropic的claude 3.5 sonnet computer use，國(guó)內(nèi)則是智譜的AutoGLM。Manus畢竟也是國(guó)產(chǎn)的產(chǎn)品，需要給予一些寬容和成長(zhǎng)時(shí)間。

Manus出圈后，一些人認(rèn)為Manus可能會(huì)是ChatGPT之后的Sora。尤其是在“智能體的iPhone時(shí)刻”這類觀點(diǎn)的推動(dòng)下，又一個(gè)神被造出來(lái)了。

于是“再不學(xué)DeepSeek就跟不上時(shí)代了”這樣的邏輯，開始換成Manus ，且一樣行得通。又一個(gè)99%的人還沒有拿到邀請(qǐng)碼的被譽(yù)為媲美DeepSeek的套殼智能體應(yīng)用，成了新的焦慮制造機(jī)。

就這樣，一個(gè)邀請(qǐng)碼就在一天內(nèi)被炒到接近10萬(wàn)元，直播間開始直播Manus教程，越來(lái)越多的人求碼求體驗(yàn)被忽悠。所以與其現(xiàn)在就被各種割韭菜，不如讓子彈再飛一會(huì)兒，孰輕孰重大家自然一目了然。

通過(guò)營(yíng)銷創(chuàng)作的這一波Manus熱，反映出了更多人對(duì)于智能體的一知半解。當(dāng)然可能也有一些人屬于明知故作，原因嗎大家都懂，畢竟?fàn)I銷本質(zhì)的一面就是金錢開道。所以有觀點(diǎn)認(rèn)為， Manus出圈告訴大家什么才是真正的AI Agent，蠻有意思。

看來(lái)，我輩專注智能體之人，還需要繼續(xù)努力普及AI Agent相關(guān)知識(shí)了。

本文轉(zhuǎn)載自??王吉偉??，作者：王吉偉?

標(biāo)簽

邀請(qǐng)碼

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

【春“碼”盎然學(xué)習(xí)季】春日生發(fā)，宜學(xué)習(xí)，宜進(jìn)階，宜贏取春日好禮！

AI.x社區(qū)官方賬號(hào) ? 52.2w瀏覽 ? 52回復(fù)
【乘風(fēng)進(jìn)階學(xué)習(xí)季】夏日初長(zhǎng)，乘風(fēng)而上，碼出未來(lái)！

AI.x社區(qū)官方賬號(hào) ? 52.9w瀏覽 ? 36回復(fù)
碼住！四款AI神器點(diǎn)燃你的創(chuàng)意火花

echo_ning ? 2207瀏覽 ? 0回復(fù)
清華推出首個(gè)通用城市時(shí)空預(yù)測(cè)模型UniST，零樣本場(chǎng)景開箱即用｜KDD2024

Crystalcxt ? 2707瀏覽 ? 0回復(fù)
邊看文檔邊開發(fā)太慢，試試這款A(yù)I文檔智能體

小虎哦哦 ? 2104瀏覽 ? 0回復(fù)
【智匯金秋創(chuàng)造季】智匯成海，致敬開發(fā)者的“超級(jí)碼力”！

AI.x社區(qū)官方賬號(hào) ? 33.0w瀏覽 ? 148回復(fù)
Fooocus：一款開箱即用的圖片生成軟件

sword_hero ? 2924瀏覽 ? 0回復(fù)
AMD AI芯片被曝軟件有大量bug、無(wú)法開箱即用!難成英偉達(dá)平替！

51CTO技術(shù)棧 ? 1932瀏覽 ? 0回復(fù)
碼住！Pydantic AI智能體框架，輕松打造AI Agent

小虎哦哦 ? 2920瀏覽 ? 0回復(fù)
DeepSeek上線國(guó)家超算互聯(lián)網(wǎng)平臺(tái)，免注冊(cè)開箱即用！

51CTO技術(shù)棧 ? 1.1w瀏覽 ? 0回復(fù)
快來(lái)試試智能爬蟲Crawl4AI，開源高效，專為AI量身打造！附實(shí)測(cè)效果

AI博物院 ? 4175瀏覽 ? 0回復(fù)
Manus火了？別慌一文讀懂AI智能體常見的九種設(shè)計(jì)模式

數(shù)字化助推器 ? 2139瀏覽 ? 0回復(fù)
Manus 架構(gòu)設(shè)計(jì)揭秘：解構(gòu)下一代 AI Agent 多智能體架構(gòu)

玄姐聊AGI ? 2712瀏覽 ? 0回復(fù)
手把手教你使用Qwen-Agent開發(fā)智能體應(yīng)用實(shí)戰(zhàn)教程

九歌AI大模型 ? 2543瀏覽 ? 0回復(fù)
玩轉(zhuǎn)智能體一站式AI Agent開發(fā)工具鏈攻破Manus護(hù)城河

數(shù)字化助推器 ? 2376瀏覽 ? 0回復(fù)
Manus AI ：如何讓AI從 "動(dòng)口" 到 "動(dòng)手" 的多智能體架構(gòu)！

Halo咯咯 ? 1837瀏覽 ? 0回復(fù)
如果你還沒有 Manus 激活碼，強(qiáng)烈推薦字節(jié)推出的 Agent TARS，免費(fèi)使用！

wsp_ping ? 1453瀏覽 ? 0回復(fù)
我測(cè)試了智譜新發(fā)布的AI智能體：不僅會(huì)思考還會(huì)自己干活，用它15分鐘=人工2小時(shí)（附安裝教程）

Bx玩AI ? 1286瀏覽 ? 0回復(fù)
忘掉 Manus 模型上下文協(xié)議MCP 正在重新定義智能體的未來(lái)

數(shù)字化助推器 ? 1031瀏覽 ? 0回復(fù)

王吉偉自頻道

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

智能體深度解析：LangChain批駁OpenAI Agent手冊(cè)存在誤導(dǎo)性 3天前發(fā)布
三種主流智能體協(xié)議對(duì)比，一文看懂MCP、ANP、A2A的概念、區(qū)別與聯(lián)系 2025-04-16 06:12:18發(fā)布

熱門推薦

三種主流智能體協(xié)議對(duì)比，一文看懂MCP、ANP、A2A的概念、區(qū)別與聯(lián)系 0回復(fù)

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

上一篇：聊聊DeepSeek大模型對(duì)AI Agent的影響

下一篇：三大AI智能體平臺(tái)深度對(duì)比：Dify、Coze、AWS AI Agent，哪款更適合你？

社區(qū)精華內(nèi)容

目錄

<ul id="qiwi6"></ul>

^{<blockquote id="qiwi6"></blockquote>}

<sup id="qiwi6"></sup>