自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<pre id="dgnsf"><strike id="dgnsf"><input id="dgnsf"></input></strike></pre>

<style id="dgnsf"></style>

<cite id="dgnsf"></cite>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

Manus引爆智能體復(fù)現(xiàn)潮！DeepSeek已被整合，項(xiàng)目擠滿(mǎn)開(kāi)源榜，海外大V排隊(duì)求碼

作者：量子位 2025-03-10 09:30:00

人工智能新聞

目前進(jìn)度最快的兩個(gè)項(xiàng)目，都是在Manus發(fā)布的第0天發(fā)布了復(fù)現(xiàn)代碼。

Manus背后公司名為“蝴蝶效應(yīng)”，真的帶火了整個(gè)智能體賽道——

開(kāi)源復(fù)現(xiàn)潮出現(xiàn)了，商業(yè)閉源產(chǎn)品也卷起來(lái)了。

目前進(jìn)度最快的兩個(gè)項(xiàng)目，都是在Manus發(fā)布的第0天發(fā)布了復(fù)現(xiàn)代碼。

除了之前介紹的OpenManus之外，另一個(gè)開(kāi)源項(xiàng)目OWL已經(jīng)把DeepSeek模型整合到多智能體協(xié)作框架中。

OWL來(lái)自國(guó)內(nèi)開(kāi)源社區(qū)CAMEL-AI團(tuán)隊(duì)。

OWL最新提交的結(jié)果在智能體測(cè)試基準(zhǔn)GAIA的驗(yàn)證集上排名平均分第3，在開(kāi)源項(xiàng)目中排第1。

其Level 1分?jǐn)?shù)81.13同樣超過(guò)了OpenAI的Deep Research，與Manus曬出的86.5已經(jīng)非常接近。

雖然Level 2和Level 3分?jǐn)?shù)還有差距，不過(guò)CAMEL-AI團(tuán)隊(duì)的李國(guó)豪在交流群中表示，有信心刷爆。

今日的GitHub熱榜上，大多是Agent相關(guān)的項(xiàng)目和工具庫(kù)，老牌Agent項(xiàng)目MetaGPT與AutoGPT雙雙被頂?shù)角芭拧?/p>

Camel-AI、OpenManus所使用的代碼庫(kù)browser-use也現(xiàn)身，此外金融、編程等領(lǐng)域的垂直智能體也備受關(guān)注。

與此同時(shí)，有人注意到Claude團(tuán)隊(duì)推出的模型上下文協(xié)議MCP不是已經(jīng)有小半年了么，為什么突然每個(gè)人都在討論它？

原來(lái)是每個(gè)人都想知道如何造一個(gè)Manus，而MCP是一種有效的實(shí)現(xiàn)途徑呀。

Manus火到海外

再來(lái)看看Manus本尊的進(jìn)展。

官方社交媒體賬號(hào)被短暫禁封后現(xiàn)已恢復(fù)，稱(chēng)將發(fā)布更多演示和更新。

Manus這個(gè)產(chǎn)品也成功火到了國(guó)外，方法很簡(jiǎn)單：發(fā)邀請(qǐng)碼。

除了給海外大V單獨(dú)發(fā)之外，Manus聯(lián)創(chuàng)季逸超還與抱抱臉CEO取得聯(lián)系，公開(kāi)分享100個(gè)碼，見(jiàn)者有份，先到先得。

兩人的交流中季逸超談到Agent能力可能更多的是對(duì)齊問(wèn)題而不是基礎(chǔ)能力問(wèn)題，基礎(chǔ)模型被訓(xùn)練為“無(wú)論任務(wù)有多復(fù)雜，都一次性回答所有問(wèn)題”，而“只需對(duì)代理軌跡進(jìn)行一點(diǎn)后期訓(xùn)練，就可以立即產(chǎn)生顯著的變化”。

（順便碼不用去試了，半夜就搶光了。）

海外用戶(hù)得到碼之后的劇情和這邊差不多，有不少試用之后被驚艷到的，變成“自來(lái)水”的。

并且海外用戶(hù)的付費(fèi)意愿確實(shí)要強(qiáng)一些，畢竟比起OpenAI兩萬(wàn)美元一個(gè)月的博士級(jí)智能體總是要便宜許多。

很多人拿到Manus做的第一件事，都是讓他收集自己的資料，編寫(xiě)并部署個(gè)人主頁(yè)。

其中Rowan Cheung表示Manus收集到關(guān)于他的個(gè)人信息100%準(zhǔn)確且是最新的。

類(lèi)似的任務(wù)還有日本網(wǎng)友讓Manus部署一個(gè)介紹他自己的網(wǎng)站。

他分享了體驗(yàn)中的一個(gè)細(xì)節(jié)：雖然Manus可以自己完成所有任務(wù)，但如果在執(zhí)行過(guò)程中給出意見(jiàn)，它也可以靈活地改變計(jì)劃并執(zhí)行，就好像真的再給人下達(dá)指令一樣。

更復(fù)雜的編程類(lèi)任務(wù)還有制作一個(gè)javascript的飛行游戲。

也有人把它當(dāng)做Deep Research類(lèi)工具，尋找租房信息只花了不到10分鐘時(shí)間。

主要的抱怨集中在速度有些慢，以及沒(méi)有碼。

One More Thing

作為Manus出圈的副作用之一，GAIA基準(zhǔn)測(cè)試正在成為智能體類(lèi)產(chǎn)品必爭(zhēng)之地。

GAIA由Meta AI、HuggingFace和AutoGPT團(tuán)隊(duì)推出，圖靈獎(jiǎng)得主Yann LeCun和HuggingFace首席科學(xué)家Thomas Wolf參與，旨在解決現(xiàn)有大語(yǔ)言模型基準(zhǔn)測(cè)試被快速突破、難以評(píng)估新模型的問(wèn)題。

GAIA測(cè)試由450+具有明確答案的復(fù)雜問(wèn)題組成，分為三個(gè)難度級(jí)別，考驗(yàn)智能體系統(tǒng)的工具使用能力以及自主性。

Level 1：通常解題步驟不超過(guò)5步，且不需要工具，或最多使用一種工具。如簡(jiǎn)單的信息檢索和處理，任何優(yōu)秀的語(yǔ)言模型都可以完成。

Level 2：需要在5-10步之間完成，并且需要組合使用不同工具。如“根據(jù)附件 Excel 文件計(jì)算當(dāng)?shù)乜觳瓦B鎖店食品（不含飲料）的總銷(xiāo)售額”。

Level 3：面向近乎完美的通用AI助手，要求AI能夠執(zhí)行任意長(zhǎng)度的復(fù)雜動(dòng)作序列，使用多種工具，并具備廣泛的世界知識(shí)和信息獲取能力。

如“在2006年1月21日NASA的每日天文圖片中有兩名宇航員，截至2023年8月，找出較小宇航員所在NASA宇航員小組中在太空停留時(shí)間最短的宇航員及其停留時(shí)間”，解答這類(lèi)問(wèn)題需要綜合網(wǎng)絡(luò)搜索、信息篩選、知識(shí)推理等多種能力。

人類(lèi)在Level 2、和Level 3上的成功率分別是92%和87.3%，測(cè)試推出時(shí)最先進(jìn)的語(yǔ)言模型GPT-4得分為9.7%和0。

此外GAIA排行榜分為測(cè)試集（Test）和驗(yàn)證集（Validation）兩項(xiàng)，其中驗(yàn)證集是公開(kāi)數(shù)據(jù)，測(cè)試集為私有數(shù)據(jù)，測(cè)試集的含金量更高一些。

目前測(cè)試集排行榜中，h2oGPTe Agent（來(lái)自H20.ai）、Trase Agent（來(lái)自Trase Systems）兩個(gè)商業(yè)閉源系統(tǒng)的Level 2分?jǐn)?shù)與Manus公布分?jǐn)?shù)（70.1%）接近。

Manus團(tuán)隊(duì)公布的Level 3分?jǐn)?shù)為57.7%，領(lǐng)先幅度比較大。

ImageNet數(shù)據(jù)集與競(jìng)賽開(kāi)啟了深度學(xué)習(xí)浪潮之后，每個(gè)時(shí)代都有自己的當(dāng)紅榜單指引著最前沿技術(shù)的發(fā)展。

在BERT時(shí)代是語(yǔ)言理解基準(zhǔn)CLUE、SpuerCLUE。

隨后ChatGPT、Claude、Gemini已經(jīng)刷爆了考驗(yàn)各學(xué)科知識(shí)的MMLU、以及用戶(hù)用腳投票的ChatBot Arena大模型競(jìng)技場(chǎng)。

o1/r1/QwQ類(lèi)推理模型正在比拼數(shù)學(xué)（AIME、FrontierMath）、博士級(jí)別理科題（GPQA）、編程/軟件工程能力（Codeforces、SWE-bench、LiveCodeBench）。

智能體刷GAIA，似乎正在成為行業(yè)最新共識(shí)。

或者不久以后，可以期待一下AgentArena智能體競(jìng)技場(chǎng)？

OpenManushttps://github.com/mannaandpoem/OpenManus

OWLhttps://github.com/camel-ai/owl

GAIA Bencmarkhttps://huggingface.co/spaces/gaia-benchmark/leaderboard
https://arxiv.org/abs/2311.12983

責(zé)任編輯：張燕妮來(lái)源：量子位

模型開(kāi)源數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<cite id="mq1bz"></cite>