自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Manus引爆智能體復(fù)現(xiàn)潮!DeepSeek已被整合,項(xiàng)目擠滿(mǎn)開(kāi)源榜,海外大V排隊(duì)求碼

人工智能 新聞
目前進(jìn)度最快的兩個(gè)項(xiàng)目,都是在Manus發(fā)布的第0天發(fā)布了復(fù)現(xiàn)代碼。

Manus背后公司名為“蝴蝶效應(yīng)”,真的帶火了整個(gè)智能體賽道——

開(kāi)源復(fù)現(xiàn)潮出現(xiàn)了,商業(yè)閉源產(chǎn)品也卷起來(lái)了。

目前進(jìn)度最快的兩個(gè)項(xiàng)目,都是在Manus發(fā)布的第0天發(fā)布了復(fù)現(xiàn)代碼。

除了之前介紹的OpenManus之外,另一個(gè)開(kāi)源項(xiàng)目OWL已經(jīng)把DeepSeek模型整合到多智能體協(xié)作框架中。

圖片

OWL來(lái)自國(guó)內(nèi)開(kāi)源社區(qū)CAMEL-AI團(tuán)隊(duì)。

圖片

OWL最新提交的結(jié)果在智能體測(cè)試基準(zhǔn)GAIA的驗(yàn)證集上排名平均分第3,在開(kāi)源項(xiàng)目中排第1。

圖片

其Level 1分?jǐn)?shù)81.13同樣超過(guò)了OpenAI的Deep Research,與Manus曬出的86.5已經(jīng)非常接近。

圖片

雖然Level 2和Level 3分?jǐn)?shù)還有差距,不過(guò)CAMEL-AI團(tuán)隊(duì)的李國(guó)豪在交流群中表示,有信心刷爆。

圖片

今日的GitHub熱榜上,大多是Agent相關(guān)的項(xiàng)目和工具庫(kù),老牌Agent項(xiàng)目MetaGPT與AutoGPT雙雙被頂?shù)角芭拧?/p>

Camel-AI、OpenManus所使用的代碼庫(kù)browser-use也現(xiàn)身,此外金融、編程等領(lǐng)域的垂直智能體也備受關(guān)注。

圖片

與此同時(shí),有人注意到Claude團(tuán)隊(duì)推出的模型上下文協(xié)議MCP不是已經(jīng)有小半年了么,為什么突然每個(gè)人都在討論它?

圖片

原來(lái)是每個(gè)人都想知道如何造一個(gè)Manus,而MCP是一種有效的實(shí)現(xiàn)途徑呀。

圖片

Manus火到海外

再來(lái)看看Manus本尊的進(jìn)展。

官方社交媒體賬號(hào)被短暫禁封后現(xiàn)已恢復(fù),稱(chēng)將發(fā)布更多演示和更新。

圖片

Manus這個(gè)產(chǎn)品也成功火到了國(guó)外,方法很簡(jiǎn)單:發(fā)邀請(qǐng)碼。

除了給海外大V單獨(dú)發(fā)之外,Manus聯(lián)創(chuàng)季逸超還與抱抱臉CEO取得聯(lián)系,公開(kāi)分享100個(gè)碼,見(jiàn)者有份,先到先得。

圖片

兩人的交流中季逸超談到Agent能力可能更多的是對(duì)齊問(wèn)題而不是基礎(chǔ)能力問(wèn)題,基礎(chǔ)模型被訓(xùn)練為“無(wú)論任務(wù)有多復(fù)雜,都一次性回答所有問(wèn)題”,而“只需對(duì)代理軌跡進(jìn)行一點(diǎn)后期訓(xùn)練,就可以立即產(chǎn)生顯著的變化”。

(順便碼不用去試了,半夜就搶光了。)

圖片

海外用戶(hù)得到碼之后的劇情和這邊差不多,有不少試用之后被驚艷到的,變成“自來(lái)水”的。

圖片

并且海外用戶(hù)的付費(fèi)意愿確實(shí)要強(qiáng)一些,畢竟比起OpenAI兩萬(wàn)美元一個(gè)月的博士級(jí)智能體總是要便宜許多。

圖片

很多人拿到Manus做的第一件事,都是讓他收集自己的資料,編寫(xiě)并部署個(gè)人主頁(yè)。

其中Rowan Cheung表示Manus收集到關(guān)于他的個(gè)人信息100%準(zhǔn)確且是最新的。

圖片

類(lèi)似的任務(wù)還有日本網(wǎng)友讓Manus部署一個(gè)介紹他自己的網(wǎng)站。

他分享了體驗(yàn)中的一個(gè)細(xì)節(jié):雖然Manus可以自己完成所有任務(wù),但如果在執(zhí)行過(guò)程中給出意見(jiàn),它也可以靈活地改變計(jì)劃并執(zhí)行,就好像真的再給人下達(dá)指令一樣。

圖片

更復(fù)雜的編程類(lèi)任務(wù)還有制作一個(gè)javascript的飛行游戲。

也有人把它當(dāng)做Deep Research類(lèi)工具,尋找租房信息只花了不到10分鐘時(shí)間。

圖片

主要的抱怨集中在速度有些慢,以及沒(méi)有碼。

圖片

One More Thing

作為Manus出圈的副作用之一,GAIA基準(zhǔn)測(cè)試正在成為智能體類(lèi)產(chǎn)品必爭(zhēng)之地。

GAIA由Meta AI、HuggingFace和AutoGPT團(tuán)隊(duì)推出,圖靈獎(jiǎng)得主Yann LeCun和HuggingFace首席科學(xué)家Thomas Wolf參與,旨在解決現(xiàn)有大語(yǔ)言模型基準(zhǔn)測(cè)試被快速突破、難以評(píng)估新模型的問(wèn)題。

圖片

GAIA測(cè)試由450+具有明確答案的復(fù)雜問(wèn)題組成,分為三個(gè)難度級(jí)別,考驗(yàn)智能體系統(tǒng)的工具使用能力以及自主性。

Level 1:通常解題步驟不超過(guò)5步,且不需要工具,或最多使用一種工具。如簡(jiǎn)單的信息檢索和處理,任何優(yōu)秀的語(yǔ)言模型都可以完成。

Level 2:需要在5-10步之間完成,并且需要組合使用不同工具。如“根據(jù)附件 Excel 文件計(jì)算當(dāng)?shù)乜觳瓦B鎖店食品(不含飲料)的總銷(xiāo)售額”。

Level 3:面向近乎完美的通用AI助手,要求AI能夠執(zhí)行任意長(zhǎng)度的復(fù)雜動(dòng)作序列,使用多種工具,并具備廣泛的世界知識(shí)和信息獲取能力。

如“在2006年1月21日NASA的每日天文圖片中有兩名宇航員,截至2023年8月,找出較小宇航員所在NASA宇航員小組中在太空停留時(shí)間最短的宇航員及其停留時(shí)間”,解答這類(lèi)問(wèn)題需要綜合網(wǎng)絡(luò)搜索、信息篩選、知識(shí)推理等多種能力。

圖片

人類(lèi)在Level 2、和Level 3上的成功率分別是92%和87.3%,測(cè)試推出時(shí)最先進(jìn)的語(yǔ)言模型GPT-4得分為9.7%和0。

此外GAIA排行榜分為測(cè)試集(Test)和驗(yàn)證集(Validation)兩項(xiàng),其中驗(yàn)證集是公開(kāi)數(shù)據(jù),測(cè)試集為私有數(shù)據(jù),測(cè)試集的含金量更高一些。

目前測(cè)試集排行榜中,h2oGPTe Agent(來(lái)自H20.ai)、Trase Agent(來(lái)自Trase Systems)兩個(gè)商業(yè)閉源系統(tǒng)的Level 2分?jǐn)?shù)與Manus公布分?jǐn)?shù)(70.1%)接近。

Manus團(tuán)隊(duì)公布的Level 3分?jǐn)?shù)為57.7%,領(lǐng)先幅度比較大。

圖片

ImageNet數(shù)據(jù)集與競(jìng)賽開(kāi)啟了深度學(xué)習(xí)浪潮之后,每個(gè)時(shí)代都有自己的當(dāng)紅榜單指引著最前沿技術(shù)的發(fā)展。

在BERT時(shí)代是語(yǔ)言理解基準(zhǔn)CLUE、SpuerCLUE。

隨后ChatGPT、Claude、Gemini已經(jīng)刷爆了考驗(yàn)各學(xué)科知識(shí)的MMLU、以及用戶(hù)用腳投票的ChatBot Arena大模型競(jìng)技場(chǎng)。

o1/r1/QwQ類(lèi)推理模型正在比拼數(shù)學(xué)(AIME、FrontierMath)、博士級(jí)別理科題(GPQA)、編程/軟件工程能力(Codeforces、SWE-bench、LiveCodeBench)。

智能體刷GAIA,似乎正在成為行業(yè)最新共識(shí)。

或者不久以后,可以期待一下AgentArena智能體競(jìng)技場(chǎng)?

OpenManushttps://github.com/mannaandpoem/OpenManus

OWLhttps://github.com/camel-ai/owl

GAIA Bencmarkhttps://huggingface.co/spaces/gaia-benchmark/leaderboard
https://arxiv.org/abs/2311.12983

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2025-03-10 00:00:00

2025-03-10 13:08:37

2025-03-10 08:45:00

模型AI數(shù)據(jù)

2025-01-09 13:41:14

2025-03-12 11:34:35

2015-06-29 14:09:01

2025-03-07 08:28:56

2025-03-28 02:00:00

2025-02-20 15:32:28

2025-04-14 00:22:00

2025-04-03 15:46:53

2017-04-12 13:56:47

金融服務(wù)話題推廣

2018-12-17 13:52:47

Python開(kāi)源項(xiàng)目數(shù)據(jù)可視化

2024-10-15 17:28:05

2025-03-03 11:16:18

2025-02-11 16:11:12

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)