作者 | 云昭
大模型已經(jīng)在聚光燈下狂奔了28個(gè)月,時(shí)至今日,Agent已經(jīng)被成為了包括黃仁勛、奧特曼、李彥宏、周鴻祎、吳泳銘等一眾科技大佬在內(nèi)備受期待的2025爆發(fā)品。
可正如不久前“朱嘯虎不太看好機(jī)器人賽道”一般,Agent賽道同樣也存在著一場泡沫之下的非共識。
1.巨頭爭相較量,市場異常冷談
我們先從企業(yè)內(nèi)部的Agent來看下。
進(jìn)入去年下半年以來,大洋兩岸的軟件巨頭對AI Agent的投入越發(fā)顯得激進(jìn)。2024年9月,全球SaaS巨頭Salesforce發(fā)布了“數(shù)字員工平臺”Agentforce,創(chuàng)始人Benioff異常激進(jìn)地押注Agent,甚至對銷售團(tuán)隊(duì)下達(dá)了“死命令”:銷售人員必須在每一筆訂單中將Agentforce打包賣給客戶。12月,Benioff更是揚(yáng)言要再招2000名銷售為這款產(chǎn)品繼續(xù)拓寬市場。
微軟緊隨其后,首席執(zhí)行官Nadella在去年10月一口氣發(fā)布了10款A(yù)gent,用于企業(yè)銷售、運(yùn)營和服務(wù),加劇了SaaS行業(yè)的Agent之爭。副總裁Bryan當(dāng)時(shí)更是表示:這些Agent可以被視為AI時(shí)代真正的應(yīng)用程序。
像Salesforce和微軟的巨頭對Agent的態(tài)度尚且如此,更不用說尋求轉(zhuǎn)型突破的中小企業(yè)。
但投入是一回事,市場買不買單則是另外一回事。據(jù)一些已經(jīng)測試過Agentforce的客戶反饋,目前依舊沒有大規(guī)模使用該技術(shù),原因在于這款產(chǎn)品還不夠成熟,尚存在準(zhǔn)確性等問題。另一位客戶則表示,對于任何一款新軟件,他們通常需要12到18個(gè)月才能從試用過渡到在關(guān)鍵業(yè)務(wù)系統(tǒng)中運(yùn)行。
此外,拋卻客戶因?yàn)樾阅軉栴}而導(dǎo)致的冷淡態(tài)度不說,事實(shí)上老板本身為Agent付費(fèi)的意愿也要打一個(gè)大大的問號。如今的Agent很難直接減少人工,更多還是為個(gè)人生產(chǎn)力服務(wù)的,但付費(fèi)的卻成了企業(yè)決策者,讓老板為員工購買生產(chǎn)力這件事本身就像是個(gè)悖論。
在收費(fèi)這一點(diǎn)上,國內(nèi)的釘釘則比較克制,雖然開放了Agent功能的產(chǎn)品,但依舊供企業(yè)免費(fèi)使用。
2.逃不開的C端套殼爭議
B端Agent難以破圈,那么C端的呢?的確近兩年有不少出圈的C端或D端(developer)的Agent應(yīng)用,Manus和Devin都在此列。不過可惜的是,短期爆火之后很快就消失在大眾視野之外。
在外界看來,Devin和Manus的市場教育意義更大些。Devin帶火了AI編程賽道,而Manus則證明了一種通用Agent實(shí)現(xiàn)的方式:多Agent模式,同時(shí)讓Anthropic去年提出的用于AI應(yīng)用開發(fā)的模型上下文協(xié)議MCP再次出圈。
幾天前,51CTO采訪了多位在負(fù)責(zé)AI產(chǎn)品開發(fā)的一線負(fù)責(zé)人,他們更多還是把目光投向了大模型廠商內(nèi)部推出的Agent。在他們看來,OpenAI今年年初推出的兩款A(yù)gent堪稱業(yè)內(nèi)樣板,更能代表業(yè)界Agent發(fā)展的現(xiàn)狀。這兩款分別是Operator,DeepResearch。
這兩款分別代表了兩個(gè)方向——前者代表了Computer use,在自動化、負(fù)責(zé)真實(shí)世界執(zhí)行,而后者則為Knowledge research打了個(gè)好樣,旨在智能化、負(fù)責(zé)異步信息的推理。
這其實(shí)也是OpenAI打造Agent的路線圖:前者執(zhí)行、后者思考,結(jié)合起來實(shí)現(xiàn) OpenAI 對 Agent 的定位:獨(dú)立執(zhí)行復(fù)雜任務(wù)。
一些圈內(nèi)創(chuàng)業(yè)者、投資人表示,許多Agent不過是公式化套了GPTs的殼,補(bǔ)上了一些交互設(shè)計(jì),預(yù)設(shè)了一些開放接口作為tools。這些看起來像個(gè)“產(chǎn)品”,但實(shí)際上并不具備真正解決問題的能力。
“現(xiàn)在市面上個(gè)人搭建的Agent,或許勉強(qiáng)能用,但能完成任務(wù)的復(fù)雜度和可控性都極為有限,遠(yuǎn)不如大模型廠商直接提供的場景化產(chǎn)品好用?!?/p>
3.Agent是未來,但還遠(yuǎn)不夠成熟
Agent本身定位是完成復(fù)雜任務(wù),但現(xiàn)下看,先從簡單場景開始,也是無奈之舉。專注于AI應(yīng)用開發(fā)的開源框架提供商LangChain的一份調(diào)查報(bào)告顯示:人們在長耗時(shí)任務(wù)中對AI Agent有較大需求,但同時(shí),用戶對AI Agent普遍存在“完成質(zhì)量”或“可靠性”方面的擔(dān)憂,AI Agent在復(fù)雜場景中并不一定能夠持續(xù)保持響應(yīng)和問題解決路徑的準(zhǔn)確性,因此有一半以上的受訪者在實(shí)際使用中會為AI Agent補(bǔ)充跟蹤和觀察的控件。
上個(gè)月 Perplexity 首席執(zhí)行官 Aravind 在采訪中表示:“目前任何人聲稱 2025 年的Agents可以完全投入使用,都應(yīng)該持懷疑態(tài)度。但我們正在嘗試找出一些可以率先落地的簡單場景,比如讓用戶購買商品時(shí)無需手動輸入信用卡信息和收貨地址等。這類簡單的工作流程?!?/p>
當(dāng)然Agent不成熟還在于應(yīng)用控制的生態(tài)上并不完善。比如Aravind就指出,目前沒有其他方式能讓 AI 代理同時(shí)控制多個(gè)應(yīng)用,尤其是在 iOS 上,甚至無法訪問其他應(yīng)用,這是蘋果生態(tài)的限制。而我們不想受制于蘋果的規(guī)則,所以需要尋找一個(gè)變通的方法。在短期內(nèi),瀏覽器是一個(gè)非常好的解決方案。
更關(guān)鍵的是,拋卻一些營銷意味頗重、令人印象深刻的Demo演示,Agent的準(zhǔn)確性還遠(yuǎn)未能適合用于生產(chǎn)環(huán)境。
即便強(qiáng)如OpenAI 的 Operator,其計(jì)算機(jī)使用和網(wǎng)絡(luò)瀏覽器的準(zhǔn)確性也只達(dá)到了30%到50%,但仍然低于人類能力的70%以上。
圖源:OpenAI
同樣,Claude 的AI代理計(jì)算機(jī)界面(ACI)的性能僅相當(dāng)于人類表現(xiàn)的14%。
下面這張來自TheAgentFactory的圖表顯示了AI Agent在成本、步驟和成功率方面的現(xiàn)狀。注意成功率大約只有20%。這些數(shù)據(jù)是當(dāng)前情況的嚴(yán)峻現(xiàn)實(shí)。
來源:TheAgentFactory
除此之外,在安全性方面也有一些明顯的漏洞,比如一些研究表明,Agent在進(jìn)行網(wǎng)絡(luò)瀏覽時(shí)容易受到惡意彈窗的攻擊等等。
最后就是Agent的開發(fā)成本問題。比如:假如市面上一些Agent需要使用操作系統(tǒng)的圖形用戶界面作為API,這樣每個(gè)Agent集成的開銷太大;又或者在回答復(fù)雜問題和從多個(gè)文檔中綜合信息時(shí)同樣也面臨著不小的挑戰(zhàn),這也是OpenAI 將 DeepResearch為什么定價(jià)如此昂貴的原因之一。
4.2025,Agent局部爆發(fā)有可能嗎
從上面可以看出,現(xiàn)在Agent依舊處于早期炒作與探索階段。國內(nèi)我們看到有一些不錯(cuò)的產(chǎn)品形態(tài),比如阿里推出的夸克“超級框”,阿里智能信息事業(yè)群總裁吳嘉表示,“超級框”不是ChatBot或搜索,而是直接交付結(jié)果的“超級Agent”——用戶在“框”中表達(dá)意圖,AI會調(diào)用工具與方法來幫你寫一份工作報(bào)告、旅游計(jì)劃,或是一份就醫(yī)指南。
不過國內(nèi)大廠對于Agent的推動顯然更為克制。據(jù)悉目前夸克方面暫未嘗試重投入,因此在Agent模式上,暫時(shí)處于阿里自有工具調(diào)用的早期形式,未接入增加更多算力耗費(fèi)與技術(shù)復(fù)雜性的中間調(diào)優(yōu)與反饋。
再比如,我們了解到字節(jié)跳動Dev Infra團(tuán)隊(duì)內(nèi)部已開發(fā)出一款功能類似Manus的智能體產(chǎn)品,名為Dev Agent,主要通過集成內(nèi)網(wǎng)知識庫與多種內(nèi)部工具實(shí)現(xiàn)調(diào)研、開發(fā)、數(shù)據(jù)分析等任務(wù)。不過,Dev Agent是一款實(shí)驗(yàn)性質(zhì)的內(nèi)部工具,僅面向開發(fā)部門內(nèi)測使用。
而在大模型六小虎中,智譜對于Agent的方面走得更激進(jìn)一些,積累許多前沿的Agent研究成果。就在剛剛過去的3月底,智譜在中關(guān)村論壇上發(fā)布了深度研究與操作能力并重的AutoGLM沉思,尤其在瀏覽器的使用,手機(jī)和電腦在內(nèi)的工具使用能力全面的處于領(lǐng)先地位。
不過,問題的癥結(jié)在于,Agent能力的提升本身依賴于大模型的進(jìn)化。Agent的可行領(lǐng)域?qū)谴怪鳖I(lǐng)域而非通用。
MetaGPT核心貢獻(xiàn)者徐宗澤認(rèn)為通用Agent大概率是一個(gè)偽命題。知乎直答產(chǎn)品負(fù)責(zé)人馬奎則在采訪中表示「通用模型+專用 Agent」會是更可行的方案。
一位AI Infra創(chuàng)始人認(rèn)為,Agent目前的瓶頸有三點(diǎn):一在某些非垂直領(lǐng)域,Agent 的模型本身做得還不夠好,對于與物理世界的交互,雖然在分析方面表現(xiàn)還不錯(cuò),但實(shí)際的交互能力還需要進(jìn)一步提升;其二,算力成本相對較高,這導(dǎo)致有些應(yīng)用其實(shí)很難實(shí)現(xiàn),因?yàn)槌杀竞怂悴贿^來。第三個(gè)問題是不同場景之間的壁壘,主要是數(shù)據(jù)集的問題。因?yàn)楸旧頂?shù)據(jù)是私有的。只有把這些數(shù)據(jù)全部打通,才能用 Agent 的方式把它們整合起來,為你提供所需的服務(wù),但這方面客戶的意愿度并不高。
不過他同時(shí)釋放了Agent在局部范圍內(nèi)的樂觀信號。首先,在技術(shù)可靠性方面,即使在物理世界的交互上表現(xiàn)不夠好,或者數(shù)學(xué)運(yùn)算還不夠精準(zhǔn),但在語言推理方面已經(jīng)可以做得很好了。它可以輔助一些Action,比如幫你制作 PPT,或者自媒體的內(nèi)容生成等已經(jīng)可以落地,這是已經(jīng)突破的部分。
其次,成本在持下降。DeepSeek的出現(xiàn)讓大模型的ROI得到了很大的提升。許多算力公司都在持續(xù)對它進(jìn)行優(yōu)化,包括內(nèi)存優(yōu)化、成本優(yōu)化、硬件優(yōu)化、模型優(yōu)化,讓 token 成本持續(xù)下降。而且,這些事實(shí)上都可以用更低精度或者更便宜的方式去提供解決方案,讓產(chǎn)品真正落地,成本核算得過去,就能真正實(shí)現(xiàn)應(yīng)用。
第三,場景方面。不同垂直領(lǐng)域擁有大量私有數(shù)據(jù)的公司,可以開發(fā)出特定領(lǐng)域的語言模型,以及不同領(lǐng)域的Agent。
5.寫在最后:Agent注定是場馬拉松
就如同微軟、Salesforce一樣,很多企業(yè)都認(rèn)為轉(zhuǎn)型Agent是一個(gè)不可逆的趨勢,同時(shí)Agent也會帶來不同的運(yùn)營和價(jià)值創(chuàng)造的方式。
然而,正如前文所說,面對全球數(shù)百家聲稱提供“AI Agent”的供應(yīng)商,現(xiàn)在無論是在供應(yīng)側(cè)側(cè)還是使用側(cè)都存在相當(dāng)程度的炒作。我們需要從長遠(yuǎn)的角度去看待Agent的演進(jìn),它是一場馬拉松,而非短跑沖刺。
技術(shù)可靠性、研發(fā)與使用成本、安全問題、數(shù)據(jù)隱私等問題都如同這場馬拉松上需要攻克的關(guān)隘,也不止是“創(chuàng)建一個(gè)可自動化的任務(wù)列表并測試Agent是否可以完成基準(zhǔn)任務(wù)”僅此而已,Agent距離創(chuàng)造實(shí)際的生產(chǎn)價(jià)值,還有很長的路要走。
可喜的是,隨著國內(nèi)外各大科技企業(yè)的投入,Agent成熟的路徑已然清晰起來:大模型是能力基座,以O(shè)perator的執(zhí)行和以DeepResearch為代表的復(fù)雜推理依舊將是今年的主旋律。
參考來源:
https://cobusgreyling.medium.com/why-the-focus-has-shifted-from-ai-agents-to-agentic-workflows-51e4078d03c2
https://hub.baai.ac.cn/view/40485
https://fund.eastmoney.com/a/202503263356649497.html