自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

從Manus到Gemini,首輪Agent競賽中有哪些關(guān)鍵信號?

發(fā)布于 2025-3-17 09:33
瀏覽
0收藏

嘿,大家好!這里是一個專注于前沿AI和智能體的頻道~

Manus 可能會成為一個導(dǎo)火索,引爆Agent的競爭。

在過去的幾個月里,頭部AI公司紛紛發(fā)布了自己的“智能體”產(chǎn)品。

目前來看,各家Agent產(chǎn)品各有側(cè)重,但我們開始看到兩條截然不同的技術(shù)路線:一類是基于工作流的“偽Agent”(如爆火但是很多人說的沒有護(hù)城河的Manus (該觀點(diǎn)不代表作者觀點(diǎn))),它們本質(zhì)上是將LLM和工具通過預(yù)定義代碼路徑進(jìn)行編排;另一類是基于端到端訓(xùn)練的“真Agent”(如DeepResearch和Gemini 2.0 Flash Thinking的各種衍生Agent應(yīng)用),它們能夠動態(tài)指導(dǎo)自己的處理過程和工具使用,保持對任務(wù)完成方式的控制權(quán)。

當(dāng)然整體上,我們還處于端到端訓(xùn)練Agent的早期階段,這場以智能體為核心的第二幕AI競爭才剛剛開始。Agent技術(shù)仍在快速迭代,而這可能將重塑整個AI應(yīng)用格局。

1.“模型即產(chǎn)品”將成為Agent時代的主導(dǎo)范式

當(dāng)前AI行業(yè)正經(jīng)歷一場范式轉(zhuǎn)變:從“模型即基礎(chǔ)設(shè)施”到“模型即產(chǎn)品”。大廠逐漸將模型本身打造成端到端的產(chǎn)品,而非僅僅作為應(yīng)用層的基礎(chǔ)設(shè)施。

從Manus到Gemini,首輪Agent競賽中有哪些關(guān)鍵信號?-AI.x社區(qū)

這一轉(zhuǎn)變由幾個關(guān)鍵因素推動:

  • 泛化性擴(kuò)展遇到瓶頸:正如GPT-4.5所展示的,模型能力增長呈線性,而計(jì)算成本卻呈指數(shù)級增長,即使是OpenAI也難以負(fù)擔(dān)
  • 端到端訓(xùn)練效果超出預(yù)期:強(qiáng)化學(xué)習(xí)與推理的結(jié)合使模型突然擅長特定任務(wù),這既不是機(jī)器學(xué)習(xí),也不是基礎(chǔ)模型,而是一種全新的范式
  • 推理成本大幅下降:最近DeepSeek的優(yōu)化意味著全球現(xiàn)有GPU足以支持地球上每個人每天使用1萬token的前沿模型

在這種范式下,大模型提供商不再滿足于簡單銷售token,而是向價值鏈上游移動,將模型打造成直接面向特定場景的產(chǎn)品。OpenAI的DeepResearch和Anthropic的Claude 3.7 Sonnet就是這一趨勢的典型例子。

藏老師的神級prompt,讓任意文本直接變成酷炫的html頁面。claude 3.7 sonnet就是掌管SVG的神!Gemini 2.0語言模型原生的圖生成,體驗(yàn)一天之后,仿佛還看不到邊界。。。

2.工作流Agent與端到端Agent的本質(zhì)區(qū)別

目前市場上的Agent產(chǎn)品可以明確區(qū)分為兩類:

工作流Agent(如Manus AI):

從Manus到Gemini,首輪Agent競賽中有哪些關(guān)鍵信號?-AI.x社區(qū)

這類產(chǎn)品本質(zhì)上是LLM與工具的編排系統(tǒng),通過預(yù)定義的代碼路徑和提示詞引導(dǎo)模型。雖然短期內(nèi)見效快,但很容易遇到問題:硬編碼的規(guī)則無法擴(kuò)展,在復(fù)雜場景中表現(xiàn)不佳。表現(xiàn)出:

  • 無法有效規(guī)劃,容易陷入死角
  • 記憶能力有限,難以維持10分鐘以上的任務(wù)
  • 長期行動效率低下,錯誤會累積放大

端到端訓(xùn)練Agent(如DeepResearch):

這類產(chǎn)品通過端到端強(qiáng)化學(xué)習(xí)訓(xùn)練,模型能夠動態(tài)指導(dǎo)自己的處理過程。OpenAI的DeepResearch就是“一個新形式的研究語言模型,專門設(shè)計(jì)用來執(zhí)行端到端的搜索任務(wù)”。它不依賴外部調(diào)用或編排,而是通過強(qiáng)化學(xué)習(xí)習(xí)得了搜索、點(diǎn)擊、滾動和解釋文件的核心能力。

真正的Agent需要具備:

  • 搜索和規(guī)劃能力
  • 有效記憶和狀態(tài)管理
  • 長期行動的可靠性

3.Google與OpenAI展示了不同的Agent發(fā)展路線

通過比較Google的Gemini 2.0 Flash Thinking和OpenAI的DeepResearch,我們可以看到兩種不同的Agent發(fā)展思路:

  • Google的多模態(tài)融合路線

Gemini 2.0 Flash不僅在推理能力上有所提升,更在多模態(tài)應(yīng)用上取得突破。它能同時理解和生成文本與圖像,支持文本+圖像生成、對話式圖像編輯等功能。Google還通過Deep Research功能、應(yīng)用連接(YouTube、日歷、地圖等)和個性化功能,構(gòu)建了一個面向普通用戶的Agent生態(tài)。

  • OpenAI的專精特化路線

OpenAI選擇針對特定場景打造專精的Agent模型。DeepResearch專注于網(wǎng)絡(luò)搜索和文檔整理,通過端到端強(qiáng)化學(xué)習(xí)訓(xùn)練,使模型能夠自主規(guī)劃搜索策略,交叉引用多個來源。這種專精策略使其在特定領(lǐng)域表現(xiàn)更為出色。

4.端到端訓(xùn)練將成為Agent的主流形態(tài)

從長期來看,端到端訓(xùn)練的Agent將逐漸成為主流,因?yàn)樗螦gent的本質(zhì)形態(tài):模型能夠在循環(huán)中自主處理問題,具有更高的上限。

以包含4個子任務(wù)的串聯(lián)任務(wù)為例:

  • 工作流Agent:即使每個子任務(wù)成功率為95%,整體成功率也僅為81%
  • 端到端Agent:通過高質(zhì)量數(shù)據(jù)+強(qiáng)化學(xué)習(xí),有望將整體成功率提升至95%

未來可能會出現(xiàn)以下趨勢:

  • 頂級Agent的工程代碼將極其簡潔:背后是超高質(zhì)量的訓(xùn)練數(shù)據(jù)和極致的端到端強(qiáng)化訓(xùn)練,所有if-else和工作流選擇由模型自身完成
  • 通用Agent更可能由基礎(chǔ)模型公司推出:如OpenAI、Anthropic、DeepSeek等擁有強(qiáng)大基模和強(qiáng)化學(xué)習(xí)工程師的公司更具優(yōu)勢
  • 垂直領(lǐng)域Agent將成為創(chuàng)業(yè)公司的機(jī)會:專注特定行業(yè)或應(yīng)用場景,通過深度優(yōu)化實(shí)現(xiàn)差異化競爭

最后

Manus雖然當(dāng)前waitlist 才200萬,但考慮到訪問權(quán)限限制和邀請碼等負(fù)面因素的影響,這一數(shù)據(jù)相較于其熱度而言并不算特別驚人。

從Manus到Gemini,首輪Agent競賽中有哪些關(guān)鍵信號?-AI.x社區(qū)

回到Anthropic的定義:LLM Agent是能“動態(tài)指導(dǎo)自己的處理過程和工具使用,保持對任務(wù)完成方式的控制權(quán)”。

工作流Agent vs 端到端Agent, 這個短期看起來就跟去年的長上下文模型 vs RAG 爭議一致,并不會有明確的結(jié)論。

scaling vs finetuning, scaling能讓模型的上限更高,但是finetuning能更快的適應(yīng)到特定場景。

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦