自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

真正的AI智能體時(shí)代即將到來(lái),我們發(fā)現(xiàn)了幾點(diǎn)「苦澀的教訓(xùn)」

人工智能 新聞
在近期的測(cè)試中,開發(fā)者 Alexander Doria 發(fā)現(xiàn)了一些顯著的局限性,并寫成博客分享給大家。

最近一段時(shí)間,智能體(Agent)再次成為 AI 領(lǐng)域熱議的焦點(diǎn)。

2025 年 1 月,OpenAI 發(fā)布了名為 DeepResearch 的 o3 模型變種,專門用于網(wǎng)頁(yè)和文檔搜索。得益于在瀏覽任務(wù)上的強(qiáng)化學(xué)習(xí)訓(xùn)練,DeepResearch 具備了制定搜索策略、交叉引用信息來(lái)源、甚至利用中間反饋來(lái)處理深層次知識(shí)的能力。無(wú)獨(dú)有偶,Claude Sonnet 3.7 也成功地將同樣的強(qiáng)化學(xué)習(xí)方法應(yīng)用于代碼領(lǐng)域,在復(fù)雜的編程任務(wù)中展現(xiàn)出超越了以往模型的組合應(yīng)用效果。

正如摩根斯坦利學(xué)者 William Brown 在演講中所說(shuō)的:「LLM 智能體已能夠完成長(zhǎng)時(shí)間、多步驟的任務(wù)了?!?/span>

這一進(jìn)展不僅讓智能體的能力邁上了一個(gè)新臺(tái)階,也引發(fā)了一個(gè)更深層的問(wèn)題:LLM 智能體究竟是什么?

2024 年 12 月,Anthropic 給出了一個(gè)全新的定義:「LLM 智能體是能夠動(dòng)態(tài)指導(dǎo)自身流程和工具使用,并保持對(duì)任務(wù)完成方式控制的系統(tǒng)?!?/span>

與之相對(duì),目前更為普遍的智能體實(shí)際上都是工作流系統(tǒng)(workflows),也就是通過(guò)預(yù)設(shè)的代碼和規(guī)則來(lái)協(xié)調(diào) LLM 和工具的系統(tǒng),例如最近備受關(guān)注的 Manus AI。

對(duì)于很多開發(fā)者而言,這些 LLM 智能體形成的工作流系統(tǒng)能否提高生產(chǎn)力、在多大程度上提高,才是關(guān)鍵問(wèn)題。

在近期的測(cè)試中,開發(fā)者 Alexander Doria 發(fā)現(xiàn)了一些顯著的局限性,并寫成博客分享給大家。

截屏2025-03-17 10.51.49.png

博客地址:https://vintagedata.org/blog/posts/designing-llm-agents

「我在周末進(jìn)行的所有測(cè)試都顯示出一個(gè)結(jié)果,即工作流系統(tǒng)存在著一些根本性局限,這些局限早在 AutoGPT 時(shí)代就已顯現(xiàn),而在搜索領(lǐng)域表現(xiàn)得尤為明顯。」

  • 不能有效制定計(jì)劃,經(jīng)常中途卡殼; 
  • 不能記憶內(nèi)容,無(wú)法處理超過(guò) 5-10 分鐘的任務(wù); 
  • 無(wú)法長(zhǎng)期有效執(zhí)行任務(wù),容易因連續(xù)的小錯(cuò)誤最終徹底失敗。

作者以對(duì)大語(yǔ)言模型智能體「LLM 智能體」的定義為出發(fā)點(diǎn)。它基于大型實(shí)驗(yàn)室的有限信息、開放研究生態(tài)系統(tǒng)中不斷涌現(xiàn)的復(fù)現(xiàn)成果,再結(jié)合一些個(gè)人推測(cè),盡力對(duì)我們目前所了解的內(nèi)容進(jìn)行全面總結(jié)。

博客主要內(nèi)容如下:

LLM 智能體的「苦澀教訓(xùn)」 

傳統(tǒng)的智能體與基礎(chǔ)大語(yǔ)言模型(base LLM)完全不同。

在傳統(tǒng)的強(qiáng)化學(xué)習(xí)研究中,智能體被置于受限的環(huán)境中,就像在迷宮里行走,智能體的每個(gè)動(dòng)作都有物理或規(guī)則上的約束。即便如此,智能體仍保留了一定程度的自由,因?yàn)榻鉀Q謎題或游戲的方法往往不止一種。然而,每一步行動(dòng)都必須以最終獲勝和獲得獎(jiǎng)勵(lì)為目標(biāo)進(jìn)行計(jì)算。隨著時(shí)間的推移,高效的智能體會(huì)記住過(guò)去的行動(dòng),并逐步總結(jié)出模式和啟發(fā)式策略來(lái)優(yōu)化其行為。

這一過(guò)程被稱為「搜索」,智能體在迷宮中的探索行為與用戶在搜索引擎上的點(diǎn)擊模式如出一轍。搜索研究有著長(zhǎng)達(dá)數(shù)十年的豐富歷史。例如,據(jù)傳為 OpenAI 新一代模型提供支持的 Q-star 算法,便是源自 1968 年的 A-Star 搜索算法。最近,Pufferlib 進(jìn)行的寶可夢(mèng)訓(xùn)練實(shí)驗(yàn)便是這一過(guò)程的絕佳例證。在實(shí)驗(yàn)中,智能體被觀察到積極尋找最優(yōu)路徑,失敗后不斷嘗試,通過(guò)反復(fù)試錯(cuò)來(lái)優(yōu)化策略。

然而,大語(yǔ)言模型的基礎(chǔ)邏輯恰恰相反: 

  • 智能體能記住環(huán)境,但基礎(chǔ) LLM 不能,它們只能處理當(dāng)前窗口內(nèi)的信息;
  • 智能體受現(xiàn)實(shí)條件限制,但基礎(chǔ) LLM 生成的是概率最高的文本,隨時(shí)可能「跑題」;
  • 智能體能規(guī)劃長(zhǎng)期策略,基礎(chǔ) LLM 卻只能做好單步推理,面對(duì)多步推理任務(wù)很快就會(huì)「超載」。

目前,大部分 LLM 智能體的做法是利用預(yù)定義的提示詞(prompt)和規(guī)則來(lái)引導(dǎo)模型。然而,這種方法注定會(huì)遇到「苦澀的教訓(xùn)」(Bitter Lesson)。所謂教訓(xùn),是指人們往往傾向于將自己的知識(shí)硬編碼到系統(tǒng)中,短期內(nèi)可能效果顯著,但長(zhǎng)期來(lái)看卻嚴(yán)重限制了系統(tǒng)的發(fā)展?jié)摿?。真正的突破總是?lái)自于搜索與學(xué)習(xí)能力的提升,而非人為規(guī)則的堆砌。這一教訓(xùn)提醒我們,過(guò)度依賴規(guī)則設(shè)計(jì)可能會(huì)阻礙系統(tǒng)的自我優(yōu)化和進(jìn)化。

這就是為什么類似 Manus AI 這類工作流系統(tǒng)無(wú)法順利地訂機(jī)票或教你徒手打虎 —— 它們本質(zhì)上是被苦澀教訓(xùn)咬了一口??刻崾驹~和規(guī)則無(wú)法持續(xù)擴(kuò)展,你必須從根本上設(shè)計(jì)能夠真正搜索、規(guī)劃、行動(dòng)的系統(tǒng)。

強(qiáng)化學(xué)習(xí) + 推理:LLM 智能體的「成功秘訣」

真正的 LLM 智能體,應(yīng)該是什么樣呢?這是一個(gè)復(fù)雜的問(wèn)題,目前公開的信息很少。Anthropic、OpenAI、DeepMind 等少數(shù)實(shí)驗(yàn)室掌握著關(guān)鍵知識(shí)。目前,我們只能從現(xiàn)有的研究中嘗試來(lái)推測(cè):

1. 強(qiáng)化學(xué)習(xí) RL:與傳統(tǒng)智能體類似,LLM 智能體也通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練。這里的「迷宮」是所有可能的文本組合,而「出口」或「獎(jiǎng)勵(lì)」則是最終的目標(biāo)。驗(yàn)證是否達(dá)成獎(jiǎng)勵(lì)的過(guò)程被稱為「驗(yàn)證器」——William Brown 新開發(fā)的驗(yàn)證器庫(kù)正是為此而生。目前,驗(yàn)證器主要用于形式化結(jié)果,如數(shù)學(xué)方程或編程代碼。但 Kalomaze 的研究表明,通過(guò)訓(xùn)練專門分類器,也可為非嚴(yán)格可驗(yàn)證的輸出構(gòu)建驗(yàn)證器。值得注意的是,語(yǔ)言模型在評(píng)估方面的表現(xiàn)優(yōu)于生成,因此即使用小型 LLM-as-judge,也能顯著提升性能和獎(jiǎng)勵(lì)設(shè)計(jì)。

2. 草稿模式(Drafts):LLM 智能體的訓(xùn)練依賴于生成草稿并同時(shí)評(píng)估。這一選擇并非顯而易見(jiàn),因?yàn)樵缙谘芯恐饕性跀U(kuò)展搜索到整個(gè) token 序列。計(jì)算限制和「推理」模型的突破推動(dòng)了這一轉(zhuǎn)變。典型的訓(xùn)練過(guò)程是讓模型生成邏輯序列,假設(shè)能得出正確答案的序列更可能是正確的。這可能導(dǎo)致反直覺(jué)的結(jié)果(如 DeepSeek R0 模型偶爾在英語(yǔ)和中文間切換)。然而,正如苦澀的教訓(xùn)所示,強(qiáng)化學(xué)習(xí)只關(guān)注結(jié)果的有效性,甚至允許非正統(tǒng)或計(jì)劃外的捷徑。就像智能體在迷宮中尋找出路,語(yǔ)言模型必須通過(guò)純粹推理找到路徑 —— 沒(méi)有預(yù)定義提示,只有獎(jiǎng)勵(lì)和獲取獎(jiǎng)勵(lì)的方式。

3. 結(jié)構(gòu)化輸出(rubric):LLM 草稿通常被預(yù)定義為結(jié)構(gòu)化數(shù)據(jù)部分,以便于獎(jiǎng)勵(lì)驗(yàn)證,并在一定程度上簡(jiǎn)化整體推理過(guò)程。這是一種「評(píng)分標(biāo)準(zhǔn)工程」,既可以直接作為獎(jiǎng)勵(lì)函數(shù)進(jìn)行管理,也可以在大型實(shí)驗(yàn)室的訓(xùn)練設(shè)置中通過(guò)后訓(xùn)練階段實(shí)現(xiàn)。

4. 多步訓(xùn)練:LLM 智能體的訓(xùn)練需要大量草稿和多步驟迭代。搜索領(lǐng)域的情況尤其如此:我們不會(huì)一次性評(píng)估搜索結(jié)果,而是評(píng)估模型獲取資源、處理結(jié)果、進(jìn)一步獲取資源、調(diào)整計(jì)劃、回溯等能力。因此,DeepSeek 的 GRPO 結(jié)合 vllm 的文本生成成為當(dāng)前首選方法。近期,我發(fā)布了一個(gè)基于 William Brown 工作的代碼筆記本,成功在 Google Colab 提供的一塊 A100 GPU 上運(yùn)行了 GRPO。計(jì)算需求的降低將是未來(lái)幾年強(qiáng)化學(xué)習(xí)和智能體設(shè)計(jì)普及的關(guān)鍵因素。

如何實(shí)現(xiàn)規(guī)?;??

以上是基礎(chǔ)構(gòu)建模塊,但從這些到 OpenAI 的 DeepResearch 以及其他能夠處理長(zhǎng)動(dòng)作序列的智能體,還有一段距離。請(qǐng)?jiān)试S我做一些推測(cè)。

目前的開放強(qiáng)化學(xué)習(xí) / 推理研究主要集中在數(shù)學(xué)領(lǐng)域,因?yàn)槲覀儞碛写罅繑?shù)學(xué)練習(xí)題,其中一些被 Common Crawl 收錄,并由 HuggingFace 通過(guò)分類器提取。然而,對(duì)于許多其他領(lǐng)域(尤其是搜索領(lǐng)域),我們?nèi)狈ο嚓P(guān)數(shù)據(jù),因?yàn)槲覀冃枰鎸?shí)的動(dòng)作序列:日志、點(diǎn)擊記錄、行為模式等。我不久前曾在日志分析領(lǐng)域工作過(guò),模型(雖然仍在使用馬爾可夫鏈,但這個(gè)領(lǐng)域變化很快)仍然常在 20 世紀(jì) 90 年代末泄露的 AOL 數(shù)據(jù)上進(jìn)行訓(xùn)練。最近,至少有一個(gè)重要的公開數(shù)據(jù)集被引入:Wikipedia Clickstream,這是一組從一篇維基百科文章到另一篇文章的匿名點(diǎn)擊軌跡數(shù)據(jù)。

但讓我問(wèn)一個(gè)簡(jiǎn)單的問(wèn)題:這個(gè)數(shù)據(jù)集在 HuggingFace 上嗎?沒(méi)有。

事實(shí)上,HuggingFace 上幾乎沒(méi)有真正能增強(qiáng)規(guī)劃能力的「智能體數(shù)據(jù)」。整個(gè)領(lǐng)域仍然默認(rèn) LLM 模型需要通過(guò)自定義的規(guī)則系統(tǒng)進(jìn)行編排。我甚至不確定 OpenAI 或 Anthropic 是否擁有足夠數(shù)量的此類數(shù)據(jù)。這至少是一個(gè)傳統(tǒng)科技公司占據(jù)強(qiáng)勢(shì)地位的領(lǐng)域,而且沒(méi)有簡(jiǎn)單的替代方案:你無(wú)法購(gòu)買谷歌龐大的用戶搜索歷史數(shù)據(jù)。

目前能想到的解決方法是:通過(guò)模擬直接生成數(shù)據(jù)。傳統(tǒng)的強(qiáng)化學(xué)習(xí)模型并不依賴過(guò)往的實(shí)例。它們通過(guò)廣泛且反復(fù)的搜索來(lái)推斷出約束條件和過(guò)度策略。一旦應(yīng)用到搜索領(lǐng)域,典型的強(qiáng)化學(xué)習(xí)方法與博弈中的強(qiáng)化學(xué)習(xí)并無(wú)太大差異:讓模型自由探索,每當(dāng)它找到正確答案時(shí)就給予獎(jiǎng)勵(lì)。這可能是一個(gè)漫長(zhǎng)的探索過(guò)程。就好比你要找出一篇 20 世紀(jì) 60 年代被遺忘的蘇聯(lián)論文中記載的某個(gè)特定化學(xué)實(shí)驗(yàn)。通過(guò)純粹的蠻力,也許強(qiáng)制執(zhí)行一些語(yǔ)言查詢變化,模型最終偶然找到了正確結(jié)果。然后,它可以匯總導(dǎo)致這一結(jié)果的所有因素,從而使這一發(fā)現(xiàn)在未來(lái)更有可能實(shí)現(xiàn)。

我們來(lái)做一些簡(jiǎn)單的計(jì)算。在典型的強(qiáng)化學(xué)習(xí)(RL)設(shè)計(jì)中,以 GRPO 為例,一次可以同時(shí)進(jìn)行 16 個(gè)草稿的探索 —— 如果大型實(shí)驗(yàn)室訓(xùn)練的模型采用更高的草稿迭代次數(shù),我也不會(huì)感到意外。每個(gè)草稿可能會(huì)依次瀏覽至少 100 個(gè)不同的頁(yè)面。這意味著一次就有 2000 個(gè)潛在查詢,而這僅僅只是一步。一個(gè)復(fù)雜的強(qiáng)化學(xué)習(xí)訓(xùn)練序列可能需要進(jìn)行數(shù)十萬(wàn)步(這也是我認(rèn)為當(dāng)前訓(xùn)練正處于中期階段的原因之一),并且要處理各種各樣的任務(wù),尤其是針對(duì)像通用搜索能力這樣復(fù)雜的任務(wù)。如此算來(lái),一個(gè)訓(xùn)練序列就需要數(shù)億次的單獨(dú)連接 —— 在這個(gè)過(guò)程中,甚至可能會(huì)導(dǎo)致一些常用學(xué)術(shù)資源遭受類似分布式拒絕服務(wù)(DDoS)攻擊的情況。這顯然并不理想,此時(shí),網(wǎng)絡(luò)帶寬而非實(shí)際計(jì)算能力,成了主要的限制因素。

Game RL 面臨著類似的限制。這就是為什么像 Pufferlib 這樣的 SOTA 方法會(huì)「從學(xué)習(xí)庫(kù)的角度將環(huán)境包裝成 Atari,而不會(huì)失去通用性」:RL 模型只需要看到它們所需使用的信息。當(dāng)這種方法應(yīng)用于搜索領(lǐng)域時(shí),涉及到借助大型的 Common Crawl 數(shù)據(jù)轉(zhuǎn)儲(chǔ),并將數(shù)據(jù)偽裝成通過(guò) Web 處理的樣子,包含  url、api 調(diào)用和其他典型的 http 工件。而實(shí)際上,這些數(shù)據(jù)早已存儲(chǔ)在本地具有快速查詢能力的數(shù)據(jù)框中。

因此,我推測(cè)用于搜索的大語(yǔ)言模型強(qiáng)化學(xué)習(xí)智能體可以通過(guò)以下方式進(jìn)行訓(xùn)練:

  • 利用固定的數(shù)據(jù)集創(chuàng)建一個(gè)大型的網(wǎng)絡(luò)搜索模擬環(huán)境,并持續(xù)將數(shù)據(jù)「轉(zhuǎn)換」后反饋給模型。通過(guò)這種方式,讓模型仿佛置身于真實(shí)的網(wǎng)絡(luò)搜索場(chǎng)景中進(jìn)行學(xué)習(xí)。
  • 使用某種形式的輕量級(jí) SFT(如 DeepSeek 的 SFT-RL-SFT-RL 步驟)預(yù)冷模型,可能基于可以找到的任何現(xiàn)有搜索模式。其總體思路是預(yù)先規(guī)范模型的推理和輸出方式,從而加快實(shí)際強(qiáng)化學(xué)習(xí)訓(xùn)練的速度,這類似于進(jìn)行某種預(yù)定義的規(guī)則設(shè)計(jì)。
  • 準(zhǔn)備或多或少?gòu)?fù)雜的查詢,并將相關(guān)結(jié)果作為驗(yàn)證器。我唯一的猜測(cè)是,它涉及一些復(fù)雜的合成管道,從現(xiàn)有資源進(jìn)行反向翻譯,或者可能只是來(lái)自博士級(jí)注釋者的非常昂貴的注釋。
  • 多步驟 RL 中的實(shí)際訓(xùn)練。模型提交查詢、發(fā)起搜索、發(fā)送結(jié)果、瀏覽頁(yè)面或重新表述結(jié)果,所有這些都是多步驟完成的。從模型的角度來(lái)看,它就像是在瀏覽網(wǎng)頁(yè),但所有這些數(shù)據(jù)交換都是由搜索模擬器在后臺(tái)準(zhǔn)備的。
  • 也許一旦模型在搜索方面足夠好,就會(huì)重新進(jìn)行另一輪 RL 和 SFT,這次更專注于編寫最終的綜合體。同樣,這可能涉及一個(gè)復(fù)雜的合成流程,其中輸出會(huì)轉(zhuǎn)變?yōu)檩斎?,例如將原始的長(zhǎng)篇報(bào)告拆分成小塊,然后通過(guò)推理將它們重新組合起來(lái)。

告別對(duì)智能體進(jìn)行提示

最終,我們得到了一個(gè)真正的智能體模型。它在實(shí)踐中會(huì)如何改變標(biāo)準(zhǔn)的工作流程或模型編排呢??jī)H僅是整體質(zhì)量的提升,還是一種全新的范式轉(zhuǎn)變?

讓我們回顧一下 Anthropic 對(duì)智能體的定義:LLM 智能體「能夠動(dòng)態(tài)地引導(dǎo)自身的處理流程和工具使用,自主掌控任務(wù)的完成方式」。我將再次以我較為熟悉的搜索場(chǎng)景為例進(jìn)行說(shuō)明。

一直以來(lái),有很多人猜測(cè)檢索增強(qiáng)生成(RAG)會(huì)被具備長(zhǎng)上下文處理能力的直接大語(yǔ)言模型應(yīng)用所取代。但這種情況并未發(fā)生,原因有很多:長(zhǎng)上下文處理計(jì)算成本高昂,在處理相對(duì)復(fù)雜的查詢時(shí)準(zhǔn)確性欠佳,而且輸入信息的可追溯性較差。真正具備智能體能力的搜索大語(yǔ)言模型并不會(huì)取代 RAG。實(shí)際可能發(fā)生的情況是,在很大程度上實(shí)現(xiàn) RAG 的自動(dòng)化,并整合向量數(shù)據(jù)庫(kù)、路由和重排序等復(fù)雜操作。

一個(gè)典型的搜索過(guò)程可能會(huì)按照以下方式進(jìn)行:

  • 分析、分解查詢,并對(duì)用戶意圖做出一些假設(shè)。
  • 如果查詢不清楚,可能會(huì)立即提示用戶返回(OpenAI DeepResearch 已經(jīng)這樣做了)。
  • 隨后,模型既可以開展通用搜索,也可以在合適的情況下,直接轉(zhuǎn)向更專業(yè)的研究資源。該模型已經(jīng)記住了標(biāo)準(zhǔn)的應(yīng)用程序編程接口(API)方案,能夠直接調(diào)用它們。為節(jié)省推理時(shí)間,模型可優(yōu)先借助現(xiàn)有的網(wǎng)絡(luò)「模擬」版本,例如各類 API、網(wǎng)站地圖以及龐大的數(shù)據(jù)網(wǎng)絡(luò)生態(tài)系統(tǒng)。
  • 搜索序列經(jīng)過(guò)學(xué)習(xí)和訓(xùn)練。該模型可以放棄錯(cuò)誤的方向?;蛘咚梢韵駥I(yè)知識(shí)工作者那樣走另一條路。我看到 OpenAI DeepResearch 的一些最令人印象深刻的結(jié)果證明了這種能力:通過(guò)一系列內(nèi)部推理,可以正確定位索引不良的來(lái)源。
  • 搜索序列經(jīng)過(guò)學(xué)習(xí)和訓(xùn)練。模型能夠及時(shí)放棄錯(cuò)誤的搜索方向,或者像專業(yè)知識(shí)工作者那樣另辟蹊徑。我在 OpenAI DeepResearch 中看到的一些令人印象深刻的結(jié)果,就證明了這種能力:通過(guò)一系列的內(nèi)部推理,模型能夠準(zhǔn)確找到索引不佳的資源。
  • 每一步操作和整個(gè)過(guò)程都會(huì)作為內(nèi)部推理軌跡被記錄下來(lái),從而在一定程度上為搜索結(jié)果提供可解釋性。

簡(jiǎn)而言之,搜索過(guò)程是直接設(shè)計(jì)的。LLM 智能體充分利用現(xiàn)有的搜索基礎(chǔ)設(shè)施,并盡其所能以巧妙的方式開展搜索。目前不需要額外的數(shù)據(jù)準(zhǔn)備。也不需要訓(xùn)練用戶與生成式 AI 系統(tǒng)交互。正如 Tim Berners-Lee 十多年前強(qiáng)調(diào)的那樣,「思考 Agent 的一種方式是,如果用戶明確要求,程序在每個(gè)實(shí)例中都會(huì)執(zhí)行用戶希望它執(zhí)行的操作?!?/span>

現(xiàn)在,為了更清楚地了解實(shí)際投入生產(chǎn)的 LLM 智能體,你可以開始將這種方法遷移到其他領(lǐng)域。真正的網(wǎng)絡(luò)工程智能體同樣能夠直接與現(xiàn)有基礎(chǔ)設(shè)施交互,根據(jù)需求生成設(shè)備配置(如路由器、交換機(jī)、防火墻),分析網(wǎng)絡(luò)拓?fù)洳⑻岢鰞?yōu)化建議或解析錯(cuò)誤日志以識(shí)別網(wǎng)絡(luò)問(wèn)題的根本原因。真正的金融智能體將接受培訓(xùn),以提供競(jìng)爭(zhēng)數(shù)據(jù)標(biāo)準(zhǔn)的無(wú)縫和準(zhǔn)確翻譯(如 ISO 20022 到 MT103)。目前,僅靠一系列系統(tǒng)提示是無(wú)法完成上述任何一項(xiàng)任務(wù)的。

目前,唯一能夠開發(fā)真正 LLM 智能體的只有大型實(shí)驗(yàn)室。它們掌握著所有優(yōu)勢(shì):專業(yè)技術(shù)、擁有部分?jǐn)?shù)據(jù)(或者至少掌握合成數(shù)據(jù)的方法)以及將它們的模型轉(zhuǎn)化為產(chǎn)品的總體愿景。我不確定這種技術(shù)集中是否是一件好事,盡管資金生態(tài)系統(tǒng)不愿將真正的模型訓(xùn)練視為長(zhǎng)期顛覆和價(jià)值創(chuàng)造的實(shí)際來(lái)源,這在很大程度上助長(zhǎng)了這種集中化現(xiàn)象。

我一般不喜歡夸大其詞。然而,鑒于 LLM 智能體具有巨大的顛覆潛力和價(jià)值獲取能力,我堅(jiān)信讓 LLM 智能體的訓(xùn)練和部署走向大眾化已刻不容緩。因此,開放驗(yàn)證器、GRPO 訓(xùn)練樣本,以及可能會(huì)很快出現(xiàn)的復(fù)雜合成管道和模擬器。

2025 年會(huì)是智能體元年嗎?有可能。讓我們拭目以待。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2010-04-19 15:58:33

互聯(lián)網(wǎng)

2021-12-14 10:04:52

無(wú)密碼時(shí)代多因素身份驗(yàn)證MFA

2017-03-28 15:22:46

高清視頻

2011-04-21 16:59:54

一體電腦蘋果

2024-07-04 08:05:28

2024-01-22 16:00:38

人工智能大型語(yǔ)言模型

2018-08-15 09:12:58

2015-05-05 11:35:04

云計(jì)算大數(shù)據(jù)BDaas

2021-04-15 09:59:29

AI 數(shù)據(jù)人工智能

2024-11-04 15:54:16

2011-09-02 17:39:16

2013-10-09 10:50:00

智能電視智能電視庫(kù)應(yīng)用

2020-04-08 10:19:40

云計(jì)算云計(jì)算2.0

2022-09-11 08:10:44

Fedora

2010-10-25 13:12:13

云計(jì)算

2022-03-10 15:55:44

元宇宙VRVR辦公

2014-07-18 09:16:10

智能手機(jī)全息顯示

2009-04-14 09:56:00

2011-09-06 21:55:35

2022-08-31 07:19:41

量子計(jì)算人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)