自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

LLM之后,Agent的未來是RL!

發(fā)布于 2025-1-23 09:19
瀏覽
1收藏

嘿,大家好!這里是一個專注于AI智能體的頻道~

今天給家人們聊一期播客總結,四十二章經(jīng)最新一期播客請到了在Meta工作了七年的應用強化學習組負責人朱哲清Bill。作為斯坦福大學強化學習專業(yè)博士,現(xiàn)在創(chuàng)業(yè)做Agent的他,拋出了一個巨大的反共識觀點:

"LLM只是一個翻譯官,真正的Agent核心應該是RL。"

等等,這是什么意思?

在2024年,我們見證了GPT-4掀起的Agent熱潮。Claude、GPTs、Copilot...幾乎所有大公司都在用LLM構建Agent。

但Bill卻說,這條路走偏了?

并且,他用自己的技術路線,只花了不到1萬美金就訓練出了一個能在電商領域超越GPT-4的Agent。

這背后到底有什么玄機?

當前Agent的痛點

要理解Bill的觀點,我們先問自己一個問題:當前的Agent真的在"思考"嗎?

播客里邊給出了一個非常形象的類比:想象你在一個復雜的迷宮里。

如果是人類,會怎么做?

  • 分析當前位置
  • 嘗試不同路徑
  • 記住死胡同
  • 總結經(jīng)驗教訓

但當前的LLM Agent呢?它就像一個只會背誦地圖的人:

  • ? 能說出每個路口的樣子
  • ? 能背誦所有可能的路徑
  • × 但不會從錯誤中學習
  • × 更不會優(yōu)化自己的策略

這就是為什么你會發(fā)現(xiàn):

Agent常常重復同樣的錯誤;遇到新情況就抓瞎;效率始終無法提升等等問題

平行宇宙思維

那RL是如何解決這個問題的?

這里有個有趣的概念:平行宇宙。

想象你在玩《王者榮耀》,每次決策都可以看到未來5分鐘會發(fā)生什么,這邊走會被抓,那邊走能拿龍 ,支援上路能贏團戰(zhàn)。

這就是RL的核心能力:

  • 并行模擬多個未來
  • 評估每個決策的收益
  • 選擇最優(yōu)的行動路徑

就像,AlphaGo能在沒有人類棋譜的情況下,可以通過自我對弈達到超越人類的水平了;DeepSeek-R1最新的模型,沒有PRM(過程獎勵),沒有MCTS(蒙特卡洛),Zero模型可以直接開始RL,訓出來推理能力。

"翻譯官"LLM

這是不是意味著LLM就沒用了?

恰恰相反。

Bill提出了一個絕妙的比喻:LLM就像一個優(yōu)秀的"翻譯官"。

想象你是一個天才的圍棋選手,但只會下棋,不會說話。你需要有人幫你理解對手的意圖,幫你表達想法。

這就是LLM的完美定位:

  • 輸入端:把人類語言轉換為RL可以理解的抽象狀態(tài)
  • 輸出端:把RL的決策轉換為人類可以理解的語言

最后

Bill預測,2025年會出現(xiàn)三個重要趨勢:

  • 專業(yè)領域的Agent會達到專業(yè)人士水平
  • 訓練成本會進一步降低
  • 應用場景會不斷擴大

但更重要的是,這個技術路線給了我們一個全新的視角:

也許,真正的AI智能體,應該像人類一樣:

  • 會在"平行宇宙"中規(guī)劃
  • 會從經(jīng)驗中學習
  • 會不斷優(yōu)化決策

本文轉載自??探索AGI??,作者: 獼猴桃 ????

標簽
收藏 1
回復
舉報
回復
相關推薦