LLM之后,Agent的未來是RL!
嘿,大家好!這里是一個專注于AI智能體的頻道~
今天給家人們聊一期播客總結,四十二章經(jīng)最新一期播客請到了在Meta工作了七年的應用強化學習組負責人朱哲清Bill。作為斯坦福大學強化學習專業(yè)博士,現(xiàn)在創(chuàng)業(yè)做Agent的他,拋出了一個巨大的反共識觀點:
"LLM只是一個翻譯官,真正的Agent核心應該是RL。"
等等,這是什么意思?
在2024年,我們見證了GPT-4掀起的Agent熱潮。Claude、GPTs、Copilot...幾乎所有大公司都在用LLM構建Agent。
但Bill卻說,這條路走偏了?
并且,他用自己的技術路線,只花了不到1萬美金就訓練出了一個能在電商領域超越GPT-4的Agent。
這背后到底有什么玄機?
當前Agent的痛點
要理解Bill的觀點,我們先問自己一個問題:當前的Agent真的在"思考"嗎?
播客里邊給出了一個非常形象的類比:想象你在一個復雜的迷宮里。
如果是人類,會怎么做?
- 分析當前位置
- 嘗試不同路徑
- 記住死胡同
- 總結經(jīng)驗教訓
但當前的LLM Agent呢?它就像一個只會背誦地圖的人:
- ? 能說出每個路口的樣子
- ? 能背誦所有可能的路徑
- × 但不會從錯誤中學習
- × 更不會優(yōu)化自己的策略
這就是為什么你會發(fā)現(xiàn):
Agent常常重復同樣的錯誤;遇到新情況就抓瞎;效率始終無法提升等等問題
平行宇宙思維
那RL是如何解決這個問題的?
這里有個有趣的概念:平行宇宙。
想象你在玩《王者榮耀》,每次決策都可以看到未來5分鐘會發(fā)生什么,這邊走會被抓,那邊走能拿龍 ,支援上路能贏團戰(zhàn)。
這就是RL的核心能力:
- 并行模擬多個未來
- 評估每個決策的收益
- 選擇最優(yōu)的行動路徑
就像,AlphaGo能在沒有人類棋譜的情況下,可以通過自我對弈達到超越人類的水平了;DeepSeek-R1最新的模型,沒有PRM(過程獎勵),沒有MCTS(蒙特卡洛),Zero模型可以直接開始RL,訓出來推理能力。
"翻譯官"LLM
這是不是意味著LLM就沒用了?
恰恰相反。
Bill提出了一個絕妙的比喻:LLM就像一個優(yōu)秀的"翻譯官"。
想象你是一個天才的圍棋選手,但只會下棋,不會說話。你需要有人幫你理解對手的意圖,幫你表達想法。
這就是LLM的完美定位:
- 輸入端:把人類語言轉換為RL可以理解的抽象狀態(tài)
- 輸出端:把RL的決策轉換為人類可以理解的語言
最后
Bill預測,2025年會出現(xiàn)三個重要趨勢:
- 專業(yè)領域的Agent會達到專業(yè)人士水平
- 訓練成本會進一步降低
- 應用場景會不斷擴大
但更重要的是,這個技術路線給了我們一個全新的視角:
也許,真正的AI智能體,應該像人類一樣:
- 會在"平行宇宙"中規(guī)劃
- 會從經(jīng)驗中學習
- 會不斷優(yōu)化決策
