自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

清華學霸、OpenAI姚順雨:AI下半場開戰(zhàn),評估將比訓練重要

人工智能 新聞
想象一下,未來的 AI 不僅能聽懂你的話,還能像你一樣思考、決策 —— 這正是思維樹(ToT)作者、OpenAI 研究員姚順雨正在探索的世界!

最近新出的《黑鏡》第七季大家都看了嗎?

其中第三集聚焦一個叫 ReDream 的前沿技術(shù),允許現(xiàn)代演員通過 AI 和虛擬現(xiàn)實與經(jīng)典黑白電影中的虛擬角色互動,快速重拍經(jīng)典影片。隨著故事發(fā)展,主角發(fā)現(xiàn) AI 角色似乎擁有自我意識。

image.png

想象一下,未來的 AI 不僅能聽懂你的話,還能像你一樣思考、決策 —— 這正是思維樹(ToT)作者、OpenAI 研究員姚順雨正在探索的世界!

姚順雨畢業(yè)于清華姚班,普林斯頓大學計算機科學博士,2024 年 8 月加入 OpenAI。他以語言智能體領(lǐng)域的開創(chuàng)性工作聞名:ToT 使 AI 通過多路徑推理解決復雜問題,ReAct 讓 AI 在推理中動態(tài)行動,CoALA 則為 AI 智能體提供了模塊化的認知架構(gòu)。

image.png

早在 GPT-2 剛興起時,他就預(yù)見了語言模型的潛力,率先研究如何將其轉(zhuǎn)化為「會思考的 Agent」,展現(xiàn)了驚人的學術(shù)前瞻性。如今,他的成果正推動 AI 在編程、教育、自動化等領(lǐng)域大放異彩。

近日,姚順雨發(fā)布了一篇新博客,探討 AI 發(fā)展的「下半場」。AI 的未來會是什么樣?讓我們跟隨他的腳步,一起揭開人工智能的下一幕!

image.png

博客地址:https://ysymyth.github.io/The-Second-Half/

上半場

簡而言之:我們正處在 AI 的中場休息時間。

幾十年來,AI 主要致力于開發(fā)新的訓練方法和模型,取得了顯著成就,如在國際象棋和圍棋中擊敗世界冠軍,以及在多個考試中超越人類。這些成就源于基礎(chǔ)性創(chuàng)新,如搜索、深度強化學習(Deep RL)和推理。

現(xiàn)在的不同之處在于:深度強化學習終于開始泛化,找到了一種有效的方法來解決多種 RL 任務(wù)。曾經(jīng),研究人員不相信單一方法能夠應(yīng)對軟件工程、創(chuàng)意寫作、復雜數(shù)學等多個領(lǐng)域的挑戰(zhàn),但如今這種情況已經(jīng)改變。

接下來,AI 的重點將從解決問題轉(zhuǎn)向定義問題。在這個新時代,評估的重要性將超過訓練。我們需要重新思考如何訓練 AI 以及如何衡量進展,這可能需要更接近產(chǎn)品經(jīng)理的思維方式。

理解上半場的關(guān)鍵在于其贏家。影響力最大的 AI 論文如 Transformer、AlexNet 和 GPT-3 等,都是提出基礎(chǔ)性突破的訓練方法,而非基準測試。盡管 ImageNet 是一個重要的基準測試,但其引用量仍遠低于 AlexNet。這表明,方法與基準測試之間的關(guān)系在其他領(lǐng)域更為顯著。

image.png

AI 發(fā)展的上半場主要聚焦于模型和方法的創(chuàng)新,而非評估標準的建立。這是因為開發(fā)新的算法和模型架構(gòu)(如反向傳播、AlexNet、Transformer 等)需要深刻的洞察力和工程能力,遠比將已有人類任務(wù)轉(zhuǎn)化為基準測試更具挑戰(zhàn)性和吸引力。

更重要的是,這些方法往往具有普適性和廣泛應(yīng)用價值。典型如 Transformer 架構(gòu),從最初的機器翻譯擴展到計算機視覺、自然語言處理和強化學習等多個領(lǐng)域,產(chǎn)生了深遠影響。這種專注于方法創(chuàng)新的策略在過去幾十年證明是有效的,推動了 AI 在各個領(lǐng)域的突破性進展。而現(xiàn)在,隨著這些創(chuàng)新的累積達到臨界點,AI 的發(fā)展重心正在發(fā)生根本性轉(zhuǎn)變。

配方

這個配方是什么?其中的成分,不出所料,包括大規(guī)模語言預(yù)訓練、規(guī)模(數(shù)據(jù)和計算能力),以及推理和行動的理念。這些聽起來可能像是每天都能聽到的流行詞,但將它們稱為配方是有原因的。

通過強化學習(RL)的視角可以理解這一點,強化學習通常被認為是人工智能的「終極形態(tài)」—— 理論上強化學習保證能贏得游戲,而從經(jīng)驗上看,很難想象沒有強化學習的超人類系統(tǒng)(例如 AlphaGo)。

在強化學習中,有三個關(guān)鍵組成部分:算法、環(huán)境和先驗知識。長期以來,強化學習研究人員主要關(guān)注算法(例如 REINFORCE、DQN、TD-learning、actor-critic、PPO、TRPO 等)—— 智能體學習的智力核心 —— 同時將環(huán)境和先驗知識視為固定或最小化的因素。例如,Sutton 和 Barto 的經(jīng)典教科書幾乎全部講述算法,幾乎不涉及環(huán)境或先驗知識。

image.png

然而,在深度強化學習時代,環(huán)境的重要性在實踐中變得愈發(fā)明顯:算法的性能通常高度依賴于其開發(fā)和測試的環(huán)境。如果忽視環(huán)境因素,研究者可能會構(gòu)建出一個只在玩具場景中表現(xiàn)出色的「最優(yōu)」算法。那么,為什么不先確定真正想要解決的環(huán)境,然后再尋找最適合該環(huán)境的算法呢?

這正是 OpenAI 最初的計劃。該公司構(gòu)建了 gym,一個用于各種游戲的標準強化學習環(huán)境,隨后又推出了 World of Bits 和 Universe 項目,試圖將互聯(lián)網(wǎng)或計算機轉(zhuǎn)變?yōu)橛螒颦h(huán)境。一旦將所有數(shù)字世界轉(zhuǎn)化為環(huán)境,并用智能強化學習算法解決它們,就能擁有數(shù)字通用人工智能(AGI)。

這是個不錯的計劃,但并未完全奏效。OpenAI 沿著這條路徑取得了巨大進展,使用強化學習解決了 Dota 游戲、機器人手部控制等問題。但該公司從未真正接近解決計算機使用或網(wǎng)頁導航的問題,而且在一個領(lǐng)域工作的強化學習智能體無法遷移到另一個領(lǐng)域。顯然還缺少了關(guān)鍵要素。

直到 GPT-2 或 GPT-3 出現(xiàn)后,研究人員才發(fā)現(xiàn)缺失的部分是先驗知識。需要強大的語言預(yù)訓練來將通用常識和語言知識提煉到模型中,然后這些模型才能被微調(diào)成為網(wǎng)頁智能體(WebGPT)或聊天智能體(ChatGPT)(并改變世界)。事實證明,強化學習中最重要的部分可能并不是強化學習算法或環(huán)境本身,而是先驗知識,而這些先驗知識可以通過與強化學習完全無關(guān)的方式獲得。

語言預(yù)訓練為聊天提供了良好的基礎(chǔ),但在控制計算機或玩視頻游戲方面效果不佳,因為這些領(lǐng)域與互聯(lián)網(wǎng)文本的分布差異較大。監(jiān)督微調(diào)(SFT)或強化學習(RL)在這些領(lǐng)域表現(xiàn)有限。

2019 年,作者嘗試通過 GPT-2 解決基于文本的游戲,但智能體需要進行數(shù)百萬步的強化學習才能達到一定水平,且難以遷移到新游戲。人類可以零樣本下玩新游戲并且表現(xiàn)更好,因為我們能夠進行抽象思考,例如「地下城是危險的,需要武器來對抗,可能需要在鎖住的箱子中尋找」。這種推理能力使我們能夠靈活應(yīng)對新情況。

image.png

思考或推理是一種獨特的行動,它不直接改變外部世界,但其空間是開放和無限的。在經(jīng)典強化學習中,這樣的無界組合會使決策復雜化。例如,如果從兩個盒子中選擇一個,其中一個有 100 萬美元,另一個為空,你的期望收益是 50 萬美元。若增加無限多的空盒子,期望收益變?yōu)榱恪H欢?,通過將推理引入強化學習環(huán)境的動作空間,我們能利用語言預(yù)訓練的先驗知識,實現(xiàn)泛化,并在決策時進行靈活的計算。讀者可以通過閱讀 ReAct 以了解智能體推理的初始故事。

論文地址:https://arxiv.org/pdf/2210.03629

目前,作者的直觀解釋是:即使你增加了無盡的空箱子,但在一生中你已經(jīng)在各種游戲中看到了它們,選擇這些箱子準備你在任何給定游戲中更好地選擇裝錢的箱子。作者的抽象解釋是:語言通過智能體中的推理進行泛化。

一旦我們掌握了正確的強化學習先驗(語言預(yù)訓練)和適合的強化學習環(huán)境(將語言推理作為行動),就會發(fā)現(xiàn)實際上強化學習算法可能是最簡單的一部分。于是,我們推出了 o 系列、R1、深度研究、利用計算機的智能體,及其他將來的成果。這種變化多么諷刺!長期以來,強化學習研究者專注于算法,而忽視了環(huán)境和先驗知識 —— 所有的實驗都幾乎從零開始。我們耗費了幾十年才意識到,或許我們的優(yōu)先級應(yīng)該完全調(diào)整過來。

但正如 Steve Jobs 所說:你無法展望未來連接點,只能倒回來看時連接。

 下半場

這個配方正在徹底改變游戲規(guī)則,回顧上半場的游戲:

  • 我們開發(fā)新穎的訓練方法或模型,以提升基準測試的成績。
  • 我們創(chuàng)建更困難的基準,并繼續(xù)這個循環(huán)。

這個游戲正在被破壞,因為:

  • 這個配方基本上標準化并工業(yè)化了基準的提升,而不需要更多的新想法。隨著這個配方的擴展和良好的泛化,針對特定任務(wù)的新方法可能只會提高 5%,而下一個 o 系列模型可能在沒有明確針對的情況下提高 30%。
  • 即使我們創(chuàng)建更困難的基準,很快(而且越來越快)它們也會被這個配方解決。我的同事 Jason Wei 制作了一個漂亮的圖來很好地可視化這個趨勢:

image.png

那么下半場剩下什么可以玩?如果不再需要新方法,而更難的基準測試將越來越快地被解決,我們該怎么辦?

作者認為我們應(yīng)該從根本上重新思考評估。這不僅意味著創(chuàng)造新的和更難的基準測試,而是從根本上質(zhì)疑現(xiàn)有的評估設(shè)置并創(chuàng)造新的,這樣我們就被迫發(fā)明超越現(xiàn)有食譜的新方法。這很難,因為人類有慣性,極少質(zhì)疑基本假設(shè) —— 你只是把它們當作理所當然,未意識到它們是假設(shè)而非法律。

為了解釋慣性,假設(shè)你在歷史上基于人類考試發(fā)明了最成功的評估之一。它在 2021 年是一個非常大膽的想法,但 3 年后它就飽和了。你會怎么做?最可能的是創(chuàng)建一個更難的考試?;蛘呒僭O(shè)你解決了簡單的編碼任務(wù)。你會怎么做?最可能的是找更難的編碼任務(wù)來解決,直到達到 IOI 金牌水平。

慣性是自然的,但這是問題所在。AI 在國際象棋和圍棋中擊敗世界冠軍,在 SAT 和律考中超過大多數(shù)人類,并在 IOI 和 IMO 中達到了金牌水平。但世界沒有太大變化,至少從經(jīng)濟和 GDP 角度來看如此。

作者稱之為效用問題,并將其視為 AI 最重要的問題之一。

也許我們很快就會解決效用問題,也許不會。無論如何,這個問題的根本原因可能看似簡單:我們的評估設(shè)置在許多基本方面與現(xiàn)實世界的設(shè)置不同。舉兩個例子:

評估「應(yīng)該」自動運行,因此通常一個智能體接收任務(wù)輸入,獨立完成任務(wù),然后獲得任務(wù)獎勵。但在現(xiàn)實中,智能體必須在整個任務(wù)過程中與人類互動 —— 你不會只是給客服發(fā)一條超級長的消息,等 10 分鐘,然后期待得到詳細的回復來解決所有問題。通過質(zhì)疑這種設(shè)置,新的基準被發(fā)明出來,以便在循環(huán)中引入真實的人類(例如,聊天機器人競技場)或用戶模擬(例如,tau-bench)。

image.png

評估「應(yīng)該」在獨立同分布(i.i.d.)的情況下進行。如果你有一個包含 500 個任務(wù)的測試集,你會獨立運行每個任務(wù),平均任務(wù)指標,然后得到一個整體指標。但在現(xiàn)實中,你是順序解決任務(wù),而不是并行進行。谷歌的軟件工程師(SWE)在解決 google3 問題時,隨著對代碼庫的熟悉程度逐漸提高,解決問題的能力也會越來越好,但一個軟件工程智能體在同一個代碼庫中解決許多問題時,并不會獲得這樣的熟悉度。顯然,我們需要長期記憶方法(并且確實存在),但學術(shù)界沒有適當?shù)幕鶞蕘碜C明這種需求,甚至缺乏質(zhì)疑作為機器學習基礎(chǔ)的 i.i.d. 假設(shè)的勇氣。

這些假設(shè)「一直」都是這樣,在 AI 發(fā)展的前半段,在這些假設(shè)下開發(fā)基準測試是可行的,因為當智能水平較低時,提高智能通常會提高實用性。但現(xiàn)在,這種通用方法在這些假設(shè)下肯定能奏效。所以,在后半段的新游戲中,我們的方式是:

  • 我們?yōu)楝F(xiàn)實世界的實用性開發(fā)新穎的評估設(shè)置或任務(wù)。
  • 我們用通用方法解決這些任務(wù),或者用新穎的組件增強這些方法。然后繼續(xù)循環(huán)。

這個過程既困難又令人興奮,因為它不再是我們熟悉的。前期的參與者專注于解決視頻游戲和考試,而后期的參與者通過利用智能開發(fā)有用的產(chǎn)品,創(chuàng)造了價值數(shù)十億甚至數(shù)萬億美元的公司。前期充滿了增量式的方法和模型,而后期從一定程度上篩選這些方法。通用方法可能會超越增量式方法,除非你能夠通過創(chuàng)造新的假設(shè)打破這種通用性。唯有如此,才能進行真正改變游戲規(guī)則的研究。

歡迎來到后半段!

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2024-08-02 13:33:04

2018-05-29 10:16:40

超融合IT廠商產(chǎn)品

2024-05-14 10:57:48

數(shù)字化轉(zhuǎn)型數(shù)據(jù)中臺

2018-11-22 09:07:45

NFV網(wǎng)絡(luò)功能虛擬化網(wǎng)絡(luò)

2019-03-21 10:57:58

技術(shù)開源數(shù)據(jù)

2020-12-30 14:25:08

人工智能云異構(gòu)

2018-10-29 13:50:40

2016-12-21 16:53:51

大數(shù)據(jù)互聯(lián)網(wǎng)阿里

2022-08-09 08:40:51

運營商互聯(lián)網(wǎng)云云計算

2020-07-13 07:00:03

微服務(wù)服務(wù)網(wǎng)格架構(gòu)

2022-06-20 09:10:00

AI計算機量子

2016-12-13 12:34:23

寬帶電信移動

2021-03-04 09:37:40

云計算云原生計算云安全

2024-09-23 08:42:11

2018-04-25 09:37:41

AI

2018-08-12 11:54:41

BlackHat

2018-12-06 09:55:38

區(qū)塊鏈數(shù)字貨幣互聯(lián)網(wǎng)

2021-01-27 09:12:30

微信搜索騰訊

2020-03-23 11:39:25

在線教育疫情市場

2019-05-20 11:00:54

云計算AIoT開發(fā)
點贊
收藏

51CTO技術(shù)棧公眾號