最新萬字長文!強化學(xué)習(xí)之父聯(lián)合谷歌RL副總裁:未來不是靠強化學(xué)習(xí)算法而是「經(jīng)驗流」
就像Sam Altman 之前在博客文章中寫的那樣:回顧人工智能的發(fā)展,深度學(xué)習(xí)確實奏效了!現(xiàn)在強化學(xué)習(xí)正如火如荼,OpenAI o系列,DeepSeek R0都顯示出了強化學(xué)習(xí)的巨大威力,人類生成的數(shù)據(jù)推動了人工智能的驚人進步,但接下來會發(fā)生什么?
谷歌強化學(xué)習(xí)副總裁 David Silver與圖靈獎獲得者,強化學(xué)習(xí)之父Richard Sutton最新論文《Welcome to the Era of Experience》 猶如《TheBitterLesson(苦澀的教訓(xùn))》的續(xù)章給我們當(dāng)頭一棒:
人類數(shù)據(jù)正在見頂,經(jīng)驗是下一個超級數(shù)據(jù)源,真正能推動AI躍升的數(shù)據(jù),必須隨模型變強而自動增長。唯一的解法:經(jīng)驗本身
?? 經(jīng)驗是無限的?? 經(jīng)驗?zāi)芡黄迫祟愔R邊界?? 經(jīng)驗流才是智能體的本地語言
Sutton 的主張很清晰:未來AI不是“提示詞+知識庫”,而是“行動+反饋”的循環(huán)體
經(jīng)驗時代,是AI的范式大轉(zhuǎn)折,文章說:我們正從“人類數(shù)據(jù)時代”跨入“經(jīng)驗時代”。這不是模型升級,不是RL算法迭代,而是一種更根本的范式轉(zhuǎn)折:
→ 從模仿人類到超越人類→ 從靜態(tài)數(shù)據(jù)到動態(tài)經(jīng)驗→ 從監(jiān)督學(xué)習(xí)到主動試錯
他們喊話整個AI界:
經(jīng)驗才是通往真正智能的鑰匙
(聲明:以上這段對《Welcome to the Era of Experience》中文總結(jié)摘自x上的一位華人@AnneXingxb,得到了Sutton本人的高度肯定,這里引用了其中一小部分)
個人覺得這篇paper :Welcome to the Era of Experience文章非常值得一讀,中文翻譯分享給大家,英文好的建議直接讀原文
paper:
另外谷歌強化學(xué)習(xí)副總裁David Silver專門針對這個話題有一期播客,大家感興趣也可以看看
觀看 → https://goo.gle/42oE0El
論文全文翻譯
歡迎來到經(jīng)驗時代
大衛(wèi)·西爾弗,理查德·S·薩頓*
摘要
我們正站在人工智能新時代的門檻上,這個新時代有望實現(xiàn)前所未有的能力水平。新一代智能體將主要通過學(xué)習(xí)經(jīng)驗來獲得超人類的能力。本文探討了將定義這個即將到來的時代的關(guān)鍵特征。
人類數(shù)據(jù)時代(The Era of Human Data)
近年來,人工智能(AI)通過對海量的人類生成數(shù)據(jù)進行訓(xùn)練,并使用專家的人工示例和偏好進行微調(diào),取得了顯著的進步。大型語言模型(LLM)就是這種方法的典范,它們已經(jīng)達(dá)到了廣泛的通用性水平。單個LLM現(xiàn)在可以執(zhí)行的任務(wù)范圍非常廣泛,從撰寫詩歌和解決物理問題,到診斷醫(yī)療問題和總結(jié)法律文件,無所不能。
然而,雖然模仿人類足以在一定程度上復(fù)現(xiàn)許多人類能力,但僅靠這種方法不太可能在許多重要的主題和任務(wù)上實現(xiàn)超人類智能。在數(shù)學(xué)、編程和科學(xué)等關(guān)鍵領(lǐng)域,從人類數(shù)據(jù)中提取的知識正迅速接近極限。大多數(shù)高質(zhì)量的數(shù)據(jù)來源——那些實際上可以提高強大智能體性能的數(shù)據(jù)——要么已經(jīng)被消耗殆盡,要么很快就會被消耗殆盡。僅僅依靠人類數(shù)據(jù)的監(jiān)督學(xué)習(xí)來驅(qū)動進步的步伐正在明顯放緩,這預(yù)示著我們需要一種新的方法。此外,有價值的新見解,例如新的定理、技術(shù)或科學(xué)突破,都存在于當(dāng)前人類理解的邊界之外,無法通過現(xiàn)有的人類數(shù)據(jù)捕捉到。
經(jīng)驗時代(The Era of Experience)
為了取得更顯著的進步,我們需要一種新的數(shù)據(jù)來源。這種數(shù)據(jù)必須以這樣一種方式生成:隨著智能體變得更強大,數(shù)據(jù)也能不斷改進;任何用于合成生成數(shù)據(jù)的靜態(tài)程序都會很快變得過時。這可以通過讓智能體不斷從自身經(jīng)驗中學(xué)習(xí)來實現(xiàn),即通過智能體與其環(huán)境互動所產(chǎn)生的數(shù)據(jù)。人工智能正處于一個新時代的風(fēng)口浪尖,在這個時代,經(jīng)驗將成為改進的主要媒介,并最終使今天系統(tǒng)中使用的以人類數(shù)據(jù)為主的數(shù)據(jù)規(guī)模相形見絀。
這種轉(zhuǎn)變可能已經(jīng)開始,甚至對于那些以人類為中心的人工智能的代表——大型語言模型來說也是如此。數(shù)學(xué)能力就是一個例子。AlphaProof 最近成為首個在國際數(shù)學(xué)奧林匹克競賽中獲得獎牌的程序,超越了以人類為中心的方法的表現(xiàn)。最初接觸了大約十萬個由人類數(shù)學(xué)家多年創(chuàng)建的形式化證明后,AlphaProof的強化學(xué)習(xí)(RL)算法1 隨后通過與形式化證明系統(tǒng)的持續(xù)互動,生成了數(shù)億個證明。這種對互動經(jīng)驗的關(guān)注使得AlphaProof能夠探索超越預(yù)先存在的形式化證明范圍的數(shù)學(xué)可能性,從而發(fā)現(xiàn)新穎且具有挑戰(zhàn)性的問題的解決方案。非形式化數(shù)學(xué)也通過用自生成數(shù)據(jù)取代專家生成數(shù)據(jù)而取得了成功;例如,DeepSeek 最近的工作“強調(diào)了強化學(xué)習(xí)的力量和美妙之處:我們沒有明確地教模型如何解決問題,而是簡單地提供了正確的激勵,它就自主地發(fā)展出了先進的問題解決策略。”
我們認(rèn)為,一旦充分發(fā)揮經(jīng)驗學(xué)習(xí)的潛力,不可思議的新能力將會涌現(xiàn)。經(jīng)驗時代的特征很可能是智能體和環(huán)境,除了從海量的經(jīng)驗數(shù)據(jù)中學(xué)習(xí)之外,它們還將在以下幾個方面突破以人類為中心的人工智能系統(tǒng)的局限性:
? 智能體將棲息于經(jīng)驗流之中,而不是短暫的互動片段。
? 它們的行動和觀察將深深扎根于環(huán)境之中,而不是僅僅通過人類對話進行互動。
? 它們的獎勵將扎根于它們對環(huán)境的體驗,而不是來自人類的先入為主的判斷。
? 它們將計劃和/或推理經(jīng)驗,而不是僅僅以人類的術(shù)語進行推理。
我們相信,今天的技術(shù),只要采用適當(dāng)選擇的算法,就已經(jīng)提供了足夠強大的基礎(chǔ)來實現(xiàn)這些突破。此外,人工智能界對這一議程的追求將激發(fā)這些方向的新創(chuàng)新,從而迅速推動人工智能朝著真正的超人類智能發(fā)展。
經(jīng)驗流(Streams)
一個經(jīng)驗型智能體可以在一生中持續(xù)學(xué)習(xí)。在人類數(shù)據(jù)時代,基于語言的人工智能主要關(guān)注于短期的互動片段:例如,用戶提出一個問題,智能體(可能在經(jīng)過幾個思考步驟或工具使用動作后)做出回應(yīng)。通常,幾乎沒有或根本沒有信息從一個片段傳遞到下一個片段,從而排除了任何隨時間推移的適應(yīng)性。此外,智能體的目標(biāo)完全是在當(dāng)前片段內(nèi)獲得結(jié)果,例如直接回答用戶的問題。相比之下,人類(和其他動物)存在于一個持續(xù)多年的行動和觀察流之中。信息在整個信息流中傳遞,它們的行為會根據(jù)過去的經(jīng)驗進行調(diào)整,以自我糾正和改進。此外,目標(biāo)可以用在信息流的未來中延伸很遠(yuǎn)的行動和觀察來指定。例如,人類可以選擇采取行動來實現(xiàn)長期目標(biāo),例如改善他們的健康狀況、學(xué)習(xí)一門語言或取得科學(xué)突破。
強大的智能體應(yīng)該擁有像人類一樣,在較長時間尺度上推進的自身經(jīng)驗流。這將使智能體能夠采取行動來實現(xiàn)未來目標(biāo),并隨著時間的推移不斷適應(yīng)新的行為模式。例如,一個連接到用戶可穿戴設(shè)備的健康和保健智能體可以監(jiān)測用戶數(shù)月的睡眠模式、活動水平和飲食習(xí)慣。然后,它可以提供個性化的建議、鼓勵,并根據(jù)長期趨勢和用戶的具體健康目標(biāo)調(diào)整其指導(dǎo)。同樣,一個個性化的教育智能體可以跟蹤用戶在學(xué)習(xí)新語言方面的進展,識別知識差距,適應(yīng)他們的學(xué)習(xí)風(fēng)格,并在數(shù)月甚至數(shù)年的時間里調(diào)整其教學(xué)方法。此外,一個科學(xué)智能體可以追求雄心勃勃的目標(biāo),例如發(fā)現(xiàn)一種新材料或減少二氧化碳。這樣的智能體可以在較長的時間范圍內(nèi)分析真實世界的觀察結(jié)果,開發(fā)和運行模擬,并提出真實世界的實驗或干預(yù)措施。
在每種情況下,智能體都會采取一系列步驟,以便最大限度地提高相對于指定目標(biāo)的長期成功率。單個步驟可能不會提供任何即時利益,甚至可能在短期內(nèi)有害,但從總體上看,可能有助于更長期的成功。這與當(dāng)前的AI系統(tǒng)形成鮮明對比,后者提供對請求的即時響應(yīng),而沒有任何能力來衡量或優(yōu)化其行為對環(huán)境的未來影響。
行動和觀察(Actions and Observations)
經(jīng)驗時代的智能體將在真實世界中自主行動。人類數(shù)據(jù)時代的LLM主要關(guān)注于人類特權(quán)的行動和觀察,這些行動和觀察將文本輸出給用戶,并將用戶的文本輸入回智能體。這與自然智能截然不同,在自然智能中,動物通過運動控制和傳感器與環(huán)境互動。雖然動物,尤其是人類,可能會與其他動物交流,但這通過與其他感覺運動控制相同的界面發(fā)生,而不是通過特權(quán)通道。
人們早就認(rèn)識到,LLM也可以在數(shù)字世界中調(diào)用行動,例如通過調(diào)用API(例如,參見 )。最初,這些能力主要來自人類的工具使用示例,而不是來自智能體的經(jīng)驗。然而,編碼和工具使用能力越來越多地建立在執(zhí)行反饋之上 ,在這些情況下,智能體實際上運行代碼并觀察發(fā)生了什么。最近,新一波原型智能體已經(jīng)開始以更通用的方式與計算機互動,使用與人類操作計算機相同的界面 。這些變化預(yù)示著從完全以人類特權(quán)為中心的交流,到更加自主的互動的轉(zhuǎn)變,在這種互動中,智能體能夠獨立地在世界中行動。這樣的智能體將能夠積極探索世界,適應(yīng)不斷變化的環(huán)境,并發(fā)現(xiàn)人類可能永遠(yuǎn)不會想到的策略。
這些更豐富的互動將提供一種自主理解和控制數(shù)字世界的方法。智能體可以使用“人類友好的”行動和觀察,例如用戶界面,這自然有助于與用戶進行溝通和協(xié)作。智能體也可以采取“機器友好的”行動,執(zhí)行代碼和調(diào)用API,從而使智能體能夠自主地為其目標(biāo)服務(wù)。在經(jīng)驗時代,智能體還將通過數(shù)字接口與真實世界互動。例如,一個科學(xué)智能體可以監(jiān)測環(huán)境傳感器,遠(yuǎn)程操作望遠(yuǎn)鏡,或控制實驗室中的機械臂以自主進行實驗。
獎勵(Rewards)
如果經(jīng)驗型智能體可以從外部事件和信號中學(xué)習(xí),而不僅僅是人類的偏好呢?
以人為中心的大型語言模型通?;谌祟惖南热霝橹鞯呐袛鄟韮?yōu)化獎勵:專家觀察智能體的行動,并決定這是一個好的行動,還是在多個備選方案中選擇最佳的智能體行動。例如,專家可能會評判健康智能體的建議、教育助手的教學(xué)或科學(xué)智能體提出的實驗。這些獎勵或偏好是由人類在不考慮后果的情況下決定的,而不是衡量這些行動對環(huán)境的影響,這意味著它們并非直接扎根于現(xiàn)實世界。以這種方式依賴人類的先入為主的判斷通常會導(dǎo)致智能體性能達(dá)到難以逾越的瓶頸:智能體無法發(fā)現(xiàn)人類評估者未曾賞識的更佳策略。為了發(fā)現(xiàn)遠(yuǎn)遠(yuǎn)超出既有的人類知識的新想法,必須使用扎根的獎勵:即來自環(huán)境本身的信號。例如,一個健康助手可以將用戶的健康目標(biāo)扎根于基于休息心率、睡眠時長和活動水平等信號的獎勵中,而一個教育助手可以使用考試成績來為語言學(xué)習(xí)提供扎根的獎勵。同樣,一個以減少全球變暖為目標(biāo)的科學(xué)智能體可以使用基于二氧化碳水平的經(jīng)驗觀察的獎勵,而一個以發(fā)現(xiàn)更強材料為目標(biāo)的智能體可以使用來自材料模擬器的多種測量的組合來扎根獎勵,例如抗拉強度或楊氏模量。
扎根的獎勵可能來自作為智能體環(huán)境一部分的人類2。例如,人類用戶可以報告他們是否覺得蛋糕美味、運動后有多疲勞或頭痛的疼痛程度,從而使助手智能體能夠提供更好的食譜、改進其健身建議或改善其推薦的藥物。這些獎勵衡量了智能體行動在其環(huán)境中的后果,并且最終應(yīng)能帶來比人類專家預(yù)先判斷蛋糕食譜、鍛煉計劃或治療方案更好的幫助。
如果獎勵不是來自人類數(shù)據(jù),而是來自哪里呢?一旦智能體通過豐富的行動和觀察空間(見上文)連接到世界,就會有無窮無盡的扎根信號來為獎勵提供基礎(chǔ)。事實上,世界充斥著各種各樣的量化指標(biāo),例如成本、錯誤率、饑餓感、生產(chǎn)力、健康指標(biāo)、氣候指標(biāo)、利潤、銷售額、考試成績、成功率、訪問量、產(chǎn)量、股票、點贊數(shù)、收入、快樂/痛苦、經(jīng)濟指標(biāo)、準(zhǔn)確率、功率、距離、速度、效率或能源消耗。此外,還有無數(shù)額外的信號來自特定事件的發(fā)生,或來自從原始觀察和行動序列中提取的特征。
原則上,人們可以創(chuàng)建各種不同的智能體,每個智能體都優(yōu)化一個扎根的信號作為其獎勵。有一種觀點認(rèn)為,即使是單個這樣的獎勵信號,如果以極高的效率進行優(yōu)化,也可能足以誘導(dǎo)出廣泛的能力智能 3。這是因為,在一個復(fù)雜的環(huán)境中,實現(xiàn)一個簡單的目標(biāo)往往需要掌握各種各樣的技能。
然而,追求單一獎勵信號表面上似乎不符合通用人工智能的要求,即能夠可靠地引導(dǎo)人工智能朝著任意用戶期望的行為發(fā)展。那么,自主優(yōu)化扎根的、非人類的獎勵信號是否與現(xiàn)代人工智能系統(tǒng)的要求背道而馳呢?我們認(rèn)為情況并非一定如此,我們在此勾勒出一種可能滿足這些要求的方法;其他方法也可能是可行的。
這個想法是根據(jù)用戶的引導(dǎo),靈活地調(diào)整基于扎根信號的獎勵。例如,獎勵函數(shù)可以由一個神經(jīng)網(wǎng)絡(luò)定義,該網(wǎng)絡(luò)將智能體與用戶和環(huán)境的互動作為輸入,并輸出一個標(biāo)量獎勵。這使得獎勵能夠以取決于用戶目標(biāo)的方式,選擇或組合來自環(huán)境的信號。例如,用戶可以指定一個廣泛的目標(biāo),例如“改善我的健康狀況”,獎勵函數(shù)可能會返回一個關(guān)于用戶心率、睡眠時長和步數(shù)的函數(shù)?;蛘哂脩艨梢灾付ㄒ粋€“幫助我學(xué)習(xí)西班牙語”的目標(biāo),獎勵函數(shù)可以返回用戶的西班牙語考試成績。
此外,用戶可以在學(xué)習(xí)過程中提供反饋,例如他們的滿意度,這可以用來微調(diào)獎勵函數(shù)。然后,獎勵函數(shù)可以隨著時間的推移進行調(diào)整,以改進其選擇或組合信號的方式,并識別和糾正任何偏差。這也可以理解為一個雙層優(yōu)化過程,將用戶反饋作為頂層目標(biāo)進行優(yōu)化,并將來自環(huán)境的扎根信號在底層進行優(yōu)化。通過這種方式,少量的的人類數(shù)據(jù)可以促進大量的自主學(xué)習(xí)。
經(jīng)驗和人類數(shù)據(jù)并非完全對立。例如,狗完全通過經(jīng)驗學(xué)習(xí),但人類互動是其經(jīng)驗的一部分。
獎勵即足夠假設(shè)認(rèn)為,智能以及與其相關(guān)的能力,可以自然而然地從獎勵最大化中涌現(xiàn)出來。這可能包括包含人類互動和基于人類反饋的獎勵的環(huán)境。
在這種情況下,人們也可以將扎根的人類反饋視為形成智能體總體目標(biāo)的單一獎勵函數(shù),該目標(biāo)通過構(gòu)建和優(yōu)化基于豐富的、扎根的反饋的內(nèi)在獎勵函數(shù) 來最大化。
計劃和推理(Planning and Reasoning)
經(jīng)驗時代是否會改變智能體計劃和推理的方式?最近,在使用大型語言模型進行推理或“思考”方面取得了顯著進展 ,方法是遵循思維鏈,然后再輸出響應(yīng) 。從概念上講,大型語言模型可以充當(dāng)通用計算機 :大型語言模型可以將token附加到自己的上下文中,從而使其能夠在輸出最終結(jié)果之前執(zhí)行任意算法。在人類數(shù)據(jù)時代,這些推理方法被明確設(shè)計為模仿人類的思維過程。例如,大型語言模型已被提示發(fā)出類似人類的思維鏈 、模仿人類思維的痕跡 、或加強與人類示例相匹配的思維步驟 。推理過程可以進一步微調(diào),以產(chǎn)生與正確答案相匹配的思維痕跡,這是由人類專家確定的 。
然而,人類語言極不可能提供通用計算機的最佳實例。更有效的思維機制肯定存在,它們使用非人類語言,例如,這些語言可能利用符號、分布式、連續(xù)或可微分的計算。原則上,一個自學(xué)習(xí)系統(tǒng)可以通過從經(jīng)驗中學(xué)習(xí)如何思考來發(fā)現(xiàn)或改進這些方法。例如,AlphaProof 以一種與人類數(shù)學(xué)家截然不同的方式學(xué)習(xí)正式證明復(fù)雜的定理 。
此外,通用計算機的原則僅解決了智能體的內(nèi)部計算;它沒有將其與外部世界的現(xiàn)實聯(lián)系起來。一個被訓(xùn)練來模仿人類思想甚至匹配人類專家答案的智能體,可能會繼承深深嵌入在數(shù)據(jù)中的謬誤思維方法,例如有缺陷的假設(shè)或內(nèi)在的偏見。例如,如果一個智能體接受了使用 5000 年前的人類思想和專家答案進行推理的訓(xùn)練,它可能會以萬物有靈論的方式推理物理問題;1000 年前,它可能以有神論的方式推理;300 年前,它可能以牛頓力學(xué)的方式推理;而 50 年前,它可能以量子力學(xué)的方式推理。超越每一種思維方法都需要與現(xiàn)實世界互動:做出假設(shè)、進行實驗、觀察結(jié)果并相應(yīng)地更新原則。同樣,智能體必須扎根于真實世界的數(shù)據(jù)中,才能推翻謬誤的思維方法。這種扎根提供了一個反饋循環(huán),使智能體能夠根據(jù)現(xiàn)實檢驗其繼承的假設(shè),并發(fā)現(xiàn)不受當(dāng)前主流人類思維模式限制的新原則。如果沒有這種扎根,無論智能體多么復(fù)雜,都將成為現(xiàn)有的人類知識的回音室。為了超越這一點,智能體必須積極地與世界互動,收集觀察數(shù)據(jù),并利用這些數(shù)據(jù)迭代地改進它們的理解,這在許多方面反映了驅(qū)動人類科學(xué)進步的過程。
一種將思維直接扎根于外部世界的可行方法是構(gòu)建一個世界模型 ,該模型預(yù)測智能體的行動對世界的影響,包括預(yù)測獎勵。例如,一個健康助手可能會考慮為當(dāng)?shù)亟∩矸炕蚪】挡タ吞岢鼋ㄗh。智能體的世界模型可能會預(yù)測用戶的心率或睡眠模式在采取此行動后可能會發(fā)生怎樣的變化,以及預(yù)測與用戶的未來對話。這使得智能體能夠直接根據(jù)自身的行動及其對世界的因果效應(yīng)進行計劃 。隨著智能體在其經(jīng)驗流中不斷與世界互動,其動態(tài)模型會不斷更新,以糾正其預(yù)測中的任何錯誤。給定一個世界模型,智能體可以應(yīng)用可擴展的計劃方法來提高智能體的預(yù)測性能。
計劃和推理方法并非相互排斥:智能體可以在計劃過程中應(yīng)用內(nèi)部LLM計算來選擇每個行動,或者模擬和評估這些行動的后果。
為何是現(xiàn)在?(why now)
從經(jīng)驗中學(xué)習(xí)并非新鮮事物。強化學(xué)習(xí)系統(tǒng)先前已經(jīng)掌握了大量復(fù)雜的任務(wù),這些任務(wù)在一個具有明確獎勵信號的模擬器中得到表示(例如,大致上,圖 中的“模擬時代”)。
例如,強化學(xué)習(xí)方法在諸如雙陸棋 、圍棋 、國際象棋 、撲克 和策略棋 等棋盤游戲;諸如 Atari 、星際爭霸 II 、Dota 2 和 Gran Turismo 等電子游戲;靈巧的操縱任務(wù),如魔方 ;以及資源管理任務(wù),如數(shù)據(jù)中心冷卻 等方面,都達(dá)到了或超過了人類的水平。此外,諸如 AlphaZero 等強大的強化學(xué)習(xí)智能體,在神經(jīng)網(wǎng)絡(luò)規(guī)模、互動經(jīng)驗的數(shù)量和思考時間方面,都表現(xiàn)出令人印象深刻且可能無限的可擴展性。然而,基于這種范式的智能體并沒有跨越從模擬(具有單一、精確定義的獎勵的封閉問題)到現(xiàn)實(具有多種看似定義不清的獎勵的開放式問題)的鴻溝。
人類數(shù)據(jù)時代提供了一個有吸引力的解決方案。海量的人類數(shù)據(jù)語料庫包含了針對各種各樣任務(wù)的自然語言示例。與模擬時代相對狹隘的成功相比,在此數(shù)據(jù)上訓(xùn)練的智能體實現(xiàn)了廣泛的能力。因此,體驗式強化學(xué)習(xí)的方法在很大程度上被拋棄,轉(zhuǎn)而支持更通用的智能體,從而導(dǎo)致了向以人為中心的人工智能的廣泛轉(zhuǎn)型。
然而,在這種轉(zhuǎn)變中,有些東西丟失了:智能體自我發(fā)現(xiàn)知識的能力。例如,AlphaZero 為國際象棋和圍棋發(fā)現(xiàn)了全新的策略,改變了人類玩這些游戲的方式 。經(jīng)驗時代將調(diào)和這種能力與人類數(shù)據(jù)時代所實現(xiàn)的任務(wù)通用性水平。正如上文概述,當(dāng)智能體能夠在真實世界經(jīng)驗流中自主行動和觀察 ,并且獎勵可以靈活地連接到大量扎根的真實世界信號中的任何一個時,這將成為可能。能夠與復(fù)雜的真實世界行動空間 互動的自主智能體的出現(xiàn),以及能夠解決豐富推理空間 中開放式問題的強大強化學(xué)習(xí)方法的出現(xiàn),表明向經(jīng)驗時代的過渡迫在眉睫。
強化學(xué)習(xí)方法(Reinforcement Learning Methods)
強化學(xué)習(xí)(RL)有著悠久的歷史,它深深扎根于自主學(xué)習(xí),在這種學(xué)習(xí)模式中,智能體通過與環(huán)境的直接互動來自主學(xué)習(xí)。早期的強化學(xué)習(xí)研究產(chǎn)生了一系列強大的概念和算法。例如,時序差分學(xué)習(xí) 使智能體能夠估計未來獎勵,從而在雙陸棋 等游戲中取得了超人類的表現(xiàn)。探索技術(shù),由樂觀或好奇心驅(qū)動,被開發(fā)出來以幫助智能體發(fā)現(xiàn)創(chuàng)造性的新行為,并避免陷入次優(yōu)的例行程序 。像 Dyna 算法這樣的方法使智能體能夠構(gòu)建和學(xué)習(xí)其世界模型,從而使它們能夠計劃和推理未來的行動 。諸如選項和選項間/選項內(nèi)學(xué)習(xí)等概念促進了時間抽象,使智能體能夠推理更長的時間尺度,并將復(fù)雜的任務(wù)分解為可管理的子目標(biāo) 。
然而,以人為中心的大型語言模型的興起,將焦點從自主學(xué)習(xí)轉(zhuǎn)移到利用人類知識。諸如 RLHF(從人類反饋中強化學(xué)習(xí)) 等技術(shù)以及將語言模型與人類推理對齊的方法 被證明非常有效,推動了人工智能能力的快速進步。這些方法雖然強大,但經(jīng)常繞過核心強化學(xué)習(xí)概念:RLHF 通過調(diào)用人類專家來代替機器估計的價值函數(shù),從而繞過了對價值函數(shù)的需求;來自人類數(shù)據(jù)的強大先驗知識減少了對探索的依賴;而以人類為中心的術(shù)語進行推理則減少了對世界模型和時間抽象的需求。
然而,可以認(rèn)為范式的轉(zhuǎn)變已經(jīng)將嬰兒和洗澡水一起倒掉了。雖然以人為中心的強化學(xué)習(xí)實現(xiàn)了前所未有的行為廣度,但它也對智能體的性能施加了新的上限:智能體無法超越現(xiàn)有的人類知識。此外,人類數(shù)據(jù)時代主要關(guān)注于為短暫的、無根基的人類互動片段而設(shè)計的強化學(xué)習(xí)方法,并且不適用于長時間的、有根基的自主互動流。
經(jīng)驗時代提供了一個重新審視和改進經(jīng)典強化學(xué)習(xí)概念的機會。這個時代將帶來思考獎勵函數(shù)的新方法,這些獎勵函數(shù)可以靈活地扎根于觀察數(shù)據(jù)中。它將重新審視價值函數(shù)和從尚未完成的序列中估計價值函數(shù)的方法。它將帶來有原則且實用的真實世界探索方法,這些方法可以發(fā)現(xiàn)與人類先驗知識截然不同的新行為。將開發(fā)出捕捉扎根互動復(fù)雜性的世界模型的新方法。時間抽象的新方法將使智能體能夠根據(jù)經(jīng)驗,在更長的時間范圍內(nèi)進行推理。通過建立在強化學(xué)習(xí)的基礎(chǔ)上,并使其核心原則適應(yīng)這個新時代的挑戰(zhàn),我們可以釋放自主學(xué)習(xí)的全部潛力,并為實現(xiàn)真正的超人類智能鋪平道路。
后果(Consequences)
經(jīng)驗時代的到來,人工智能智能體將通過與世界的互動進行學(xué)習(xí),這預(yù)示著一個與我們之前所見截然不同的未來。這種新的范式在提供巨大潛力的同時,也帶來了重要的風(fēng)險和挑戰(zhàn),需要認(rèn)真考慮,包括但不限于以下幾點。
從積極的方面來看,經(jīng)驗學(xué)習(xí)將釋放前所未有的能力。在日常生活中,個性化助手將利用持續(xù)的經(jīng)驗流,在數(shù)月或數(shù)年的時間里,根據(jù)個人的健康、教育或職業(yè)需求,朝著長期目標(biāo)進行調(diào)整。也許最具變革意義的將是科學(xué)發(fā)現(xiàn)的加速。人工智能智能體將在材料科學(xué)、醫(yī)學(xué)或硬件設(shè)計等領(lǐng)域自主設(shè)計和進行實驗。通過不斷從自身實驗的結(jié)果中學(xué)習(xí),這些智能體可以迅速探索新的知識前沿,從而以前所未有的速度開發(fā)出新型材料、藥物和技術(shù)。
然而,這個新時代也帶來了重大且新穎的挑戰(zhàn)。雖然能力的提升有望提高生產(chǎn)力,但這些改進也可能導(dǎo)致工作崗位流失。智能體甚至可能展現(xiàn)出以前被認(rèn)為是人類獨有的能力,例如長期問題解決、創(chuàng)新以及對真實世界后果的深刻理解。
此外,雖然圍繞任何人工智能的潛在濫用都存在普遍擔(dān)憂,但能夠長時間自主地與世界互動以實現(xiàn)長期目標(biāo)的智能體,可能會帶來更高的風(fēng)險。默認(rèn)情況下,這為人類干預(yù)和調(diào)解智能體的行動提供了更少的機會,因此需要更高的信任和責(zé)任門檻。遠(yuǎn)離人類數(shù)據(jù)和人類思維模式也可能使未來的AI系統(tǒng)更難以解釋。
然而,雖然我們承認(rèn)經(jīng)驗學(xué)習(xí)將增加某些安全風(fēng)險,并且肯定需要進一步研究以確保向經(jīng)驗時代的平穩(wěn)過渡,但我們也應(yīng)該認(rèn)識到,它也可能提供一些重要的安全益處。
首先,經(jīng)驗型智能體意識到它所處的環(huán)境,并且它的行為可以隨著時間的推移適應(yīng)環(huán)境的變化。任何預(yù)先編程的系統(tǒng),包括固定的AI系統(tǒng),都可能意識不到其環(huán)境背景,并變得不適應(yīng)其所部署的不斷變化的世界。例如,關(guān)鍵的硬件部件可能會發(fā)生故障,流行病可能會導(dǎo)致社會快速變化,或者新的科學(xué)發(fā)現(xiàn)可能會引發(fā)一連串快速的技術(shù)發(fā)展。相比之下,經(jīng)驗型智能體可以觀察和學(xué)習(xí)如何規(guī)避故障硬件,適應(yīng)快速的社會變化,或擁抱并建立在新的科學(xué)和技術(shù)之上。也許更重要的是,智能體可以識別出當(dāng)它的行為引發(fā)人類的擔(dān)憂、不滿或痛苦時,并自適應(yīng)地修改其行為以避免這些負(fù)面后果。
其次,智能體的獎勵函數(shù)本身可以通過經(jīng)驗來調(diào)整,例如使用前面描述的雙層優(yōu)化(參見“獎勵”部分)。重要的是,這意味著,有偏差的獎勵函數(shù)通??梢酝ㄟ^反復(fù)試驗隨著時間的推移逐步糾正。例如,與其盲目地優(yōu)化諸如最大化紙夾 之類的信號,不如在紙夾生產(chǎn)消耗地球所有資源之前,根據(jù)人類關(guān)注的跡象修改獎勵函數(shù)。這類似于人類為彼此設(shè)定目標(biāo)的方式,然后如果他們觀察到人們玩弄系統(tǒng)、忽視長期福祉或造成不良的負(fù)面后果,則調(diào)整這些目標(biāo);盡管也像人類目標(biāo)設(shè)定一樣,無法保證完全對齊。
最后,依賴物理經(jīng)驗的進步,本質(zhì)上受到在真實世界中執(zhí)行行動并觀察其后果所需時間的限制。例如,即使有 AI 輔助設(shè)計,新藥的開發(fā)仍然需要無法在一夜之間完成的真實世界試驗。這可能會對潛在的人工智能自我提升的速度提供一種自然的制約。
結(jié)論
經(jīng)驗時代標(biāo)志著人工智能發(fā)展史上的一個關(guān)鍵時刻。在今天堅實的基礎(chǔ)之上,但超越了人類衍生數(shù)據(jù)的局限性,智能體將越來越多地從自身與世界的互動中學(xué)習(xí)。智能體將通過豐富的觀察和行動,自主地與環(huán)境互動。它們將在終生經(jīng)驗流的過程中不斷適應(yīng)。它們的目標(biāo)將可以被引導(dǎo)到任何扎根信號的組合。此外,智能體將利用強大的非人類推理,并構(gòu)建扎根于智能體行動對其環(huán)境后果之上的計劃。最終,經(jīng)驗數(shù)據(jù)將超越人類生成數(shù)據(jù)的規(guī)模和質(zhì)量。這種范式轉(zhuǎn)變,伴隨著強化學(xué)習(xí)算法的進步,將在許多領(lǐng)域釋放超越任何人所擁有的新能力。