自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

智能體版《苦澀的教訓(xùn)》,圖靈獎(jiǎng)得主Sutton、谷歌RL大佬Silver新作:超人智能靠經(jīng)驗(yàn)

人工智能 新聞
經(jīng)驗(yàn)時(shí)代標(biāo)志著人工智能發(fā)展的一個(gè)關(guān)鍵轉(zhuǎn)折點(diǎn)。在現(xiàn)有的堅(jiān)實(shí)基礎(chǔ)上,智能體將超越人類生成數(shù)據(jù)的局限性,越來(lái)越多地從與世界的互動(dòng)中學(xué)習(xí)。

人類生成的數(shù)據(jù)推動(dòng)了人工智能的驚人進(jìn)步,但接下來(lái)會(huì)怎樣呢?

幾天前,Google DeepMind 強(qiáng)化學(xué)習(xí)副總裁 David Silver 參與了一場(chǎng)播客訪談節(jié)目,探討了如何從依賴人類數(shù)據(jù)的時(shí)代邁向自主學(xué)習(xí)的時(shí)代。

圖片

與此同時(shí),David Silver 和他的老師、2024 年圖靈獎(jiǎng)得主 Richard Sutton 合作撰寫的論文《Welcome to the Era of Experience》稱人們正站在人工智能新時(shí)代的門檻上,并有望達(dá)到前所未有的水平;同時(shí)展望了新一代智能體,認(rèn)為它們將主要通過(guò)經(jīng)驗(yàn)來(lái)學(xué)習(xí),獲得超越人類的能力。他們還探討了定義這個(gè)即將到來(lái)的新時(shí)代的關(guān)鍵特征。

未來(lái),這篇論文將成為 MIT Press 出版的書籍《智能設(shè)計(jì)》(Designing an Intelligence)中的一個(gè)章節(jié)。

圖片

論文地址:https://storage.googleapis.com/deepmind-media/Era-of-Experience%20/The%20Era%20of%20Experience%20Paper.pdf

從模仿時(shí)代到人類數(shù)據(jù)時(shí)代再到經(jīng)驗(yàn)時(shí)代,每個(gè)時(shí)代都有相對(duì)應(yīng)的 AI(或大模型)涌現(xiàn),朝著超人智能不斷邁進(jìn)。

圖片圖源:https://x.com/MaziyarPanahi/status/1912097667707973858

人類數(shù)據(jù)時(shí)代

近年來(lái),人工智能通過(guò)在海量人類生成的數(shù)據(jù)上進(jìn)行訓(xùn)練,并通過(guò)專家人類示例和偏好進(jìn)行微調(diào),取得了顯著進(jìn)步。大型語(yǔ)言模型(LLM)就是這種方法的典范,它們已經(jīng)達(dá)到了廣泛的通用性水平。如今,單個(gè) LLM 可以執(zhí)行從寫詩(shī)和解決物理問(wèn)題到診斷醫(yī)療問(wèn)題和總結(jié)法律文件的各種任務(wù)。

然而,雖然模仿人類足以在很多方面復(fù)制人類能力達(dá)到勝任的水平,但這種方法單獨(dú)使用無(wú)法在許多重要主題和任務(wù)上實(shí)現(xiàn)超人類智能。在數(shù)學(xué)、編程和科學(xué)等關(guān)鍵領(lǐng)域,從人類數(shù)據(jù)中提取的知識(shí)正迅速接近極限。高質(zhì)量數(shù)據(jù)源 —— 那些真正能夠提高強(qiáng)大智能體性能的數(shù)據(jù)源 —— 大多已經(jīng)或很快將被消耗殆盡。僅僅依靠從人類數(shù)據(jù)中進(jìn)行監(jiān)督學(xué)習(xí)的進(jìn)步步伐明顯放緩,表明需要一種新的方法。此外,有價(jià)值的新見(jiàn)解,如新定理、技術(shù)或科學(xué)突破,都超出了當(dāng)前人類理解的邊界,無(wú)法通過(guò)現(xiàn)有的人類數(shù)據(jù)捕獲。

經(jīng)驗(yàn)時(shí)代

要取得進(jìn)一步的顯著進(jìn)步,需要一個(gè)新的數(shù)據(jù)來(lái)源。這種數(shù)據(jù)的生成方式必須隨著智能體變得更強(qiáng)而不斷改進(jìn);任何靜態(tài)的合成數(shù)據(jù)生成程序都會(huì)很快被超越。這可以通過(guò)讓智能體從自己的經(jīng)驗(yàn)中持續(xù)學(xué)習(xí)來(lái)實(shí)現(xiàn),即由智能體與環(huán)境互動(dòng)產(chǎn)生的數(shù)據(jù)。AI 正處于新時(shí)期的邊緣,在這個(gè)時(shí)期,經(jīng)驗(yàn)將成為提升的主要媒介,并最終使當(dāng)今系統(tǒng)中使用的人類數(shù)據(jù)規(guī)模相形見(jiàn)絀。

這種轉(zhuǎn)變可能已經(jīng)開(kāi)始,即使對(duì)于體現(xiàn)以人為中心的 AI 的大型語(yǔ)言模型也是如此。例如,數(shù)學(xué)能力就是一個(gè)例子。AlphaProof 最近成為第一個(gè)在國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽中獲得獎(jiǎng)牌的程序,超越了以人為中心的方法的表現(xiàn)。AlphaProof 最初接觸了大約十萬(wàn)個(gè)由人類數(shù)學(xué)家多年創(chuàng)建的形式化證明,隨后其強(qiáng)化學(xué)習(xí)算法通過(guò)與形式化證明系統(tǒng)的持續(xù)互動(dòng)又生成了一億個(gè)證明。這種專注于互動(dòng)經(jīng)驗(yàn)的方法使 AlphaProof 能夠探索超出現(xiàn)有形式化證明范圍的數(shù)學(xué)可能性,從而發(fā)現(xiàn)解決新穎且具挑戰(zhàn)性問(wèn)題的方法。非形式化數(shù)學(xué)也通過(guò)用自生成數(shù)據(jù)替代專家生成數(shù)據(jù)取得了成功;例如,DeepSeek 的最近工作「強(qiáng)調(diào)了強(qiáng)化學(xué)習(xí)的力量和美學(xué):與其明確教導(dǎo)模型如何解決問(wèn)題,我們只需提供正確的激勵(lì),它就會(huì)自主開(kāi)發(fā)高級(jí)問(wèn)題解決策略?!?/span>

我們認(rèn)為,一旦充分利用經(jīng)驗(yàn)學(xué)習(xí)的全部潛力,將會(huì)出現(xiàn)令人難以置信的新能力。這個(gè)經(jīng)驗(yàn)時(shí)代可能的特征是智能體和環(huán)境不僅從大量經(jīng)驗(yàn)數(shù)據(jù)中學(xué)習(xí),還將在以下幾個(gè)方面突破以人為中心的 AI 系統(tǒng)的局限:

  • 智能體將生活在經(jīng)驗(yàn)流中,而不是短暫的互動(dòng)片段中。
  • 它們的行動(dòng)和觀察將深深扎根于環(huán)境中,而不僅僅通過(guò)人類對(duì)話進(jìn)行互動(dòng)。
  • 它們的獎(jiǎng)勵(lì)將基于環(huán)境中的經(jīng)驗(yàn),而不是來(lái)自人類的預(yù)先判斷。
  • 它們將根據(jù)經(jīng)驗(yàn)進(jìn)行規(guī)劃和/或推理,而不是僅僅以人類的方式進(jìn)行推理。

我們相信,今天的技術(shù),配合適當(dāng)選擇的算法,已經(jīng)提供了足夠強(qiáng)大的基礎(chǔ)來(lái)實(shí)現(xiàn)這些突破。此外,AI 社區(qū)對(duì)這一議程的追求將刺激這些方向上的新創(chuàng)新,迅速推動(dòng) AI 向真正超人類智能體的方向發(fā)展。

經(jīng)驗(yàn)流

一個(gè)經(jīng)驗(yàn)型智能體可以在整個(gè)生命周期中持續(xù)學(xué)習(xí)。在人類數(shù)據(jù)時(shí)代,基于語(yǔ)言的 AI 主要關(guān)注短時(shí)互動(dòng)情節(jié):例如用戶提出問(wèn)題,然后(可能經(jīng)過(guò)幾個(gè)思考步驟或工具使用操作后)智能體作出回應(yīng)。通常情況下,從一個(gè)情節(jié)到下一個(gè)情節(jié)幾乎沒(méi)有信息傳遞,排除了隨時(shí)間適應(yīng)的可能性。此外,智能體的目標(biāo)完全在于當(dāng)前情節(jié)的結(jié)果,例如直接回答用戶的問(wèn)題。

相比之下,人類(和其他動(dòng)物)存在于持續(xù)數(shù)年的行動(dòng)和觀察流中。信息貫穿整個(gè)流程,其行為根據(jù)過(guò)去的經(jīng)驗(yàn)調(diào)整以自我糾正和改進(jìn)。此外,目標(biāo)可能根據(jù)延伸到流程未來(lái)的行動(dòng)和觀察來(lái)指定:例如人類可能選擇行動(dòng)來(lái)實(shí)現(xiàn)長(zhǎng)期目標(biāo),如改善健康、學(xué)習(xí)語(yǔ)言或?qū)崿F(xiàn)科學(xué)突破。

強(qiáng)大的智能體應(yīng)該有自己的經(jīng)驗(yàn)流,像人類一樣,在長(zhǎng)時(shí)間尺度上發(fā)展。這將使智能體能夠采取行動(dòng)實(shí)現(xiàn)未來(lái)目標(biāo),并隨著時(shí)間的推移不斷適應(yīng)新的行為模式。例如,連接到用戶可穿戴設(shè)備的健康和健身智能體可以在幾個(gè)月內(nèi)監(jiān)測(cè)睡眠模式、活動(dòng)水平和飲食習(xí)慣。然后,這些智能體可以提供個(gè)性化建議、鼓勵(lì),并根據(jù)長(zhǎng)期趨勢(shì)和用戶的具體健康目標(biāo)調(diào)整其指導(dǎo)。

類似地,個(gè)性化教育智能體可以跟蹤用戶學(xué)習(xí)新語(yǔ)言的進(jìn)度,識(shí)別知識(shí)差距,適應(yīng)其學(xué)習(xí)風(fēng)格,并在數(shù)月甚至數(shù)年內(nèi)調(diào)整其教學(xué)方法。此外,科學(xué)智能體可以追求更宏大的目標(biāo),例如發(fā)現(xiàn)新材料或減少二氧化碳。這樣的智能體可以在較長(zhǎng)時(shí)間內(nèi)分析現(xiàn)實(shí)世界的觀察結(jié)果,開(kāi)發(fā)和運(yùn)行模仿,并建議現(xiàn)實(shí)世界進(jìn)行實(shí)驗(yàn)或干預(yù)措施。

在每種情況下,智能體都會(huì)采取一系列步驟,以便針對(duì)特定目標(biāo)最大化長(zhǎng)期成功。單個(gè)步驟可能不會(huì)提供任何即時(shí)利益,甚至可能在短期內(nèi)產(chǎn)生不利影響,但總體上可能有助于長(zhǎng)期成功。這與當(dāng)前 AI 系統(tǒng)形成強(qiáng)烈對(duì)比,后者對(duì)請(qǐng)求提供即時(shí)響應(yīng),而沒(méi)有能力測(cè)量或優(yōu)化其行動(dòng)對(duì)環(huán)境的未來(lái)后果。

行動(dòng)和觀察

經(jīng)驗(yàn)時(shí)代的智能體將在現(xiàn)實(shí)世界中自主行動(dòng)。人類數(shù)據(jù)時(shí)代的 LLM 主要關(guān)注人類特殊的行動(dòng)和觀察,向用戶輸出文本,并將用戶的文本輸入回智能體。這與自然智能有明顯不同,在自然智能中,動(dòng)物通過(guò)運(yùn)動(dòng)控制和感官與環(huán)境互動(dòng)。雖然動(dòng)物,尤其是人類,可能與其他動(dòng)物交流,但這種交流通過(guò)與其他感官運(yùn)動(dòng)控制相同的接口進(jìn)行,而不是通過(guò)特殊通道。

長(zhǎng)期以來(lái),人們認(rèn)識(shí)到 LLM 也可以在數(shù)字世界中調(diào)用行動(dòng),例如通過(guò)調(diào)用 API。最初,這些能力很大程度上來(lái)自于人類工具使用的例子,而不是來(lái)自智能體的經(jīng)驗(yàn)。然而,編程和工具使用能力越來(lái)越多地建立在執(zhí)行反饋上,智能體實(shí)際運(yùn)行代碼并觀察發(fā)生了什么。

最近,一波新型原型智能體開(kāi)始以更普遍的方式與計(jì)算機(jī)互動(dòng),使用與人類操作計(jì)算機(jī)相同的接口。這些變化預(yù)示著從專屬的人類特殊通信,向更加自主的互動(dòng)轉(zhuǎn)變,使智能體能夠在世界上獨(dú)立行動(dòng)。這樣的智能體將能夠主動(dòng)探索世界,適應(yīng)不斷變化的環(huán)境,并發(fā)現(xiàn)人類可能永遠(yuǎn)不會(huì)想到的策略。

這些更豐富的互動(dòng)將提供一種自主理解和控制數(shù)字世界的方式。智能體可能使用「人類友好」的行動(dòng)和觀察,如用戶界面,自然促進(jìn)與用戶的溝通和協(xié)作。智能體還可能采取「機(jī)器友好」的行動(dòng),執(zhí)行代碼并調(diào)用 API,使智能體能夠自主服務(wù)于其目標(biāo)。

在經(jīng)驗(yàn)時(shí)代,智能體還將通過(guò)數(shù)字接口與現(xiàn)實(shí)世界互動(dòng)。例如,科學(xué)智能體可以監(jiān)測(cè)環(huán)境傳感器,遠(yuǎn)程操作望遠(yuǎn)鏡,或控制實(shí)驗(yàn)室中的機(jī)械臂,自主進(jìn)行實(shí)驗(yàn)。

獎(jiǎng)勵(lì)

如果經(jīng)驗(yàn)智能體可以從外部事件和信號(hào)中學(xué)習(xí),而不僅僅是人類偏好,會(huì)怎樣?以人為中心的 LLM 通常根據(jù)人類預(yù)先判斷優(yōu)化獎(jiǎng)勵(lì):專家觀察智能體的行動(dòng)并決定它是否是一個(gè)好的行動(dòng),或者在多個(gè)備選方案中選擇最佳智能體行動(dòng)。

這些獎(jiǎng)勵(lì)或偏好由人類在不考慮其后果的情況下決定,而不是測(cè)量這些行動(dòng)對(duì)環(huán)境的影響,這意味著它們并不直接以現(xiàn)實(shí)世界為基礎(chǔ)。以這種方式依賴于人的預(yù)判通常會(huì)導(dǎo)致智能體的表現(xiàn)出現(xiàn)不可逾越的上限:智能體無(wú)法發(fā)現(xiàn)被人類評(píng)價(jià)者低估的更好的策略。

為了發(fā)現(xiàn)遠(yuǎn)超現(xiàn)有人類知識(shí)的新想法,必須使用基礎(chǔ)獎(jiǎng)勵(lì),即來(lái)自環(huán)境本身的信號(hào)。例如,健康助手可以根據(jù)用戶的靜息心率、睡眠時(shí)間等信號(hào)組合,將用戶的健康目標(biāo)轉(zhuǎn)化為獎(jiǎng)勵(lì)。而教育助理可以使用考試成績(jī)?yōu)檎Z(yǔ)言學(xué)習(xí)提供基礎(chǔ)獎(jiǎng)勵(lì)。類似地,以減少全球變暖為目標(biāo)的科學(xué)智能體可能使用基于二氧化碳水平的經(jīng)驗(yàn)觀察作為獎(jiǎng)勵(lì),而發(fā)現(xiàn)更強(qiáng)材料的目標(biāo)可能基于材料模仿器的測(cè)量組合,如抗拉強(qiáng)度或楊氏模量。

基礎(chǔ)獎(jiǎng)勵(lì)可能來(lái)自作為智能體環(huán)境一部分的人類。例如,人類用戶可以報(bào)告他們是否發(fā)現(xiàn)蛋糕美味、鍛煉后的疲勞程度或頭痛的疼痛水平,使助手智能體能夠提供更好的食譜,完善其健身建議或改進(jìn)其推薦的藥物。這些獎(jiǎng)勵(lì)測(cè)量智能體行動(dòng)在其環(huán)境中的后果,最終應(yīng)該比預(yù)先判斷的提議更有效。

除了人類數(shù)據(jù),獎(jiǎng)勵(lì)還能從何而來(lái)?一旦智能體通過(guò)豐富的行動(dòng)和觀察空間連接到世界,將不缺乏提供獎(jiǎng)勵(lì)基礎(chǔ)的基礎(chǔ)信號(hào)。事實(shí)上,世界充滿了諸如成本、錯(cuò)誤率、饑餓、生產(chǎn)力、健康指標(biāo)、氣候指標(biāo)、利潤(rùn)、銷量、考試結(jié)果、成功與否、訪問(wèn)量、產(chǎn)量、股票、收入、愉悅 / 痛苦、經(jīng)濟(jì)指標(biāo)、準(zhǔn)確性、功率、距離、速度、效率或能源消耗等數(shù)量。此外,還有無(wú)數(shù)來(lái)自特定事件或從原始觀察和行動(dòng)序列派生的特征的額外信號(hào)。

原則上,可以創(chuàng)建各種不同的智能體,每個(gè)智能體都將一個(gè)基礎(chǔ)信號(hào)優(yōu)化為其獎(jiǎng)勵(lì)。有一種觀點(diǎn)認(rèn)為,即使是單一的獎(jiǎng)勵(lì)信號(hào),如果得到高效優(yōu)化,也足以誘導(dǎo)廣泛的智能能力。這是因?yàn)樵趶?fù)雜環(huán)境中實(shí)現(xiàn)一個(gè)簡(jiǎn)單目標(biāo)可能經(jīng)常需要掌握各種各樣的技能。然而,追求單一獎(jiǎng)勵(lì)信號(hào)表面上并不符合通用 AI 的要求,即可靠地引導(dǎo)向用戶期望的任意行為。

那么,自主優(yōu)化基礎(chǔ)的、非人類的獎(jiǎng)勵(lì)信號(hào)是否與現(xiàn)代 AI 系統(tǒng)的要求相矛盾?通過(guò)概述一種可能滿足這些需求的方法,我們認(rèn)為不一定如此;其他方法也可能存在。

這個(gè)想法是靈活地調(diào)整獎(jiǎng)勵(lì),基于基礎(chǔ)信號(hào),以用戶引導(dǎo)的方式。例如,獎(jiǎng)勵(lì)函數(shù)可以由神經(jīng)網(wǎng)絡(luò)定義,該網(wǎng)絡(luò)將智能體與用戶和環(huán)境的互動(dòng)作為輸入,并輸出標(biāo)量獎(jiǎng)勵(lì)。這允許獎(jiǎng)勵(lì)以依賴于用戶目標(biāo)的方式從環(huán)境中選擇或組合信號(hào)。例如,用戶可能指定一個(gè)廣泛的目標(biāo),如「改善我的健康狀況」,而獎(jiǎng)勵(lì)函數(shù)可能返回用戶心率、睡眠時(shí)長(zhǎng)和步數(shù)的函數(shù)?;蛘哂脩艨赡苤付ā笌椭覍W(xué)習(xí)西班牙語(yǔ)」的目標(biāo),獎(jiǎng)勵(lì)函數(shù)可以返回用戶的西班牙語(yǔ)考試結(jié)果。

此外,用戶可以在學(xué)習(xí)過(guò)程中提供反饋,如他們的滿意度,這可以用來(lái)微調(diào)獎(jiǎng)勵(lì)函數(shù)。然后,獎(jiǎng)勵(lì)函數(shù)可以隨著時(shí)間的推移進(jìn)行調(diào)整,以改進(jìn)它選擇或組合信號(hào)的方式,并識(shí)別和糾正任何不一致。這也可以理解為一個(gè)雙層優(yōu)化過(guò)程,將用戶反饋?zhàn)鳛轫攲幽繕?biāo)進(jìn)行優(yōu)化,并在低層優(yōu)化來(lái)自環(huán)境的基礎(chǔ)信號(hào)。以這種方式,少量的人類數(shù)據(jù)可能促進(jìn)大量的自主學(xué)習(xí)。

規(guī)劃和推理

經(jīng)驗(yàn)時(shí)代會(huì)改變智能體規(guī)劃和推理的方式嗎?最近,通過(guò)在輸出響應(yīng)之前遵循思維鏈,使用具備語(yǔ)言推理或「思考」的 LLM 取得了顯著進(jìn)展。在概念上,LLM 可以作為通用計(jì)算機(jī):LLM 可以將 token 附加到自己的上下文中,允許它在輸出最終結(jié)果之前執(zhí)行任意算法。

在人類數(shù)據(jù)時(shí)代,這些推理方法被明確設(shè)計(jì)為模仿人類的思維過(guò)程。例如,LLM 被提示發(fā)出類似人類的思維鏈,模仿人類思維的痕跡,或強(qiáng)化與人類示例匹配的思考步驟。推理過(guò)程可能進(jìn)一步微調(diào),以產(chǎn)生與正確答案相匹配的思考痕跡,由人類專家確定。

然而,人類語(yǔ)言不太可能提供通用計(jì)算機(jī)的最佳實(shí)例??隙ù嬖诟行У乃季S機(jī)制,使用非人類語(yǔ)言,例如利用符號(hào)、分布式、連續(xù)或可微分計(jì)算。一個(gè)自學(xué)習(xí)系統(tǒng)原則上可以通過(guò)從經(jīng)驗(yàn)中學(xué)習(xí)如何思考來(lái)發(fā)現(xiàn)或改進(jìn)其方法。例如 AlphaProof 學(xué)會(huì)了以與人類數(shù)學(xué)家完全不同的方式形式化證明復(fù)雜定理。

此外,通用計(jì)算機(jī)的原理只涉及智能體的內(nèi)部計(jì)算;它沒(méi)有將其連接到外部世界的現(xiàn)實(shí)。訓(xùn)練模仿人類思想甚至匹配人類專家答案的智能體可能會(huì)繼承深植于數(shù)據(jù)中的謬誤思維方法,如錯(cuò)誤假設(shè)或固有偏見(jiàn)。例如,如果智能體被訓(xùn)練使用 5000 年前的人類思想和專家答案進(jìn)行推理,它可能會(huì)以「萬(wàn)物有靈論」的方式推理物理問(wèn)題;1000 年前可能以有神論的方式推理;300 年前可能以牛頓力學(xué)的方式推理;50 年前可能以量子力學(xué)的方式推理。

超越每種思維方法需要與現(xiàn)實(shí)世界互動(dòng):提出假設(shè),進(jìn)行實(shí)驗(yàn),觀察結(jié)果,并據(jù)此更新原則。同樣,智能體必須基于現(xiàn)實(shí)世界數(shù)據(jù),才能推翻謬誤的思維方法。這種基礎(chǔ)提供了一個(gè)反饋循環(huán),允許智能體將其繼承的假設(shè)與現(xiàn)實(shí)對(duì)比,并發(fā)現(xiàn)不受當(dāng)前主導(dǎo)人類思維模式限制的新原則。沒(méi)有這種基礎(chǔ),無(wú)論多復(fù)雜,智能體都將成為現(xiàn)有人類知識(shí)的「回聲室」。要超越這一點(diǎn),智能體必須積極參與世界,收集觀察數(shù)據(jù),并使用這些數(shù)據(jù)迭代地完善其理解,在許多方面反映了推動(dòng)人類科學(xué)進(jìn)步的過(guò)程。

直接將思維植根于外部世界的一種可能方式是建立一個(gè)世界模型,預(yù)測(cè)智能體行動(dòng)對(duì)世界的后果,包括預(yù)測(cè)獎(jiǎng)勵(lì)。例如,健康助手可能考慮推薦當(dāng)?shù)亟∩矸炕蚪】挡タ?。智能體世界模型可能預(yù)測(cè)用戶心率或睡眠模式在此行動(dòng)后如何變化,以及與用戶的未來(lái)對(duì)話。這使智能體能夠直接按照自己的行動(dòng)及其對(duì)世界的因果影響進(jìn)行規(guī)劃。隨著智能體在其經(jīng)驗(yàn)流中繼續(xù)與世界互動(dòng),其動(dòng)態(tài)模型不斷更新,以糾正預(yù)測(cè)中的任何錯(cuò)誤。

給定一個(gè)世界模型,智能體可以應(yīng)用可擴(kuò)展的規(guī)劃方法,提高智能體的預(yù)測(cè)性能。規(guī)劃和推理方法并不相互排斥:智能體可以應(yīng)用內(nèi)部 LLM 計(jì)算來(lái)選擇規(guī)劃期間的每個(gè)行動(dòng),或模仿和評(píng)估這些行動(dòng)的后果。

為什么是現(xiàn)在?

從經(jīng)驗(yàn)中學(xué)習(xí)并不新鮮。強(qiáng)化學(xué)習(xí)系統(tǒng)之前已經(jīng)掌握了大量復(fù)雜任務(wù),這些任務(wù)在模仿器中表示,具有明確的獎(jiǎng)勵(lì)信號(hào)(大致對(duì)應(yīng)圖 1 中的「模仿時(shí)代」)。例如,RL 方法通過(guò)自我對(duì)弈在棋盤游戲中達(dá)到或超過(guò)了人類表現(xiàn),如西洋雙陸棋、圍棋、國(guó)際象棋、撲克和策略游戲;視頻游戲如雅達(dá)利系列游戲、星際爭(zhēng)霸 II、刀塔 2 和 GT 賽車;靈巧操作任務(wù)如魔方;以及資源管理任務(wù)如數(shù)據(jù)中心冷卻。

此外,像 AlphaZero 這樣強(qiáng)大的 RL 智能體表現(xiàn)出令人印象深刻的潛在無(wú)限可擴(kuò)展性,隨著神經(jīng)網(wǎng)絡(luò)的大小、互動(dòng)經(jīng)驗(yàn)的數(shù)量和思考時(shí)間的增加而擴(kuò)展。然而,基于這一范式的智能體并沒(méi)有跨越從模仿(具有單一、精確定義獎(jiǎng)勵(lì)的封閉問(wèn)題)到現(xiàn)實(shí)(具有多種看似定義不明確的獎(jiǎng)勵(lì)的開(kāi)放性問(wèn)題)的鴻溝。

圖 1:主流人工智能范式的簡(jiǎn)要時(shí)間線??v軸顯示該領(lǐng)域在強(qiáng)化學(xué)習(xí)(RL)上的總體努力和計(jì)算資源的占比。

人類數(shù)據(jù)時(shí)代提供了一個(gè)吸引人的解決方案。海量的人類數(shù)據(jù)語(yǔ)料庫(kù)包含了大量任務(wù)的自然語(yǔ)言示例。與模擬時(shí)代相對(duì)有限的成功相比,基于這些數(shù)據(jù)訓(xùn)練的智能體實(shí)現(xiàn)了廣泛的技能。因此,經(jīng)驗(yàn)式強(qiáng)化學(xué)習(xí)的方法論被廣泛摒棄,轉(zhuǎn)而支持更具通用性的智能體,從而推動(dòng)了人工智能向以人類為中心的方向廣泛轉(zhuǎn)變。

然而,在這一轉(zhuǎn)變中失去了一些東西:智能體自我發(fā)現(xiàn)知識(shí)的能力。例如,AlphaZero 發(fā)現(xiàn)了國(guó)際象棋和圍棋的根本性新策略,改變了人類玩這些游戲的方式。經(jīng)驗(yàn)時(shí)代將把這種能力與人類數(shù)據(jù)時(shí)代所實(shí)現(xiàn)的任務(wù)通用性水平結(jié)合起來(lái)。正如上面所概述的,當(dāng)智能體能夠在現(xiàn)實(shí)世界經(jīng)驗(yàn)流中自主行動(dòng)和觀察,并且獎(jiǎng)勵(lì)可以靈活地連接到任何基礎(chǔ)的現(xiàn)實(shí)世界信號(hào)時(shí),這將成為可能。

與復(fù)雜現(xiàn)實(shí)世界行動(dòng)空間互動(dòng)的自主智能體的出現(xiàn),加上能夠在豐富推理空間中解決開(kāi)放性問(wèn)題的強(qiáng)大 RL 方法,表明向經(jīng)驗(yàn)時(shí)代的轉(zhuǎn)變即將來(lái)臨。

強(qiáng)化學(xué)習(xí)方法

強(qiáng)化學(xué)習(xí)有著悠久的歷史,深深植根于自主學(xué)習(xí),其中智能體通過(guò)與環(huán)境的直接交互進(jìn)行自我學(xué)習(xí)。早期的強(qiáng)化學(xué)習(xí)研究催生了一系列強(qiáng)大的概念和算法。例如,時(shí)序差分學(xué)習(xí)使智能體能夠預(yù)估未來(lái)的獎(jiǎng)勵(lì),并取得了一些突破,例如在西洋雙陸棋比賽中取得了超越人類的表現(xiàn)。由樂(lè)觀或好奇心驅(qū)動(dòng)的探索技術(shù)被開(kāi)發(fā)出來(lái),幫助智能體發(fā)現(xiàn)創(chuàng)造性的新行為,并避免陷入次優(yōu)的做法。比如,像 Dyna 算法這樣的方法使智能體能夠構(gòu)建和學(xué)習(xí)其所處世界的模型,從而使它們能夠規(guī)劃和推理未來(lái)的行動(dòng)。再比如選項(xiàng)和選項(xiàng)內(nèi) / 選項(xiàng)間學(xué)習(xí)之類的概念促進(jìn)了時(shí)間抽象,使智能體能夠在更長(zhǎng)的時(shí)間尺度上進(jìn)行推理,并將復(fù)雜的任務(wù)分解為可管理的子目標(biāo)。 

然而,以人為中心的 LLM 的興起將重點(diǎn)從自主學(xué)習(xí)轉(zhuǎn)移到利用人類知識(shí)。比如 RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí))之類的技術(shù)以及將語(yǔ)言模型與人類推理能力相結(jié)合的方法,已被證明極其有效,推動(dòng)了人工智能能力的快速發(fā)展。這些方法雖然功能強(qiáng)大,但往往繞過(guò)了強(qiáng)化學(xué)習(xí)的核心概念:RLHF 通過(guò)調(diào)用人類專家代替機(jī)器估值來(lái)回避對(duì)價(jià)值函數(shù)的需求;來(lái)自人類數(shù)據(jù)的強(qiáng)先驗(yàn)知識(shí)減少了對(duì)探索的依賴;以人為中心的推理減少了對(duì)世界模型和時(shí)間抽象的需求。

有人可能會(huì)認(rèn)為,這種范式轉(zhuǎn)變?nèi)缤赴押⒆雍拖丛杷黄鸬沟簟埂R匀藶橹行牡膹?qiáng)化學(xué)習(xí)雖然實(shí)現(xiàn)了前所未有的行為廣度,但也給智能體的性能設(shè)定了新的上限:智能體無(wú)法超越現(xiàn)有的人類知識(shí)。此外,人類數(shù)據(jù)時(shí)代主要關(guān)注的是那些為短時(shí)間、無(wú)根基的人機(jī)交互而設(shè)計(jì)的強(qiáng)化學(xué)習(xí)方法,而這些方法并不適用于長(zhǎng)時(shí)間、有根基的自主交互。 

經(jīng)驗(yàn)時(shí)代為重新審視和改進(jìn)經(jīng)典強(qiáng)化學(xué)習(xí)概念提供了機(jī)會(huì)。經(jīng)驗(yàn)時(shí)代將帶來(lái)新的思考獎(jiǎng)勵(lì)函數(shù)的方式,這些獎(jiǎng)勵(lì)函數(shù)可以靈活地以觀察數(shù)據(jù)為基礎(chǔ)。經(jīng)驗(yàn)時(shí)代還將重新審視價(jià)值函數(shù)以及從序列尚未完成的長(zhǎng)流中估計(jì)它們的方法。同時(shí)將帶來(lái)原則性且實(shí)用的現(xiàn)實(shí)世界探索方法,從而發(fā)現(xiàn)與人類先驗(yàn)截然不同的新行為。

新的世界模型方法將被開(kāi)發(fā)出來(lái),以捕捉有根基交互的復(fù)雜性。新的時(shí)間抽象方法將使智能體能夠基于,在更長(zhǎng)的時(shí)間尺度內(nèi)進(jìn)行推理。通過(guò)構(gòu)建強(qiáng)化學(xué)習(xí)的基礎(chǔ),并使其核心原則適應(yīng)新時(shí)代的挑戰(zhàn),我們能夠充分釋放自主學(xué)習(xí)的潛力,為真正的超人(superhuman)智能鋪平道路。

后果

經(jīng)驗(yàn)時(shí)代的到來(lái),AI 智能體從與世界的互動(dòng)中學(xué)習(xí),預(yù)示著未來(lái)將與我們之前所見(jiàn)的一切大相徑庭。這一新范式雖然提供了巨大的潛力,但也提出了需要仔細(xì)考慮的重要風(fēng)險(xiǎn)和挑戰(zhàn),包括但不限于以下幾點(diǎn)。

從積極的一面來(lái)看,實(shí)驗(yàn)式學(xué)習(xí)將釋放前所未有的能力。在日常生活中,個(gè)性化助手將利用連續(xù)的經(jīng)驗(yàn)流來(lái)適應(yīng)個(gè)人在健康、教育或?qū)I(yè)需求方面的長(zhǎng)期目標(biāo),跨越數(shù)月或數(shù)年。也許最具變革性的將是科學(xué)發(fā)現(xiàn)的加速。AI 智能體將在材料科學(xué)、醫(yī)學(xué)或硬件設(shè)計(jì)等領(lǐng)域自主設(shè)計(jì)和進(jìn)行實(shí)驗(yàn)。通過(guò)不斷從自己的實(shí)驗(yàn)結(jié)果中學(xué)習(xí),這些智能體可以以前所未有的速度快速探索知識(shí)的新前沿,開(kāi)發(fā)出新材料、藥物和技術(shù)。

然而,這個(gè)新時(shí)代也帶來(lái)了新的重大挑戰(zhàn)。雖然人類能力的自動(dòng)化有望提高生產(chǎn)力,但這些改進(jìn)也可能導(dǎo)致工作崗位的流失。智能體甚至可能展現(xiàn)出以前被認(rèn)為是人類專屬領(lǐng)域的能力,如長(zhǎng)期問(wèn)題解決、創(chuàng)新和對(duì)現(xiàn)實(shí)世界后果的深入理解。

此外,盡管對(duì)任何人工智能的潛在濫用都存在普遍擔(dān)憂,但能夠在長(zhǎng)時(shí)間內(nèi)自主與世界互動(dòng)以實(shí)現(xiàn)長(zhǎng)期目標(biāo)的智能體可能會(huì)帶來(lái)更大的風(fēng)險(xiǎn)。默認(rèn)情況下,這為人類提供了較少的介入和調(diào)解智能體的機(jī)會(huì),因此需要更高的信任和責(zé)任標(biāo)準(zhǔn)。遠(yuǎn)離人類數(shù)據(jù)和人類思維模式也可能使未來(lái)的 AI 系統(tǒng)更難解讀。

然而,雖然認(rèn)識(shí)到經(jīng)驗(yàn)學(xué)習(xí)將增加某些安全風(fēng)險(xiǎn),肯定需要進(jìn)一步研究以確保安全過(guò)渡到經(jīng)驗(yàn)時(shí)代,我們也應(yīng)該認(rèn)識(shí)到它可能帶來(lái)一些重要的安全益處。

首先,智能體感知到其所處的環(huán)境,其行為可以隨著時(shí)間的推移適應(yīng)環(huán)境的變化。任何預(yù)編程系統(tǒng),包括固定的 AI 系統(tǒng),可能不了解其環(huán)境背景,并且無(wú)法適應(yīng)其部署的不斷變化的世界。例如,關(guān)鍵硬件可能發(fā)生故障,大流行病可能會(huì)導(dǎo)致社會(huì)迅速變革,或新的科學(xué)發(fā)現(xiàn)可能觸發(fā)一系列快速的技術(shù)發(fā)展。相比之下,智能體可以觀察并學(xué)習(xí)規(guī)避故障硬件,適應(yīng)快速的社會(huì)變化,或接受并建立在新的科學(xué)和技術(shù)上。也許更重要的是,智能體可以識(shí)別其行為何時(shí)引發(fā)人類關(guān)注、不滿或痛苦,并適應(yīng)性地修改其行為以避免這些負(fù)面后果。

其次,智能體的獎(jiǎng)勵(lì)函數(shù)本身可以通過(guò)經(jīng)驗(yàn)進(jìn)行調(diào)整,例如使用前面描述的雙層優(yōu)化(見(jiàn)獎(jiǎng)勵(lì))。重要的是,這意味著當(dāng)獎(jiǎng)勵(lì)函數(shù)出現(xiàn)價(jià)值偏差時(shí),通??梢酝ㄟ^(guò)試錯(cuò)逐漸糾正。例如,與其盲目地優(yōu)化一個(gè)信號(hào)(如回形針的最大化生產(chǎn)),不如根據(jù)人類擔(dān)憂的跡象修改獎(jiǎng)勵(lì)函數(shù),以免回形針生產(chǎn)消耗地球上所有資源。這類似于人類為彼此設(shè)定目標(biāo)的方式,然后如果他們觀察到人們利用系統(tǒng)、忽視長(zhǎng)期福祉或?qū)е虏幌M呢?fù)面后果,就調(diào)整這些目標(biāo);當(dāng)然,正如人類自身的目標(biāo)設(shè)定過(guò)程,這種調(diào)節(jié)機(jī)制也無(wú)法確保絕對(duì)的價(jià)值對(duì)齊。

最后,依賴物理經(jīng)驗(yàn)的進(jìn)步,本質(zhì)上受到在現(xiàn)實(shí)世界中執(zhí)行行動(dòng)并觀察其后果所需的時(shí)間的限制。例如,開(kāi)發(fā)一種新藥,即使有 AI 輔助設(shè)計(jì),仍然需要在現(xiàn)實(shí)世界中試驗(yàn),而這些試驗(yàn)不可能在一夜之間完成。這可能為潛在的 AI 自我改進(jìn)速度產(chǎn)生一個(gè)自然的抑制作用。

結(jié)論

經(jīng)驗(yàn)時(shí)代標(biāo)志著人工智能發(fā)展的一個(gè)關(guān)鍵轉(zhuǎn)折點(diǎn)。在現(xiàn)有的堅(jiān)實(shí)基礎(chǔ)上,智能體將超越人類生成數(shù)據(jù)的局限性,越來(lái)越多地從與世界的互動(dòng)中學(xué)習(xí)。智能體將通過(guò)豐富的觀察和行動(dòng)自主與環(huán)境交互,并在終身經(jīng)驗(yàn)流中持續(xù)適應(yīng)。它們的目標(biāo)可以被引導(dǎo)至任何基于環(huán)境信號(hào)的組合。此外,智能體將利用強(qiáng)大的非人類推理能力,并制定基于其行為對(duì)環(huán)境影響的計(jì)劃。最終,經(jīng)驗(yàn)數(shù)據(jù)將在規(guī)模和質(zhì)量上超越人類生成的數(shù)據(jù)。這種范式轉(zhuǎn)變,伴隨著強(qiáng)化學(xué)習(xí)算法的進(jìn)步,將在許多領(lǐng)域釋放出超越人類能力的新能力。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2021-07-21 16:56:33

人工智能機(jī)器學(xué)習(xí)技術(shù)

2024-10-14 13:45:00

AI模型

2025-04-15 03:43:00

2025-03-17 12:52:00

AI開(kāi)發(fā)測(cè)試

2021-09-02 16:10:21

人工智能機(jī)器學(xué)習(xí)技術(shù)

2021-09-23 09:35:00

編程技能開(kāi)發(fā)

2022-10-17 15:04:40

量子計(jì)算

2023-05-04 10:05:30

離職谷歌

2023-05-25 14:05:48

圖靈論文

2020-07-31 09:42:18

AI 數(shù)據(jù)人工智能

2021-11-23 09:34:50

深度學(xué)習(xí)編程人工智能

2012-11-23 09:42:11

2021-09-06 14:48:50

AI 數(shù)據(jù)人工智能

2022-08-03 08:04:43

Yann LeCun谷歌AI

2011-03-03 21:12:47

圖靈獎(jiǎng)人才

2019-10-15 05:15:00

深度學(xué)習(xí)人工智能AI

2021-06-04 15:39:03

深度學(xué)習(xí)編程人工智能

2024-04-28 08:30:00

人工智能大模型

2021-02-25 15:40:21

深度學(xué)習(xí)編程人工智能

2023-01-09 13:22:51

AI技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)