圖靈獎(jiǎng)獲得者Yann LeCun:未來幾十年AI研究的最大挑戰(zhàn)是「預(yù)測世界模型」
深度學(xué)習(xí)大規(guī)模應(yīng)用之后,人們一直期待真正的通用人工智能出現(xiàn),能夠帶來進(jìn)一步的技術(shù)突破。
對此,Meta 首席科學(xué)家、圖靈獎(jiǎng)獲得者 Yann LeCun 最近提出了一種新思路:他認(rèn)為讓算法預(yù)測世界內(nèi)在運(yùn)行規(guī)律的「世界模型」將是關(guān)鍵。他的思考引發(fā)了人們的關(guān)注。
在本周的一次線上活動(dòng)中,LeCun 用一個(gè)小時(shí)的時(shí)間介紹了自助人工智能的新思路,并提出聯(lián)合嵌入預(yù)測架構(gòu)(JEPA)是未來的發(fā)展方向。
盡管 AI 研究最近取得了顯著進(jìn)展,但我們離創(chuàng)造出像人一樣思考和學(xué)習(xí)的機(jī)器還有很長的路要走。正如 Yann LeCun 所說,一個(gè)從沒有開過車的青少年可以在 20 小時(shí)之內(nèi)學(xué)會駕駛,但最好的自動(dòng)駕駛系統(tǒng)卻需要數(shù)百萬或數(shù)十億的標(biāo)記數(shù)據(jù),或在虛擬環(huán)境中進(jìn)行數(shù)百萬次強(qiáng)化學(xué)習(xí)試驗(yàn)。即使費(fèi)這么大力,它們也無法獲得像人類一樣可靠的駕駛能力。
怎樣才能打造出接近人類水平的 AI?僅靠更多的數(shù)據(jù)和更大的模型能解決嗎?
在 Meta AI 近期舉辦的 Inside the Lab event 中,LeCun 勾勒出了構(gòu)建人類水平 AI 的另一種愿景。他指出,學(xué)習(xí)「世界模型」(即世界如何運(yùn)作的內(nèi)部模型)的能力可能是關(guān)鍵。
- 原視頻鏈接:https://www.youtube.com/watch?v=DokLw1tILlw
- PPT 鏈接:https://drive.google.com/file/d/1Txb9ykr03Lda-oTLXbnlQsEe46V8mGzi/view
Yann LeCun 的觀點(diǎn)與 Kanai 等人提出的意識信息生成理論非常一致——智能源于能夠生成世界復(fù)雜表示的能力(包括反事實(shí)),不過也有學(xué)者對此持消極態(tài)度。
卡耐基梅隆大學(xué)教授,前蘋果 AI 研究主管 Russ Salakhutdinov 對此評價(jià)道:Josh Tenenbaum 和其他很多研究者在十年前已經(jīng)開始研究世界模型,當(dāng)時(shí)我在他的實(shí)驗(yàn)室做博士后。因此,當(dāng) Facebook 說他們正在研究基于世界模型的 AI 新愿景時(shí),我覺得這聽起來有點(diǎn)好笑。
LeCun 提出的方法究竟能否成為通向通用人工智能的道路?讓我們結(jié)合 Meta AI 前幾天的博客來了解一下 LeCun 的想法。可以建模世界如何運(yùn)行的 AI
LeCun 說,人和動(dòng)物似乎能夠通過觀察和難以理解的少量互動(dòng),以一種獨(dú)立于任務(wù)的、無監(jiān)督的方式,學(xué)習(xí)大量關(guān)于世界如何運(yùn)行的背景知識。可以假設(shè),這些積累起來的知識可能構(gòu)成了常識的基礎(chǔ)。常識可以被看作是世界模型的集合,可以告訴我們什么是大概率會發(fā)生的,什么是可能發(fā)生的,以及什么是不可能發(fā)生的。
這使得人類即使身處不熟悉的環(huán)境也能有效地制定計(jì)劃。例如,文章開頭提到的那個(gè)青少年可能以前沒有在雪地上開過車,但他知道雪地開車容易打滑,不能開得太猛。
常識不僅能讓動(dòng)物預(yù)測未來的結(jié)果,還能填補(bǔ)時(shí)間或空間上缺失的信息。當(dāng)司機(jī)聽到附近金屬碰撞的聲音時(shí),他立即就能知道發(fā)生了事故,即使沒有看到涉事車輛。
人類、動(dòng)物和智能系統(tǒng)使用世界模型的觀點(diǎn)可以追溯到幾十年前的心理學(xué)以及控制和機(jī)器人等工程領(lǐng)域。LeCun 提出,當(dāng)今 AI 面臨的最重要的挑戰(zhàn)之一是設(shè)計(jì)學(xué)習(xí)范式和架構(gòu),讓機(jī)器以一種自監(jiān)督的方式學(xué)習(xí)世界模型,然后利用這些模型進(jìn)行預(yù)測、推理和規(guī)劃。他的大綱融合了各種學(xué)科的觀點(diǎn),如認(rèn)知科學(xué)、系統(tǒng)神經(jīng)科學(xué)、最佳控制、強(qiáng)化學(xué)習(xí)和「傳統(tǒng)」AI,并將它們與機(jī)器學(xué)習(xí)中的新概念相結(jié)合,如自監(jiān)督學(xué)習(xí)、聯(lián)合嵌入架構(gòu)。
一種自主智能體系架構(gòu)的提出
LeCun 提出了一個(gè)由六個(gè)獨(dú)立模塊組成的架構(gòu)。假設(shè)每個(gè)模塊都是可微的,因?yàn)樗梢院苋菀椎赜?jì)算某個(gè)目標(biāo)函數(shù)相對于自己的輸入的梯度估計(jì),并將梯度信息傳播到上游模塊。
上圖是一種自主智能系統(tǒng)的架構(gòu),配置器(Configurator)從其他模塊獲得輸入(圖中省略了這些箭頭)。
配置器(Configurator)模塊負(fù)責(zé)執(zhí)行控制(executive control):給定要執(zhí)行的任務(wù),可以通過調(diào)整這些模塊的參數(shù)來預(yù)先配置感知模塊(perception module)、世界模型(world model)、成本(cost)和當(dāng)前任務(wù)的 actor。
感知模塊(Perception module)接收來自傳感器的信號并估計(jì)當(dāng)前世界的狀態(tài),對于給定的任務(wù),只有一小部分感知到的世界狀態(tài)是相關(guān)和有用的。配置器模塊啟動(dòng)感知系統(tǒng),從感知中提取相關(guān)信息,完成手頭的任務(wù)。
世界模型(World model)構(gòu)成了架構(gòu)中最復(fù)雜的部分。它的作用是雙重的:(1)估計(jì)感知未提供的關(guān)于世界狀態(tài)的缺失信息;(2)預(yù)測合理的未來世界狀態(tài)。
世界模型可以預(yù)測世界的自然進(jìn)化,或預(yù)測由 actor 模塊提出的一系列動(dòng)作所導(dǎo)致的未來世界狀態(tài)。世界模型是一種與當(dāng)前任務(wù)相關(guān)的世界部分的模擬器。由于世界充滿了不確定性,模型必須能夠代表多種可能的預(yù)測。比如接近十字路口的司機(jī)可能會減速,以防另一輛接近十字路口的車沒有在停車標(biāo)志處停下來。
成本模塊(Cost module)計(jì)算單個(gè)標(biāo)量的輸出,該輸出預(yù)測智能體的不適(discomfort)程度。它由兩個(gè)子模塊組成:內(nèi)在成本(intrinsic cost)是硬連接、不可變的(不可訓(xùn)練的),并計(jì)算直接的不適(比如對智能體的損害、違反硬編碼的行為約束等);批判(critic)是可訓(xùn)練的模塊,預(yù)測內(nèi)在成本的未來值。智能體的最終目標(biāo)是最小化長期的內(nèi)在成本。
「這就是基本的行為驅(qū)動(dòng)力和內(nèi)在動(dòng)機(jī)所在,」LeCun 表示。因此它將考慮到內(nèi)在成本,比如沒有浪費(fèi)能源,以及手頭任務(wù)的具體成本。因?yàn)槌杀灸K是可微的,所以成本梯度可以通過其他模塊反向傳播,用于規(guī)劃、推理和學(xué)習(xí)。
actor 模塊計(jì)算動(dòng)作序列的提議?!竌ctor 可以找到一個(gè)最優(yōu)的動(dòng)作序列,最小化預(yù)估的未來成本,并以最優(yōu)序列輸出第一個(gè)動(dòng)作,這種方式類似于傳統(tǒng)的最優(yōu)控制?!筁eCun 說。
短期記憶模塊(Short-term memory module)跟蹤當(dāng)前和預(yù)測的世界狀態(tài)以及相關(guān)成本。
世界模型架構(gòu)和自監(jiān)督訓(xùn)練
該架構(gòu)的核心是預(yù)測世界模型。構(gòu)建它的一個(gè)關(guān)鍵挑戰(zhàn)是如何使它能夠表示多個(gè)看似合理的預(yù)測。現(xiàn)實(shí)世界并不是完全可以預(yù)測的:特定情況的演變有多種可能的方式,并且情況的許多細(xì)節(jié)與手頭的任務(wù)無關(guān)。我可能需要預(yù)測開車時(shí)周圍的汽車會有哪些動(dòng)作,而不需要思考道路附近樹木中單個(gè)葉子的詳細(xì)位置。世界模型到底應(yīng)該如何學(xué)習(xí)世界的抽象表示,從而保留重要細(xì)節(jié),忽略不相關(guān)的細(xì)節(jié),并且可以在抽象表示的空間中進(jìn)行預(yù)測呢?
解決方案的一個(gè)關(guān)鍵要素是聯(lián)合嵌入預(yù)測架構(gòu)(JEPA)。JEPA 捕獲兩個(gè)輸入 x 和 y 之間的依賴關(guān)系。例如 x 可以是一段視頻,y 可以是視頻的下一段。輸入 x 和 y 被饋送到可訓(xùn)練的編碼器,這些編碼器提取它們的抽象表示,即 s_x 和 s_y。訓(xùn)練預(yù)測器模塊以從 s_x 預(yù)測 s_y。預(yù)測器可以使用潛變量 z 來表示 s_y 中存在但 s_x 中不存在的信息。
JEPA 以兩種方式處理預(yù)測中的不確定性:(1)編碼器可能會選擇丟棄有關(guān) y 的難以預(yù)測的信息,(2)當(dāng)潛變量 z 在一個(gè)集合范圍內(nèi)變化時(shí),預(yù)測將在一組看似合理的預(yù)測結(jié)果范圍內(nèi)變化。
那么 JEPA 是如何訓(xùn)練的呢?之前,唯一的方法是使用對比方法,包括顯示相匹配的 x 和 y 的示例,以及許多 x 和不匹配的 y 的示例。但是當(dāng)表示(representation)是高維的時(shí),這是相當(dāng)不切實(shí)際的。過去兩年出現(xiàn)了另一種訓(xùn)練策略:正則化方法。當(dāng)應(yīng)用于 JEPA 時(shí),該方法使用四個(gè)標(biāo)準(zhǔn):
- 使 x 的表示最大限度地提供關(guān)于 x 的信息
- 使 y 的表示最大限度地提供關(guān)于 y 的信息
- 使得從 x 的表示中最大限度地預(yù)測 y 的表示成為可能
- 讓預(yù)測器使用來自潛變量的、盡可能少的信息來表示預(yù)測中的不確定性。
這些標(biāo)準(zhǔn)可以以各種方式轉(zhuǎn)化為可微的成本函數(shù)。一種方法是 VICReg(方差 - 不變性 - 協(xié)方差正則化)方法。在 VICReg 中,x 和 y 的表示的信息內(nèi)容通過將它們的分量的方差保持在閾值之上,并使這些分量盡可能地相互獨(dú)立來實(shí)現(xiàn)最大化。同時(shí),該模型試圖使 y 的表示可以從 x 的表示中預(yù)測。此外,潛變量信息內(nèi)容的最小化是通過使其離散、低維、稀疏或有噪聲來實(shí)現(xiàn)的。
JEPA 的精妙之處在于它自然地產(chǎn)生了輸入的充滿信息量的抽象表示,消除了不相關(guān)的細(xì)節(jié),這些表示可以用來執(zhí)行預(yù)測。這使得 JEPA 可以相互堆疊,以便學(xué)習(xí)具有更高抽象級別的表示,可以執(zhí)行長期預(yù)測。
例如,一個(gè)場景可以在高層次上描述為「廚師正在制作可麗餅」??梢灶A(yù)測的是,廚師會去取面粉、牛奶和雞蛋,把材料混合,把面糊舀進(jìn)鍋里,用油炸面糊,翻轉(zhuǎn)可麗餅并重復(fù)上述過程。
在較低的層次上,傾倒面糊(pouring a ladle)又可以分解為舀面糊(scooping some batter )和將其倒在平底鍋上(spreading it around the pan)。這些過程可以一直分解下去,具體到廚師手上每一毫秒的精確軌跡。在這種低層次的手部軌跡預(yù)測上,我們的世界模型只能在較短的時(shí)間范圍內(nèi)給出準(zhǔn)確的預(yù)測。但在更高的抽象層次上,它可以做出長期預(yù)測。
分層 JEPA 可用于在多個(gè)抽象層次和多個(gè)時(shí)間尺度上執(zhí)行預(yù)測。訓(xùn)練分層 JEPA 主要通過被動(dòng)觀察,很少借助交互。
嬰兒在出生后的頭幾個(gè)月主要通過觀察來了解世界是如何運(yùn)行的。她了解到世界是三維的;有些物體在其他物體的前面;當(dāng)一個(gè)物體被遮擋時(shí),它仍然存在。最終,在大約 9 個(gè)月大的時(shí)候,嬰兒學(xué)會了直觀物理,例如不受支撐的物體會因重力而落下。
LeCun 和 Meta AI 希望分層 JEPA 可以通過觀看視頻和與環(huán)境交互來了解世界是如何運(yùn)行的。通過訓(xùn)練自己預(yù)測視頻中會發(fā)生什么,JEPA 將產(chǎn)生世界的分層表示。通過做出一些動(dòng)作并觀察結(jié)果,世界模型將學(xué)會預(yù)測其動(dòng)作的后果,這將使其能夠進(jìn)行推理和規(guī)劃。
感知 - 動(dòng)作 episode
通過將分層 JEPA 訓(xùn)練為世界模型,智能體能夠執(zhí)行復(fù)雜動(dòng)作的分層規(guī)劃,將復(fù)雜任務(wù)分解為一系列不太復(fù)雜和不太抽象的子任務(wù),直到分解為效應(yīng)器上的低層次動(dòng)作。
下圖是一個(gè)典型的感知 - 動(dòng)作 episode。該圖說明了兩層層次結(jié)構(gòu)的情況。
感知模塊提取世界狀態(tài)的分層表征(對應(yīng)圖中 s1[0]=Enc1(x) , s2[0]=Enc2(s[0]))。然后,在給定第二層 actor 提出的一系列抽象動(dòng)作的情況下,多次應(yīng)用第二層預(yù)測器來預(yù)測未來狀態(tài)。actor 優(yōu)化第二層的動(dòng)作序列以最小化總成本(圖中的 C(s2 [4]))。
這個(gè)過程類似于最優(yōu)控制中的模型預(yù)測控制(Model-Predictive Control)。對第二層潛變量的多個(gè) drawing 重復(fù)該過程,可能會產(chǎn)生不同的高級場景。由此產(chǎn)生的高級動(dòng)作雖然不能構(gòu)成真正的動(dòng)作,但是定義了低層次狀態(tài)序列必須滿足的約束。
這也構(gòu)成了子目標(biāo)。整個(gè)過程在較低的層次重復(fù):運(yùn)行低層次預(yù)測器,優(yōu)化低層動(dòng)作序列以最小化來自上一層的中間成本,并對低層潛在變量的多個(gè) drawing 重復(fù)該過程。一旦該過程完成,智能體將第一個(gè)低層次動(dòng)作輸出到效應(yīng)器,就可以重復(fù)整個(gè) episode。
如果能成功構(gòu)建這樣一個(gè)模型,那么所有模塊都將是可微的,因此整個(gè)動(dòng)作優(yōu)化過程可以使用基于梯度的方法來執(zhí)行。
更接近人類智能水平的 AI
LeCun 的愿景中還存在許多艱巨的挑戰(zhàn)。其中最有趣和最困難的挑戰(zhàn)之一是實(shí)例化(instantiate)世界模型架構(gòu)和訓(xùn)練過程的細(xì)節(jié)。一定程度上,訓(xùn)練世界模型將是未來幾十年人工智能取得實(shí)際進(jìn)展面臨的主要挑戰(zhàn)。
然而,世界模型架構(gòu)的許多方面仍有待定義,包括如何精確地訓(xùn)練 critic、如何構(gòu)建和訓(xùn)練配置器(configurator)、如何使用短期記憶來跟蹤世界狀態(tài)和存儲歷史狀態(tài)等等。
創(chuàng)造像人類一樣有效學(xué)習(xí)和理解的機(jī)器是一項(xiàng)長期的科研工作,并且不能保證一定會成功。但基礎(chǔ)研究必將繼續(xù)加深機(jī)器對世界的理解,推進(jìn)整個(gè)人工智能領(lǐng)域的發(fā)展。