Meta「世界模型」遭質(zhì)疑:10年前就有了!LeCun:關(guān)鍵在于構(gòu)建和訓(xùn)練
?2月24日,Meta在「春晚」上介紹了首席科學(xué)家Yann LeCun在構(gòu)建人類(lèi)級(jí)別的AI勾勒出的另一種愿景。 LeCun表示,AI學(xué)習(xí)「世界模型」(世界如何運(yùn)作的內(nèi)部模型)的能力可能是關(guān)鍵。 然而,文章一出,便遭到了很多業(yè)內(nèi)人士的質(zhì)疑,這不是老早就有了的東西么?
始于20世紀(jì)60年代?
多倫多大學(xué)的副教授Dan Roy指出,「我好像記得Josh Tenenbaum確實(shí)提過(guò)世界模型。當(dāng)然也可能我記錯(cuò)了?!?nbsp;
卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)科學(xué)教授、前蘋(píng)果人工智能研究主任Russ Salakhutdinov隨即跟帖表示:「我十年前從事博士后研究時(shí),Josh Tenenbaum和很多人就已經(jīng)在搞世界模型了。所以今天Facebook說(shuō)他們要描繪一個(gè)以AI為基礎(chǔ)的世界模型,我聽(tīng)著就覺(jué)得挺逗的?!?nbsp;
甚至有網(wǎng)友搬出了Jürgen Schmidhuber在1990年發(fā)表的論文,其中就有關(guān)于世界模型的介紹。
論文地址:?https://mediatum.ub.tum.de/doc/814960/file.pdf? 另有熱心網(wǎng)友在下面附上了他2018年在NIPS上發(fā)表的一篇有關(guān)世界模型的
論文的鏈接。
論文地址:?https://arxiv.org/abs/1809.01999?項(xiàng)目地址:https://worldmodels.github.io/? 當(dāng)然還有更過(guò)分的網(wǎng)友直接表示,「大概率成不了?!?/p>
被推上風(fēng)口浪尖的LeCun,不得不親自下場(chǎng):這和Facebook沒(méi)啥關(guān)系,是我自己提出的,況且應(yīng)該是Meta。 他表示,「確實(shí)有很多人聊世界模型聊了幾十年了,自打上個(gè)世紀(jì)60年代的控制論開(kāi)始。但提出這個(gè)概念不是關(guān)鍵,關(guān)鍵在于到底怎樣構(gòu)建和訓(xùn)練世界模型?!?/p>
也就是如何讓世界模型學(xué)習(xí)分級(jí)表示法,并且實(shí)現(xiàn)分級(jí)規(guī)劃。我認(rèn)為這里創(chuàng)新的點(diǎn)就在于使用聯(lián)合嵌入型預(yù)測(cè)架構(gòu)(JEPA)在表征空間中進(jìn)行預(yù)測(cè)。
JEPA有這么幾個(gè)特點(diǎn):
- 非生成性——輸出是被加密的,細(xì)節(jié)都被省掉。
- 非概率性——是基于能量的,不是可規(guī)范化的。
- 非對(duì)比訓(xùn)練(用VICR)
我認(rèn)為第一個(gè)和第二個(gè)特點(diǎn)大概率會(huì)有悖于Josh的貝葉斯定理。
不過(guò),也有網(wǎng)友贊成LeCun的看法。 他表示,「確實(shí),訓(xùn)練是個(gè)問(wèn)題。對(duì)于一個(gè)離開(kāi)自己原來(lái)的工作,去搞世界模型的人來(lái)說(shuō),他們可能會(huì)從物理學(xué)家、控制理論專(zhuān)家和人工智能的角度去構(gòu)思,這樣的話這些視角很難幫他們做什么...哪怕你搭建了一個(gè)機(jī)器,也學(xué)了一些特定領(lǐng)域的世界模型,你還是很難做出一款現(xiàn)象級(jí)的軟件?!?/p>
「世界模型」是什么?
人類(lèi)會(huì)根據(jù)自己有限的感官所能感知到的事物,去建立了一個(gè)關(guān)于世界的模型。 在此之后,人類(lèi)做出的所有決定和行動(dòng)都將基于這個(gè)內(nèi)部模型的。 而這個(gè)模型并不只是泛泛地預(yù)測(cè)未來(lái),而是根據(jù)我們當(dāng)前的運(yùn)動(dòng)和行動(dòng)對(duì)未來(lái)的感官數(shù)據(jù)進(jìn)行預(yù)測(cè)。 當(dāng)面臨危險(xiǎn)時(shí),人類(lèi)能夠本能地根據(jù)這個(gè)預(yù)測(cè)模型采取行動(dòng),并進(jìn)行快速的反射性行為,而不需要有意識(shí)地計(jì)劃出行動(dòng)方案。
人類(lèi)所看到的是基于大腦對(duì)未來(lái)的預(yù)測(cè) LeCun指出:「人類(lèi)學(xué)習(xí)在世界如何運(yùn)作的背景知識(shí)時(shí),是通過(guò)觀察,以及用獨(dú)立于任務(wù)和無(wú)監(jiān)督方式進(jìn)行的??梢约俣?,這種積累的知識(shí)可能構(gòu)成了通常被稱(chēng)為常識(shí)的基礎(chǔ)?!?nbsp;常識(shí)可以被視為世界模型的集合,可以指導(dǎo)智能體何種行為可能、何種行為合理、何種行為不可能。 這使人類(lèi)能夠在不熟悉的情況中有效地預(yù)先計(jì)劃。例如,一名少年司機(jī)以前可能從未在雪地上駕駛,但他預(yù)知雪地會(huì)很滑、如果車(chē)開(kāi)得太猛將會(huì)失控打滑。 常識(shí)性知識(shí)讓智能動(dòng)物不僅可以預(yù)測(cè)未來(lái)事件的結(jié)果,還可以在時(shí)間或空間上填補(bǔ)缺失的信息。當(dāng)司機(jī)聽(tīng)到附近有金屬撞擊聲時(shí),即使沒(méi)有看到撞車(chē)現(xiàn)場(chǎng),他也能立即知道車(chē)禍發(fā)生。 就像首次接觸左側(cè)駕駛的人,不用再重復(fù)學(xué)習(xí)方向盤(pán)該怎么打一樣,物理法則是不會(huì)改變的,而這就是個(gè)「世界模型」的例子。
早期工作
早在1990年,就有研究人員開(kāi)始嘗試建立一個(gè)完全依靠自己來(lái)學(xué)習(xí)世界表征的智能體。 Schmidhuber的模型指出,智能體可以從世界接收獎(jiǎng)勵(lì)R和輸入IN。輸入在經(jīng)過(guò)網(wǎng)絡(luò)處理后,模型會(huì)分別對(duì)世界和未來(lái)的獎(jiǎng)勵(lì)進(jìn)行預(yù)測(cè)——PREDIN,PREDR。最后,動(dòng)作通過(guò)OUT輸出。 也就是說(shuō),這個(gè)智能體對(duì)于未來(lái)的獎(jiǎng)勵(lì)和輸入是使用世界模型預(yù)測(cè)的。
Schmidhuber的模型遵循的是壓縮神經(jīng)表征的思想,而壓縮也是歸納推理的關(guān)鍵,即從少數(shù)例子中學(xué)習(xí),這通常被認(rèn)為是智能才有的行為。 然而,Schmidhuber在這個(gè)方法中缺少一個(gè)關(guān)于如何分析智力和意識(shí)的理論。 在2018年的論文中,Schmidhuber再次提出了一個(gè)受人類(lèi)認(rèn)知系統(tǒng)啟發(fā)的簡(jiǎn)單模型。 在這個(gè)模型中,智能體有一個(gè)視覺(jué)感覺(jué)組件,將它看到的東西壓縮成一個(gè)小的代表代碼。還有一個(gè)記憶組件,根據(jù)歷史信息對(duì)未來(lái)的代碼進(jìn)行預(yù)測(cè)。最后是一個(gè)決策組件,只根據(jù)其視覺(jué)和記憶組件所創(chuàng)建的表征來(lái)決定采取什么行動(dòng)。
智能體由三個(gè)組件組成:視覺(jué)(V),記憶(M),和控制器(C) 在這項(xiàng)工作中,Schmidhuber首先訓(xùn)練一個(gè)大型神經(jīng)網(wǎng)絡(luò),以無(wú)監(jiān)督的方式學(xué)習(xí)智能體的世界模型,然后訓(xùn)練較小的控制器模型,學(xué)習(xí)使用這個(gè)世界模型來(lái)執(zhí)行任務(wù)。 其中,控制器讓訓(xùn)練算法專(zhuān)注于小的搜索空間上的信用分配問(wèn)題,同時(shí)不犧牲通過(guò)大的世界模型的能力和表現(xiàn)力。 在通過(guò)世界模型的視角進(jìn)行訓(xùn)練之后,Schmidhuber證明,智能體可以學(xué)習(xí)一個(gè)高度緊湊的策略來(lái)執(zhí)行其任務(wù)。
自主智能架構(gòu)
LeCun在自己的「世界模型」中提出了一個(gè)由六個(gè)獨(dú)立模塊組成的架構(gòu)。
- 配置器模塊負(fù)責(zé)控制任務(wù)的分配和調(diào)參。
- 感知模塊負(fù)責(zé)接收來(lái)自傳感器的信號(hào)并估計(jì)世界的當(dāng)前狀態(tài)。
- 世界模型模塊的作用有兩點(diǎn):(1)補(bǔ)全感知模塊沒(méi)有提供的信息;(2)預(yù)測(cè)合理的未來(lái)狀態(tài)。
- 代價(jià)模塊負(fù)責(zé)計(jì)算和預(yù)測(cè)智能體的不合適程度。由兩個(gè)部分組成:(1)內(nèi)在代價(jià),直接計(jì)算「不適」:對(duì)智能體的損害、違反硬編碼的行為等;(2)評(píng)價(jià)者,預(yù)測(cè)內(nèi)在代價(jià)的未來(lái)值。
- 行為者模塊負(fù)責(zé)提供動(dòng)作序列的建議。
- 短期記憶模塊負(fù)責(zé)跟蹤當(dāng)前和預(yù)測(cè)的世界狀態(tài),以及相關(guān)代價(jià)。
自監(jiān)督訓(xùn)練
自主智能架構(gòu)的核心是預(yù)測(cè)世界模型。而建構(gòu)它的關(guān)鍵挑戰(zhàn),是如何能使其呈現(xiàn)多種可能性的預(yù)測(cè)。 現(xiàn)實(shí)世界并不是完全可以單一預(yù)測(cè)的,特定情況的演變有多種可能途徑,并且狀況的許多細(xì)節(jié)與當(dāng)下任務(wù)無(wú)關(guān)。 人類(lèi)司機(jī)可能需要預(yù)測(cè)駕駛時(shí)自己周?chē)钠?chē)會(huì)做什么,但不需要預(yù)測(cè)道路附近樹(shù)木中單個(gè)葉子的詳細(xì)位置。 世界模型如何學(xué)習(xí)現(xiàn)實(shí)世界的抽象表示,從而保留關(guān)鍵細(xì)節(jié)、忽略不相關(guān)細(xì)節(jié),且能在抽象表示的空間中進(jìn)行預(yù)測(cè)? 解決方案的關(guān)鍵要素是「聯(lián)合嵌入式可預(yù)測(cè)架構(gòu)」 (JEPA)。 JEPA能捕獲兩個(gè)輸入數(shù)據(jù)x和y之間的依賴(lài)關(guān)系。例如,x可以是一段視頻,y可以是視頻的下一段。輸入數(shù)據(jù)x和y被饋送到可訓(xùn)練的編碼器,這些編碼器提取它們的抽象表示,即sx和sy。 JEPA以?xún)煞N方式處理預(yù)測(cè)中的不確定性:(1)編碼器可能會(huì)拋棄關(guān)于y的難以預(yù)測(cè)信息,(2)當(dāng)潛在變量z在一個(gè)集合上有變化時(shí),將導(dǎo)致在另一個(gè)可能性集合上的預(yù)測(cè)結(jié)果有變化。 那么,JEPA如何訓(xùn)練? 直到晚近,唯一的途徑是使用對(duì)比方法,即提供足夠多的兼容x和y的示例、兼容x但不兼容y的示例、不兼容x但兼容y的示例。 但是當(dāng)抽象表示達(dá)到高維時(shí),此方法不切實(shí)際。 過(guò)去兩年出現(xiàn)了另一種訓(xùn)練策略:正則化方法。當(dāng)應(yīng)用于JEPA時(shí),該方法使用四個(gè)準(zhǔn)則:
- 使關(guān)于x的表示,最大程度地提供關(guān)于x的信息
- 使關(guān)于y的表示,最大程度地提供關(guān)于y的信息
- 從關(guān)于x的表示中,最大程度地預(yù)測(cè)關(guān)于y的呈現(xiàn)
- 使預(yù)測(cè)器調(diào)用來(lái)自潛在變量的盡可能少的信息,來(lái)表示預(yù)測(cè)中的不確定性。
這些準(zhǔn)則可以通過(guò)VICReg,也就是「方差、不變性、協(xié)方差正則化」(Variance, Invariance, Covariance Regularization)方法,轉(zhuǎn)化為可微的代價(jià)函數(shù)。 其中,x和y表示的信息內(nèi)容最大化方式,是將其分量的方差保持在閾值之上,并使這些分量盡可能地相互獨(dú)立。 同時(shí),此方法試圖讓y的表征可以從x的表示中預(yù)測(cè),而潛變量的信息內(nèi)容,則被使其離散、低維、稀疏或噪聲化的方式最小化。
JEPA的妙處,在于它自然地產(chǎn)生了關(guān)于輸入信息的抽象表示,這些抽象表示消除了不相關(guān)的細(xì)節(jié),基于其可以執(zhí)行預(yù)測(cè)。 這使得JEPA可以相互堆疊,用來(lái)學(xué)習(xí)具有更高層次的、能藉以執(zhí)行更長(zhǎng)期預(yù)測(cè)的抽象表示。 例如,一個(gè)場(chǎng)景可以在高層次上抽象描述為「廚師正在制作法式薄餅」。 因此,人類(lèi)智能可以預(yù)測(cè):廚師會(huì)去取面粉、牛奶和雞蛋;混合原料;把面糊舀進(jìn)鍋里;讓面糊油炸;翻轉(zhuǎn)薄餅;重復(fù)以上流程。 在低一級(jí)的層次上,人類(lèi)智能可以預(yù)測(cè):舀面糊動(dòng)作,包括勺子舀面糊、倒進(jìn)鍋里、將面糊鋪在鍋面上。 這種層級(jí)的攤低可以一直持續(xù)到以毫秒為單位的廚師手部的精確運(yùn)動(dòng)軌跡。 在手部軌跡的低層次上,「世界模型」只能在短期內(nèi)做出準(zhǔn)確的預(yù)測(cè)。但在更高的抽象層次上,它可以做出長(zhǎng)期的預(yù)測(cè)。
多層JEPA可用于在多個(gè)抽象級(jí)別和多個(gè)時(shí)間尺度上執(zhí)行預(yù)測(cè)。訓(xùn)練的主要途徑是被動(dòng)觀察,輔助途徑是與環(huán)境互動(dòng)。 正如嬰兒在出生后頭幾個(gè)月,主要通過(guò)觀察來(lái)了解世界是如何運(yùn)作的。她了解到世界是三維的、有些物體排在其他物體的前面、當(dāng)一個(gè)物體被遮擋時(shí)它仍然存在。 最終,在大約9個(gè)月大的時(shí)候,嬰兒學(xué)會(huì)了直觀的物理學(xué)——例如,不受支撐的物體會(huì)因重力而落下。 多層JEPA有望通過(guò)類(lèi)似的觀看視頻、與環(huán)境交互等方式,來(lái)了解世界是如何運(yùn)作的。 通過(guò)自訓(xùn)練來(lái)預(yù)測(cè)視頻中會(huì)發(fā)生什么,它將產(chǎn)生世界的分層級(jí)表示。通過(guò)在現(xiàn)實(shí)世界上采取行動(dòng)并觀察結(jié)果,「世界模型」將學(xué)會(huì)預(yù)測(cè)其行動(dòng)的后果,這將使其能夠進(jìn)行推理和計(jì)劃。
在LeCun看來(lái),我們應(yīng)該讓機(jī)器通過(guò)觀察來(lái)學(xué)會(huì)現(xiàn)實(shí)世界中的最基礎(chǔ)定律,這是讓機(jī)器學(xué)習(xí)世界模型的最主要途徑。 而對(duì)于現(xiàn)在的人工智能來(lái)說(shuō),最重要的挑戰(zhàn)之一就是設(shè)計(jì)學(xué)習(xí)范式和架構(gòu),使起能夠以自監(jiān)督的方式學(xué)習(xí)世界模型,然后用這些模型進(jìn)行預(yù)測(cè)、推理和計(jì)劃。 或許,這個(gè)概念并沒(méi)有想象中的那么「新」,但如何真正應(yīng)用于實(shí)踐,可能還有很長(zhǎng)的一條路要走。