LeCun哈佛演講PPT放出:唱衰自回歸LLM,指明下一代AI方向
機(jī)器如何能像人類和動(dòng)物一樣高效地學(xué)習(xí)?機(jī)器如何學(xué)習(xí)世界運(yùn)作方式并獲得常識?機(jī)器如何學(xué)習(xí)推理和規(guī)劃……
當(dāng)一系列問題被提出時(shí),有人回答自回歸 LLM 足以勝任。
然而,知名 AI 學(xué)者、圖靈獎(jiǎng)得主 Yann LeCun 并不這么認(rèn)為,他一直唱衰自回歸 LLM。近日 LeCun 在哈佛大學(xué)的演講內(nèi)容深入探討了這些問題,內(nèi)容長達(dá) 95 頁,可謂干貨滿滿。
LeCun 給出了一個(gè)模塊化的認(rèn)知架構(gòu),它可能構(gòu)成回答這些問題的途徑。該架構(gòu)的核心是一個(gè)可預(yù)測的世界模型,它允許系統(tǒng)預(yù)測其行動(dòng)的后果,并規(guī)劃一系列行動(dòng)來優(yōu)化一組目標(biāo)。
目標(biāo)包括保證系統(tǒng)可控性和安全性的護(hù)欄。世界模型采用了經(jīng)過自監(jiān)督學(xué)習(xí)訓(xùn)練的分層聯(lián)合嵌入預(yù)測架構(gòu)(H-JEPA)。
- PPT 鏈接:https://drive.google.com/file/d/1Ymx_LCVzy7vZXalrVHPXjX9qbpd9k_bo/view?pli=1
- 視頻地址 https://www.youtube.com/watch?v=MiqLoAZFRSE
LeCun 的演講圍繞多方面展開。
開始部分,LeCun 介紹了目標(biāo)驅(qū)動(dòng)的人工智能。LeCun 指出與人類、動(dòng)物相比,機(jī)器學(xué)習(xí)真的爛透了,一個(gè)青少年可以在大約 20 小時(shí)的練習(xí)中學(xué)會(huì)開車,小朋友可以在幾分鐘內(nèi)學(xué)會(huì)清理餐桌。
相比之下,為了可靠,當(dāng)前的 ML 系統(tǒng)需要通過大量試驗(yàn)進(jìn)行訓(xùn)練,以便在訓(xùn)練期間可以覆蓋最意外的情況。盡管如此,最好的 ML 系統(tǒng)在現(xiàn)實(shí)世界任務(wù)(例如駕駛)中仍遠(yuǎn)未達(dá)到人類可靠性。
我們距離達(dá)到人類水平的人工智能還差得很遠(yuǎn),需要幾年甚至幾十年的時(shí)間。在實(shí)現(xiàn)這一目標(biāo)之前,或許會(huì)先實(shí)現(xiàn)擁有貓類(或者狗類)級別智能的 AI。LeCun 強(qiáng)調(diào) AI 系統(tǒng)應(yīng)該朝著能夠?qū)W習(xí)、記憶、推理、規(guī)劃、有常識、可操縱且安全的方向發(fā)展。
LeCun 再一次表達(dá)了對自回歸 LLM 的不滿(從 ChatGPT 到 Sora,OpenAI 都是采用的自回歸生成式路線),雖然這種技術(shù)路線已經(jīng)充斥了整個(gè) AI 界,但存在事實(shí)錯(cuò)誤、邏輯錯(cuò)誤、不一致、推理有限、毒性等缺陷。此外,自回歸 LLM 對潛在現(xiàn)實(shí)的了解有限,缺乏常識,沒有記憶,而且無法規(guī)劃答案。
在他看來,自回歸 LLM 僅僅是世界模型的一種簡化的特殊情況。為了實(shí)現(xiàn)世界模型,LeCun 給出的解決方案是聯(lián)合嵌入預(yù)測架構(gòu)(JEPA)。
LeCun 花了大量篇幅介紹 JEPA 相關(guān)技術(shù),最后他給出了簡單的總結(jié):放棄生成模型,支持聯(lián)合嵌入架構(gòu);放棄概率模型,支持基于能量的模型(EBM);放棄對比方法,支持正則化方法;放棄強(qiáng)化學(xué)習(xí),支持模型 - 預(yù)測控制;僅當(dāng)規(guī)劃無法產(chǎn)生結(jié)果時(shí)才使用強(qiáng)化學(xué)習(xí)來調(diào)整世界模型。
在開源問題上,LeCun 認(rèn)為開源 AI 不應(yīng)該因?yàn)楸O(jiān)管而消失,人工智能平臺應(yīng)該是開源的,否則,技術(shù)將被幾家公司所掌控。不過為了安全起見,大家還是需要設(shè)置共享護(hù)欄目標(biāo)。
對于 AGI,LeCun 認(rèn)為根本不存在 AGI,因?yàn)橹悄苁歉叨榷嗑S的。雖然現(xiàn)在 AI 只在一些狹窄的領(lǐng)域超越了人類,毫無疑問的是,機(jī)器最終將超越人類智能。
機(jī)器學(xué)習(xí)爛透了,距離人類水平的 AI 還差得遠(yuǎn)
LeCun 指出 AI 系統(tǒng)應(yīng)該朝著能夠?qū)W習(xí)、記憶、推理、規(guī)劃、有常識、可操縱且安全的方向發(fā)展。在他看來,與人類和動(dòng)物相比,機(jī)器學(xué)習(xí)真的爛透了,LeCun 指出如下原因:
- 監(jiān)督學(xué)習(xí)(SL)需要大量標(biāo)注樣本;
- 強(qiáng)化學(xué)習(xí)(RL)需要大量的試驗(yàn);
- 自監(jiān)督學(xué)習(xí)(SSL)效果很好,但生成結(jié)果僅適用于文本和其他離散模式。
與此不同的是,動(dòng)物和人類可以很快地學(xué)習(xí)新任務(wù)、了解世界如何運(yùn)作,并且他們(人類和動(dòng)物)都有常識。
隨后,LeCun 表示人類需要的 AI 智能助理需要達(dá)到人類級別。但是,我們今天距離人類水平的人工智能還差得很遠(yuǎn)。
舉例來說,17 歲的少年可以通過 20 小時(shí)的訓(xùn)練學(xué)會(huì)駕駛(但 AI 仍然沒有無限制的 L5 級自動(dòng)駕駛),10 歲的孩子可以在幾分鐘內(nèi)學(xué)會(huì)清理餐桌,但是現(xiàn)在的 AI 系統(tǒng)還遠(yuǎn)未達(dá)到?,F(xiàn)階段,莫拉維克悖論不斷上演,對人類來說很容易的事情對人工智能來說很難,反之亦然。
那么,我們想要達(dá)到高級機(jī)器智能(Advanced Machine Intelligence,AMI),需要做到如下:
- 從感官輸入中學(xué)習(xí)世界模型的 AI 系統(tǒng);
- 具有持久記憶的系統(tǒng);
- 具有規(guī)劃行動(dòng)的系統(tǒng);
- 可控和安全的系統(tǒng);
- 目標(biāo)驅(qū)動(dòng)的 AI 架構(gòu)(LeCun 重點(diǎn)強(qiáng)調(diào)了這一條)。
自回歸 LLM 糟糕透了
自監(jiān)督學(xué)習(xí)已經(jīng)被廣泛用于理解和生成文本,圖像,視頻,3D 模型,語音,蛋白質(zhì)等。大家熟悉的研究包括去噪 Auto-Encoder、BERT、RoBERTa。
LeCun 接著介紹了生成式 AI 和自回歸大語言模型。自回歸生成架構(gòu)如下所示:
自回歸大語言模型(AR-LLM)參數(shù)量從 1B 到 500B 不等、訓(xùn)練數(shù)據(jù)從 1 到 2 萬億 token。ChatGPT、Gemini 等大家熟悉的模型都是采用這種架構(gòu)。
LeCun 認(rèn)為雖然這些模型表現(xiàn)驚人,但它們經(jīng)常出現(xiàn)愚蠢的錯(cuò)誤,比如事實(shí)錯(cuò)誤、邏輯錯(cuò)誤、不一致、推理有限、毒性等。此外,LLM 對潛在現(xiàn)實(shí)的了解有限,缺乏常識,沒有記憶,而且無法規(guī)劃答案。
LeCun 進(jìn)一步指出自回歸 LLM 很糟糕,注定要失敗。這些模型不可控、呈指數(shù)發(fā)散,并且這種缺陷很難修復(fù)。
此外,自回歸 LLM 沒有規(guī)劃,充其量就是大腦中的一小部分區(qū)域。
雖然自回歸 LLM 在協(xié)助寫作、初稿生成、文本潤色、編程等方面表現(xiàn)出色。但它們經(jīng)常會(huì)出現(xiàn)幻覺,并且在推理、規(guī)劃、數(shù)學(xué)等方面表現(xiàn)不佳,需要借助外部工具才能完成任務(wù)。用戶很容易被 LLM 生成的答案所迷惑,此外自回歸 LLM 也不知道世界是如何運(yùn)轉(zhuǎn)的。
LeCun 認(rèn)為當(dāng)前 AI 技術(shù)(仍然)距離人類水平還很遠(yuǎn),機(jī)器不會(huì)像動(dòng)物和人類那樣學(xué)習(xí)世界的運(yùn)作方式。目前看來自回歸 LLM 無法接近人類智力水平,盡管 AI 在某些狹窄的領(lǐng)域超過了人類。但毫無疑問的是,最終機(jī)器將在所有領(lǐng)域超越人類智慧。
目標(biāo)驅(qū)動(dòng)的 AI
在 LeCun 看來,目標(biāo)驅(qū)動(dòng)的 AI 即自主智能(autonomous intelligence)是一個(gè)很好的解決方案,其包括多個(gè)配置,一些模塊可以即時(shí)配置,它們的具體功能由配置器(configurator)模塊確定。
配置器的作用是執(zhí)行控制:給定要執(zhí)行的任務(wù),它預(yù)先配置針對當(dāng)前任務(wù)的感知(perception)、世界模型(world model)、成本(cost)和參與者(actor)。
目標(biāo)驅(qū)動(dòng)的 AI 中最復(fù)雜的部分是世界模型的設(shè)計(jì)。
設(shè)計(jì)和訓(xùn)練世界模型
關(guān)于這部分內(nèi)容,我們先看 LeCun 給出的建議:
- 放棄生成模型,支持聯(lián)合嵌入架構(gòu);
- 放棄概率模型,支持基于能量的模型(EBM);
- 放棄對比方法,支持正則化方法;
- 放棄強(qiáng)化學(xué)習(xí),支持模型 - 預(yù)測控制;
- 僅當(dāng)規(guī)劃無法產(chǎn)生結(jié)果時(shí)才使用強(qiáng)化學(xué)習(xí)來調(diào)整世界模型。
LeCun 指出生成架構(gòu)不適用于圖像任務(wù),未來幾十年阻礙人工智能發(fā)展的真正障礙是為世界模型設(shè)計(jì)架構(gòu)以及訓(xùn)練范式。
訓(xùn)練世界模型是自監(jiān)督學(xué)習(xí)(SSL)中的一個(gè)典型例子,其基本思想是模式補(bǔ)全。對未來輸入(或暫時(shí)未觀察到的輸入)的預(yù)測是模式補(bǔ)全的一個(gè)特例。在這項(xiàng)工作中,世界模型旨在預(yù)測世界狀態(tài)未來表征。
聯(lián)合嵌入預(yù)測架構(gòu)(JEPA)
LeCun 給出的解決方案是聯(lián)合嵌入預(yù)測架構(gòu)(JEPA),他介紹了聯(lián)合嵌入世界模型。
LeCun 進(jìn)一步給出了生成模型和聯(lián)合嵌入的對比:
- 生成式:預(yù)測 y(包含所有細(xì)節(jié));
- 聯(lián)合嵌入:預(yù)測 y 的抽象表示。
LeCun 強(qiáng)調(diào) JEPA 不是生成式的,因?yàn)樗荒茌p易地用于從 x 預(yù)測 y。它僅捕獲 x 和 y 之間的依賴關(guān)系,而不顯式生成 y 的預(yù)測。下圖顯示了一個(gè)通用 JEPA 和生成模型的對比。
LeCun 認(rèn)為動(dòng)物大腦的運(yùn)行可以看作是對現(xiàn)實(shí)世界的模擬,他稱之為世界模型。他表示,嬰兒在出生后的頭幾個(gè)月通過觀察世界來學(xué)習(xí)基礎(chǔ)知識。觀察一個(gè)小球掉幾百次,普通嬰兒就算不了解物理,也會(huì)對重力的存在與運(yùn)作有基礎(chǔ)認(rèn)知。
LeCun 表示他已經(jīng)建立了世界模型的早期版本,可以進(jìn)行基本的物體識別,并正致力于訓(xùn)練它做出預(yù)測。
基于能量的模型(通過能量函數(shù)獲取依賴關(guān)系)
演講中還介紹了一種基于能量的模型(EBM)架構(gòu),如圖所示,數(shù)據(jù)點(diǎn)是黑點(diǎn),能量函數(shù)在數(shù)據(jù)點(diǎn)周圍產(chǎn)生低能量值,并在遠(yuǎn)離高數(shù)據(jù)密度區(qū)域的地方產(chǎn)生較高能量,如能量等高線所示。
訓(xùn)練 EBM 有兩類方法:對比方法和正則化方法,前者對維度擴(kuò)展非常糟糕,
下圖是 EBM 與概率模型的比較,可以得出概率模型只是 EBM 的一個(gè)特例。為什么選擇 EBM 而不是概率模型,LeCun 表示 EBM 在評分函數(shù)的選擇上提供了更大的靈活性;學(xué)習(xí)目標(biāo)函數(shù)的選擇也更加靈活。因而 LeCun 更加支持 EBM。
對比方法 VS 正則化方法:
接著 LeCun 介紹了他們在 ICLR 2022 上提出的 VICReg 方法,這是一種基于方差 - 協(xié)方差正則化的自監(jiān)督學(xué)習(xí)方法,通過約束嵌入空間中樣本的方差和協(xié)方差,使得模型能夠?qū)W習(xí)到更具代表性的特征。
相較于傳統(tǒng)的自監(jiān)督學(xué)習(xí)方法,VICReg 在特征提取和表示學(xué)習(xí)方面表現(xiàn)更好,為自監(jiān)督學(xué)習(xí)領(lǐng)域帶來了新的突破。
此外,LeCun 還花了大量篇幅介紹 Image-JEPA、Video-JEPA 方法及性能,感興趣的讀者可以自行查看。
最后,LeCun 表示他們正在做的事情包括使用 SSL 訓(xùn)練的分層視頻 JEPA(Hierarchical Video-JEPA),從視頻中進(jìn)行自監(jiān)督學(xué)習(xí);對目標(biāo)驅(qū)動(dòng)的 LLM 進(jìn)行推理和規(guī)劃,實(shí)現(xiàn)這一步需要在表示空間中規(guī)劃并使用 AR-LLM 將表示轉(zhuǎn)換為文本的對話系統(tǒng);學(xué)習(xí)分層規(guī)劃,就 toy 規(guī)劃問題對多時(shí)間尺度的 H-JEPA 進(jìn)行訓(xùn)練。
感興趣的讀者可以查看原始 PPT 來學(xué)習(xí)。