LeCun最新萬字演講:純語言模型永遠(yuǎn)到不了人類水平,我們基本已經(jīng)放棄了
當(dāng)奧特曼、馬斯克、Anthropic CEO都紛紛將AGI實(shí)現(xiàn)錨定在2026年前后,LeCun無疑是直接澆了冷水:完全是胡說八道。
最新的公開演講中,他表示,系統(tǒng)要推理、規(guī)劃和理解物理世界,至少還需要幾年甚至十年的時(shí)間,這時(shí)候人工智能才能達(dá)到人類水平。
他還透露,現(xiàn)在Meta基本已經(jīng)放棄純語言模型,因?yàn)椋?strong>僅通過文本訓(xùn)練,永遠(yuǎn)不會達(dá)到接近人類水平的智能。
除此之外,他還談到當(dāng)前大模型的局限性、以目標(biāo)驅(qū)動的AI架構(gòu),包括利用世界模型進(jìn)行推理和規(guī)劃,最后強(qiáng)調(diào)了開源AI的重要性。對于未來發(fā)展,他提到,最終機(jī)器將超越人類智能,但它們將受到控制,因?yàn)樗鼈兪悄繕?biāo)驅(qū)動的。
在不改變原意基礎(chǔ)上,量子位做了如下整理。
LeCun:“人類級別的人工智能”
(一上來,他解釋了FAIR中的“F”,不再意味著Facebook,而是代表“基礎(chǔ)的”意思)。
讓我們來探討一下人類級別的人工智能,以及我們?nèi)绾螌?shí)現(xiàn)它,或者為什么我們可能無法做到這一點(diǎn)。
什么是人類水平的AI?
首先,我們確實(shí)需要達(dá)到人類水平的人工智能。
在未來,大多數(shù)人可能會戴上智能眼鏡或其他設(shè)備,并與它們進(jìn)行交流。這些設(shè)備將集成各種助手功能,可能不僅僅是一個(gè),而是一整套系統(tǒng)。這意味著我們每個(gè)人都將擁有一群智能虛擬助手。因此,每個(gè)人都將成為“老板”,只不過這些“員工”并非真正的人類。我們需要構(gòu)建這樣的系統(tǒng),以基本提升人類的智能,讓人們變得更具創(chuàng)造力、更高效。
然而,要實(shí)現(xiàn)這一目標(biāo),我們需要機(jī)器能夠理解世界、記憶信息、擁有直覺、具備常識、能夠進(jìn)行推理和規(guī)劃,并且達(dá)到與人類相同的水平。
盡管你可能從一些支持者那里聽到過不同的觀點(diǎn),但目前的人工智能系統(tǒng)還無法實(shí)現(xiàn)這些功能。因此,我們需要開發(fā)能夠?qū)W習(xí)并模擬世界基本運(yùn)作的系統(tǒng),這些系統(tǒng)需要擁有對世界如何運(yùn)作的心理模型。實(shí)際上,每只動物,包括你的貓,都擁有一個(gè)比任何現(xiàn)有人工智能系統(tǒng)都要復(fù)雜的模型。
我們需要的系統(tǒng)應(yīng)該具備持久的記憶能力(這是當(dāng)前語言模型所缺乏的),能夠規(guī)劃復(fù)雜的動作序列(這也是目前的語言模型所做不到的),并且必須是可控和安全的。
僅通過文本訓(xùn)練,永遠(yuǎn)不會達(dá)到接近人類水平的智能
為此,我曾在兩年前一篇論文中提出過一個(gè)愿景:目標(biāo)驅(qū)動的人工智能。
FAIR的許多成員都在努力實(shí)現(xiàn)這一構(gòu)想,但一年半前,Meta成立了一個(gè)名為GenAI的產(chǎn)品部門,專注于人工智能產(chǎn)品的研發(fā)。因此,F(xiàn)AIR現(xiàn)在被重新定位為開發(fā)更長期的下一代人工智能系統(tǒng)。我們基本上不再專注于語言模型。
人工智能的成功,包括語言模型和其他許多系統(tǒng),在過去五六年里,主要依賴于自監(jiān)督學(xué)習(xí)技術(shù)。
自監(jiān)督學(xué)習(xí)的一種方法是通過損壞再重建恢復(fù)。例如,你可以取一段文本,通過刪除單詞或更改其他單詞來損壞它,這可以是文本、DNA序列、蛋白質(zhì)或其他任何東西,甚至在一定程度上可以是圖像。然后,你訓(xùn)練一個(gè)大型神經(jīng)網(wǎng)絡(luò)來重建完整的、未損壞的輸入版本。
這是一個(gè)生成模型,因?yàn)樗噲D重建原始信號。
因此,這個(gè)紅色框就像一個(gè)代價(jià)函數(shù),它計(jì)算輸入Y和重建的y之間的距離,這是學(xué)習(xí)過程中需要在系統(tǒng)中的參數(shù)上最小化的內(nèi)容。在這個(gè)過程中,系統(tǒng)學(xué)習(xí)到輸入的內(nèi)部表示,可以用于各種后續(xù)任務(wù)。
語言模型就是一個(gè)特殊的例子,其架構(gòu)設(shè)計(jì)為只能查看左邊的其他標(biāo)記來預(yù)測一個(gè)項(xiàng)目、一個(gè)標(biāo)記或一個(gè)單詞,不能看向未來。
這不是一個(gè)新概念,自克勞德·香農(nóng)以來就一直存在,可以追溯到20世紀(jì)50年代。但變化的是,現(xiàn)在我們有巨大的神經(jīng)網(wǎng)絡(luò)架構(gòu),可以在大量數(shù)據(jù)上進(jìn)行訓(xùn)練,由此產(chǎn)生原本沒有的特性。
然而,自回歸預(yù)測有一些主要限制,這里沒有真正意義上的推理。另一個(gè)限制是,這只適用于以離散對象、符號、標(biāo)記、單詞等形式出現(xiàn)的數(shù)據(jù),基本上你可以區(qū)分這些數(shù)據(jù)。
我們?nèi)匀蝗鄙僖恍┲匾臇|西才能達(dá)到人類水平的智能。
我這里不一定是在談?wù)撊祟愃降闹悄?,但即使是你的貓或狗能做的驚人壯舉,目前的人工智能系統(tǒng)仍然完全無法做到。10歲的孩子都能學(xué)會清理餐桌并裝滿洗碗機(jī)。17歲的孩子可以在大約20小時(shí)的練習(xí)中學(xué)會開車。但現(xiàn)在我們?nèi)匀粵]有L5自動駕駛汽車,我們當(dāng)然也沒有能夠清理餐桌并裝滿洗碗機(jī)的家用機(jī)器人。
這是我們常遇到的莫拉維克悖論,即對我們來說看起來微不足道、我們甚至不認(rèn)為是智能的事情,對機(jī)器來說卻非常非常難以做到。但是,像高級復(fù)雜的抽象思維,比如操縱語言、下棋,對機(jī)器來說似乎很容易。
也許其中一個(gè)原因在于,一個(gè)語言模型通常在20萬億個(gè)token上進(jìn)行訓(xùn)練。一個(gè)token對于一種典型語言來說,平均約為四分之三個(gè)單詞,對應(yīng)是1.5×10的13次方個(gè)單詞、6×10的13次方個(gè)字節(jié)。我們?nèi)魏稳艘x完所有這些文本,大約需要幾十萬年。這基本上是互聯(lián)網(wǎng)上公開可用的所有文本總量。
一個(gè)四歲人類孩子清醒16000小時(shí),200萬條視神經(jīng)纖維進(jìn)入我們的大腦。每條纖維大約每秒攜帶一個(gè)字節(jié),也許是每秒半字節(jié),數(shù)據(jù)量大約是10的14次方個(gè)字節(jié)。
所以,一個(gè)四歲孩子看到的視覺數(shù)據(jù)與最大的語言模型在整個(gè)互聯(lián)網(wǎng)上公開可用的文本上訓(xùn)練的數(shù)據(jù)量一樣多。
從這當(dāng)中能得出這些結(jié)論:
首先,僅通過在文本上訓(xùn)練,我們永遠(yuǎn)不會達(dá)到接近人類水平的智能;
其次,視覺信息非常冗余。每根視神經(jīng)纖維每秒傳輸一個(gè)字節(jié)的信息,與視網(wǎng)膜中的光感受器相比,這已經(jīng)實(shí)現(xiàn)了100:1的壓縮率。隨后這些信息進(jìn)入大腦,并在那里被擴(kuò)展了大約50倍。
冗余實(shí)際上是自監(jiān)督學(xué)習(xí)所必需的。自監(jiān)督學(xué)習(xí)只能從存在冗余的數(shù)據(jù)中學(xué)習(xí)到有用信息。如果數(shù)據(jù)經(jīng)過高度壓縮,這意味著它幾乎變成了隨機(jī)噪聲,你將無法從中學(xué)習(xí)到任何東西。
因此,我們將不得不通過讓系統(tǒng)基本上觀看視頻或在現(xiàn)實(shí)世界中進(jìn)行體驗(yàn)來訓(xùn)練它,以學(xué)習(xí)常識和物理知識。
放棄機(jī)器學(xué)習(xí)的四大支柱
所以再來說說這個(gè)目標(biāo)驅(qū)動架構(gòu)是什么,它與語言模型或前饋神經(jīng)網(wǎng)絡(luò)等有著顯著不同。因?yàn)樵谕评磉^程中不僅僅是神經(jīng)網(wǎng)絡(luò)在起作用,實(shí)際上它運(yùn)行的是一個(gè)優(yōu)化算法。
從概念上講,它的運(yùn)作方式是這樣的:前饋過程是指你觀察到一個(gè)輸入,通過感知系統(tǒng)運(yùn)行,比如通過一系列的神經(jīng)網(wǎng)絡(luò)層,并產(chǎn)生一個(gè)輸出的過程。
對于任何一個(gè)單一輸入,通常只有一個(gè)輸出,但在很多情況下,對于一個(gè)感知輸入,可能存在多種可能的輸出解釋。你需要的是不僅僅計(jì)算單一函數(shù),而是能夠處理單個(gè)輸入對應(yīng)多個(gè)輸出的映射過程。
實(shí)現(xiàn)這一點(diǎn)的唯一方法是通過隱函數(shù),基本上就是像這里的目標(biāo)函數(shù),即右側(cè)的紅色框所示,它主要用來衡量輸入和提議的輸出之間的兼容性,然后通過尋找與輸入最匹配的輸出值來計(jì)算最終輸出。
你可以將這個(gè)目標(biāo)想象成某種能量函數(shù),并通過最小化這個(gè)能量來相對于輸出進(jìn)行優(yōu)化。你可能會有多個(gè)解決方案,也可能會有一些方法來遍歷這些多個(gè)解決方案。
人類的感知系統(tǒng)就是這樣做的,如果你對一個(gè)特定的感知有多種解釋,你的大腦會自發(fā)地循環(huán)遍歷這些解釋。
事實(shí)上這個(gè)概念非常悠久,它的歷史已經(jīng)超過60年。它基于優(yōu)化控制理論中的一個(gè)分支——模型預(yù)測控制。在這一領(lǐng)域中,你可以利用你的世界模型來計(jì)算一系列控制指令的效果,然后對這些指令序列進(jìn)行優(yōu)化,以確保運(yùn)動按照你的預(yù)期進(jìn)行。所有傳統(tǒng)的機(jī)器人運(yùn)動規(guī)劃都是采用這種方法,這并不是什么新鮮事物。
這里的新東西是我們要學(xué)習(xí)世界模型、能將現(xiàn)實(shí)世界抽象表示的感知系統(tǒng)。你可以構(gòu)建一個(gè)具有所有這些組件的整體AI系統(tǒng)。
因此,如果你的行動不是一次性的,而是一個(gè)序列,并且你的世界模型是一個(gè)真實(shí)的系統(tǒng),它能夠告訴你在時(shí)間點(diǎn)T的世界狀態(tài),以及你可能采取的某個(gè)行動,預(yù)測出在時(shí)間點(diǎn)T+1的世界狀態(tài),那么你會想要預(yù)測在這種情況下,兩個(gè)行動序列將導(dǎo)致什么結(jié)果。你可以通過多次運(yùn)行你的世界模型來實(shí)現(xiàn)這一點(diǎn)。
然后通過反向傳播和基于梯度的優(yōu)化方法來找出將最小化代價(jià)的兩個(gè)行動。這就是模型預(yù)測控制的基本原理。另外,世界通常不是完全確定的,你可能需要使用潛在變量來輸入到你的世界模型中。
更有趣的是,智能系統(tǒng)目前還無法解決,但人類可以輕松做到,甚至動物也能做到的事情,那就是分層規(guī)劃。
比如,你計(jì)劃一段從紐約前往巴黎的旅行。理論上你可以利用你對世界、自己身體的理解,以及你對從這里到巴黎的整體世界布局的認(rèn)知,來規(guī)劃整個(gè)旅程,包括低層次的肌肉控制。但如果細(xì)化到考慮每10毫秒的肌肉控制步驟,那將是一個(gè)巨大的數(shù)字。
因此實(shí)際上人類采用的是分層規(guī)劃的方式。你先在非常高的層次上進(jìn)行規(guī)劃,然后逐步細(xì)化,最后在通過低級肌肉控制來完成的具體行動。
這對AI系統(tǒng)的確是個(gè)巨大的挑戰(zhàn)。我過去一直在試圖弄清楚嬰兒在什么年齡學(xué)習(xí)關(guān)于世界的基本概念,比如像面部跟蹤、生物運(yùn)動等,這在他們學(xué)習(xí)語言和互動之前就已經(jīng)發(fā)生了。但像重力、慣性、守恒、動量這些實(shí)際上大約在嬰兒九個(gè)月左右才注意到。
過去像通過預(yù)測文本來預(yù)測視頻中的像素這種方法完全失敗了,這里我們提出了一個(gè)新的解決方案,叫做聯(lián)合嵌入預(yù)測架構(gòu)(JEPA),也就是放棄預(yù)測像素,學(xué)習(xí)世界上正在發(fā)生的事情的抽象表示,然后在那個(gè)表示空間中進(jìn)行預(yù)測。兩個(gè)嵌入將被破壞的版本X送入編碼器,將Y送入編碼器,然后訓(xùn)練系統(tǒng)從X的表示中預(yù)測Y的表示。
那么如何做到這一點(diǎn)呢?
如果單純使用梯度下降和反向傳播這樣的方法來訓(xùn)練系統(tǒng),以減少預(yù)測誤差,那么系統(tǒng)可能會失效。它可能會學(xué)習(xí)到一個(gè)恒定的表示,使得預(yù)測變得輕而易舉,但卻失去了信息量。
因此,我想讓你記住的是,嘗試重建預(yù)測器的生成架構(gòu)(例如自動編碼器、生成對抗網(wǎng)絡(luò)等)與在表示空間中進(jìn)行預(yù)測的聯(lián)合架構(gòu)之間的區(qū)別。
我認(rèn)為未來在于那些聯(lián)合架構(gòu)。我們有大量的經(jīng)驗(yàn)證據(jù)表明,要學(xué)習(xí)圖像的良好表示,最好的方法是使用那些聯(lián)合架構(gòu)。
所有嘗試通過重建來學(xué)習(xí)圖像表示的方法都不是最佳選擇,它們的成效有限。盡管有些大型項(xiàng)目聲稱這些方法有效,但實(shí)際上并非如此。真正能夠帶來最佳性能的是右側(cè)的架構(gòu)。
這其實(shí)與我們在智能領(lǐng)域所做的非常相似:找到事物或現(xiàn)象的良好表示,以便進(jìn)行預(yù)測。這確實(shí)是科學(xué)的本質(zhì)。
舉個(gè)例子,如果你想預(yù)測一顆行星的軌道,行星是一個(gè)非常復(fù)雜的物體,但是你只需要知道六個(gè)參數(shù)就能實(shí)現(xiàn)預(yù)測:三個(gè)位置坐標(biāo)和三個(gè)速度向量,僅此而已。
那么接下來的問題是,我們?nèi)绾斡?xùn)練這樣一個(gè)系統(tǒng)。
為了防止系統(tǒng)崩潰,一種方法是設(shè)計(jì)一種代價(jià)函數(shù),如果你可以測量來自編碼器的表示中的信息內(nèi)容,并嘗試最大化信息內(nèi)容或最小化負(fù)信息。你希望訓(xùn)練系統(tǒng)在輸入中提取盡可能多的信息,同時(shí)又要在那個(gè)表示空間中最小化預(yù)測誤差。系統(tǒng)將在盡可能多地提取信息和不提取不可預(yù)測的信息之間找到某種平衡。
這樣,你將得到一個(gè)良好的表示,在這個(gè)空間中你可以進(jìn)行預(yù)測。
現(xiàn)在,你如何測量信息呢?這就是事情變得有些復(fù)雜的地方。
我將跳過這個(gè)部分。有一種方法可以從基于能量的模型和能量函數(shù)的訓(xùn)練角度在數(shù)學(xué)上理解這個(gè)問題,但我沒有時(shí)間深入探討。
不過基本上我在這里告訴你的是,許多不同于以往認(rèn)知的事情。
- 放棄生成模型,轉(zhuǎn)而支持那些聯(lián)合嵌入預(yù)測架構(gòu)(JEPA);
- 放棄概率模型,轉(zhuǎn)而支持那些基于能量的模型;
- 放棄對比方法。
- 還有放棄強(qiáng)化學(xué)習(xí),這也是我過去十年一直在談?wù)摰摹?/li>
這些都是當(dāng)今機(jī)器學(xué)習(xí)中最流行的四個(gè)主要支柱。因此目前我可能不太受歡迎。
第一組方法是可以對編碼器輸出的信息進(jìn)行估計(jì),從而測量其信息量。目前有六種已知的方法可以實(shí)現(xiàn)這一目標(biāo)。這里的核心思想是防止系統(tǒng)崩潰并只輸出常數(shù)。
因此,我們要取編碼器輸出的變量,并確保這些變量有非零的標(biāo)準(zhǔn)差。你可以在一批樣本上將這個(gè)要求納入成本函數(shù)中,確保權(quán)重不會讓變量崩潰成常數(shù)。這是相對簡單的。
但現(xiàn)在的問題是,系統(tǒng)可能會“作弊”,使得所有變量變得相等或高度相關(guān)。因此,你必須添加另一個(gè)項(xiàng),即最小化這些變量的協(xié)方差矩陣的非對角元素,以確保它們的獨(dú)立性。
當(dāng)然,這樣還不夠,因?yàn)樽兞恐g可能仍然存在某種相關(guān)性。于是,我們采用了另一個(gè)技巧,即將SX的維度擴(kuò)展到更高維的空間VX,然后在該空間中應(yīng)用方差協(xié)方差正則化,這似乎足夠了。
但這里有一個(gè)細(xì)節(jié),我在這里最大化的是信息內(nèi)容的上界,我期望實(shí)際的信息內(nèi)容能隨著上界的最大化而增加。我真正需要的是一個(gè)下界,這樣我就可以推動下界,從而增加信息量。遺憾的是,我們目前沒有信息內(nèi)容的下界,或者如果有但是不知道如何計(jì)算它。
第二組方法,被稱之為“蒸餾風(fēng)格方法”,它以神秘的方式發(fā)揮作用。Grill發(fā)現(xiàn)了這一方法,盡管其機(jī)制尚不完全清晰,但這種方法的效果非常好。
它的核心思想是只更新模型的一部分,而在另一部分不進(jìn)行梯度的反向傳播,并通過一種有趣的方式共享權(quán)重。
關(guān)于這一方法,已有眾多論文進(jìn)行了探討。
如果你想通過完全監(jiān)督的方式訓(xùn)練一個(gè)系統(tǒng)來學(xué)習(xí)圖像的良好表示,這種方法和其他任何方法一樣有效。特別是在圖像受損是通過遮罩的方式時(shí),我們最近的工作也涉及到了視頻領(lǐng)域。我們可以訓(xùn)練一個(gè)系統(tǒng)來提取視頻的良好表示,并將此用于下游任務(wù),比如動作識別等。這包括取一段視頻,對其部分進(jìn)行遮罩,通過模型運(yùn)行它,并在表示空間中進(jìn)行預(yù)測,然后使用這種蒸餾技巧來防止系統(tǒng)崩潰,效果很好。
因此,如果我們在未來的這個(gè)項(xiàng)目中取得成功,最終開發(fā)出能夠進(jìn)行推理、規(guī)劃、理解物理世界的系統(tǒng),這可能需要數(shù)年甚至十年的時(shí)間,才能使一切正常運(yùn)作。
所以,如果我們能夠成功實(shí)現(xiàn)這一點(diǎn),我們將擁有真正能夠調(diào)解我們與數(shù)字世界所有交互的系統(tǒng)。它們能夠回答我們所有的問題,始終與我們相伴。它們基本上將成為所有人類知識的集合。這感覺不像是一個(gè)產(chǎn)品,而更像是一種基礎(chǔ)設(shè)施,就像互聯(lián)網(wǎng)一樣。
機(jī)器將超越人類智能,但它們將受到控制
這個(gè)AI平臺必須是開源的。因?yàn)槲覀冃枰斯ぶ悄苤志邆涠鄻有?,能夠理解全球所有的語言、文化和價(jià)值體系。
然而,你不可能某一家公司生產(chǎn)的單一助手那里獲得這樣的能力。這種多樣性必須來自全球的貢獻(xiàn)。當(dāng)然,訓(xùn)練定義模型的成本非常高昂,因此只有少數(shù)公司有能力做到這一點(diǎn)。如果像Meta這樣的公司能夠在開源領(lǐng)域提供基礎(chǔ)模型,那么全球各地都可以根據(jù)自己的需求對它們進(jìn)行微調(diào)。
達(dá)到人類水平的人工智能需要多長時(shí)間?我不知道,可能需要數(shù)年到數(shù)十年。這個(gè)過程中存在很大的不確定性,并且有許多問題需要解決,而且它可能幾乎肯定比我們想象的要困難得多。
它不會在一夜之間發(fā)生。它將是一個(gè)漸進(jìn)的進(jìn)化過程。
因此,它不會像有一天我們突然揭開了人工智能的秘密——打開一臺機(jī)器,就立即擁有了超級智能,然后我們所有人都被一個(gè)超級智能系統(tǒng)所取代。
機(jī)器將超越人類智能,但它們將受到控制,因?yàn)樗鼈儗⑹悄繕?biāo)驅(qū)動的。我們給它們設(shè)定目標(biāo),它們實(shí)現(xiàn)這些目標(biāo)。就像我們這里的許多人都是行業(yè)、學(xué)術(shù)界或其他領(lǐng)域的領(lǐng)導(dǎo)者一樣。有很多與我共事的人比我更聰明,但這并不意味著他們想要統(tǒng)治或接管。
故事就講到這里,當(dāng)然背后也存在風(fēng)險(xiǎn)。