Yann LeCun最新訪談:能量模型是通向自主人工智能系統(tǒng)的起點
本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請至雷鋒網(wǎng)官網(wǎng)申請授權(quán)。
繼自監(jiān)督學(xué)習(xí)之后,Yann LeCun 在接受 ZDNet 的最新訪談中又著重探討了他在幾年前曾大篇幅推崇的概念:「能量模型」(energy-based models)。
什么是能量模型?
Yoshua Bengio、 Ian Goodfellow 和 Aaron Courville 等人在2019年出版的《深度學(xué)習(xí)》(又稱「花書」)一書中將「概率函數(shù)」定義為「描述了一個或一組隨機變量呈現(xiàn)其每種可能狀態(tài)的可能性大小」,而能量模型則簡化了兩個變量之間的一致性。能量模型借用統(tǒng)計物理學(xué)的概念,假設(shè)兩個變量之間的能量在它們不相容的情況下上升,在一致的情況下則下降。這可以消除將概率分布“標準化”過程中出現(xiàn)的復(fù)雜性。
在機器學(xué)習(xí)領(lǐng)域,能量模型是一個「老」概念,至少可以追溯到20世紀80年代。但近年來,越來越多成果使能量模型變得更可行。據(jù)ZDNet報道,近年來隨著對能量模型的思考不斷深入,LeCun圍繞該概念做了幾次演講,包括2019年在普林斯頓高等研究院的一次演講。
最近,LeCun在兩篇論文中描述了能量模型的研究現(xiàn)狀:一篇是 LeCun 與Facebook AI 實驗室(FAIR)的同事于去年夏天共同發(fā)表的“Barlow Twins”;另一篇則是他與 FAIR、Inria 合作發(fā)表于今年1月的“VICReg”。
正如LeCun在采訪中所說,他目前的研究與量子電動力學(xué)有一些有趣的相似之處,盡管這不是他的重點。他關(guān)注的重點是人工智能系統(tǒng)的預(yù)測可以進步到何種程度。
LeCun自己開發(fā)了一種叫做“聯(lián)合嵌入模型(joint embedding model)”的現(xiàn)代能量模型,他相信這能為深度學(xué)習(xí)系統(tǒng)帶來“巨大的優(yōu)勢”,這個優(yōu)勢就是“抽象表示空間中的預(yù)測”。
LeCun認為,這種模型為“預(yù)測世界的抽象表征”開辟了道路。抽象預(yù)測能力是深度學(xué)習(xí)系統(tǒng)廣義上的發(fā)展前景,當系統(tǒng)處于推斷模式時,這種抽象預(yù)測機器的“堆棧”可以分層生成規(guī)劃場景。
這種模型可能是實現(xiàn)LeCun心目中的統(tǒng)一“世界模型”的重要工具,而這種統(tǒng)一的“世界模型”將推進實現(xiàn)他心目中的自主人工智能,自主人工智能能夠通過對場景之間的相關(guān)性和圖像、語音和其他形式輸入數(shù)據(jù)的相關(guān)性建模來進行規(guī)劃。以下是ZDNet與LeCun通過Zoom的對話記錄,內(nèi)容有所編輯:
自監(jiān)督學(xué)習(xí) vs. 無監(jiān)督學(xué)習(xí)
ZDNet:首先,為了幫助我們學(xué)習(xí),請談?wù)勀?jīng)常說的機器學(xué)習(xí)中的「自監(jiān)督學(xué)習(xí)」和「無監(jiān)督學(xué)習(xí)」。無監(jiān)督學(xué)習(xí)和自監(jiān)督學(xué)習(xí)的關(guān)系是什么?
Yann LeCun: 嗯,我認為自監(jiān)督學(xué)習(xí)是一種特殊的無監(jiān)督學(xué)習(xí)方式。無監(jiān)督學(xué)習(xí)這個術(shù)語有點復(fù)雜,在機器學(xué)習(xí)的背景下不是很好定義。當提到無監(jiān)督學(xué)習(xí)時,人們會想到聚類算法和PCA(主成分分析),以及各種可視化方法。而自監(jiān)督學(xué)習(xí)基本上是去嘗試使用對于非監(jiān)督學(xué)習(xí)來說相當于監(jiān)督學(xué)習(xí)的方法:也就是使用了監(jiān)督學(xué)習(xí)方法,但訓(xùn)練的神經(jīng)網(wǎng)絡(luò)沒有人為提供的標簽。
比如說我們可以取一段視頻,給機器看一段視頻片段,然后讓它預(yù)測接下來會發(fā)生什么?;蛘咭部梢越o機器看兩段視頻,然后問它這個視頻是另一個視頻的后續(xù)嗎?我們要做的不是讓機器預(yù)測后續(xù),而是讓它告訴你這兩個場景是否相容?;蛘呦驒C器展示同一個物體的兩個不同的視圖,然后問它,這兩個東西是同一個物體嗎?在你給系統(tǒng)的所有數(shù)據(jù)基本上都是輸入數(shù)據(jù)的情況下,自監(jiān)督學(xué)習(xí)本質(zhì)上沒有真人的監(jiān)督。
ZDNet:近年來您做了幾次演講,包括2019年在新澤西州普林斯頓高等研究院(IAS)的演講,以及最近2月份百度主辦的關(guān)于深度學(xué)習(xí)基于能量的方法的演講。這些基于能量的模型屬于非監(jiān)督學(xué)習(xí)的自監(jiān)督部分嗎?
YL:是的。基于能量的模型中一切都能被假設(shè)。比如我給你X和Y;X是觀察,模型應(yīng)該捕獲Y關(guān)于X的相關(guān)性。例如,X是一個視頻的片段,Y是同一視頻的另一個片段,向系統(tǒng)展示X和Y,系統(tǒng)就應(yīng)該告訴我Y是不是X的后續(xù)?;蛘哒f給系統(tǒng)展示兩張圖片,系統(tǒng)就應(yīng)該告訴我兩張圖是彼此相關(guān)還是兩張完全不同的圖片。能量衡量的是相容性或不相容性,對吧?如果X和Y是相容的,能量就是零,如果能量比較大,那X和Y就是不相容的。
我們有兩種方法來訓(xùn)練基于能量的模型。第一種方式是向模型展示一對相容的X和Y,第二種是向模型展示一對不相容的X和Y,比如連不上的兩個視頻片段,兩個根本不相同的物體的圖片。對于這些不相容的XY對,我們需要設(shè)置高能量,而對于相容的XY對則降低能量值。
這是對比的方法。至少在某些情況下,我發(fā)明這種對比方法是為了一種叫做“孿生網(wǎng)絡(luò)(siamese nets)”的自監(jiān)督學(xué)習(xí)方法。我以前很喜歡這種方法,但現(xiàn)在我改變主意了。我認為這種方法注定要失敗。我不認為對比方法無用,但肯定是有不足之處的,因為這種方法不能很好地適應(yīng)這些東西的維度。正如那句名言:幸福的家庭都是相似的;不幸的家庭各有各的不幸。
兩個圖像相同或相容的情況比較少,可是兩幅圖像卻可以有很多不同的地方,而且空間是高維的。所以,基本上我們需要指數(shù)級量的對比能量樣本來推動這些對比方法的工作。對比方法仍然很受歡迎,但在我看來這種方式的能力真的很有限。所以我更喜歡非對比法或者所謂的正則法。
而這些方法都是基于這樣一種想法,即構(gòu)造能量函數(shù)時,你賦予其低能量值的空間體積是有限的。這可以用損失函數(shù)或能量函數(shù)中的一個術(shù)語來解釋,這個術(shù)語指的是最小化空間的體積,空間體積就可以某種方式使能量降低。我們有很多這樣的例子,其中一個例子就是積分稀疏編碼,這個概念可以追溯到20世紀90年代。近來我真正感到有興趣的是那些應(yīng)用于自監(jiān)督學(xué)習(xí)的非對比方法。
能量模型是未來的方向嗎?
ZDNet:你在演講里討論過"正則化的基于潛變量能量的模型"(regularized latent variable energy-based model),也就是 RLVEB。你認為RLVEB就是未來的發(fā)展方向嗎?RLVEB是否能引領(lǐng)2020年代或者2030年代的發(fā)展?
YL:讓我這么說吧:自從卷積網(wǎng)絡(luò)之后,我對機器學(xué)習(xí)的東西就沒那么感興趣了。(笑)我不確定RLVEB是不是新的卷積,但我對此真的很興奮。
當我在IAS演講時,我滿腦子都是RLVEB。RLVEB是生成模型,如果你想把它應(yīng)用到視頻預(yù)測之類的任務(wù)上,你給它一段視頻,可以讓它預(yù)測下一段視頻。
在過去的幾年里,我也改變了我的想法?,F(xiàn)在,我最喜歡的模型不是從X預(yù)測Y的生成模型,而是我所謂的聯(lián)合嵌入模型。我們?nèi),通過一個編碼器運行它(如果你想的話,也可以用一個神經(jīng)網(wǎng)絡(luò)來運行);取Y,并通過另一個編碼器運行它;然后預(yù)測就會發(fā)生在這個抽象的表示空間中。這就是一個巨大的優(yōu)勢。
為什么我改變了主意?我改變主意是因為我們之前不知道該怎么做。現(xiàn)在我們有一些方法可以派上用場。這些方法是在過去的兩年中出現(xiàn)的。我正在推動的實際上有兩個方法:一個叫VIC-REG,另一個叫Barlow Twins。
ZDNet:那么在接下來的5到10年里,你認為我們會在這方面看到什么進展呢?
YL:我認為現(xiàn)在我們至少有了一種方法來讓我們研究可以學(xué)習(xí)在抽象空間中進行預(yù)測的系統(tǒng)。在學(xué)習(xí)抽象預(yù)測的同時,系統(tǒng)也可以學(xué)習(xí)預(yù)測在抽象空間中隨著時間或狀態(tài)的變化會發(fā)生什么。
對于一個自主的智能系統(tǒng)來說,這是非常重要的部分,例如,系統(tǒng)有某種世界模型,可以讓你提前預(yù)測世界將會發(fā)生什么,也可以預(yù)測行為的后果。因此,給定對世界狀態(tài)的估計以及你正在采取的行動,系統(tǒng)會給到你一個在你采取行動后世界狀態(tài)的預(yù)測。圖注:基于能量的模型:“VICREG”是“自監(jiān)督學(xué)習(xí)的方差-不變性-協(xié)方差重新正則化(Variance-Invariance-Covariance Re-Gularization For Self-Supervised Learning)”的縮寫,是LeCun在基于能量的神經(jīng)網(wǎng)絡(luò)架構(gòu)上的最新研究成果。一組圖像在兩個不同的管道中轉(zhuǎn)換,每個扭曲后的圖像會被發(fā)送到編碼器,該編碼器實質(zhì)上是對圖像進行壓縮。然后,投影儀(也被稱為“擴展器”)會將這些壓縮的表示解壓成最終的“嵌入”,即 Z 維。正因為這兩種嵌入之間的相似性不受其扭曲的影響,程序才能夠找到合適的低能量級別去識別出某些東西。(圖源:FAIR)
這個預(yù)測還取決于一些你無法觀察到的潛變量。比如,當你開車的時候,你的前面有一輛車。這輛車可能剎車,可能加速,左轉(zhuǎn)或右轉(zhuǎn)。你不可能提前知道車輛的情況,這就是潛變量。所以整體架構(gòu)是這樣的,取最初的視頻集X和未來的視頻Y,將X、Y嵌入到某個神經(jīng)網(wǎng)絡(luò)中,從而得到X和Y的兩個抽象表示。然后在這個空間里做一個關(guān)于某個潛變量的基于能量的預(yù)測模型。
重點是,這個模型在預(yù)測世界抽象表示的時候,是不能預(yù)測世界上所有的細節(jié)的,因為這個世界上的很多細節(jié)可能是不相關(guān)的。在路上駕車的時候,可能會在路邊的一棵樹上看到一片葉子上非常復(fù)雜的部分。模型是絕對不可能預(yù)測這個的,或者說你也不想投入任何精力或資源來預(yù)測這點。所以這個編碼器本質(zhì)上可以在被問到之前就消除這些信息。
ZDNet:你認為在未來的5到10年會出現(xiàn)一些具體的里程碑嗎?或者目標?
YL:我預(yù)見到的是,我們可以使用「JEPA」(Joint Embedding Predictive Architecture)架構(gòu)來了解世界的預(yù)測模型,以一種自監(jiān)督的方式學(xué)習(xí)感知表示而又不需要為特定的任務(wù)訓(xùn)練系統(tǒng)。因為系統(tǒng)學(xué)習(xí)了X和Y的抽象表示,我們可以把它們堆疊起來。所以,一旦我們學(xué)會了對周圍世界的抽象表示,能夠做出短期預(yù)測了,我們就可以疊加另一層,從而可以學(xué)習(xí)更抽象的表示并獲得做出長期預(yù)測的能力。
所以讓系統(tǒng)通過觀察和觀看視頻來了解世界是如何運作是很重要的。因為嬰兒基本上是通過觀察這個世界來學(xué)習(xí)的,學(xué)習(xí)直觀的物理,學(xué)習(xí)我們所知道的關(guān)于這個世界的一切。動物也會這樣做。我們想讓我們的機器通過觀察來學(xué)會了解世界是如何運作的。但是到目前為止,我們還沒有做到這一點。因此在我看來,使用JEPA并以分層的方式檢查它們,是實現(xiàn)系統(tǒng)觀察學(xué)習(xí)的途徑。
JEPA能給予深度學(xué)習(xí)機器的另一個好處是推理能力。目前有一個爭議:深度學(xué)習(xí)擅長的只有感知,因為輸入和輸出是明確的。但如果你想要一個系統(tǒng)具備推理能力與規(guī)劃能力呢?世上存在具備一定的推理和規(guī)劃能力的復(fù)雜模型,但這樣的模型并不多。
那么,我們?nèi)绾巫寵C器去規(guī)劃呢?如果我們有一個世界預(yù)測模型,如果我們有一個能讓系統(tǒng)預(yù)測自己行為后果的模型,就可以讓系統(tǒng)想象其行動路線并預(yù)測將會產(chǎn)生的結(jié)果。然后將這些信息提供給一些內(nèi)部函數(shù),這些函數(shù)會描述某個任務(wù)是否已完成。接著,通過優(yōu)化,可能使用梯度下降法找出使目標最小化的一系列行動。我們現(xiàn)在不是在討論學(xué)習(xí);我們現(xiàn)在討論的是推理與規(guī)劃。事實上,我現(xiàn)在描述的是一種經(jīng)典的計劃和模型預(yù)測控制的最優(yōu)控制方法。
最優(yōu)控制的不同之處在于,我們用的是一個經(jīng)過學(xué)習(xí)的世界模型,而不是一種固定的模型。我們的模型包含了所有可以處理這個世界的不確定性的變量,因此可以成為自主智能系統(tǒng)的基礎(chǔ),能夠預(yù)測未來并計劃一系列行動。
我想從這里飛到舊金山,那我就需要去機場,趕飛機等等。要去機場,我就需要離開我的大樓,沿著街道走一段,然后打一輛出租車。要離開我的大樓,我就需要離開我的椅子,走向門,打開門,走向電梯或樓梯。要做到走向電梯或者樓梯,我需要弄清楚如何把這些動作分解成一毫秒一毫秒的肌肉控制。這就叫做分層規(guī)劃。我們希望系統(tǒng)能夠做到這一點,但目前我們還不能真正做到如此。這些通用架構(gòu)可以為我們提供這些東西。這是我的希望。
能量模型與其他方法之間的千絲萬縷
ZDNet:你描述能量模型的方式聽起來有點像量子電動力學(xué)的內(nèi)容,比如 Dirac-Feynman 路徑積分或者波函數(shù)。這只是一種比喻,還是說也許這兩者實際上是一致的?
YL:這并不是比喻,而且兩者其實是有些不同的,并非完全一致。比如你有一個潛變量,這個潛變量可以取很多不同的值,通常你要做的就是遍歷這個潛變量所有可能的值。這可能有些不切實際。所以你可以從某個分布中對潛變量抽樣,然后計算可能結(jié)果的集合。但是,實際上你最終要計算的是一個代價函數(shù),這個代價函數(shù)給出了一個你對潛變量的可能值求平均的期望值。這看起來很像一個路徑積分。路徑積分實際上就是計算多條路徑的能量之和,至少在傳統(tǒng)意義上是如此。在量子方法中,你不是在把概率或分數(shù)相加,而是在把復(fù)數(shù)相加,而復(fù)數(shù)可以互相抵消。雖然我們一直在考慮這樣的事情(至少我一直在思考同樣的東西),但我們的研究中沒有這樣的內(nèi)容。
這個在上下文中沒有用到,但是潛變量的邊際化和路徑/軌跡的總和是非常相似的。
ZDNet:你曾做出兩個相當驚人的斷言。一是深度學(xué)習(xí)的概率方法已經(jīng)過時。二是你說你正在討論的基于能源的模型與20世紀80年代的方法有一些聯(lián)系,例如 Hopfield 網(wǎng)絡(luò)。請問能詳細說明一下這兩點嗎?
YL:我們需要放棄概率模型的原因是,我們可以對兩個變量X和Y之間的相關(guān)性建模,但如果Y是高維的,如何表示Y上的分布呢?我們真的不知道該怎么做。我們只能寫出一個非常簡單的分布,一個高斯分布或者高斯分布的混合分布之類的。如果你想用復(fù)數(shù)概率去度量,我們不知道怎么做,或者說我們知道的唯一方法就是通過能量函數(shù)去度量。所以我們只能寫一個能量函數(shù),其中低能對應(yīng)著高概率,高能對應(yīng)著低概率,這就是物理學(xué)家理解能量的方式,對吧?問題是我們一直不太理解如何標準化。
統(tǒng)計學(xué)、機器學(xué)習(xí)和計算物理學(xué)等領(lǐng)域里有很多論文都是有關(guān)如何解決這個棘手問題的。我所倡導(dǎo)的是忘掉概率模型,只考慮能量函數(shù)本身。它甚至不需要使能量變成可以標準化的形式。最終的結(jié)果是,你應(yīng)該有一種損失函數(shù),當你訓(xùn)練你的數(shù)據(jù)模型,使得相容的能量函數(shù)低而不相容的能量函數(shù)高的時候,你就把損失函數(shù)最小化。就是這么簡單。
ZDNet:和Hopfield網(wǎng)絡(luò)之間的關(guān)系呢?
YL:Hopfield 網(wǎng)絡(luò)和 Boltzmann 機器當然與此相關(guān)。Hopfield 網(wǎng)絡(luò)是以一種非對比的方式訓(xùn)練的能量模型,但效率很低,所以沒什么人用Hopfield 網(wǎng)絡(luò)。Boltzmann 機器基本上是Hopfield網(wǎng)絡(luò)的一個對比版本, 你得到數(shù)據(jù)樣本并降低其能量,你生成其他樣本并提高其能量。這種方法在某種程度上更令人滿意,但也不是很有效,因為這種對比的方法不能很好地擴展。因為這個原因,這個方法也沒有被使用。
ZDNet:那么,正則化的、基于潛變量能量的模型(RLVEB)真的可以被認為是Hopfield 網(wǎng)絡(luò)的2.0版本嗎?
YL:我不那么認為。
“意識是人類大腦局限性的結(jié)果”
ZDNet:你提出了另一個相當驚人的論斷,即“只有一個世界模型”并認為意識是人類大腦中“一個世界模型的刻意配置”。你說這可能是個瘋狂的假設(shè)。這是你的猜想嗎?這到底是一個瘋狂的假設(shè),還是有什么證據(jù)可以證明呢?在這個案例里有什么證據(jù)呢?
YL:這是個猜想,一個瘋狂的設(shè)想。任何關(guān)于意識的東西,在某種程度上都是猜想。因為我們一開始并不知道意識是什么。我認為意識是一種錯覺。我想表達的是,意識被認為是人類和一些動物擁有的一種能力,我們認為意識體現(xiàn)了這些生物的智慧,這有點可笑。我認為意識是我們大腦局限性的結(jié)果,因為我們的大腦中有一個單一的、類似于世界模型的引擎,我們需要一些東西來控制這個引擎,這個東西就是意識。于是我們產(chǎn)生了人類有意識的錯覺。如果我們的大腦變得無限大,不再有限制,我們就不需要意識了。
至少有一些證據(jù)表明我們腦中或多或少存在一個單一的模擬引擎。比如,我們基本上在同一時間只能嘗試一項意識任務(wù),我們專注于任務(wù),我們會想象我們計劃的行為的后果。你一次只能做一件事,或者你可以同時做多件事,但這些多個任務(wù)是我們訓(xùn)練自己不用思考就能完成的潛意識行為。比如我們可以一邊開車一邊和身邊的人說話,只要我們練習(xí)開車的時間足夠長,開車就已經(jīng)成為一種下意識的行為。所以在剛開始學(xué)開車的幾個小時里,我們做不到一邊開車一邊說話,我們必須集中精力才能完成駕駛,因為我們必須使用我們的世界模型預(yù)測引擎來找出所有可能發(fā)生的可怕情況。
ZDNet:如果這只是一種猜想,那么它對你目前的工作并沒有什么實際意義,不是嗎?
YL:不,有一定意義。我提出的這個自主人工智能模型有一個可配置的世界模型模擬引擎,其目的是規(guī)劃和想象未來,填補你無法完全觀察到的空白??膳渲玫膯我荒P蜁碛嬎銉?yōu)勢,可以讓系統(tǒng)在任務(wù)之間共享知識,這些知識是你通過觀察或基本邏輯之類的東西學(xué)到的。使用你配置的大模型要比使用一個完全獨立的模型來處理不同的任務(wù)要有效得多,因為不同的任務(wù)可能需要單獨訓(xùn)練。但是我們已經(jīng)看到了,對吧?
以前在Facebook(當Meta名字還叫Facebook)的時候,我們用視覺來分析圖像,做排序和過濾,基本上對于不同的任務(wù),我們都有專門的神經(jīng)網(wǎng)絡(luò)和專門的卷積網(wǎng)絡(luò)來解決。而現(xiàn)在我們有一個大的網(wǎng)絡(luò),什么任務(wù)都能處理。我們以前有好幾個ConvNets,現(xiàn)在我們只有一個。
我們看到了這種簡化。我們現(xiàn)在甚至有可以做所有事情的架構(gòu):同一個架構(gòu)就可以處理視覺、文字、口語。這種架構(gòu)必須分別接受三個任務(wù)的訓(xùn)練,而這個架構(gòu) data2vec,是一種自監(jiān)督的方法。
ZDNet:真有意思!感謝你的分享。