怒斥Sora之后,LeCun放出「視覺(jué)世界模型」論文,揭示AI學(xué)習(xí)物理世界的關(guān)鍵?
Sora 的發(fā)布讓整個(gè) AI 領(lǐng)域?yàn)橹駳g,但 LeCun 是個(gè)例外。
面對(duì) OpenAI 源源不斷放出的 Sora 生成視頻,LeCun 熱衷于尋找其中的失誤:
歸根結(jié)底,LeCun 針對(duì)的不是 Sora,而是 OpenAI 從 ChatGPT 到 Sora 一致采用的自回歸生成式路線。
LeCun 一直認(rèn)為, GPT 系列 LLM 模型所依賴的自回歸學(xué)習(xí)范式對(duì)世界的理解非常膚淺,遠(yuǎn)遠(yuǎn)比不上真正的「世界模型」。
所以,一遇到「Sora 是世界模型」的說(shuō)法,LeCun 就有些坐不?。骸竷H僅根據(jù) prompt 生成逼真視頻并不能代表一個(gè)模型理解了物理世界,生成視頻的過(guò)程與基于世界模型的因果預(yù)測(cè)完全不同。」
那么,面對(duì)視覺(jué)任務(wù),世界模型如何獲得自回歸模型一般的性能?
最近,Lecun 發(fā)布了自己關(guān)于「世界模型」的新論文《在視覺(jué)表征學(xué)習(xí)中學(xué)習(xí)和利用世界模型》,剛好解釋了這個(gè)問(wèn)題。
- 論文標(biāo)題:Learning and Leveraging World Models in Visual Representation Learning
- 論文鏈接:https://arxiv.org/pdf/2403.00504.pdf
通過(guò)以往 LeCun 對(duì)世界模型的介紹,我們知道,JEPA(Joint Embedding Predictive Architecture,聯(lián)合嵌入預(yù)測(cè)架構(gòu))相比于重建像素的生成式架構(gòu)(如變分自編碼器)、掩碼自編碼器、去噪自編碼器,更能產(chǎn)生優(yōu)秀的視覺(jué)輸入表達(dá)。
2023 年 6 月,Meta 推出了首個(gè)基于 LeCun 世界模型概念的 AI 模型,名為圖像聯(lián)合嵌入預(yù)測(cè)架構(gòu)(I-JEPA),能夠通過(guò)創(chuàng)建外部世界的內(nèi)部模型來(lái)學(xué)習(xí), 比較圖像的抽象表征(而不是比較像素本身)。今年,在 Sora 發(fā)布的第二天,Meta 又推出了 AI 視頻模型 V-JEPA,可根據(jù)信號(hào)的損壞或轉(zhuǎn)換版本來(lái)預(yù)測(cè)信號(hào)的表征,讓機(jī)器通過(guò)觀察了解世界的運(yùn)作方式。
而最新這項(xiàng)研究揭示了利用世界模型進(jìn)行表征學(xué)習(xí)的另一個(gè)關(guān)鍵方面:賦予世界模型的容量直接影響所學(xué)表征的抽象程度。
直觀地說(shuō),如果預(yù)測(cè)器是身份,網(wǎng)絡(luò)將捕捉到高級(jí)語(yǔ)義信息,因?yàn)樗粫?huì)學(xué)習(xí)編碼輸入 y 及其變換 x 之間的共同點(diǎn)。另一方面,由于預(yù)測(cè)器的容量更大,可以有效反轉(zhuǎn)變換的效果,編碼器的輸出可以保留更多關(guān)于輸入的信息。
這兩個(gè)理念是等變表征學(xué)習(xí)的核心,能有效應(yīng)用變換的預(yù)測(cè)器是等變的,而不能有效應(yīng)用變換的預(yù)測(cè)器是不變的。研究者發(fā)現(xiàn),對(duì)變換不變的世界模型在線性評(píng)估中表現(xiàn)更好,而等變的世界模型與更好的世界模型微調(diào)相關(guān)。這就在易適應(yīng)性和原始性能之間做出了權(quán)衡。因此,通過(guò)學(xué)習(xí)世界模型來(lái)學(xué)習(xí)表征,能靈活掌握表征的屬性,從而使其成為一個(gè)極具吸引力的表征學(xué)習(xí)框架。
接下來(lái),我們來(lái)看一些具體的研究細(xì)節(jié)。
方法
圖像世界模型(Image World Models,IWM)采用 JEPA 的框架,類似于 I-JEPA。該框架中的預(yù)測(cè)器是世界模型的實(shí)例化。研究者認(rèn)為,如果一個(gè)世界模型能夠在潛在空間中應(yīng)用變換,從而學(xué)習(xí)等變表征,那么它就是有能力的。研究者將有能力的世界模型為等變( equivariant ),稱能力較差的世界模型為不變( invariant )。
使用 JEPA 的一個(gè)吸引人之處在于,使用對(duì)比方法學(xué)習(xí)等變表征的方法通常需要依賴于不變性損失來(lái)提高表征質(zhì)量,無(wú)論是顯式的還是隱式的。而 JEPA 的方法則不存在這一缺點(diǎn),因?yàn)楸碚鞯恼Z(yǔ)義方面是通過(guò)潛在空間的修補(bǔ)學(xué)習(xí)的。在潛空間中工作還能讓網(wǎng)絡(luò)去除不必要的信息或難以預(yù)測(cè)的信息。這就使得 JEPA 方案很有吸引力,因?yàn)閷?duì)于重建方法來(lái)說(shuō),重建的質(zhì)量不一定與表征質(zhì)量相關(guān)。
要訓(xùn)練 IWM,第一步是從圖像 I 生成源視圖和目標(biāo)視圖(圖 2 中分別為 x 和 y)。
研究者將 a_x→y 表示為從 x 到 y 的變換參數(shù),即初始變換過(guò)程的逆轉(zhuǎn)。它包含了 x 與 y 之間顏色抖動(dòng)差異的信息,以及是否應(yīng)用了每種破壞性增強(qiáng)的信息。
通過(guò) p_? 進(jìn)行世界建模。然后分別通過(guò)編碼器 f_θ 和它的指數(shù)移動(dòng)平均
得到源和目標(biāo)。這樣就有了 和
。使用 EMA 網(wǎng)絡(luò)對(duì)避免解決方案崩潰至關(guān)重要。為了給作為世界模型的預(yù)測(cè)器設(shè)置條件,它被輸入了關(guān)于目標(biāo)的幾何信息,以掩碼 token 的形式以及 a_x→y。研究者將這些掩碼 token 稱為 m_a,它們對(duì)應(yīng)于
中的位置。
然后,預(yù)測(cè)器 p_? 將嵌入的源補(bǔ)丁 x_c、變換參數(shù) a_x→y 和遮罩令牌 m_a 作為輸入。其目標(biāo)是匹配 p_?(z_x, a_x→y, m_a) = 到 z_y。損失。使用的損失函數(shù)是預(yù)測(cè)
及其目標(biāo) z_y 之間的平方 L2 距離:
學(xué)習(xí)用于表征學(xué)習(xí)的圖像世界模型
如前所述,學(xué)習(xí)等差數(shù)列表征和學(xué)習(xí)世界模型是密切相關(guān)的問(wèn)題。因此,可以借用等差數(shù)學(xué)文獻(xiàn)中的指標(biāo)來(lái)評(píng)估訓(xùn)練好的世界模型的質(zhì)量。研究者使用的主要指標(biāo)是平均互斥等級(jí)(MRR)。
為了計(jì)算它,研究者生成了一組增強(qiáng)目標(biāo)圖像(實(shí)際為 256 幅)。他們通過(guò)預(yù)測(cè)器輸入干凈圖像的表征,目的是預(yù)測(cè)目標(biāo)圖像。然后計(jì)算預(yù)測(cè)結(jié)果與增強(qiáng)表征庫(kù)之間的距離,從中得出目標(biāo)圖像在該 NN 圖中的等級(jí)。通過(guò)對(duì)多個(gè)圖像和變換的倒數(shù)等級(jí)進(jìn)行平均,就可以得到 MRR,從而了解世界模型的質(zhì)量。MRR 接近 1 意味著世界模型能夠應(yīng)用變換,相反,MRR 接近 0 則意味著世界模型不能應(yīng)用變換。
為了構(gòu)建性能良好的 IWM,研究者分離出三個(gè)關(guān)鍵方面:預(yù)測(cè)器對(duì)變換(或操作)的條件限制、控制變換的復(fù)雜性以及控制預(yù)測(cè)器的容量。如果對(duì)其中任何一個(gè)環(huán)節(jié)處理不當(dāng),都會(huì)導(dǎo)致表征不穩(wěn)定。
如表 1 所示,不進(jìn)行調(diào)節(jié)會(huì)導(dǎo)致世界模型無(wú)法應(yīng)用變換,而使用序列軸或特征軸進(jìn)行調(diào)節(jié)則會(huì)導(dǎo)致良好的世界模型。研究者在實(shí)踐中使用了特征調(diào)節(jié),因?yàn)樗軒?lái)更高的下游性能。
如表 2 所示,增強(qiáng)越強(qiáng),學(xué)習(xí)強(qiáng)世界模型就越容易。在更廣泛的增強(qiáng)方案中,這一趨勢(shì)仍在繼續(xù)。
如果變換很復(fù)雜,預(yù)測(cè)器就需要更大的能力來(lái)應(yīng)用它,意味著能力成為了學(xué)習(xí)圖像世界模型的關(guān)鍵因素。如上表 2 ,深度預(yù)測(cè)器意味著能在更廣泛的增強(qiáng)上學(xué)習(xí)到強(qiáng)大的世界模型,這也是 IWM 取得成功的關(guān)鍵。因此,預(yù)測(cè)能力是強(qiáng)大世界模型的關(guān)鍵組成部分。
與計(jì)算 MRR 的方法相同,我們可以將預(yù)測(cè)的表征與變換圖像庫(kù)進(jìn)行比較,并查看與預(yù)測(cè)最近鄰的圖像。如圖 1 所示,IWM 學(xué)習(xí)到的世界模型能夠正確應(yīng)用潛空間中的變換。不過(guò),可以看到灰度反轉(zhuǎn)時(shí)存在一些誤差,因?yàn)榛叶葻o(wú)法正確反轉(zhuǎn)。
以下可視化效果有助于強(qiáng)化 IWM 能夠?yàn)閳D像轉(zhuǎn)換學(xué)習(xí)強(qiáng)大的世界模型這一事實(shí)。
利用世界模型完成下游任務(wù)
論文還探討了如何使用世界模型完成下游任務(wù)。
在圖像上學(xué)習(xí)的世界模型的局限性在于,它們所解決的任務(wù)與大多數(shù)下游任務(wù)并不一致。
研究者表示,已經(jīng)證明 IWM 可以應(yīng)用色彩抖動(dòng)或?qū)D像進(jìn)行著色,但這些并不是推動(dòng)計(jì)算機(jī)視覺(jué)應(yīng)用的任務(wù)。這與 LLM 形成了鮮明對(duì)比,在 LLM 中,預(yù)測(cè)下一個(gè) token 是此類模型的主要應(yīng)用之一。
因此,研究者探索了如何在視覺(jué)中利用世界模型來(lái)完成應(yīng)用變換之外的任務(wù),重點(diǎn)是圖像分類和圖像分割等判別任務(wù)。
首先,需要對(duì)預(yù)測(cè)器進(jìn)行微調(diào)以解決判別任務(wù)。研究者按照 He et al. (2021) 的方法,重點(diǎn)放在與微調(diào)協(xié)議的比較上。所研究的所有方法都在 ImageNet 上進(jìn)行了預(yù)訓(xùn)練和評(píng)估,并使用 ViT-B/16 作為編碼器。
表 3 展示了定義預(yù)測(cè)任務(wù)的各種方法及其對(duì)性能的影響。
表 4 中比較了預(yù)測(cè)器微調(diào)和編碼器微調(diào)以及預(yù)測(cè)器和編碼器的端到端微調(diào),編碼器使用了 ViTB/16。
從表 5 中可以看出,在對(duì)所有協(xié)議的性能進(jìn)行匯總時(shí),利用 IWM 可以在凍結(jié)編碼器的情況下獲得最佳性能,即允許利用預(yù)訓(xùn)練的每一部分。
表 6 展示了 I-JEPA 和 IWM 在 ADE20k 圖像分割任務(wù)中的表現(xiàn)。
在圖 3 中,展示了預(yù)測(cè)器微調(diào)與編碼器微調(diào)相比的效率。
表征學(xué)習(xí)的主要目標(biāo)之一是獲得可用于各種任務(wù)的表征。就像預(yù)測(cè)器是為解決各種任務(wù)(著色、內(nèi)畫(huà)、變色)而訓(xùn)練的一樣,對(duì)于每個(gè)任務(wù),都有一個(gè)任務(wù) token,以及一個(gè)任務(wù)特定的頭和 / 或損失函數(shù)。然后合并所有任務(wù)損失,并更新預(yù)測(cè)器和特定任務(wù)頭。這里研究了一種簡(jiǎn)單的情況,即批次在任務(wù)之間平均分配,同時(shí)注意到其他采樣策略可能會(huì)進(jìn)一步提高性能。
總之,當(dāng)學(xué)習(xí)到一個(gè)好的世界模型后,通過(guò)微調(diào)就可以將其重新用于下游任務(wù)。這樣就能以極低的成本實(shí)現(xiàn)與編碼器微調(diào)相媲美的性能。通過(guò)進(jìn)行多任務(wù)微調(diào),它還能變得更加高效,更凸顯了這種方法的多功能性。
圖像世界模型使表征更加靈活
為了完成對(duì) IWM 在表征學(xué)習(xí)中的分析,研究者研究了它在自監(jiān)督學(xué)習(xí)中常用的輕量級(jí)評(píng)估協(xié)議上的表現(xiàn)。本文重點(diǎn)關(guān)注線性探測(cè)和注意力探測(cè)。
如表 8 所示,當(dāng) IWM 學(xué)習(xí)一個(gè)不變的世界模型時(shí),其表現(xiàn)類似于對(duì)比學(xué)習(xí)方法,如 MoCov3,在線性探測(cè)中與 MIM 或其他基于 JEPA 的方法相比有顯著的性能提升。同樣,當(dāng) IWM 學(xué)習(xí)一個(gè)等變的世界模型時(shí),其表現(xiàn)類似于 MIM 方法,如 MAE,在線性探測(cè)中性能較低,但在注意力探測(cè)中表現(xiàn)更具競(jìng)爭(zhēng)力。
這表明,方法之間的重大區(qū)別不一定在于表征的質(zhì)量,而在于它們的抽象級(jí)別,即從中提取信息的難易程度。線性探測(cè)是最簡(jiǎn)單的評(píng)估之一,注意力探測(cè)稍微復(fù)雜一些,而微調(diào)則是更復(fù)雜的協(xié)議。
圖 4 可以看出,評(píng)估協(xié)議的適用性與世界模型的等價(jià)性之間有著明顯聯(lián)系。不變性較高的世界模型在線性探測(cè)中表現(xiàn)出色,而等變世界模型在使用更大的評(píng)估頭部,如在預(yù)測(cè)器微調(diào)中,有組合更好的表現(xiàn)。研究者們還注意到,由等變世界模型產(chǎn)生的更豐富的表征在跨域 OOD 數(shù)據(jù)集上具有更好的性能。
圖 5 中按表征的抽象程度將方法分類。對(duì)比學(xué)習(xí)方法占據(jù)了高抽象度的一端,只需一個(gè)簡(jiǎn)單的協(xié)議就能輕松提取信息。然而,如表 5 所示,當(dāng)忽略調(diào)整成本時(shí),這些方法的峰值性能較低。與之相反的是掩蔽圖像建模法(MIM),它在微調(diào)等復(fù)雜評(píng)估中性能更強(qiáng),但在線性探測(cè)中由于信息不易獲取而表現(xiàn)不佳。通過(guò)改變世界模型的等變性,IWM 能夠在對(duì)比學(xué)習(xí)方法和 MIM 之間有屬于自己的位置,如圖 4 和表 8 所示, 和
是 IWM 光譜的兩個(gè)極端。
這個(gè)光譜可以用自監(jiān)督學(xué)習(xí)(SSL)的理念「學(xué)習(xí)可預(yù)測(cè)之物」來(lái)概括。通過(guò)一個(gè)弱世界模型進(jìn)行學(xué)習(xí)意味著它無(wú)法正確地建模世界,編碼器會(huì)移除那些無(wú)法預(yù)測(cè)的信息。反之,如果世界模型非常強(qiáng)大,那么表征就不需要那么抽象或語(yǔ)義化,因?yàn)樗軌蛟谌魏吻闆r下找到預(yù)測(cè)表征的方法。這意味著,學(xué)習(xí)一個(gè)世界模型提供了一種可度量的方式來(lái)控制表征的抽象級(jí)別。
更多技術(shù)細(xì)節(jié),請(qǐng)參閱原文。