重新定義自監(jiān)督學(xué)習(xí)!LeCun團(tuán)隊(duì)讓MMCR再進(jìn)一步
多視圖自監(jiān)督學(xué)習(xí)(MVSSL,或稱為聯(lián)合嵌入自監(jiān)督學(xué)習(xí))是一種強(qiáng)大的無監(jiān)督學(xué)習(xí)方法。它首先創(chuàng)建無監(jiān)督數(shù)據(jù)的多個(gè)轉(zhuǎn)換或視圖,然后以類似監(jiān)督的方式使用這些視圖來學(xué)習(xí)有用的表示。
實(shí)現(xiàn)MVSSL的具體方法有很多,但大致可以分為四類:對(duì)比、聚類、蒸餾/動(dòng)量、冗余減少。
在這眾多的方法中,最大流形容量表示(Maximum Manifold Capacity Representation,MMCR)是與眾不同的一類。
MMCR不明確使用對(duì)比,不執(zhí)行聚類,不利用蒸餾,也不明確減少冗余,但效果卻可以媲美甚至超越其他領(lǐng)先的MVSSL方法。
而來自斯坦福、MIT、紐約大學(xué)和Meta-FAIR等機(jī)構(gòu)的研究人員,正在通過新的研究重新定義這個(gè)框架的可能性。
論文地址:https://arxiv.org/pdf/2406.09366
作為論文作者之一,LeCun也發(fā)推表達(dá)了自己的觀點(diǎn):
除非使用預(yù)防機(jī)制,否則使用SSL訓(xùn)練聯(lián)合嵌入架構(gòu)會(huì)導(dǎo)致崩潰:系統(tǒng)學(xué)習(xí)到的表示信息不夠豐富,甚至是恒定不變的。
人們?cè)O(shè)計(jì)了多種方法來防止這種崩潰。
一類方法是樣本對(duì)比:確保不同的輸入產(chǎn)生不同的表示。
另一類是維度對(duì)比:確保表示的不同變量對(duì)輸入的不同方面進(jìn)行編碼。
兩種類型的方法都可以從信息最大化參數(shù)中派生出來:確保表示形式盡可能多的編碼有關(guān)輸入的信息。
方差-協(xié)方差正則化、MMCR和MCR2(來自伯克利大學(xué)馬毅團(tuán)隊(duì))都是infomax維度對(duì)比方法。
信息最大化維度對(duì)比方法的核心思想,是推動(dòng)編碼器學(xué)習(xí)輸入的表示,使其盡可能充分地利用表示空間,就像在有限的畫布上盡可能展現(xiàn)豐富的細(xì)節(jié)。
為了更好地理解MMCR,研究人員利用高維概率工具證明了,MMCR可以激勵(lì)學(xué)習(xí)嵌入的對(duì)齊和均勻性。
同時(shí),這種嵌入最大化了視圖之間的互信息的下界,從而將MMCR的幾何視角與MVSSL中的信息論視角聯(lián)系起來。
為了更好地利用MMCR,研究人員對(duì)預(yù)訓(xùn)練損失的非單調(diào)變化進(jìn)行數(shù)學(xué)預(yù)測和實(shí)驗(yàn)確認(rèn),發(fā)現(xiàn)了類似于雙下降的行為。
此外,研究人員還發(fā)現(xiàn)了計(jì)算上的scaling law,可以將預(yù)訓(xùn)練損失預(yù)測為梯度步長、批量大小、嵌入維度和視圖數(shù)量的函數(shù)。
最終,作者證明了這個(gè)最初應(yīng)用于圖像數(shù)據(jù)的MMCR方法,在多模態(tài)圖像文本數(shù)據(jù)上同樣表現(xiàn)優(yōu)異。
MMCR
MMCR由紐約大學(xué)數(shù)據(jù)科學(xué)中心(NYU Center for Data Science,CDS)的研究人員于2023年提出。
該方法源于神經(jīng)科學(xué)中的有效編碼假說:生物感覺系統(tǒng)通過使感覺表征適應(yīng)輸入信號(hào)的統(tǒng)計(jì)數(shù)據(jù)來優(yōu)化,例如減少冗余或維度。
最初的MMCR框架通過調(diào)整「流形容量」(衡量給定表示空間內(nèi)可以線性分離的對(duì)象類別數(shù)量的指標(biāo))將這一想法從神經(jīng)科學(xué)擴(kuò)展到了人工神經(jīng)網(wǎng)絡(luò)。
許多MVSSL方法要么明確源自信息論,要么可以從信息論的角度來理解,但MMCR不同。
MMCR指出估計(jì)高維互信息已被證明是困難的,且逼近互信息可能不會(huì)改善表示。MMCR的基礎(chǔ)在于數(shù)據(jù)流形線性可分性的統(tǒng)計(jì)力學(xué)表征。
不過LeCun等人的這篇工作,將MMCR的幾何基礎(chǔ)與信息論原理聯(lián)系起來,探索了MMCR的更深層次機(jī)制,并將其應(yīng)用擴(kuò)展到了多模態(tài)數(shù)據(jù),例如圖像文本對(duì)。
理論基礎(chǔ)
MMCR源自有關(guān)線性二元分類器性能的經(jīng)典結(jié)果??紤]D維度中的P點(diǎn)(數(shù)據(jù)),具有任意分配的二進(jìn)制類標(biāo)簽;線性二元分類器能夠成功對(duì)點(diǎn)進(jìn)行分類的概率是多少?
統(tǒng)計(jì)力學(xué)計(jì)算表明,在熱力學(xué)極限下,容量α= 2時(shí)會(huì)發(fā)生相變。MMCR將此結(jié)果從點(diǎn)擴(kuò)展到流形:
最小化MMCR損失意味著最大化平均矩陣的核范數(shù)。
直觀上,完美重建意味著同一數(shù)據(jù)的所有視圖都被網(wǎng)絡(luò)映射到相同的嵌入,完美均勻性意味著嵌入均勻分布在超球面周圍。
具有完美重建和完美均勻性的嵌入實(shí)現(xiàn)了盡可能低的MMCR損失
基于對(duì)MMCR嵌入分布的新認(rèn)識(shí),我們?nèi)绾螌MCR的統(tǒng)計(jì)力學(xué)幾何觀點(diǎn)與信息論觀點(diǎn)聯(lián)系起來?
答案是,MMCR激勵(lì)表示的最大化,對(duì)應(yīng)于同一數(shù)據(jù)的兩個(gè)視圖的兩個(gè)嵌入共享的互信息的下限。
考慮某些輸入數(shù)據(jù)兩個(gè)不同視圖的嵌入之間的互信息。兩個(gè)視圖之間的互信息必須至少與兩項(xiàng)之和一樣大:一個(gè)嵌入重建另一個(gè)的能力,再加上嵌入的熵:
MMCR的雙下降
通過高維概率分析可知,預(yù)測最大流形容量表示的預(yù)訓(xùn)練損失,也應(yīng)該在其預(yù)訓(xùn)練損失中表現(xiàn)出非單調(diào)雙下降樣行為。
(雙下降:測試損失作為數(shù)據(jù)總數(shù)和模型參數(shù)數(shù)量的函數(shù)表現(xiàn)出非單調(diào)變化 )。
然而,本文的分析也表明,這種類似雙下降的行為應(yīng)該發(fā)生在非典型參數(shù)(流形的數(shù)量P和維數(shù)D)上,而不是數(shù)據(jù)的數(shù)量和模型的參數(shù)量。
具體來說,理論預(yù)測最高的預(yù)訓(xùn)練誤差應(yīng)該恰好發(fā)生在閾值P = D處,預(yù)訓(xùn)練誤差落在閾值的兩側(cè)。
為了比較不同超參數(shù)對(duì)的點(diǎn)數(shù)P和數(shù)據(jù)維度D之間的損失,這里使用MMCR預(yù)訓(xùn)練界限來定義預(yù)訓(xùn)練百分比誤差:
研究人員在STL-10上預(yù)訓(xùn)練了ResNet-18,STL-10是一個(gè)與CIFAR-10類似的數(shù)據(jù)集,但分辨率更高 (96x96x3),并且包含100000張圖像的附加未標(biāo)記分割。
掃描范圍P:{64, 128, 256, 512, 1024} × D:{64, 128, 256, 512, 1024} × K:{2, 4, 8}(K為視圖數(shù)),結(jié)果如上圖所示。
Compute Scaling Laws
在許多MVSSL方法中,更改超參數(shù)通常會(huì)導(dǎo)致預(yù)訓(xùn)練損失不相稱,從而使運(yùn)行之間的比較變得困難。
然而,MMCR預(yù)訓(xùn)練百分比誤差產(chǎn)生的數(shù)量介于0和1之間,因此可以將不同超參數(shù)(P和D)時(shí)的訓(xùn)練情況放在一起比較。
執(zhí)行這樣的比較會(huì)產(chǎn)生有趣的經(jīng)驗(yàn)現(xiàn)象:計(jì)算MMCR預(yù)訓(xùn)練百分比誤差中的神經(jīng)縮放定律。
通過繪制在STL-10上預(yù)訓(xùn)練的ResNet-18網(wǎng)絡(luò),我們可以清楚地看到預(yù)訓(xùn)練百分比誤差的冪律縮放與所有點(diǎn)數(shù)P 、嵌入維度D和視圖數(shù)量K的計(jì)算量的關(guān)系。
一個(gè)關(guān)鍵細(xì)節(jié)是這些神經(jīng)縮放曲線突出了類似雙下降的行為:對(duì)角線子圖(P = D時(shí))具有較高的預(yù)訓(xùn)練百分比誤差和較小的預(yù)訓(xùn)練百分比斜率。
MMCR與多模態(tài)
考慮OpenAI的對(duì)比語言圖像預(yù)訓(xùn)練模型CLIP的設(shè)置,兩個(gè)不同的網(wǎng)絡(luò)在圖像文本標(biāo)題對(duì)上進(jìn)行預(yù)訓(xùn)練,從兩個(gè)不同的數(shù)據(jù)域X和Y獲取數(shù)據(jù)。
X和Y是配對(duì)的,使得X中的每個(gè)示例在Y中都有對(duì)應(yīng)的正對(duì),反之亦然。從MMCR角度來看,X和Y可以理解為同一底層對(duì)象的兩個(gè)視圖。
因此,最優(yōu)變換嵌入f(X)和g(Y)應(yīng)映射到同一空間,并且我們可以利用對(duì)MMCR的改進(jìn)理解來訓(xùn)練這些最優(yōu)網(wǎng)絡(luò)。
與常見的MVSSL不同,這里的X和Y在實(shí)踐中可能代表極其不同的分布。
在上圖的圖像-文本對(duì)齊實(shí)驗(yàn)中,作者將多模態(tài)MMCR應(yīng)用于DataComp-Small,并將零樣本Imagenet性能與標(biāo)準(zhǔn)CLIP目標(biāo)進(jìn)行比較。
可以發(fā)現(xiàn),多模態(tài)MMCR在小批量(< 512)下表現(xiàn)優(yōu)于CLIP。