自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

重新定義自監(jiān)督學(xué)習(xí)!LeCun團(tuán)隊(duì)讓MMCR再進(jìn)一步

人工智能 新聞
近日,來自斯坦福、MIT、紐約大學(xué)和Meta-FAIR等機(jī)構(gòu)的研究人員,通過新的研究重新定義了最大流形容量表示法(MMCR)的可能性。

多視圖自監(jiān)督學(xué)習(xí)(MVSSL,或稱為聯(lián)合嵌入自監(jiān)督學(xué)習(xí))是一種強(qiáng)大的無監(jiān)督學(xué)習(xí)方法。它首先創(chuàng)建無監(jiān)督數(shù)據(jù)的多個(gè)轉(zhuǎn)換或視圖,然后以類似監(jiān)督的方式使用這些視圖來學(xué)習(xí)有用的表示。

圖片

實(shí)現(xiàn)MVSSL的具體方法有很多,但大致可以分為四類:對(duì)比、聚類、蒸餾/動(dòng)量、冗余減少。

在這眾多的方法中,最大流形容量表示(Maximum Manifold Capacity Representation,MMCR)是與眾不同的一類。

圖片

MMCR不明確使用對(duì)比,不執(zhí)行聚類,不利用蒸餾,也不明確減少冗余,但效果卻可以媲美甚至超越其他領(lǐng)先的MVSSL方法。

而來自斯坦福、MIT、紐約大學(xué)和Meta-FAIR等機(jī)構(gòu)的研究人員,正在通過新的研究重新定義這個(gè)框架的可能性。

圖片

論文地址:https://arxiv.org/pdf/2406.09366

作為論文作者之一,LeCun也發(fā)推表達(dá)了自己的觀點(diǎn):

圖片

除非使用預(yù)防機(jī)制,否則使用SSL訓(xùn)練聯(lián)合嵌入架構(gòu)會(huì)導(dǎo)致崩潰:系統(tǒng)學(xué)習(xí)到的表示信息不夠豐富,甚至是恒定不變的。


人們?cè)O(shè)計(jì)了多種方法來防止這種崩潰。

一類方法是樣本對(duì)比:確保不同的輸入產(chǎn)生不同的表示。

另一類是維度對(duì)比:確保表示的不同變量對(duì)輸入的不同方面進(jìn)行編碼。


兩種類型的方法都可以從信息最大化參數(shù)中派生出來:確保表示形式盡可能多的編碼有關(guān)輸入的信息。


方差-協(xié)方差正則化、MMCR和MCR2(來自伯克利大學(xué)馬毅團(tuán)隊(duì))都是infomax維度對(duì)比方法。

信息最大化維度對(duì)比方法的核心思想,是推動(dòng)編碼器學(xué)習(xí)輸入的表示,使其盡可能充分地利用表示空間,就像在有限的畫布上盡可能展現(xiàn)豐富的細(xì)節(jié)。

為了更好地理解MMCR,研究人員利用高維概率工具證明了,MMCR可以激勵(lì)學(xué)習(xí)嵌入的對(duì)齊和均勻性。

同時(shí),這種嵌入最大化了視圖之間的互信息的下界,從而將MMCR的幾何視角與MVSSL中的信息論視角聯(lián)系起來。

為了更好地利用MMCR,研究人員對(duì)預(yù)訓(xùn)練損失的非單調(diào)變化進(jìn)行數(shù)學(xué)預(yù)測和實(shí)驗(yàn)確認(rèn),發(fā)現(xiàn)了類似于雙下降的行為。

此外,研究人員還發(fā)現(xiàn)了計(jì)算上的scaling law,可以將預(yù)訓(xùn)練損失預(yù)測為梯度步長、批量大小、嵌入維度和視圖數(shù)量的函數(shù)。

最終,作者證明了這個(gè)最初應(yīng)用于圖像數(shù)據(jù)的MMCR方法,在多模態(tài)圖像文本數(shù)據(jù)上同樣表現(xiàn)優(yōu)異。

MMCR

MMCR由紐約大學(xué)數(shù)據(jù)科學(xué)中心(NYU Center for Data Science,CDS)的研究人員于2023年提出。

該方法源于神經(jīng)科學(xué)中的有效編碼假說:生物感覺系統(tǒng)通過使感覺表征適應(yīng)輸入信號(hào)的統(tǒng)計(jì)數(shù)據(jù)來優(yōu)化,例如減少冗余或維度。

最初的MMCR框架通過調(diào)整「流形容量」(衡量給定表示空間內(nèi)可以線性分離的對(duì)象類別數(shù)量的指標(biāo))將這一想法從神經(jīng)科學(xué)擴(kuò)展到了人工神經(jīng)網(wǎng)絡(luò)。

許多MVSSL方法要么明確源自信息論,要么可以從信息論的角度來理解,但MMCR不同。

MMCR指出估計(jì)高維互信息已被證明是困難的,且逼近互信息可能不會(huì)改善表示。MMCR的基礎(chǔ)在于數(shù)據(jù)流形線性可分性的統(tǒng)計(jì)力學(xué)表征。

不過LeCun等人的這篇工作,將MMCR的幾何基礎(chǔ)與信息論原理聯(lián)系起來,探索了MMCR的更深層次機(jī)制,并將其應(yīng)用擴(kuò)展到了多模態(tài)數(shù)據(jù),例如圖像文本對(duì)。

圖片

理論基礎(chǔ)

MMCR源自有關(guān)線性二元分類器性能的經(jīng)典結(jié)果??紤]D維度中的P點(diǎn)(數(shù)據(jù)),具有任意分配的二進(jìn)制類標(biāo)簽;線性二元分類器能夠成功對(duì)點(diǎn)進(jìn)行分類的概率是多少?

統(tǒng)計(jì)力學(xué)計(jì)算表明,在熱力學(xué)極限下,容量α= 2時(shí)會(huì)發(fā)生相變。MMCR將此結(jié)果從點(diǎn)擴(kuò)展到流形:

圖片

圖片

最小化MMCR損失意味著最大化平均矩陣的核范數(shù)。

直觀上,完美重建意味著同一數(shù)據(jù)的所有視圖都被網(wǎng)絡(luò)映射到相同的嵌入,完美均勻性意味著嵌入均勻分布在超球面周圍。

圖片

具有完美重建和完美均勻性的嵌入實(shí)現(xiàn)了盡可能低的MMCR損失

基于對(duì)MMCR嵌入分布的新認(rèn)識(shí),我們?nèi)绾螌MCR的統(tǒng)計(jì)力學(xué)幾何觀點(diǎn)與信息論觀點(diǎn)聯(lián)系起來?

答案是,MMCR激勵(lì)表示的最大化,對(duì)應(yīng)于同一數(shù)據(jù)的兩個(gè)視圖的兩個(gè)嵌入共享的互信息的下限。

考慮某些輸入數(shù)據(jù)兩個(gè)不同視圖的嵌入之間的互信息。兩個(gè)視圖之間的互信息必須至少與兩項(xiàng)之和一樣大:一個(gè)嵌入重建另一個(gè)的能力,再加上嵌入的熵:

圖片

MMCR的雙下降

通過高維概率分析可知,預(yù)測最大流形容量表示的預(yù)訓(xùn)練損失,也應(yīng)該在其預(yù)訓(xùn)練損失中表現(xiàn)出非單調(diào)雙下降樣行為。

(雙下降:測試損失作為數(shù)據(jù)總數(shù)和模型參數(shù)數(shù)量的函數(shù)表現(xiàn)出非單調(diào)變化 )。

然而,本文的分析也表明,這種類似雙下降的行為應(yīng)該發(fā)生在非典型參數(shù)(流形的數(shù)量P和維數(shù)D)上,而不是數(shù)據(jù)的數(shù)量和模型的參數(shù)量。

具體來說,理論預(yù)測最高的預(yù)訓(xùn)練誤差應(yīng)該恰好發(fā)生在閾值P = D處,預(yù)訓(xùn)練誤差落在閾值的兩側(cè)。

圖片

為了比較不同超參數(shù)對(duì)的點(diǎn)數(shù)P和數(shù)據(jù)維度D之間的損失,這里使用MMCR預(yù)訓(xùn)練界限來定義預(yù)訓(xùn)練百分比誤差:

圖片

研究人員在STL-10上預(yù)訓(xùn)練了ResNet-18,STL-10是一個(gè)與CIFAR-10類似的數(shù)據(jù)集,但分辨率更高 (96x96x3),并且包含100000張圖像的附加未標(biāo)記分割。

掃描范圍P:{64, 128, 256, 512, 1024} × D:{64, 128, 256, 512, 1024} × K:{2, 4, 8}(K為視圖數(shù)),結(jié)果如上圖所示。

Compute Scaling Laws

在許多MVSSL方法中,更改超參數(shù)通常會(huì)導(dǎo)致預(yù)訓(xùn)練損失不相稱,從而使運(yùn)行之間的比較變得困難。

然而,MMCR預(yù)訓(xùn)練百分比誤差產(chǎn)生的數(shù)量介于0和1之間,因此可以將不同超參數(shù)(P和D)時(shí)的訓(xùn)練情況放在一起比較。

執(zhí)行這樣的比較會(huì)產(chǎn)生有趣的經(jīng)驗(yàn)現(xiàn)象:計(jì)算MMCR預(yù)訓(xùn)練百分比誤差中的神經(jīng)縮放定律。

圖片

通過繪制在STL-10上預(yù)訓(xùn)練的ResNet-18網(wǎng)絡(luò),我們可以清楚地看到預(yù)訓(xùn)練百分比誤差的冪律縮放與所有點(diǎn)數(shù)P 、嵌入維度D和視圖數(shù)量K的計(jì)算量的關(guān)系。

一個(gè)關(guān)鍵細(xì)節(jié)是這些神經(jīng)縮放曲線突出了類似雙下降的行為:對(duì)角線子圖(P = D時(shí))具有較高的預(yù)訓(xùn)練百分比誤差和較小的預(yù)訓(xùn)練百分比斜率。

MMCR與多模態(tài)

考慮OpenAI的對(duì)比語言圖像預(yù)訓(xùn)練模型CLIP的設(shè)置,兩個(gè)不同的網(wǎng)絡(luò)在圖像文本標(biāo)題對(duì)上進(jìn)行預(yù)訓(xùn)練,從兩個(gè)不同的數(shù)據(jù)域X和Y獲取數(shù)據(jù)。

X和Y是配對(duì)的,使得X中的每個(gè)示例在Y中都有對(duì)應(yīng)的正對(duì),反之亦然。從MMCR角度來看,X和Y可以理解為同一底層對(duì)象的兩個(gè)視圖。

因此,最優(yōu)變換嵌入f(X)和g(Y)應(yīng)映射到同一空間,并且我們可以利用對(duì)MMCR的改進(jìn)理解來訓(xùn)練這些最優(yōu)網(wǎng)絡(luò)。

與常見的MVSSL不同,這里的X和Y在實(shí)踐中可能代表極其不同的分布。

圖片

在上圖的圖像-文本對(duì)齊實(shí)驗(yàn)中,作者將多模態(tài)MMCR應(yīng)用于DataComp-Small,并將零樣本Imagenet性能與標(biāo)準(zhǔn)CLIP目標(biāo)進(jìn)行比較。

可以發(fā)現(xiàn),多模態(tài)MMCR在小批量(< 512)下表現(xiàn)優(yōu)于CLIP。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2020-12-10 20:00:04

數(shù)字貨幣比特幣區(qū)塊鏈

2010-05-07 14:22:43

SpringSourcGemStoneSpring

2021-04-27 11:20:20

機(jī)器學(xué)習(xí)骨科醫(yī)療

2015-10-23 10:53:54

OpenStackNFV網(wǎng)絡(luò)功能虛擬化

2015-03-10 10:43:26

微波無線輸電

2015-10-19 14:57:51

2020-12-17 09:48:35

人工智能開發(fā)醫(yī)療

2015-12-14 11:42:27

指紋安全指紋掃描指紋識(shí)別

2011-07-27 12:58:43

Android MarAndroid應(yīng)用商店

2013-11-07 09:07:58

Windows PhoWindows8開發(fā)者

2023-02-06 14:50:41

2011-07-29 15:02:22

LifeSize視頻協(xié)作

2023-09-01 18:20:43

Chrome代碼測試版

2019-03-22 10:20:39

加速Windows 10啟動(dòng)

2023-11-23 15:54:01

人工智能監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)

2015-12-25 09:57:02

阿里云云棲大會(huì)大數(shù)據(jù)

2009-08-26 14:48:05

C#委托與事件

2009-12-28 10:08:07

OracleSQLDevelope開發(fā)框架

2024-05-10 15:09:34

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)