自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<big id="d1qyo"><code id="d1qyo"><option id="d1qyo"></option></code></big>

<sub id="d1qyo"><p id="d1qyo"></p></sub>

<cite id="d1qyo"></cite>

<p id="d1qyo"><li id="d1qyo"></li></p>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

重新定義自監(jiān)督學(xué)習(xí)！LeCun團(tuán)隊(duì)讓MMCR再進(jìn)一步

作者：新智元 2024-10-16 16:00:00

人工智能新聞

近日，來自斯坦福、MIT、紐約大學(xué)和Meta-FAIR等機(jī)構(gòu)的研究人員，通過新的研究重新定義了最大流形容量表示法（MMCR）的可能性。

多視圖自監(jiān)督學(xué)習(xí)（MVSSL，或稱為聯(lián)合嵌入自監(jiān)督學(xué)習(xí)）是一種強(qiáng)大的無監(jiān)督學(xué)習(xí)方法。它首先創(chuàng)建無監(jiān)督數(shù)據(jù)的多個(gè)轉(zhuǎn)換或視圖，然后以類似監(jiān)督的方式使用這些視圖來學(xué)習(xí)有用的表示。

實(shí)現(xiàn)MVSSL的具體方法有很多，但大致可以分為四類：對(duì)比、聚類、蒸餾/動(dòng)量、冗余減少。

在這眾多的方法中，最大流形容量表示（Maximum Manifold Capacity Representation，MMCR）是與眾不同的一類。

MMCR不明確使用對(duì)比，不執(zhí)行聚類，不利用蒸餾，也不明確減少冗余，但效果卻可以媲美甚至超越其他領(lǐng)先的MVSSL方法。

而來自斯坦福、MIT、紐約大學(xué)和Meta-FAIR等機(jī)構(gòu)的研究人員，正在通過新的研究重新定義這個(gè)框架的可能性。

論文地址：https://arxiv.org/pdf/2406.09366

作為論文作者之一，LeCun也發(fā)推表達(dá)了自己的觀點(diǎn)：

除非使用預(yù)防機(jī)制，否則使用SSL訓(xùn)練聯(lián)合嵌入架構(gòu)會(huì)導(dǎo)致崩潰：系統(tǒng)學(xué)習(xí)到的表示信息不夠豐富，甚至是恒定不變的。

人們?cè)O(shè)計(jì)了多種方法來防止這種崩潰。
一類方法是樣本對(duì)比：確保不同的輸入產(chǎn)生不同的表示。
另一類是維度對(duì)比：確保表示的不同變量對(duì)輸入的不同方面進(jìn)行編碼。

兩種類型的方法都可以從信息最大化參數(shù)中派生出來：確保表示形式盡可能多的編碼有關(guān)輸入的信息。

方差-協(xié)方差正則化、MMCR和MCR2（來自伯克利大學(xué)馬毅團(tuán)隊(duì)）都是infomax維度對(duì)比方法。

信息最大化維度對(duì)比方法的核心思想，是推動(dòng)編碼器學(xué)習(xí)輸入的表示，使其盡可能充分地利用表示空間，就像在有限的畫布上盡可能展現(xiàn)豐富的細(xì)節(jié)。

為了更好地理解MMCR，研究人員利用高維概率工具證明了，MMCR可以激勵(lì)學(xué)習(xí)嵌入的對(duì)齊和均勻性。

同時(shí)，這種嵌入最大化了視圖之間的互信息的下界，從而將MMCR的幾何視角與MVSSL中的信息論視角聯(lián)系起來。

為了更好地利用MMCR，研究人員對(duì)預(yù)訓(xùn)練損失的非單調(diào)變化進(jìn)行數(shù)學(xué)預(yù)測和實(shí)驗(yàn)確認(rèn)，發(fā)現(xiàn)了類似于雙下降的行為。

此外，研究人員還發(fā)現(xiàn)了計(jì)算上的scaling law，可以將預(yù)訓(xùn)練損失預(yù)測為梯度步長、批量大小、嵌入維度和視圖數(shù)量的函數(shù)。

最終，作者證明了這個(gè)最初應(yīng)用于圖像數(shù)據(jù)的MMCR方法，在多模態(tài)圖像文本數(shù)據(jù)上同樣表現(xiàn)優(yōu)異。

MMCR

MMCR由紐約大學(xué)數(shù)據(jù)科學(xué)中心（NYU Center for Data Science，CDS）的研究人員于2023年提出。

該方法源于神經(jīng)科學(xué)中的有效編碼假說：生物感覺系統(tǒng)通過使感覺表征適應(yīng)輸入信號(hào)的統(tǒng)計(jì)數(shù)據(jù)來優(yōu)化，例如減少冗余或維度。

最初的MMCR框架通過調(diào)整「流形容量」（衡量給定表示空間內(nèi)可以線性分離的對(duì)象類別數(shù)量的指標(biāo)）將這一想法從神經(jīng)科學(xué)擴(kuò)展到了人工神經(jīng)網(wǎng)絡(luò)。

許多MVSSL方法要么明確源自信息論，要么可以從信息論的角度來理解，但MMCR不同。

MMCR指出估計(jì)高維互信息已被證明是困難的，且逼近互信息可能不會(huì)改善表示。MMCR的基礎(chǔ)在于數(shù)據(jù)流形線性可分性的統(tǒng)計(jì)力學(xué)表征。

不過LeCun等人的這篇工作，將MMCR的幾何基礎(chǔ)與信息論原理聯(lián)系起來，探索了MMCR的更深層次機(jī)制，并將其應(yīng)用擴(kuò)展到了多模態(tài)數(shù)據(jù)，例如圖像文本對(duì)。

理論基礎(chǔ)

MMCR源自有關(guān)線性二元分類器性能的經(jīng)典結(jié)果?？紤]D維度中的P點(diǎn)（數(shù)據(jù)），具有任意分配的二進(jìn)制類標(biāo)簽；線性二元分類器能夠成功對(duì)點(diǎn)進(jìn)行分類的概率是多少？

統(tǒng)計(jì)力學(xué)計(jì)算表明，在熱力學(xué)極限下，容量α= 2時(shí)會(huì)發(fā)生相變。MMCR將此結(jié)果從點(diǎn)擴(kuò)展到流形：

最小化MMCR損失意味著最大化平均矩陣的核范數(shù)。

直觀上，完美重建意味著同一數(shù)據(jù)的所有視圖都被網(wǎng)絡(luò)映射到相同的嵌入，完美均勻性意味著嵌入均勻分布在超球面周圍。

具有完美重建和完美均勻性的嵌入實(shí)現(xiàn)了盡可能低的MMCR損失

基于對(duì)MMCR嵌入分布的新認(rèn)識(shí)，我們?nèi)绾螌MCR的統(tǒng)計(jì)力學(xué)幾何觀點(diǎn)與信息論觀點(diǎn)聯(lián)系起來？

答案是，MMCR激勵(lì)表示的最大化，對(duì)應(yīng)于同一數(shù)據(jù)的兩個(gè)視圖的兩個(gè)嵌入共享的互信息的下限。

考慮某些輸入數(shù)據(jù)兩個(gè)不同視圖的嵌入之間的互信息。兩個(gè)視圖之間的互信息必須至少與兩項(xiàng)之和一樣大：一個(gè)嵌入重建另一個(gè)的能力，再加上嵌入的熵：

MMCR的雙下降

通過高維概率分析可知，預(yù)測最大流形容量表示的預(yù)訓(xùn)練損失，也應(yīng)該在其預(yù)訓(xùn)練損失中表現(xiàn)出非單調(diào)雙下降樣行為。

（雙下降：測試損失作為數(shù)據(jù)總數(shù)和模型參數(shù)數(shù)量的函數(shù)表現(xiàn)出非單調(diào)變化）。

然而，本文的分析也表明，這種類似雙下降的行為應(yīng)該發(fā)生在非典型參數(shù)（流形的數(shù)量P和維數(shù)D）上，而不是數(shù)據(jù)的數(shù)量和模型的參數(shù)量。

具體來說，理論預(yù)測最高的預(yù)訓(xùn)練誤差應(yīng)該恰好發(fā)生在閾值P = D處，預(yù)訓(xùn)練誤差落在閾值的兩側(cè)。

為了比較不同超參數(shù)對(duì)的點(diǎn)數(shù)P和數(shù)據(jù)維度D之間的損失，這里使用MMCR預(yù)訓(xùn)練界限來定義預(yù)訓(xùn)練百分比誤差：

研究人員在STL-10上預(yù)訓(xùn)練了ResNet-18，STL-10是一個(gè)與CIFAR-10類似的數(shù)據(jù)集，但分辨率更高 (96x96x3)，并且包含100000張圖像的附加未標(biāo)記分割。

掃描范圍P：{64, 128, 256, 512, 1024} × D：{64, 128, 256, 512, 1024} × K：{2, 4, 8}（K為視圖數(shù)），結(jié)果如上圖所示。

Compute Scaling Laws

在許多MVSSL方法中，更改超參數(shù)通常會(huì)導(dǎo)致預(yù)訓(xùn)練損失不相稱，從而使運(yùn)行之間的比較變得困難。

然而，MMCR預(yù)訓(xùn)練百分比誤差產(chǎn)生的數(shù)量介于0和1之間，因此可以將不同超參數(shù)（P和D）時(shí)的訓(xùn)練情況放在一起比較。

執(zhí)行這樣的比較會(huì)產(chǎn)生有趣的經(jīng)驗(yàn)現(xiàn)象：計(jì)算MMCR預(yù)訓(xùn)練百分比誤差中的神經(jīng)縮放定律。

通過繪制在STL-10上預(yù)訓(xùn)練的ResNet-18網(wǎng)絡(luò)，我們可以清楚地看到預(yù)訓(xùn)練百分比誤差的冪律縮放與所有點(diǎn)數(shù)P 、嵌入維度D和視圖數(shù)量K的計(jì)算量的關(guān)系。

一個(gè)關(guān)鍵細(xì)節(jié)是這些神經(jīng)縮放曲線突出了類似雙下降的行為：對(duì)角線子圖（P = D時(shí)）具有較高的預(yù)訓(xùn)練百分比誤差和較小的預(yù)訓(xùn)練百分比斜率。

MMCR與多模態(tài)

考慮OpenAI的對(duì)比語言圖像預(yù)訓(xùn)練模型CLIP的設(shè)置，兩個(gè)不同的網(wǎng)絡(luò)在圖像文本標(biāo)題對(duì)上進(jìn)行預(yù)訓(xùn)練，從兩個(gè)不同的數(shù)據(jù)域X和Y獲取數(shù)據(jù)。

X和Y是配對(duì)的，使得X中的每個(gè)示例在Y中都有對(duì)應(yīng)的正對(duì)，反之亦然。從MMCR角度來看，X和Y可以理解為同一底層對(duì)象的兩個(gè)視圖。

因此，最優(yōu)變換嵌入f(X)和g(Y)應(yīng)映射到同一空間，并且我們可以利用對(duì)MMCR的改進(jìn)理解來訓(xùn)練這些最優(yōu)網(wǎng)絡(luò)。

與常見的MVSSL不同，這里的X和Y在實(shí)踐中可能代表極其不同的分布。

在上圖的圖像-文本對(duì)齊實(shí)驗(yàn)中，作者將多模態(tài)MMCR應(yīng)用于DataComp-Small，并將零樣本Imagenet性能與標(biāo)準(zhǔn)CLIP目標(biāo)進(jìn)行比較。

可以發(fā)現(xiàn)，多模態(tài)MMCR在小批量（< 512）下表現(xiàn)優(yōu)于CLIP。

責(zé)任編輯：張燕妮來源：新智元

訓(xùn)練 AI

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<blockquote id="rtsii"><p id="rtsii"><li id="rtsii"></li></p></blockquote>