自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sup id="kz6bd"><rt id="kz6bd"></rt></sup>

^{<blockquote id="kz6bd"></blockquote>}

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

LeCun新作，一張卡就能訓(xùn)！方差正則，稀疏編碼器不再崩潰

作者：佚名 2022-01-05 11:10:34

新聞深度學(xué)習(xí)

最近LeCun又發(fā)新作，依然是崩潰問題，依然是自監(jiān)督，這次提出了一個(gè)新的正則化方法：方差正則，可以有效防止編碼崩潰，還能提升重構(gòu)質(zhì)量，一張顯卡就能訓(xùn)！

最近LeCun又發(fā)新作，依然是崩潰問題，依然是自監(jiān)督，這次提出了一個(gè)新的正則化方法：方差正則，可以有效防止編碼崩潰，還能提升重構(gòu)質(zhì)量，一張顯卡就能訓(xùn)！

神經(jīng)網(wǎng)絡(luò)中有一類學(xué)習(xí)特別受研究人員的青睞，那就是自監(jiān)督學(xué)習(xí)（self-supervised learning SSL）。

只要給足夠多的數(shù)據(jù)，自監(jiān)督學(xué)習(xí)能夠在完全不需要人工標(biāo)注的情況下，學(xué)習(xí)到文本、圖像的表征，并且數(shù)據(jù)量越大、模型參數(shù)量越大，效果越好。

自監(jiān)督學(xué)習(xí)的工作原理也很簡(jiǎn)單：例如應(yīng)用場(chǎng)景是圖片的話，我們可以把SSL模型的輸入和輸出都設(shè)置為同一張圖片，中間加入一個(gè)隱藏層，然后開訓(xùn)！

一個(gè)最簡(jiǎn)單的自編碼器AutoEncoder就弄好了。

LeCun新作，一張卡就能訓(xùn)！方差正則，稀疏編碼器不再崩潰

通常來(lái)說隱藏層的神經(jīng)元數(shù)量是要小于輸入圖片的，這樣訓(xùn)練后，自編碼器的中間隱藏層就可以作為圖片的表征向量，因?yàn)橛?xùn)練過程的目標(biāo)就是僅用該隱藏向量即可還原圖片。

自編碼器最初提出是基于降維的思想，但是當(dāng)隱層節(jié)點(diǎn)比輸入節(jié)點(diǎn)多時(shí)，自編碼器就會(huì)失去自動(dòng)學(xué)習(xí)樣本特征的能力，此時(shí)就需要對(duì)隱藏層節(jié)點(diǎn)進(jìn)行一定的約束。

稀疏自編碼器應(yīng)運(yùn)而生，約束的出發(fā)點(diǎn)來(lái)自于：高維而稀疏的表達(dá)是好的。所以只需要對(duì)隱藏層節(jié)點(diǎn)進(jìn)行稀疏性約束即可。

常用的稀疏編碼方式當(dāng)然是L1正則。

最近LeCun提出了一種新的稀疏編碼協(xié)議可以防止編碼的崩潰，而不需要對(duì)解碼器進(jìn)行正則化處理。新的編碼協(xié)議直接對(duì)編碼進(jìn)行正則化，使每個(gè)潛碼成分（latent code component）在一組給定的輸入的稀疏表示上具有大于固定閾值的方差。

LeCun新作，一張卡就能訓(xùn)！方差正則，稀疏編碼器不再崩潰

論文：https://arxiv.org/abs/2112.09214

開源代碼：https://github.com/kevtimova/deep-sparse

此外，研究人員還探索了如何利用多層解碼器來(lái)有效訓(xùn)練稀疏編碼系統(tǒng)的方法，可以比線性字典（linear dictionary）模擬更復(fù)雜的關(guān)系。

在對(duì)MNIST和自然圖像塊（natural image patch）的實(shí)驗(yàn)中，實(shí)驗(yàn)結(jié)果表明使用新方法學(xué)習(xí)到的解碼器在線性和多層情況下都有可解釋的特征。

與使用線性字典的自動(dòng)編碼器相比，使用方差正則化方法訓(xùn)練的具有多層解碼器的稀疏自動(dòng)編碼器可以產(chǎn)生更高質(zhì)量的重建，也表明方差正則化方法得到的稀疏表征在低數(shù)據(jù)量下的去噪和分類等下游任務(wù)中很有用。

論文中LeCun的作者單位也是從FAIR更名為Meta AI Research（MAIR）。

方差正則

給定一個(gè)輸入y和一個(gè)固定的解碼器D，研究人員使用FISTA算法（近似梯度方法ISTA的快速版）進(jìn)行推理來(lái)找到一個(gè)稀疏編碼z*，得到的z*可以使用D中的元素最好地重建輸入y。

解碼器D的權(quán)重是通過最小化輸入y和從z∗計(jì)算出的重構(gòu)y之間的平均平方誤差（MSE）來(lái)訓(xùn)練得到的。

編碼器E的權(quán)重則是通過預(yù)測(cè)FISTA的輸出z∗得到。

LeCun新作，一張卡就能訓(xùn)！方差正則，稀疏編碼器不再崩潰

為了防止?jié)摯a的L1正則崩潰，研究人員加入了一個(gè)限制條件，確保每個(gè)潛碼方差大于預(yù)先設(shè)定的閾值。主要實(shí)現(xiàn)方法就是對(duì)能量函數(shù)加入一個(gè)正則化項(xiàng)，從而能夠促使所有潛碼分量的方差保持在預(yù)設(shè)的閾值以上。

LeCun新作，一張卡就能訓(xùn)！方差正則，稀疏編碼器不再崩潰

更具體地說，研究人員修改了推理過程中的目標(biāo)函數(shù)來(lái)最小化能量。

LeCun新作，一張卡就能訓(xùn)！方差正則，稀疏編碼器不再崩潰

其中hinge項(xiàng)與L1懲罰項(xiàng)相抵消作為新的正則化項(xiàng)，新的方程可以鼓勵(lì)每個(gè)潛伏代碼成分的方差保持在的閾值以上，從而可以防止?jié)摯a的L1正則崩潰，進(jìn)而無(wú)需對(duì)解碼器權(quán)重進(jìn)行正則化。

重構(gòu)項(xiàng)求和之后的梯度和潛碼z對(duì)應(yīng)。

LeCun新作，一張卡就能訓(xùn)！方差正則，稀疏編碼器不再崩潰

對(duì)于線性解碼器來(lái)說，盡管hinge項(xiàng)不是光滑的凸函數(shù)，但梯度是一條線（line）意味著hinge項(xiàng)在局部表現(xiàn)得像一個(gè)凸二次函數(shù)。

LeCun新作，一張卡就能訓(xùn)！方差正則，稀疏編碼器不再崩潰

訓(xùn)練過程中，研究人員將編碼器E與解碼器D同時(shí)訓(xùn)練來(lái)預(yù)測(cè)FISTA推理計(jì)算的稀疏編碼。

同時(shí)訓(xùn)練的第一個(gè)原因是為了避免在解碼器訓(xùn)練完成后使用批量統(tǒng)計(jì)來(lái)計(jì)算編碼。事實(shí)上，應(yīng)該可以為不同的輸入獨(dú)立地計(jì)算編碼。

第二個(gè)原因是為了減少推理時(shí)間。編碼器和解碼器的訓(xùn)練完成后，編碼器可以直接計(jì)算輸入的稀疏表示，這樣就不需要用FISTA進(jìn)行推理，即編碼器可以進(jìn)行amoritized推理。

LeCun新作，一張卡就能訓(xùn)！方差正則，稀疏編碼器不再崩潰

編碼器的正則項(xiàng)可以促使FISTA找到可以被編碼器學(xué)習(xí)到的編碼。在實(shí)驗(yàn)設(shè)置中，編碼器的預(yù)測(cè)通常被視為常數(shù)（constants），用作FIST編碼的初始值。

LeCun新作，一張卡就能訓(xùn)！方差正則，稀疏編碼器不再崩潰

如果編碼器提供了一個(gè)好的初始值，則可以通過減少FISTA迭代的次數(shù)來(lái)減少推理時(shí)間。

實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)中的編碼器為一個(gè)LISTA（Learned ISTA）編碼器，它的設(shè)計(jì)是為了模仿ISTA推理的輸出，類似于一個(gè)遞歸神經(jīng)網(wǎng)絡(luò)。編碼器由兩個(gè)全連接層，一個(gè)偏置項(xiàng)，以及ReLU激活函數(shù)組成。

LeCun新作，一張卡就能訓(xùn)！方差正則，稀疏編碼器不再崩潰

線性解碼器的參數(shù)簡(jiǎn)單地說是一個(gè)線性變換，將編碼映射到輸入數(shù)據(jù)的重構(gòu)維度上，在線性變換中沒有偏置項(xiàng)。

在非線性解碼器的情況下，使用一個(gè)大小為m的隱藏層和大小為l的輸入層（潛碼的size）的全連接網(wǎng)絡(luò)，使用ReLU作為隱藏層的激活函數(shù)。將輸入代碼映射到隱含表征的層中有一個(gè)偏置項(xiàng)，而將隱含表征映射到輸出的層沒有偏置項(xiàng)。

在推理過程中，編碼z被限制為非負(fù)值。MNIST實(shí)驗(yàn)中潛碼的維度為128，在ImageNet patch的實(shí)驗(yàn)中則是256，當(dāng)batch size為250時(shí)，對(duì)于VDL中每個(gè)潛成分（latent component）的方差的正則化項(xiàng)來(lái)說是足夠大的。

將FISTA的最大迭代次數(shù)K設(shè)置為200次，已經(jīng)足以實(shí)現(xiàn)一個(gè)效果不錯(cuò)的重構(gòu)模型了。

在自編碼器訓(xùn)練中，研究人員設(shè)置MNIST的epoch為200，image patch則為100。在SDL和SDL-NL實(shí)驗(yàn)中，將解碼器的全連接層W、W1和W2中的列的L2正則固定為1，并保存輸出平均能量最低的自編碼器。

研究人員還對(duì)SDL-NL和VDL-NL模型中的偏置項(xiàng)b1以及LISTA編碼器中的偏置項(xiàng)b增加了權(quán)重衰減，以防止其正則化項(xiàng)無(wú)限膨脹。

模型的訓(xùn)練只需要一塊NVIDIA RTX 8000 GPU卡，并且所有實(shí)驗(yàn)的運(yùn)行時(shí)間都在24小時(shí)以內(nèi)。

實(shí)驗(yàn)結(jié)果可以看到，對(duì)于兩個(gè)SDL和兩個(gè)VDL的字典元素（dictionary elements）來(lái)說，在稀疏度λ較低的情況下（0.001， 0.005）解碼器似乎可以學(xué)到方向、筆劃，甚至是是數(shù)字圖形中的一部分。

LeCun新作，一張卡就能訓(xùn)！方差正則，稀疏編碼器不再崩潰

隨著λ值的提高，生成的圖像也越來(lái)越像一個(gè)完整的數(shù)字，完成了從筆劃到數(shù)字的演化。

在重構(gòu)質(zhì)量上，SDL和VDL模型的編碼器的曲線顯示了由未激活編碼（值為0）成分的平均百分比衡量的稀疏程度和由平均PSNR衡量的重建質(zhì)量之間的權(quán)衡。

LeCun新作，一張卡就能訓(xùn)！方差正則，稀疏編碼器不再崩潰

在5個(gè)隨機(jī)種子上的測(cè)試集所衡量的重建質(zhì)量和預(yù)期相符，較高的稀疏度會(huì)導(dǎo)致更差的重建效果，但用文中提出的方差正則化方法訓(xùn)練出來(lái)的模型則會(huì)比SDL 模型在更高的稀疏程度下產(chǎn)生更好的重建效果，從而證實(shí)了方差正則化確實(shí)是有效的。

責(zé)任編輯：張燕妮來(lái)源：新智元

神經(jīng)網(wǎng)絡(luò)AI 算法

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<cite id="l24v3"></cite>