自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

LeCun新作,一張卡就能訓(xùn)!方差正則,稀疏編碼器不再崩潰

新聞 深度學(xué)習(xí)
最近LeCun又發(fā)新作,依然是崩潰問題,依然是自監(jiān)督,這次提出了一個(gè)新的正則化方法:方差正則,可以有效防止編碼崩潰,還能提升重構(gòu)質(zhì)量,一張顯卡就能訓(xùn)!

 

最近LeCun又發(fā)新作,依然是崩潰問題,依然是自監(jiān)督,這次提出了一個(gè)新的正則化方法:方差正則,可以有效防止編碼崩潰,還能提升重構(gòu)質(zhì)量,一張顯卡就能訓(xùn)!

神經(jīng)網(wǎng)絡(luò)中有一類學(xué)習(xí)特別受研究人員的青睞,那就是自監(jiān)督學(xué)習(xí)(self-supervised learning SSL)。

只要給足夠多的數(shù)據(jù),自監(jiān)督學(xué)習(xí)能夠在完全不需要人工標(biāo)注的情況下,學(xué)習(xí)到文本、圖像的表征,并且數(shù)據(jù)量越大、模型參數(shù)量越大,效果越好。

自監(jiān)督學(xué)習(xí)的工作原理也很簡(jiǎn)單:例如應(yīng)用場(chǎng)景是圖片的話,我們可以把SSL模型的輸入和輸出都設(shè)置為同一張圖片,中間加入一個(gè)隱藏層,然后開訓(xùn)!

一個(gè)最簡(jiǎn)單的自編碼器AutoEncoder就弄好了。

LeCun新作,一張卡就能訓(xùn)!方差正則,稀疏編碼器不再崩潰

通常來(lái)說隱藏層的神經(jīng)元數(shù)量是要小于輸入圖片的,這樣訓(xùn)練后,自編碼器的中間隱藏層就可以作為圖片的表征向量,因?yàn)橛?xùn)練過程的目標(biāo)就是僅用該隱藏向量即可還原圖片。

自編碼器最初提出是基于降維的思想,但是當(dāng)隱層節(jié)點(diǎn)比輸入節(jié)點(diǎn)多時(shí),自編碼器就會(huì)失去自動(dòng)學(xué)習(xí)樣本特征的能力,此時(shí)就需要對(duì)隱藏層節(jié)點(diǎn)進(jìn)行一定的約束。

稀疏自編碼器應(yīng)運(yùn)而生,約束的出發(fā)點(diǎn)來(lái)自于:高維而稀疏的表達(dá)是好的。所以只需要對(duì)隱藏層節(jié)點(diǎn)進(jìn)行稀疏性約束即可。

常用的稀疏編碼方式當(dāng)然是L1正則。

最近LeCun提出了一種新的稀疏編碼協(xié)議可以防止編碼的崩潰,而不需要對(duì)解碼器進(jìn)行正則化處理。新的編碼協(xié)議直接對(duì)編碼進(jìn)行正則化,使每個(gè)潛碼成分(latent code component)在一組給定的輸入的稀疏表示上具有大于固定閾值的方差。

LeCun新作,一張卡就能訓(xùn)!方差正則,稀疏編碼器不再崩潰

論文:https://arxiv.org/abs/2112.09214

開源代碼:https://github.com/kevtimova/deep-sparse

此外,研究人員還探索了如何利用多層解碼器來(lái)有效訓(xùn)練稀疏編碼系統(tǒng)的方法,可以比線性字典(linear dictionary)模擬更復(fù)雜的關(guān)系。

在對(duì)MNIST和自然圖像塊(natural image patch)的實(shí)驗(yàn)中,實(shí)驗(yàn)結(jié)果表明使用新方法學(xué)習(xí)到的解碼器在線性和多層情況下都有可解釋的特征。

與使用線性字典的自動(dòng)編碼器相比,使用方差正則化方法訓(xùn)練的具有多層解碼器的稀疏自動(dòng)編碼器可以產(chǎn)生更高質(zhì)量的重建,也表明方差正則化方法得到的稀疏表征在低數(shù)據(jù)量下的去噪和分類等下游任務(wù)中很有用。

論文中LeCun的作者單位也是從FAIR更名為Meta AI Research(MAIR)。

方差正則

給定一個(gè)輸入y和一個(gè)固定的解碼器D,研究人員使用FISTA算法(近似梯度方法ISTA的快速版)進(jìn)行推理來(lái)找到一個(gè)稀疏編碼z*,得到的z*可以使用D中的元素最好地重建輸入y。

解碼器D的權(quán)重是通過最小化輸入y和從z∗計(jì)算出的重構(gòu)y之間的平均平方誤差(MSE)來(lái)訓(xùn)練得到的。

編碼器E的權(quán)重則是通過預(yù)測(cè)FISTA的輸出z∗得到。

LeCun新作,一張卡就能訓(xùn)!方差正則,稀疏編碼器不再崩潰

為了防止?jié)摯a的L1正則崩潰,研究人員加入了一個(gè)限制條件,確保每個(gè)潛碼方差大于預(yù)先設(shè)定的閾值。主要實(shí)現(xiàn)方法就是對(duì)能量函數(shù)加入一個(gè)正則化項(xiàng),從而能夠促使所有潛碼分量的方差保持在預(yù)設(shè)的閾值以上。

LeCun新作,一張卡就能訓(xùn)!方差正則,稀疏編碼器不再崩潰

更具體地說,研究人員修改了推理過程中的目標(biāo)函數(shù)來(lái)最小化能量。

LeCun新作,一張卡就能訓(xùn)!方差正則,稀疏編碼器不再崩潰

其中hinge項(xiàng)與L1懲罰項(xiàng)相抵消作為新的正則化項(xiàng),新的方程可以鼓勵(lì)每個(gè)潛伏代碼成分的方差保持在的閾值以上,從而可以防止?jié)摯a的L1正則崩潰,進(jìn)而無(wú)需對(duì)解碼器權(quán)重進(jìn)行正則化。

重構(gòu)項(xiàng)求和之后的梯度和潛碼z對(duì)應(yīng)。

LeCun新作,一張卡就能訓(xùn)!方差正則,稀疏編碼器不再崩潰

對(duì)于線性解碼器來(lái)說,盡管hinge項(xiàng)不是光滑的凸函數(shù),但梯度是一條線(line)意味著hinge項(xiàng)在局部表現(xiàn)得像一個(gè)凸二次函數(shù)。

LeCun新作,一張卡就能訓(xùn)!方差正則,稀疏編碼器不再崩潰

訓(xùn)練過程中,研究人員將編碼器E與解碼器D同時(shí)訓(xùn)練來(lái)預(yù)測(cè)FISTA推理計(jì)算的稀疏編碼。

同時(shí)訓(xùn)練的第一個(gè)原因是為了避免在解碼器訓(xùn)練完成后使用批量統(tǒng)計(jì)來(lái)計(jì)算編碼。事實(shí)上,應(yīng)該可以為不同的輸入獨(dú)立地計(jì)算編碼。

第二個(gè)原因是為了減少推理時(shí)間。編碼器和解碼器的訓(xùn)練完成后,編碼器可以直接計(jì)算輸入的稀疏表示,這樣就不需要用FISTA進(jìn)行推理,即編碼器可以進(jìn)行amoritized推理。

LeCun新作,一張卡就能訓(xùn)!方差正則,稀疏編碼器不再崩潰

編碼器的正則項(xiàng)可以促使FISTA找到可以被編碼器學(xué)習(xí)到的編碼。在實(shí)驗(yàn)設(shè)置中,編碼器的預(yù)測(cè)通常被視為常數(shù)(constants),用作FIST編碼的初始值。

LeCun新作,一張卡就能訓(xùn)!方差正則,稀疏編碼器不再崩潰

如果編碼器提供了一個(gè)好的初始值,則可以通過減少FISTA迭代的次數(shù)來(lái)減少推理時(shí)間。

實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)中的編碼器為一個(gè)LISTA(Learned ISTA)編碼器,它的設(shè)計(jì)是為了模仿ISTA推理的輸出,類似于一個(gè)遞歸神經(jīng)網(wǎng)絡(luò)。編碼器由兩個(gè)全連接層,一個(gè)偏置項(xiàng),以及ReLU激活函數(shù)組成。

LeCun新作,一張卡就能訓(xùn)!方差正則,稀疏編碼器不再崩潰

線性解碼器的參數(shù)簡(jiǎn)單地說是一個(gè)線性變換,將編碼映射到輸入數(shù)據(jù)的重構(gòu)維度上,在線性變換中沒有偏置項(xiàng)。

在非線性解碼器的情況下,使用一個(gè)大小為m的隱藏層和大小為l的輸入層(潛碼的size)的全連接網(wǎng)絡(luò),使用ReLU作為隱藏層的激活函數(shù)。將輸入代碼映射到隱含表征的層中有一個(gè)偏置項(xiàng),而將隱含表征映射到輸出的層沒有偏置項(xiàng)。

在推理過程中,編碼z被限制為非負(fù)值。MNIST實(shí)驗(yàn)中潛碼的維度為128,在ImageNet patch的實(shí)驗(yàn)中則是256,當(dāng)batch size為250時(shí),對(duì)于VDL中每個(gè)潛成分(latent component)的方差的正則化項(xiàng)來(lái)說是足夠大的。

將FISTA的最大迭代次數(shù)K設(shè)置為200次,已經(jīng)足以實(shí)現(xiàn)一個(gè)效果不錯(cuò)的重構(gòu)模型了。

在自編碼器訓(xùn)練中,研究人員設(shè)置MNIST的epoch為200,image patch則為100。在SDL和SDL-NL實(shí)驗(yàn)中,將解碼器的全連接層W、W1和W2中的列的L2正則固定為1,并保存輸出平均能量最低的自編碼器。

研究人員還對(duì)SDL-NL和VDL-NL模型中的偏置項(xiàng)b1以及LISTA編碼器中的偏置項(xiàng)b增加了權(quán)重衰減,以防止其正則化項(xiàng)無(wú)限膨脹。

模型的訓(xùn)練只需要一塊NVIDIA RTX 8000 GPU卡,并且所有實(shí)驗(yàn)的運(yùn)行時(shí)間都在24小時(shí)以內(nèi)。

實(shí)驗(yàn)結(jié)果可以看到,對(duì)于兩個(gè)SDL和兩個(gè)VDL的字典元素(dictionary elements)來(lái)說,在稀疏度λ較低的情況下(0.001, 0.005)解碼器似乎可以學(xué)到方向、筆劃,甚至是是數(shù)字圖形中的一部分。

LeCun新作,一張卡就能訓(xùn)!方差正則,稀疏編碼器不再崩潰

隨著λ值的提高,生成的圖像也越來(lái)越像一個(gè)完整的數(shù)字,完成了從筆劃到數(shù)字的演化。

在重構(gòu)質(zhì)量上,SDL和VDL模型的編碼器的曲線顯示了由未激活編碼(值為0)成分的平均百分比衡量的稀疏程度和由平均PSNR衡量的重建質(zhì)量之間的權(quán)衡。

LeCun新作,一張卡就能訓(xùn)!方差正則,稀疏編碼器不再崩潰

在5個(gè)隨機(jī)種子上的測(cè)試集所衡量的重建質(zhì)量和預(yù)期相符,較高的稀疏度會(huì)導(dǎo)致更差的重建效果,但用文中提出的方差正則化方法訓(xùn)練出來(lái)的模型則會(huì)比SDL 模型在更高的稀疏程度下產(chǎn)生更好的重建效果,從而證實(shí)了方差正則化確實(shí)是有效的。

 

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2022-03-02 13:44:10

3D模型數(shù)據(jù)

2024-06-18 08:52:50

LLM算法深度學(xué)習(xí)

2017-10-16 12:56:16

正則表達(dá)式思維導(dǎo)圖

2023-04-25 21:36:07

火山引擎

2021-03-22 10:52:13

人工智能深度學(xué)習(xí)自編碼器

2021-03-29 11:37:50

人工智能深度學(xué)習(xí)

2021-11-02 20:44:47

數(shù)字化

2018-02-02 14:29:25

PHP漏洞服務(wù)器

2012-04-01 16:40:45

編碼器

2025-04-10 06:30:00

2025-04-10 11:52:55

2012-04-10 16:55:22

PowerSmart編碼器

2017-07-03 07:14:49

深度學(xué)習(xí)無(wú)監(jiān)督學(xué)習(xí)稀疏編碼

2021-10-28 15:41:07

計(jì)算機(jī)AI 技術(shù)

2015-07-20 17:01:12

APP崩潰云智慧

2025-04-07 03:30:00

2021-02-07 09:01:10

Java并發(fā)編程

2019-09-11 10:12:12

華為

2024-12-09 07:15:00

世界模型AILLM
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)