自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

一個(gè)框架統(tǒng)一Siamese自監(jiān)督學(xué)習(xí)，清華、商湯提出有效梯度形式

作者：機(jī)器之心專欄 2021-12-31 14:11:20

新聞人工智能

來自清華大學(xué)、商湯科技等機(jī)構(gòu)的研究者們提出一種簡潔而有效的梯度形式——UniGrad，不需要復(fù)雜的 memory bank 或者 predictor 網(wǎng)絡(luò)設(shè)計(jì)，也能給出 SOTA 的性能表現(xiàn)。

當(dāng)下，自監(jiān)督學(xué)習(xí)在無需人工標(biāo)注的情況下展示出強(qiáng)大的視覺特征提取能力，在多個(gè)下游視覺任務(wù)上都取得了超過監(jiān)督學(xué)習(xí)的性能，這種學(xué)習(xí)范式也因此被人們廣泛關(guān)注。

在這股熱潮中，各式各樣的自監(jiān)督學(xué)習(xí)方法不斷涌現(xiàn)，雖然它們大多都采取了孿生網(wǎng)絡(luò)的架構(gòu)，但是解決問題的角度卻差異巨大，這些方法大致可以分為三類：以 MoCo、SimCLR 為代表的對比學(xué)習(xí)方法，以 BYOL、SimSiam 為代表的非對稱網(wǎng)絡(luò)方法，和以 Barlow Twins、VICReg 為代表的特征解耦方法。這些方法在對待如何學(xué)習(xí)特征表示這個(gè)問題上思路迥異，同時(shí)由于實(shí)際實(shí)現(xiàn)時(shí)采用了不同的網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練設(shè)置，研究者們也無法公平地對比它們的性能。

因此，人們自然會產(chǎn)生一些問題：這些方法之間是否存在一些聯(lián)系？它們背后的工作機(jī)理又有什么關(guān)系？更進(jìn)一步的，具體是什么因素會導(dǎo)致不同方法之間的性能差異？

為此，來自清華大學(xué)、商湯科技等機(jī)構(gòu)的研究者們提出一個(gè)統(tǒng)一的框架來解釋這些方法。相較于直接去比較它們的損失函數(shù)，他們從梯度分析的角度出發(fā)，發(fā)現(xiàn)這些方法都具有非常相似的梯度結(jié)構(gòu)，這個(gè)梯度由三部分組成：正梯度、負(fù)梯度和一個(gè)平衡系數(shù)。其中，正負(fù)梯度的作用和對比學(xué)習(xí)中的正負(fù)樣本非常相似，這表明之前提到的三類方法的工作機(jī)理其實(shí)大同小異。更進(jìn)一步，由于梯度的具體形式存在差異，研究者通過詳細(xì)的對比實(shí)驗(yàn)分析了它們帶來的影響。結(jié)果表明，梯度的具體形式對性能的影響非常小，而關(guān)鍵因素在于 momentum encoder 的使用。

一個(gè)框架統(tǒng)一Siamese自監(jiān)督學(xué)習(xí)，清華、商湯提出有效梯度形式

論文鏈接：https://arxiv.org/pdf/2112.05141.pdf

在這個(gè)統(tǒng)一框架的基礎(chǔ)上，研究者們提出了一種簡潔而有效的梯度形式——UniGrad。UniGrad 不需要復(fù)雜的 memory bank 或者 predictor 網(wǎng)絡(luò)設(shè)計(jì)，也能給出 SOTA 的性能表現(xiàn)。在多個(gè)下游任務(wù)中，UniGrad 都取得了不錯(cuò)的遷移性能，而且可以非常簡單地加入其它增強(qiáng)技巧來進(jìn)一步提升性能。

一個(gè)框架統(tǒng)一Siamese自監(jiān)督學(xué)習(xí)，清華、商湯提出有效梯度形式

圖 1 三類自監(jiān)督方法與 UniGrad 的對比

統(tǒng)一框架

本節(jié)將分析不同方法的梯度形式，首先給出三類方法各自的梯度形式，然后歸納其中的共性結(jié)構(gòu)。從梯度的角度讀者也可以更好地理解不同類型的方法是如何工作的。為了方便表述，作者用ｕ表示當(dāng)前樣本特征，ｖ表示其它樣本特征，添加下標(biāo) ，

一個(gè)框架統(tǒng)一Siamese自監(jiān)督學(xué)習(xí)，清華、商湯提出有效梯度形式

表示不同的 augmented view，添加上標(biāo) ，

一個(gè)框架統(tǒng)一Siamese自監(jiān)督學(xué)習(xí)，清華、商湯提出有效梯度形式

表示孿生網(wǎng)絡(luò)中 online 或者 target 分支產(chǎn)生的特征。

對比學(xué)習(xí)方法

對比學(xué)習(xí)方法希望當(dāng)前樣本

一個(gè)框架統(tǒng)一Siamese自監(jiān)督學(xué)習(xí)，清華、商湯提出有效梯度形式

拉近與正樣本

一個(gè)框架統(tǒng)一Siamese自監(jiān)督學(xué)習(xí)，清華、商湯提出有效梯度形式

的距離，提升與負(fù)樣本

一個(gè)框架統(tǒng)一Siamese自監(jiān)督學(xué)習(xí)，清華、商湯提出有效梯度形式

的距離，一般會使用以下的 InfoNCE Loss：

一個(gè)框架統(tǒng)一Siamese自監(jiān)督學(xué)習(xí)，清華、商湯提出有效梯度形式

具體實(shí)現(xiàn)時(shí)，兩類代表性方法 MoCo 和 SimCLR 有許多差異：MoCo 使用了 momentum encoder 作為 target branch 的編碼器，而 SimCLR 讓 target branch 與 online branch 共享參數(shù)；MoCo 使用 memory bank 來存儲負(fù)樣本，而 SimCLR 使用當(dāng)前 batch 中其它樣本作為負(fù)樣本。

通過對 SimCLR 梯度的略微化簡（關(guān)閉 target branch 的梯度反傳，不會影響最終性能），對比學(xué)習(xí)方法的梯度可以統(tǒng)一成下面的形式：

一個(gè)框架統(tǒng)一Siamese自監(jiān)督學(xué)習(xí)，清華、商湯提出有效梯度形式

在這個(gè)式子中，

一個(gè)框架統(tǒng)一Siamese自監(jiān)督學(xué)習(xí)，清華、商湯提出有效梯度形式

的作用是將正樣本拉近，

一個(gè)框架統(tǒng)一Siamese自監(jiān)督學(xué)習(xí)，清華、商湯提出有效梯度形式

的作用是將負(fù)樣本推離，因此作者將這兩項(xiàng)分別稱為正梯度和負(fù)梯度。

非對稱網(wǎng)絡(luò)方法

非對稱網(wǎng)絡(luò)方法只使用正樣本來學(xué)習(xí)特征，并且通過非對稱網(wǎng)絡(luò)的設(shè)計(jì)來避免平凡解。這類方法一般會在 online branch 后增加一個(gè) predictor 網(wǎng)絡(luò)

一個(gè)框架統(tǒng)一Siamese自監(jiān)督學(xué)習(xí)，清華、商湯提出有效梯度形式

，同時(shí)關(guān)閉 target branch 的梯度反傳，最終使用下面的損失函數(shù)

一個(gè)框架統(tǒng)一Siamese自監(jiān)督學(xué)習(xí)，清華、商湯提出有效梯度形式

這類方法中，作為代表的 BYOL 和 SimSiam 非常相似，唯一的差異就是是否使用 momentum encoder。雖然這類方法表現(xiàn)出非常優(yōu)異的性能，人們對它們的工作原理卻所知甚少。最近 DirectPred 這篇文章從網(wǎng)絡(luò)優(yōu)化的動態(tài)過程出發(fā)對它們做了初步的解釋，這篇工作觀察到 predictor 網(wǎng)絡(luò)的特征空間會逐漸與特征的相關(guān)性矩陣的特征空間對齊，基于此，DirectPred 提出了 predictor 網(wǎng)絡(luò)的一種解析解。在此工作的基礎(chǔ)上，作者進(jìn)一步展示出非對稱網(wǎng)絡(luò)方法與其它方法的聯(lián)系，特別地，它們的梯度可以推導(dǎo)為

一個(gè)框架統(tǒng)一Siamese自監(jiān)督學(xué)習(xí)，清華、商湯提出有效梯度形式

其中

一個(gè)框架統(tǒng)一Siamese自監(jiān)督學(xué)習(xí)，清華、商湯提出有效梯度形式

是 predictor 網(wǎng)絡(luò)的解析解?？梢钥吹剑鲜酵瑯又饕袃蓚€(gè)部分：

一個(gè)框架統(tǒng)一Siamese自監(jiān)督學(xué)習(xí)，清華、商湯提出有效梯度形式

是正梯度，

一個(gè)框架統(tǒng)一Siamese自監(jiān)督學(xué)習(xí)，清華、商湯提出有效梯度形式

是負(fù)梯度。

粗看起來這個(gè)結(jié)果非常反直覺：損失函數(shù)中沒有使用負(fù)樣本，但是梯度中卻出現(xiàn)了負(fù)梯度。實(shí)際上，這些負(fù)樣本來自于 predictor 在優(yōu)化過程中學(xué)習(xí)到的信息。根據(jù) DirectPred 的結(jié)論，predictor 的特征空間會和相關(guān)性矩陣的特征空間逐漸對齊，因此 predictor 在訓(xùn)練過程中很可能會將相關(guān)性矩陣的信息編碼到網(wǎng)絡(luò)參數(shù)中，在反傳時(shí)，這些信息就會以負(fù)樣本的形式出現(xiàn)在梯度中。

特征解耦方法

特征解耦方法旨在減小各特征維度之間的相關(guān)性來避免平凡解。由于不同工作采用的損失函數(shù)在形式上差異很大，作者對它們分別進(jìn)行討論。

Barlow Twins 采取如下?lián)p失函數(shù)：

一個(gè)框架統(tǒng)一Siamese自監(jiān)督學(xué)習(xí)，清華、商湯提出有效梯度形式

其中

一個(gè)框架統(tǒng)一Siamese自監(jiān)督學(xué)習(xí)，清華、商湯提出有效梯度形式

是兩個(gè) augmented view 之間的相關(guān)性矩陣。該損失函數(shù)希望相關(guān)性矩陣上的對角線元素接近 1，而非對角線元素接近 0。

該損失函數(shù)的梯度形式為：

一個(gè)框架統(tǒng)一Siamese自監(jiān)督學(xué)習(xí)，清華、商湯提出有效梯度形式

作者首先將第一項(xiàng)替換為

一個(gè)框架統(tǒng)一Siamese自監(jiān)督學(xué)習(xí)，清華、商湯提出有效梯度形式

，同時(shí)，原始的 Barlow Twins 對特征采取了 batch normalization，作者將其替換為

一個(gè)框架統(tǒng)一Siamese自監(jiān)督學(xué)習(xí)，清華、商湯提出有效梯度形式

normalization，這些變換都不會影響到最終性能。

VICReg 在 Barlow Twins 的基礎(chǔ)上做了一些改動，為了去掉加在特征上的 batch normalization，它采取了如下?lián)p失函數(shù)：

一個(gè)框架統(tǒng)一Siamese自監(jiān)督學(xué)習(xí)，清華、商湯提出有效梯度形式

其對應(yīng)的梯度形式為

一個(gè)框架統(tǒng)一Siamese自監(jiān)督學(xué)習(xí)，清華、商湯提出有效梯度形式

通過對特征施加

一個(gè)框架統(tǒng)一Siamese自監(jiān)督學(xué)習(xí)，清華、商湯提出有效梯度形式

normalization，作者可以去掉最后一項(xiàng)而不影響其性能。這樣，特征解耦方法的梯度形式就能統(tǒng)一為：

一個(gè)框架統(tǒng)一Siamese自監(jiān)督學(xué)習(xí)，清華、商湯提出有效梯度形式

該梯度形式依然包含兩項(xiàng)：

一個(gè)框架統(tǒng)一Siamese自監(jiān)督學(xué)習(xí)，清華、商湯提出有效梯度形式

是正梯度，

一個(gè)框架統(tǒng)一Siamese自監(jiān)督學(xué)習(xí)，清華、商湯提出有效梯度形式

組成負(fù)梯度，它們分別來自相關(guān)性矩陣中的對角線和非對角線元素。因此，特征解耦方法本質(zhì)上和其它兩類方法非常相似，它們只是在損失函數(shù)中將正負(fù)樣本用不同的形式組合起來了。

統(tǒng)一形式

對比以上三類方法的梯度形式，作者發(fā)現(xiàn)它們都具有相似的結(jié)構(gòu)：

一個(gè)框架統(tǒng)一Siamese自監(jiān)督學(xué)習(xí)，清華、商湯提出有效梯度形式

其中，

一個(gè)框架統(tǒng)一Siamese自監(jiān)督學(xué)習(xí)，清華、商湯提出有效梯度形式

對應(yīng)正樣本的特征，

一個(gè)框架統(tǒng)一Siamese自監(jiān)督學(xué)習(xí)，清華、商湯提出有效梯度形式

是負(fù)樣本特征的加權(quán)平均，

一個(gè)框架統(tǒng)一Siamese自監(jiān)督學(xué)習(xí)，清華、商湯提出有效梯度形式

是平衡兩者的系數(shù)，這種相似的結(jié)構(gòu)說明三類方法的工作機(jī)理非常接近。

性能對比

盡管結(jié)構(gòu)相似，不同方法的具體梯度形式依然存在區(qū)別，而且 target branch 的類型、負(fù)樣本集合的構(gòu)成也都不一樣，本節(jié)將通過對比實(shí)驗(yàn)來探究對最終性能的主要影響因素。

梯度形式

為了方便對比，作者首先在各類方法內(nèi)部進(jìn)行化簡和對比，最終再對比不同方法。完整的實(shí)驗(yàn)結(jié)果如表 1 所示。

一個(gè)框架統(tǒng)一Siamese自監(jiān)督學(xué)習(xí)，清華、商湯提出有效梯度形式

表 1 不同類型方法性能比較

表 1(ab) 展示了對比學(xué)習(xí)方法的結(jié)果。為了保持公平比較，SimCLR 采用了 momentum encoder，在這樣的情況下表現(xiàn)出了和 MoCo 相同的性能。在這里，SimCLR 只用了當(dāng)前 batch 作為負(fù)樣本集合，MoCo 采用了 memory bank 作為負(fù)樣本集合，這說明在合適的訓(xùn)練設(shè)置下，大量的負(fù)樣本并不是必須的。

表 1(c-e) 展示了非對稱網(wǎng)絡(luò)方法的結(jié)果。由于帶有 momentum encoder 的 SimSiam 就是 BYOL，這里只展示了 BYOL 的結(jié)果。表 1(cd) 分別是原始的 BYOL 和 DirectPred 形式的 BYOL，兩者的性能相當(dāng)，這也和 DirectPred 的結(jié)論一致。表 1(e) 將正樣本梯度中的

一個(gè)框架統(tǒng)一Siamese自監(jiān)督學(xué)習(xí)，清華、商湯提出有效梯度形式

替換為單位陣而沒有影響性能，因此，非對稱網(wǎng)絡(luò)方法的梯度形式可以統(tǒng)一成表 1(e) 中的形式。

表 1(f-j) 展示了特征解耦方法的結(jié)果。對 Barlow Twins 來說，表 1(g) 將正梯度中的矩陣Ａ替換為單位陣，表 1(h) 將特征的 batch normalization 替換為

一個(gè)框架統(tǒng)一Siamese自監(jiān)督學(xué)習(xí)，清華、商湯提出有效梯度形式

normalization，這些替換都不會導(dǎo)致性能下降；對 VICReg 來說，表 1(j) 去掉梯度中最后一項(xiàng)，同時(shí)加上

一個(gè)框架統(tǒng)一Siamese自監(jiān)督學(xué)習(xí)，清華、商湯提出有效梯度形式

normalization，這對性能幾乎沒有影響。最后，比較表 1(hj)，它們唯一的差異在于負(fù)樣本系數(shù)的計(jì)算方式，但是性能上卻差異很小，所以特征解耦方法的梯度形式可以統(tǒng)一成表 1(j) 中的形式。

最后，作者對比了三類方法的梯度，即表 1(bej) 的結(jié)果。在梯度結(jié)構(gòu)中，正梯度的形式已經(jīng)統(tǒng)一，平衡系數(shù)會通過搜索保持最優(yōu)，唯一的差異就是負(fù)梯度形式，實(shí)驗(yàn)結(jié)果表明不同的負(fù)梯度形式性能非常接近。還值得注意的是，表 1(ej) 的負(fù)樣本形式非常相似，區(qū)別在于表 1(e) 使用了之前所有樣本構(gòu)成的負(fù)樣本集合，表 1(j) 只使用了當(dāng)前 batch 集合，這也說明了負(fù)樣本集合的構(gòu)建在自監(jiān)督學(xué)習(xí)中不是最關(guān)鍵的因素。

Target Branch 類型

之前為了公平對比，作者對各類方法都使用了 momentum encoder，現(xiàn)在來研究不同類型的 target branch 對最終結(jié)果的影響，實(shí)驗(yàn)結(jié)果如表 2 所示。

一個(gè)框架統(tǒng)一Siamese自監(jiān)督學(xué)習(xí)，清華、商湯提出有效梯度形式

表 2 Target branch 類型影響

如果 target branch 采取 stop-gradient 的類型，三類方法都表現(xiàn)出類似的性能，這和之前的結(jié)論是一致的；如果 target branch 采取 momentum-encoder 的類型，三類方法都能在之前的基礎(chǔ)上提升大約 2 個(gè)點(diǎn)，這說明 momentum encoder 對不同的方法都能帶來提升。

更進(jìn)一步的，作者觀察到一些方法里只有正梯度利用到了 momentum encoder 的特征，于是他們嘗試對三類方法都只在正梯度中采用 momentum encoder 的特征。實(shí)驗(yàn)結(jié)果表明這和全部梯度采用 momentum encoder 具有類似的性能表現(xiàn)。這說明對于自監(jiān)督學(xué)習(xí)來說，一個(gè)緩慢更新的一致的更新目標(biāo)是非常重要的。

最終方法

基于上述的統(tǒng)一框架，作者提出了一種簡潔有效的自監(jiān)督方法（UniGrad）：

一個(gè)框架統(tǒng)一Siamese自監(jiān)督學(xué)習(xí)，清華、商湯提出有效梯度形式

其中

一個(gè)框架統(tǒng)一Siamese自監(jiān)督學(xué)習(xí)，清華、商湯提出有效梯度形式

是相關(guān)性矩陣的滑動平均。UniGrad 本質(zhì)上就是表 1(e) 的梯度形式，這種梯度不需要額外的 memory bank，也不需要設(shè)計(jì)額外的 projector，實(shí)驗(yàn)表明無論是 linear evaluation 還是 transfer learning，它都能夠取得 SOTA 的實(shí)驗(yàn)性能。

圖 2 從多個(gè)衡量指標(biāo)的角度展示了不同方法的優(yōu)化過程?？梢钥吹?，不同方法的優(yōu)化曲線沒有明顯的差異，這也說明了該方法和之前方法有著類似的工作機(jī)制。

一個(gè)框架統(tǒng)一Siamese自監(jiān)督學(xué)習(xí)，清華、商湯提出有效梯度形式

表 3 和表 4 展示了 UniGrad 的具體結(jié)果。UniGrad 自身能夠取得和之前方法相當(dāng)?shù)男阅?，并且能夠簡單地將之前的?shù)據(jù)增強(qiáng)方式融合進(jìn)來，進(jìn)一步提升性能。在更長輪數(shù)的訓(xùn)練中，UniGrad 也能取得不錯(cuò)的性能。

一個(gè)框架統(tǒng)一Siamese自監(jiān)督學(xué)習(xí)，清華、商湯提出有效梯度形式

表 3 UniGrad 與數(shù)據(jù)增強(qiáng)方法結(jié)合的性能

一個(gè)框架統(tǒng)一Siamese自監(jiān)督學(xué)習(xí)，清華、商湯提出有效梯度形式

表 4 長輪數(shù)下與之前方法的對比

責(zé)任編輯：張燕妮來源：機(jī)器之心Pro

框架 AI 開發(fā)

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<pre id="nbxzp"></pre>