自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Swin Transformer為主干,清華等提MoBY自監(jiān)督學習方法代碼已開源

新聞 人工智能
來自清華大學、西安交大、微軟亞研的研究者提出了一種稱為 MoBY 的自監(jiān)督學習方法,其中以 Vision Transformer 作為其主干架構(gòu),將 MoCo v2 和 BYOL 結(jié)合,并在 ImageNet-1K 線性評估中獲得相當高的準確率,性能優(yōu)于 MoCo v3、DINO 等網(wǎng)絡(luò)。

  [[409974]]

近兩年來,計算機視覺領(lǐng)域經(jīng)歷了兩次重大轉(zhuǎn)變,第一次是由 MoCo(Momentum Contrast)開創(chuàng)的自監(jiān)督視覺表征學習,其預訓練模型經(jīng)過微調(diào)可以遷移到不同的任務(wù)上;第二次是基于 Transformer 的主干架構(gòu),近年來在自然語言處理中取得巨大成功的 Transformer 又在計算機視覺領(lǐng)域得到了探索,進而產(chǎn)生了從 CNN 到 Transformer 的建模轉(zhuǎn)變。

不久前,微軟亞研的研究者提出了一種通過移動窗口(shifted windows)計算的分層視覺 Swin Transformer,它可以用作計算機視覺的通用主干網(wǎng)絡(luò)。在各類回歸任務(wù)、圖像分類、目標檢測、語義分割等方面具有極強性能。

而在近日,來自清華大學、西安交通大學以及微軟亞洲研究院的研究者也在計算機視覺領(lǐng)域發(fā)力,提出了名為 MoBY 自監(jiān)督學習方法,以 Vision Transformers 作為其主干架構(gòu),將 MoCo v2 和 BYOL 結(jié)合在一起,在 ImageNet-1K 線性評估中獲得相當高的準確率:通過 300-epoch 訓練,分別在 DeiT-S 和 Swin-T 獲得 72.8% 和 75.0% 的 top-1 準確率。與使用 DeiT 作為主干的 MoCo v3 和 DINO 相比,性能略好,但trick要輕得多。

更重要的是,使用 Swin Transformer 作為主干架構(gòu),還能夠評估下游任務(wù)中(目標檢測和語義分割等)的學習表征,其與最近的 ViT/DeiT 方法相比,由于 ViT / DeiT 不適合這些密集的預測任務(wù),因此僅在 ImageNet-1K 上報告線性評估結(jié)果。研究者希望該結(jié)果可以促進對 Transformer 架構(gòu)設(shè)計的自監(jiān)督學習方法進行更全面的評估。

Swin Transformer為主干,清華等提MoBY自監(jiān)督學習方法代碼已開源
  • 論文地址:https://arxiv.org/pdf/2105.04553.pdf
  • GitHub 地址:https://github.com/SwinTransformer/Transformer-SSL

方法介紹

自監(jiān)督學習方法 MoBY 由 MoCo v2 和 BYOL 這兩個比較流行的自監(jiān)督學習方法組成,MoBY 名字的由來是各取了 MoCo v2 和 BYOL 前兩個字母。MoBY 繼承了 MoCo v2 中的動量設(shè)計、鍵隊列、對比損失,此外 MoBY 還繼承了 BYOL 中非對稱編碼器、非對稱數(shù)據(jù)擴充、動量調(diào)度(momentum scheduler)。MoBY 架構(gòu)圖如下圖 1 所示:

Swin Transformer為主干,清華等提MoBY自監(jiān)督學習方法代碼已開源

MoBY 包含兩個編碼器:在線編碼器和目標編碼器。這兩個編碼器都包含一個主干和 projector head(2 層 MLP),在線編碼器引入了額外的預測頭(2 層 MLP),使得這兩個編碼器具有非對稱性。在線編碼器采用梯度更新,目標編碼器則是在線編碼器在每次訓練迭代中通過動量更新得到的移動平均值。對目標編碼器采用逐漸增加動量更新策略:訓練過程中,動量項值默認起始值為 0.99,并逐漸增加到 1。

學習表征采用對比損失,具體而言,對于一個在線視圖(online view)q,其對比損失計算公式如下所示:

Swin Transformer為主干,清華等提MoBY自監(jiān)督學習方法代碼已開源

式中,κ_+ 為同一幅圖像的另一個視圖(view)的目標特征;κ_i 是鍵隊列( key queue )中的目標特性;τ是 temperature 項;Κ是鍵隊列的大?。J為 4096)。

在訓練中,與大多數(shù)基于 Transformer 的方法一樣,研究者還采用了 AdamW 優(yōu)化器。

MoBY 偽代碼如下所示:

Swin Transformer為主干,清華等提MoBY自監(jiān)督學習方法代碼已開源

實驗

在 ImageNet-1K 上的線性評估

在 ImageNet-1K 數(shù)據(jù)集上進行線性評估是一種常用的評估學得的表征質(zhì)量的方式。在該方式中,線性分類器被用于主干,主干權(quán)重被凍結(jié),僅訓練線性分類器。訓練完線性分類器之后,使用中心裁剪(center crop)在驗證集上取得了 top-1 準確率。

表 1 給出了使用各種自監(jiān)督學習方法和主干網(wǎng)絡(luò)架構(gòu)的預訓練模型的主要性能結(jié)果。

Swin Transformer為主干,清華等提MoBY自監(jiān)督學習方法代碼已開源

1.與使用 Transformer 架構(gòu)的其他 SSL 方法進行比較

MoCo v3、DINO 等方法采用 ViT/DeiT 作為主干網(wǎng)絡(luò)架構(gòu),該研究首先給出了使用 DeiT-S 的 MoBY 的性能結(jié)果,以便與該研究的方法進行合理比較。經(jīng)過了 300 個 epoch 的訓練,MoBY 達到了 72.8% top-1 的準確率,這比 MoCo v3 和 DINO(不含多次裁剪(multi-crop))略勝一籌,結(jié)果如表 1 所示。

2.Swin-T VS DeiT-S

研究者還比較了在自監(jiān)督學習中各種 Transformer 架構(gòu)的使用情況。如表 1 所示,Swin-T 達到了 75.0% top-1 的準確率,比 DeiT-S 高出 2.2%。值得一提的是,這一性能差距比使用監(jiān)督學習還大(+1.5%)。

該研究進行的初步探索表明,固定 patch 嵌入對 MoBY 沒有用,并且在 MLP 塊之前用批歸一化代替層歸一化層可以讓 top-1 準確率提升 1.1%(訓練 epoch 為 100),如表 2 所示。

Swin Transformer為主干,清華等提MoBY自監(jiān)督學習方法代碼已開源

在下游任務(wù)上的遷移性能

研究者評估了學得的表征在 COCO 目標檢測 / 實例分割和 ADE20K 語義分割的下游任務(wù)上的遷移性能。

1.COCO 目標檢測和實例分割

評估中采用了兩個檢測器:Mask R-CNN 和 Cascade Mask R-CNN。表 3 給出了在 1x 和 3x 設(shè)置下由 MoBY 學得的表征和預訓練監(jiān)督方法的比較結(jié)果。

Swin Transformer為主干,清華等提MoBY自監(jiān)督學習方法代碼已開源

2.ADE20K 語義分割

研究者采用 UPerNet 方法和 ADE20K 數(shù)據(jù)集進行評估。表 4 給出了監(jiān)督和自監(jiān)督預訓練模型的比較結(jié)果。這表明 MoBY 的性能比監(jiān)督方法稍差一點,這意味著使用 Transformer 架構(gòu)進行自監(jiān)督學習具有改進空間。

Swin Transformer為主干,清華等提MoBY自監(jiān)督學習方法代碼已開源

消融實驗

研究者又進一步使用 ImageNet-1K 線性評估進行了消融實驗,其中 Swin-T 為主干網(wǎng)絡(luò)架構(gòu)。

1.不對稱的 drop path rate 是有益的

對于使用圖像分類任務(wù)和 Transformer 架構(gòu)的監(jiān)督表征學習來說,drop path 是一種有效的正則化方法。研究者通過消融實驗探究了該正則化方法的影響,實驗結(jié)果如下表 5 所示。

Swin Transformer為主干,清華等提MoBY自監(jiān)督學習方法代碼已開源

2.其他超參數(shù)

第一組消融實驗探究了鍵隊列大小 K 從 1024 到 16384 的影響,實驗結(jié)果如表 6(a) 所示。該方法在不同 K(從 1024 到 16384)下都能夠穩(wěn)定執(zhí)行,其中采用 4096 作為默認值。

第二組消融實驗探究了溫度(temperature)τ的影響,實驗結(jié)果如表 6(b) 所示。其中τ為 0.2 時性能最佳,0.2 也是默認值。

第三組消融實驗探究了目標編碼器的初始動量值的影響,實驗結(jié)果如表 6(c) 所示。其中值為 0.99 時性能最佳,并被設(shè)為默認值。

Swin Transformer為主干,清華等提MoBY自監(jiān)督學習方法代碼已開源

 

 

責任編輯:張燕妮 來源: 機器之心Pro
相關(guān)推薦

2021-05-12 15:22:07

機器學習人工智能計算機

2024-06-13 11:44:43

2024-07-30 11:20:00

圖像視覺

2024-05-24 15:53:20

視覺圖像

2023-11-23 15:54:01

人工智能監(jiān)督學習無監(jiān)督學習

2020-04-28 17:26:04

監(jiān)督學習無監(jiān)督學習機器學習

2022-05-17 16:38:40

數(shù)據(jù)訓練

2025-04-25 08:00:00

2023-02-14 15:11:19

工具模型

2022-04-26 09:44:29

算法庫EasyCV開源

2021-12-31 14:11:20

框架AI開發(fā)

2017-06-12 14:04:45

深度學習人工智能

2021-11-08 22:42:51

機器學習監(jiān)督學習數(shù)據(jù)

2025-03-10 08:53:00

2024-02-19 07:30:00

AI模型

2019-10-14 10:40:03

機器學習人工智能非監(jiān)督學習

2015-10-12 10:37:42

學習算法檢測

2023-02-01 13:29:46

機器學習

2023-11-28 12:12:46

機器學習算法

2020-08-14 11:00:44

機器學習人工智能機器人
點贊
收藏

51CTO技術(shù)棧公眾號