自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

比MAE更強,F(xiàn)AIR新方法MaskFeat用HOG刷新多個SOTA

新聞 人工智能
自監(jiān)督預訓練在自然語言處理方面取得了驚人的成功,其基本思路中包含著掩碼預測任務。

 

mask-and-predict 的方法可能會成為計算機視覺領域的新流派。

自監(jiān)督預訓練在自然語言處理方面取得了驚人的成功,其基本思路中包含著掩碼預測任務。前段時間,何愷明一作的論文《Masked Autoencoders Are Scalable Vision Learners》提出了一種簡單實用的自監(jiān)督學習方案 MAE,將 NLP 領域的掩碼預測(mask-and-predict)方法用在了視覺問題上。現(xiàn)在來自 Facebook AI 研究院(FAIR)的研究團隊又提出了一種自監(jiān)督視覺預訓練新方法 MaskFeat。

比MAE更強,F(xiàn)AIR新方法MaskFeat用HOG刷新多個SOTA

論文地址:https://arxiv.org/pdf/2112.09133.pdf

MaskFeat 首先隨機掩碼一部分輸入序列,然后預測被掩碼區(qū)域的特征。通過研究 5 種不同類型的特征,研究者發(fā)現(xiàn)方向梯度直方圖 (HOG) 是一種很好的特征描述方法,在性能和效率方面都表現(xiàn)優(yōu)異。并且研究者還觀察到 HOG 中的局部對比歸一化對于獲得良好結果至關重要,這與之前使用 HOG 進行視覺識別的工作一致。

該方法可以學習豐富的視覺知識并驅(qū)動基于 Transformer 的大規(guī)模模型。在不使用額外的模型權重和監(jiān)督的情況下,MaskFeat 在未標記的視頻上進行預訓練,使用 MViT-L 在 Kinetics-400 上實現(xiàn)了前所未有的 86.7% top-1 準確率。此外,MaskFeat 還能進一步推廣到圖像輸入,并在 ImageNet 上獲得了有競爭力的結果。

方法

掩碼視覺預測任務旨在修復被掩碼的視覺內(nèi)容。通過建模掩碼樣本,該模型從識別物體的部位和運動的意義上實現(xiàn)了視頻理解。例如,要補全下圖中的圖像,模型必須首先根據(jù)可見區(qū)域識別對象,還要知道對象通常的形態(tài)和移動方式,以修復缺失區(qū)域。

比MAE更強,F(xiàn)AIR新方法MaskFeat用HOG刷新多個SOTA

該任務的一個關鍵組成部分是預測目標。在自然語言處理任務中,掩碼語言建模使用詞表 tokenize 語料庫作為目標。而在視覺領域,原始視覺信號是連續(xù)的、高維的,并且沒有可用的自然「詞表」。

因此,MaskFeat 提出將預測被掩碼區(qū)域的特征。借助從原始完整樣本中提取的特征進行監(jiān)督。目標特征的選擇在很大程度上影響了預訓練模型的屬性,該研究對特征進行了廣泛的解釋,并主要考慮了 5 種不同類型的目標特征。

比MAE更強,F(xiàn)AIR新方法MaskFeat用HOG刷新多個SOTA

首先研究者將目標特征分為兩組:1) 可以直接獲得的單階段目標,包括像素顏色和 HOG;2) 由經(jīng)過訓練的深度網(wǎng)絡提取的兩階段目標。由于預測兩階段目標是借助訓練有素的深度網(wǎng)絡有效學得的(類似于模型蒸餾),因此教師模型的預訓練和推理的額外計算成本是不可避免的。該研究主要探究的 5 種特征類型是:

  • 像素顏色;
  • 方向梯度直方圖(HOG);
  • 離散變分自編碼器(dVAE);
  • 深度特征;
  • 偽標簽。

該研究通過了一系列的分析探究了這 5 種特征的利弊。盡管掩碼語言建模最初是在預定義詞表上預測分類分布,但 BEiT 中的離散化不需要視覺信息。分析結果表明,連續(xù)的無監(jiān)督特征和圖像描述符是性能較好的預測目標,其中前者需要模型蒸餾,后者則不需要額外的計算開銷。

比MAE更強,F(xiàn)AIR新方法MaskFeat用HOG刷新多個SOTA

此外,研究者還發(fā)現(xiàn)監(jiān)督訓練的目標特征會產(chǎn)生較差的結果,這可能與存在于特征中的類級特定信息有關,即這種方法對于局部掩碼建模來說過于全局化。總的來說,考慮性能和計算成本之間的權衡,該研究最終選擇了 HOG 作為 MaskFeat 的默認特征。

方向梯度直方圖(HOG)特征是一種在計算機視覺和圖像處理中用來進行物體檢測的特征描述方法,最早是在 CVPR 2005 的一篇論文《Histograms of Oriented Gradients for Human Detection》中提出的。

比MAE更強,F(xiàn)AIR新方法MaskFeat用HOG刷新多個SOTA

HOG 特征提取的過程如下:首先把樣本圖像分割為若干個像素單元,把梯度方向平均劃分為多個區(qū)間,在每個單元里面對所有像素的梯度方向在各個方向區(qū)間進行直方圖統(tǒng)計,得到一個多維的特征向量,每相鄰的單元構成一個區(qū)間,把一個區(qū)間內(nèi)的特征向量聯(lián)起來得到多維的特征向量,用區(qū)間對樣本圖像進行掃描,掃描步長為一個單元。最后將所有塊的特征串聯(lián)起來,就得到了完整的特征。

基于視頻識別的實驗

該研究在 K400 數(shù)據(jù)集上將 MaskFeat 和之前的工作進行了比較,結果如下表 3 所示,使用 MaskFeat 的 MViT-L 在 Kinetics-400 上實現(xiàn)了新的 SOTA——86.7% top-1 準確率。

比MAE更強,F(xiàn)AIR新方法MaskFeat用HOG刷新多個SOTA

遷移學習

為了評估該方法在下游任務上的遷移學習性能,該研究在 AVA v2.2 上微調(diào)了 MViT-L↑312,40×3 Kinetics 模型,實驗結果如上表 3 和下表 4 所示,在 K600 上實現(xiàn)了 88.3% top-1 準確率,K700 上為 80.4%,均實現(xiàn)了新的 SOTA。

比MAE更強,F(xiàn)AIR新方法MaskFeat用HOG刷新多個SOTA

該研究在 AVA v2.2 上微調(diào)了 MViT-L↑312,40×3 Kinetics 模型,下表 5 給出了 MaskFeat 模型與現(xiàn)有方法相比的平均精度 (mAP)。MaskFeat 在全分辨率測試中達到了前所未有的 38.8 mAP,大大超過了以前所有方法。

比MAE更強,F(xiàn)AIR新方法MaskFeat用HOG刷新多個SOTA

感興趣的讀者可以閱讀論文原文了解更多研究細節(jié)。

 

責任編輯:張燕妮 來源: 機器之心Pro
相關推薦

2009-07-31 08:56:59

ASP.NET頁面刷新

2023-12-29 13:18:23

模型NeRFTICD

2021-09-27 10:12:42

欺騙防御rMTD網(wǎng)絡攻擊

2022-12-12 11:31:39

數(shù)據(jù)學習

2015-06-05 09:27:13

無線WiFi

2010-04-01 09:30:57

2015-08-21 09:14:40

大數(shù)據(jù)

2022-01-12 18:02:45

量子AI計算機

2019-07-12 13:50:36

物聯(lián)網(wǎng)大數(shù)據(jù)安全

2022-07-07 10:47:16

IngressKubernetes

2018-10-07 07:00:59

2018-01-15 15:49:06

微信

2023-07-06 15:29:52

數(shù)據(jù)中心能源回收

2024-01-23 17:33:36

2024-10-23 19:47:54

2010-06-18 09:48:22

2011-03-14 10:10:01

2011-12-01 14:15:19

信息優(yōu)化惠普

2024-01-06 17:12:44

視頻AI

2023-07-24 14:42:23

點贊
收藏

51CTO技術棧公眾號