自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

無需額外數(shù)據(jù),首次實現(xiàn)ImageNet 87.1% 精度,顏水成團隊開源VOLO

新聞 機器學習
VOLO 是第一個在 ImageNet 上無需額外數(shù)據(jù)達到 87.1% top-1 準確率的模型,進一步拉近了視覺 Transformer 與最頂級 CNN 模型的性能距離。

[[407987]]

近十年來,計算機視覺識別任務(wù)一直由卷積神經(jīng)網(wǎng)絡(luò) (CNN) 主導。盡管最近流行的視覺 Transformer 在基于 self-attention 的模型中顯示出巨大的潛力,但是在沒有提供額外數(shù)據(jù)的情況下,比如在 ImageNet 上的分類任務(wù),它們的性能仍然不如最新的 SOTA CNNs。目前,在無額外數(shù)據(jù)集時,ImageNet 上的最高性能依舊是由 Google DeepMind 提出的 NFNet (Normalizer-Free Network)所獲得。

無需額外數(shù)據(jù),首次實現(xiàn)ImageNet 87.1% 精度,顏水成團隊開源VOLO

ImageNet 分類性能實時排行榜(無額外數(shù)據(jù)集),來源 https://paperswithcode.com/

無需額外數(shù)據(jù),首次實現(xiàn)ImageNet 87.1% 精度,顏水成團隊開源VOLO

Cityscapes validation 實時排行榜,來源 https://paperswithcode.com/

在一篇最近發(fā)表的論文中,來自新加坡 Sea 集團旗下、顏水成教授領(lǐng)導的 Sea AI Lab (SAIL) 團隊提出了一種新的深度學習網(wǎng)絡(luò)模型結(jié)構(gòu)——Vision Outlooker (VOLO),用于高性能視覺識別任務(wù)。它是一個簡單且通用的結(jié)構(gòu),在不使用任何額外數(shù)據(jù)的情況下,實現(xiàn)了在 ImageNet 上圖像分類任務(wù) 87.1% 的精度目標;同時,實現(xiàn)了在分割數(shù)據(jù)集 CityScapes Validation 上 84.3% 的性能,創(chuàng)下 ImageNet-1K 分類任務(wù)和 CityScapes 分割任務(wù)的兩項新紀錄。

無需額外數(shù)據(jù),首次實現(xiàn)ImageNet 87.1% 精度,顏水成團隊開源VOLO

VOLO 模型與 SOTA CNN 模型(NFNet)和 Transformer 模型(CaiT)的 ImageNet top-1 準確率比較。在使用更少參數(shù)的情況下,VOLO-D5 優(yōu)于 CaiT-M48 和 NFNet-F6,并首次在不使用額外訓練數(shù)據(jù)時達到了 87% 以上的 top-1 準確率。

顏水成教授認為,以 Transformer 為代表,「Graph Representation + Attentive Propagation」以其靈活性和普適性已展現(xiàn)出成為各領(lǐng)域統(tǒng)一框架的潛能,VOLO 算法表明了在視覺領(lǐng)域 Attention 機制也可以超越 CNN, 佐證了各領(lǐng)域走向模型統(tǒng)一的可行性。

無需額外數(shù)據(jù),首次實現(xiàn)ImageNet 87.1% 精度,顏水成團隊開源VOLO
  • 論文地址:https://arxiv.org/pdf/2106.13112.pdf
  • GitHub 地址:https://github.com/sail-sg/volo

方法概述

這項工作旨在縮小性能差距,并證明在無額外數(shù)據(jù)的情況下,基于注意力的模型優(yōu)于 CNN。

具體來說,作者發(fā)現(xiàn)限制 self-attention 模型在圖像分類中的性能的主要因素是在將精細級特征編碼到 token 表征中的效率低下。

為了解決這個問題,作者提出了一種新穎的 outlook attention,并提出了一個簡單而通用的架構(gòu)——Vision OutLOoker (VOLO)。

與專注于粗略全局依賴建模的 self-attention 不同,outlook attention 旨在將更精細的特征和上下文有效地編碼為 token,這些 token 對識別性能至關(guān)重要,但在很大程度上被自注意力所忽略。

Outlooker

VOLO 框架分為兩個階段,或者說由兩個大的 block 構(gòu)成:

  • 第一個階段由多層 outlooker 構(gòu)成,旨在用于生成精細級別的數(shù)據(jù)表征;
  • 第二個階段部署一系列 transformer 層來聚合全局信息。在每個階段的開始,使用 patch 嵌入模塊將輸入映射到相應(yīng)大小的數(shù)據(jù)表示。

第一個 stage 由多層 outlooker 構(gòu)成,outlooker 是本文提出的特殊的 attention 層,每一層 outlooker 由一層 outlook attention 層和 MLP 構(gòu)成,如下所示為一層 outlooker 的實現(xiàn)方式。

無需額外數(shù)據(jù),首次實現(xiàn)ImageNet 87.1% 精度,顏水成團隊開源VOLO

其中,核心操作為 Outlook attention,如下圖所示:

無需額外數(shù)據(jù),首次實現(xiàn)ImageNet 87.1% 精度,顏水成團隊開源VOLO

具體來說,outlook attention 的操作如下所示:

無需額外數(shù)據(jù),首次實現(xiàn)ImageNet 87.1% 精度,顏水成團隊開源VOLO

總體而言,outlook attention 具有如下優(yōu)點:

  • 較低的復雜度:相對于普通 self-attention 的時間復雜度是 O(H^2xW^2),而 outlook attention 只有 O(HW x k2 x k2)=O(HW x k4),而窗口大小 k 一般只有 3 或者 5,遠小于圖片尺寸 H 和 W。因此可用于具有更高分辨率的特征圖(例如,28x28 標記),這是提高 ViT 的有效方法;
  • 更好建模局部細節(jié):適用于下游視覺應(yīng)用,如語義分割;
  • Key and Query free: outlook attention 中無 Key 和 Query,attention map 可以直接由線性生成,去掉 MatMul(Query, Key),節(jié)省計算量;
  • 靈活性:可以很容易地構(gòu)成一個帶有 self-attention 的混合網(wǎng)絡(luò)。

作者也提供了 Outlook attention 實現(xiàn)的偽代碼,如下圖所示:

無需額外數(shù)據(jù),首次實現(xiàn)ImageNet 87.1% 精度,顏水成團隊開源VOLO

基于提出的 Outlooker 和傳統(tǒng)的 Transformer, 該工作提出了 VOLO 架構(gòu),同時包含五個大小變體,從小到大依次為 VOLO-D1 到 D5,架構(gòu)示意如下圖所示:

無需額外數(shù)據(jù),首次實現(xiàn)ImageNet 87.1% 精度,顏水成團隊開源VOLO

實驗

研究者在 ImageNet 數(shù)據(jù)集上對 VOLO 進行了評估,在訓練階段沒有使用任何額外訓練數(shù)據(jù),并將帶有 Token Labeling 的 LV-ViT-S 模型作為基線。他們在配有 8 塊英偉達 V100 或 A100 GPU 的單個節(jié)點機上訓練除 VOLO-D5 之外所有的 VOLO 模型,VOLO-D5 需要在雙節(jié)點機上訓練。

V0LO-D1 到 VOLO-D5 模型的設(shè)置如下表 3 所示:

無需額外數(shù)據(jù),首次實現(xiàn)ImageNet 87.1% 精度,顏水成團隊開源VOLO

主要結(jié)果

下表 4 中,研究者將 VOLO 模型與 SOTA 模型進行了比較,所有的結(jié)果都基于純(pure)ImageNet-1k 數(shù)據(jù)集,沒有使用額外訓練數(shù)據(jù)。結(jié)果表明,VOLO 模型優(yōu)于 CNN、Transformer 等以往 SOTA 模型。

具體來說,該工作在圖像分類和分割中驗證了所提方法有效性,下圖為 VOLO 在 ImageNet 上的實驗結(jié)果,可以看出,僅憑 27M 參數(shù),VOLO-D1 就可以實現(xiàn) 85.2% 的準確率,遠超以往所有模型。同時 VOLO-D5 實現(xiàn)了 87.1% 的準確率,這也是當前在無額外數(shù)據(jù)集下 ImageNet 最好結(jié)果,比以往 SOTA 模型 NFNet-F6 有 0.5% 以上的提升。

無需額外數(shù)據(jù),首次實現(xiàn)ImageNet 87.1% 精度,顏水成團隊開源VOLO

Outlooker 的性能

研究者展示了 Outlooker 在 VOLO 模型中的重要性,他們將最近的 SOTA 視覺 transformer 模型 LV-ViT-S 作為基線。LV-ViT-S 及 VOLO-D1 模型的實驗設(shè)置和相應(yīng)結(jié)果如下表 5 所示:

無需額外數(shù)據(jù),首次實現(xiàn)ImageNet 87.1% 精度,顏水成團隊開源VOLO

研究者還對 Outlooker 與局部自注意力(local self-attention)和空間卷積進行了比較,結(jié)果如下表 6 所示。結(jié)果表明,在訓練方法和架構(gòu)相同的情況下,Outlooker 優(yōu)于局部自注意力和空間卷積。

無需額外數(shù)據(jù),首次實現(xiàn)ImageNet 87.1% 精度,顏水成團隊開源VOLO

消融實驗

研究者將 VOLO-D1 模型擴展至 4 個不同的模型,即 VOLO-D2 到 VOLO-D5,具體的規(guī)格如上表 2 所示,相應(yīng)的結(jié)果如下表 7 所示。結(jié)果表明,當增加訓練模型大小和測試分辨率時,VOLO 模型都可以實現(xiàn)性能提升。

無需額外數(shù)據(jù),首次實現(xiàn)ImageNet 87.1% 精度,顏水成團隊開源VOLO

研究者還發(fā)現(xiàn),VOLO 模型中 Outlooker 的數(shù)量對分類性能產(chǎn)生影響。下表 8 中,研究者在展示了不同數(shù)量的 Outlooker 在 VOLO 模型中的影響。

結(jié)果表明,在不使用 Outlooker 時,具有 16 個 transformer 的基線模型取得了 83.3% 的準確率。增加 Outlooker 的數(shù)量可以提升準確率,但使用 4 個 Outlooker 時即達到了性能飽和,之后增加再多的數(shù)量也無法帶來任何性能增益。

無需額外數(shù)據(jù),首次實現(xiàn)ImageNet 87.1% 精度,顏水成團隊開源VOLO

下游語義分割任務(wù)上的性能

同時,該框架在下游任務(wù)上也取得了極大的提升,比如語義分割任務(wù)上,VOLO-d4 在 CityScapes 上實現(xiàn) 84.3 mIoU,在 ADE20k 上實現(xiàn)了 54.3 mIoU。

無需額外數(shù)據(jù),首次實現(xiàn)ImageNet 87.1% 精度,顏水成團隊開源VOLO
無需額外數(shù)據(jù),首次實現(xiàn)ImageNet 87.1% 精度,顏水成團隊開源VOLO

總體來說,實驗表明 VOLO 在 ImageNet-1K 分類上達到了 87.1% 的 top-1 準確率,在無額外數(shù)據(jù)集的情況下,首次在 ImageNet 上超過 87% 準確率的模型。

同時將該框架用于下游任務(wù),比如語義分割 (Semantic Segmentation) 上,在 Cityscapes 和 ADE20k 上也實現(xiàn)了非常高的性能表現(xiàn),VOLO-D5 模型在 Cityscapes 上實現(xiàn) 84.3% mIoU,目前位居 Cityscapes validation 首位。

工作總結(jié)

這個工作提出了一個全新的視覺模型,并取得了 SOTA 的效果。首次在無額外數(shù)據(jù)集下,讓 attention 主導的模型超越了 CNN 主導的模型精度。在證明了視覺 attention 的重要性的同時,為研究社區(qū)引入新的的模型框架和訓練策略。

 

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2021-11-10 15:24:25

AI 數(shù)據(jù)人工智能

2024-04-25 14:53:59

模型視覺

2025-03-11 09:35:00

2023-02-03 16:31:02

模型

2019-01-29 10:27:27

量子計算機芯片超算

2012-06-20 10:01:16

4GTD-LTELTE FDD

2022-12-05 16:45:57

模型方法

2021-05-07 09:34:20

量子芯片計算機

2024-11-11 08:30:00

2020-07-15 08:13:02

告警疲勞安全運營中心SOC

2019-11-20 15:01:55

開源技術(shù) 趨勢

2024-03-13 13:49:22

Sora核心組件DiT

2019-12-27 15:16:34

設(shè)計人工智能開發(fā)

2021-07-26 16:31:30

網(wǎng)絡(luò)數(shù)據(jù)技術(shù)

2024-10-21 12:30:00

模型框架

2024-03-05 11:31:00

AI數(shù)據(jù)

2021-11-25 12:35:03

模型人工智能深度學習

2019-07-05 10:20:06

宏顏獲水AI 開發(fā)者

2020-07-24 11:17:51

開源技術(shù) 趨勢

2014-08-25 10:00:18

開源
點贊
收藏

51CTO技術(shù)棧公眾號