自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

騰訊優(yōu)圖&廈門大學提出無需訓練的ViT結構搜索算法

人工智能 新聞
無需訓練的 ViT 結構搜索算法是怎么樣的?性能又如何呢?騰訊優(yōu)圖實驗室、廈門大學等機構對此進行了深入的探討與研究。論文被選中為 CVPR 2022 Oral。

近期,ViT 在計算機視覺領域展現(xiàn)了出強大的競爭力、在多個任務里取得了驚人的進展。隨著許多人工設計的 ViT 結構(如Swin-Transformer、PVT、XCiT 等)的出現(xiàn),面向 ViT 的結構搜索(TAS) 開始受到越來越多的關注。TAS 旨在以自動化的方式在 ViT 搜索空間(如MSA 的 head 數(shù)量、channel ratio 等)中找到更優(yōu)的網(wǎng)絡結構。基于 one-shot NAS 的方案(如AutoFormer、GLiT 等)已經(jīng)取得了初步進展,但他們?nèi)匀恍枰芨叩挠嬎愠杀荆ㄈ?4 GPU days 以上)。主要原因有以下兩點:

1.在空間的復雜度上,ViT 搜索空間(如,GLiT 空間的量級約 10^30)在數(shù)量上遠遠超過 CNN 搜索空間(如,DARTS 空間的量級約 10^18);

2.ViT 模型通常需要更多的訓練周期(如300 epochs)才能知道其對應的效果。

在近期的一篇論文《Training-free Transformer Architecture Search》中,來自騰訊優(yōu)圖實驗室、廈門大學、鵬城實驗室等結構的研究者回顧近些年 NAS 領域的進展,并注意到:為了提高搜索效率,研究社區(qū)提出了若干零成本代理(zero-cost proxy)的評估指標(如GraSP、TE-score 和 NASWOT)。這些方法讓我們能夠在無需訓練的條件下就能評估出不同 CNN 結構的排序關系,從而極大程度上節(jié)省計算成本。

  • 論文地址:https://arxiv.org/pdf/2203.12217.pdf
  • 項目地址:https://github.com/decemberzhou/TF_TAS

從技術上來說,一個典型的 CNN 模型主要由卷積模塊組成,而一個 ViT 模型主要由多頭注意力模塊(MSA)和多層感知機模塊(MLP)組成。這種網(wǎng)絡結構上的差異會讓現(xiàn)有的、在 CNN 搜索空間上驗證有效的零成本代理無法保證其在 ViT 搜索空間上模型評估效果(見下圖 1)。

因此,研究一種更適合 ViT 結構評估、有利于 TAS 訓練效率的零成本代理指標是有必要且值得探索的。這一問題也將促使研究者進一步研究和更好地理解 ViT 結構,從而設計一種有效的、無需訓練的 TAS 搜索算法。

圖 1. (a)研究者采樣的 1000 個 ViT 模型的參數(shù)量和效果分布。(b-e)在 CNN 搜索空間效果好的 zero-cost proxy 方法并不適用于 ViT 搜索空間。(f)他們的 DSS-indicator 更適合用來評估不同的 ViT 模型。

方法主體

為了達到這個目的,研究者對 MSA 和 MLP 模塊進行了理論分析,希望找到某種可量化的屬性來有效地評估 ViT 網(wǎng)絡。

基于量化結果,他們觀察到:在 ViT 中,MSA 和 MLP 確實具有各自不同的、適合用來揭示模型效果的性質(zhì)。研究者有如下定義:衡量一個 MSA 的秩復雜程度,將其計作突觸多樣性(synaptic diversity);估計一個 MLP 內(nèi)重要參數(shù)的數(shù)量,將其計作突觸顯著性(synaptic saliency)。當 MSA 擁有更高的突觸多樣性或者當 MLP 有更多的突觸顯著性時,其對應的 ViT 模型總是擁有更好的效果。

基于這個重要的結果,研究者設計了一個有效且高效的零代價代理評估指標 DSS-indicator(下圖 2),并基于此設計了一個包含模塊化策略的無訓練 Transformer 結構搜索算法(Transformer Architecture Search,TF-TAS)。

圖 2. 方法的整體框架圖。

具體來說,DSS-indicator 通過計算 MSA 的突觸多樣性和 MLP 的突觸顯著性來得到 ViT 結構的評價分數(shù)。這是學術界首次提出基于 MSA 的突觸多樣性和 MLP 的突觸顯著性來作為評價 ViT 結構的代理評估指標。而且需要注意的是,TF-TAS 與搜索空間設計和權值共享策略是正交的。因此,可以靈活地將 TF-TAS 與其他 ViT 搜索空間或 TAS 方法相結合,進一步提高搜索效率。

與人工設計的 ViT 和自動搜索的 ViT 相比,研究者設計的 TF-TAS 實現(xiàn)了具有競爭力的效果,將搜索過程從 24 GPU 天數(shù)縮短到不到 0.5 GPU 天數(shù),大約快 48 倍。

MSA 的突觸多樣性

MSA 是 ViT 結構的一個基本組件,其多樣性對 ViT 效果有重要意義?;谝延械墓ぷ骺梢灾溃篗SA 模塊學到的特征表示存在秩崩潰(rank collapse)的現(xiàn)象。隨著輸入在網(wǎng)絡中前向傳播和深度的不斷加深,ViT 中 MSA 的輸出會逐漸收斂到秩為 1、并最終退化為一個秩為 1 的矩陣(每一行的值不變,即多樣性出現(xiàn)稀疏的情況)。秩崩潰意味著 ViT 模型效果很差。因此,我們可以通過估計秩崩潰的程度來推測 ViT 模型的效果。

然而,在高維空間中估計秩崩潰需要大量計算量。實際上,已經(jīng)被證明矩陣的秩包含特征中多樣性信息的代表性線索?;谶@些理解,MSA 模塊中權重參數(shù)的秩可以作為評價 ViT 結構的指標。

對于 MSA 模塊,直接對其權值矩陣的秩進行度量,存在計算量較大的問題。為了加速計算,研究者利用 MSA 權重矩陣的核范數(shù)近似其秩作為多樣性指標。理論上,當權重矩陣的 Frobenius 范數(shù)(F 范數(shù))滿足一定條件時,權重矩陣的核范數(shù)可視為其秩的等價替換。具體來說,研究者將 MSA 模塊的權值參數(shù)矩陣表示為

。m 表示 MSA 中第 m 個線性層。因此,

的 F 范數(shù)可以定義為:

其中,

表示

中第 i 行 j 列的元素,根據(jù)算術均值和幾何均值的不等式,

的上界為:

上式表示

的上界即為

的最大線性獨立的向量數(shù),即矩陣的秩。隨機給定

中的兩個向量

。當

,

獨立時,

的值相應的會更大。這表明:

的 F 范數(shù)越大,

的秩越接近

的多樣性。當

時,

的核范數(shù)可以是

秩的近似。形式上,

的核范數(shù)被定義為:

其中,

表示相應矩陣的跡,從而容易得到:

。因此,

的秩可近似為

。理論上,

成正比,這也表明利用的核范數(shù)可以測度

的多樣性。為了更好地估計權重隨機初始化的 ViT 網(wǎng)絡中 MSA 模塊的突觸多樣性,研究者在每個 MSA 模塊的梯度矩陣

(L 為損失函數(shù)) 上進一步考慮上述步驟。

總的來說,研究者對第 l 個 MSA 模塊中權重參數(shù)的突觸多樣性定義如下:

為了驗證 MSA 的突觸多樣性與給定 ViT 架構的測試精度之間的正相關關系,研究者對從 AutoFormer 搜索空間中采樣的 200 個 ViT 網(wǎng)絡進行完整的訓練,得到其對應的 MSA 模塊的分類效果和突觸多樣性。它們之間的 Kentall’s τ 相關系數(shù)為 0.65,如下圖 3a 所示。表明 MSA 的突觸多樣性與每個輸入 ViT 架構的效果之間的正相關聯(lián)系。

圖 3. (a)MSA 的突觸多樣性(紅)以及 MLP 的突觸顯著性(藍)的評估效果;(b-c)MSA 和 MLP 具有不同的剪枝敏感性。

MLP 的突觸顯著性

模型剪枝對于 CNN 領域已經(jīng)取得了很多進展,并開始在 Transformer 上得到應用。目前已經(jīng)有幾種有效的 CNN 剪枝方法被提出用來衡量早期訓練階段模型權重的重要性。主要有以下兩派方法:

  1. 測量在初始化狀態(tài)下衡量突觸的顯著性用于 CNN 模型的剪枝;
  2. 由于 Transformer 中不同模塊在初始化階段也有不同程度的冗余,因而可以通過對不同大小的 Transformer 進行剪枝。

與剪枝相似,TAS 主要搜索幾個重要維度,包括注意力頭數(shù)量、MSA 和 MLP 比值等。受這些剪枝方法的啟發(fā),研究者嘗試使用突觸顯著性來評估不同的 ViT。然而, MSA 和 MLP 的結構差異較大,因此需要分析剪枝敏感性對度量 ViT 中不同模塊的影響。

為了進一步分析 MSA 和 MLP 對剪枝的敏感性不同對評估 ViT 模型的影響,研究者通過剪枝敏感性實驗給出了一些定量結果。如圖 3b 所示,他們從 AutoFormer 搜索空間中隨機抽樣 5 個 ViT 架構,分析 MSA 和 MLP 對剪枝的敏感性。結果顯示,MLP 對修剪比 MSA 更敏感。他們還對 PiT 搜索空間進行了分析,得到了類似的觀察結果 (圖 3c)。

此外,研究者采用 MSA 和 MLP 模塊上的突觸顯著性作為代理,分別計算代理 ViT 基準上的 Kendall’s τ 相關性系數(shù)。最終結果表明在 MLP 上突觸顯著性的 Kendall’s τ 為 0.47,優(yōu)于 MSA (0.24)、MLP 和 MSA (0.41)。

由于突觸顯著性通常以總和的形式計算,冗余的權重往往帶來負面的累積效應。MSA 模塊對剪枝不敏感,說明 MSA 的權值參數(shù)具有較高的冗余性。在剪枝領域中被證明冗余權參數(shù)的值要比非冗余權參數(shù)的值小得多。盡管這些冗余參數(shù)的值相對較小,但超過 50% 的冗余往往會產(chǎn)生較大的累積效應,尤其是在區(qū)分相似的 ViT 結構時。

對于累積效應,一般的零成本代理中不加區(qū)分地將 MSA 的冗余權重參數(shù)考慮在內(nèi)來衡量顯著性,導致相應的零成本代理中的累加形式存在 MSA 的累積效應。累積效應可能會使零成本代理給差的網(wǎng)絡更高的排名。同時,權重冗余對 MLP 模塊突觸顯著性的影響較小,因此可以作為評估 MLP 模塊權重次數(shù)秩的復雜性的一個指標,從一個方面指示模型的優(yōu)劣。

為了評估 ViT 中的 MLP,研究者基于突觸顯著性設計了評估的代理指標。在網(wǎng)絡剪枝中,對模型權值的重要性進行了廣泛的研究。由于神經(jīng)網(wǎng)絡主要由卷積層組成,有幾種基于剪枝的零成本代理可以直接用于測量神經(jīng)網(wǎng)絡的突觸顯著性。另一方面,ViT 體系結構主要由 MLP 和 MSA 模塊組成,它們具有不同的剪枝特性。通過對 MSA 和 MLP 模塊的剪枝敏感性分析,他們驗證了 MLP 模塊對剪枝更加敏感。因此,突觸顯著性可以更好地反映 MLP 模塊中權重重要性的差異。相比之下,MSA 模塊對剪枝相對不敏感,其突觸顯著性往往受到冗余權重的影響。

基于 MLP 的修剪敏感性,研究者建議以模塊化的方式測量突觸顯著性。具體來說,所提出的模塊化策略測量了作為 ViT 結構的一個重要部分的 MLPs 的突觸顯著性。給定一個 ViT 架構,第 l 個 MLP 模塊的顯著性得分為:

其中 n 為指定 ViT 網(wǎng)絡中第 l 個 MLP 的線性層數(shù),通常設為 2。圖 3a 顯示了一些定性結果,以驗證

在評估 ViT 架構方面的有效性。

無需訓練的 TAS

基于上述分析,研究者設計了一種基于模塊化策略的無需訓練的 TAS(TF-TAS),來提高搜索 TAS 的搜索效率。如下公式所示,DSS-indicator 同時考慮 MSA 的突觸多樣性和 MLP 的突觸顯著性來對模型進行評分:

總的來說,DSS-indicator 從兩個不同的維度評估每個 ViT 結構。TF-TAS 在輸入模型經(jīng)過一個前向傳播和后向更新后計算

,作為相應的 ViT 模型的代理分數(shù)。研究者保持模型的輸入數(shù)據(jù)的每個像素為 1,以消除輸入數(shù)據(jù)對權重計算的影響。因此,

對隨機種子具有不變性,與真實的圖片輸入數(shù)據(jù)無關。

實驗結果

1.Image-Net

研究者首先在 ImageNet 數(shù)據(jù)集上進行搜索效果測試,結果如下所示。在三種參數(shù)量級上,研究者都能找到不亞于、甚至比基于 one-shot NAS 的 TAS 方法更好的模型結果。而且所需要的耗時(0.5 GPU days)要遠小于現(xiàn)有 TAS 方法所需的計算成本(24 GPU days 以上)。

2. 遷移實驗

為了進一步驗證搜索得到的模型的效果,研究者在 CIFAR-10、CIFAR-100 數(shù)據(jù)集上驗證其遷移性。按照 AutoFormer 論文的設定,他們將模型在 384 x 384 大小的圖像上進行 fintune,效果如下所示?;?DSS-indicator 找到的模型與基于 one-shot NAS 找到的模型在遷移性上不相上下。

3. 在其他 ViT 搜索空間的搜索效果

此外,研究者也在 PiT 搜索空間上進行了搜索測試,并按照論文的設定,在 COCO 數(shù)據(jù)集上測試了搜索到的模型結果對應的檢測效果。結果如下表所示:他們搜索找到的 PiT 模型 TF-TAS-Ti、TF-TAS-XS 和 TF-TAS-S 和基于手工設計的 PiT 的效果不相上下,而且遠好于隨機搜索的模型結果。并且在檢測效果上,研究者的方法也有一定的優(yōu)勢。這些結果驗證了該方法的有效性和普適性。

? CVPR 2022 Oral | 騰訊優(yōu)圖&廈門大學提出無需訓練的ViT結構搜索算法 ?

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-03-21 13:25:14

2016-04-08 11:57:26

華為廈門大學

2022-05-12 13:39:48

AI研究模型

2025-02-20 09:36:45

2025-02-10 08:40:00

訓練數(shù)據(jù)模型

2019-03-29 09:40:38

數(shù)據(jù)結構算法前端

2010-02-02 09:57:12

微軟比爾·蓋茨

2023-05-30 07:58:01

谷歌搜索算法

2023-09-06 09:50:29

人工智能模型

2017-07-24 18:38:14

華為

2018-10-12 15:15:45

電商搜索算法

2025-02-26 05:00:00

DFS算法遞歸

2024-12-30 08:50:00

AI數(shù)據(jù)訓練

2012-02-29 13:32:28

Java

2025-01-07 09:30:00

模型論文AI

2013-04-23 09:31:52

SQL Server

2024-12-04 12:10:40

2022-04-11 09:20:00

模型訓練
點贊
收藏

51CTO技術棧公眾號