自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="upoi7"><p id="upoi7"></p></sub>

<blockquote id="upoi7"><i id="upoi7"></i></blockquote>

<cite id="upoi7"><track id="upoi7"></track></cite>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

騰訊優(yōu)圖&廈門大學提出無需訓練的ViT結構搜索算法

作者：機器之心 2022-03-31 10:51:20

人工智能新聞

無需訓練的 ViT 結構搜索算法是怎么樣的？性能又如何呢？騰訊優(yōu)圖實驗室、廈門大學等機構對此進行了深入的探討與研究。論文被選中為 CVPR 2022 Oral。

近期，ViT 在計算機視覺領域展現(xiàn)了出強大的競爭力、在多個任務里取得了驚人的進展。隨著許多人工設計的 ViT 結構（如Swin-Transformer、PVT、XCiT 等）的出現(xiàn)，面向 ViT 的結構搜索（TAS) 開始受到越來越多的關注。TAS 旨在以自動化的方式在 ViT 搜索空間（如MSA 的 head 數(shù)量、channel ratio 等）中找到更優(yōu)的網(wǎng)絡結構。基于 one-shot NAS 的方案（如AutoFormer、GLiT 等）已經(jīng)取得了初步進展，但他們?nèi)匀恍枰芨叩挠嬎愠杀荆ㄈ?4 GPU days 以上）。主要原因有以下兩點：

1.在空間的復雜度上，ViT 搜索空間（如，GLiT 空間的量級約 10^30）在數(shù)量上遠遠超過 CNN 搜索空間（如，DARTS 空間的量級約 10^18）；

2.ViT 模型通常需要更多的訓練周期（如300 epochs）才能知道其對應的效果。

在近期的一篇論文《Training-free Transformer Architecture Search》中，來自騰訊優(yōu)圖實驗室、廈門大學、鵬城實驗室等結構的研究者回顧近些年 NAS 領域的進展，并注意到：為了提高搜索效率，研究社區(qū)提出了若干零成本代理（zero-cost proxy）的評估指標（如GraSP、TE-score 和 NASWOT)。這些方法讓我們能夠在無需訓練的條件下就能評估出不同 CNN 結構的排序關系，從而極大程度上節(jié)省計算成本。

論文地址：https://arxiv.org/pdf/2203.12217.pdf
項目地址：https://github.com/decemberzhou/TF_TAS

從技術上來說，一個典型的 CNN 模型主要由卷積模塊組成，而一個 ViT 模型主要由多頭注意力模塊（MSA）和多層感知機模塊（MLP）組成。這種網(wǎng)絡結構上的差異會讓現(xiàn)有的、在 CNN 搜索空間上驗證有效的零成本代理無法保證其在 ViT 搜索空間上模型評估效果（見下圖 1）。

因此，研究一種更適合 ViT 結構評估、有利于 TAS 訓練效率的零成本代理指標是有必要且值得探索的。這一問題也將促使研究者進一步研究和更好地理解 ViT 結構，從而設計一種有效的、無需訓練的 TAS 搜索算法。

圖 1. （a）研究者采樣的 1000 個 ViT 模型的參數(shù)量和效果分布。（b-e）在 CNN 搜索空間效果好的 zero-cost proxy 方法并不適用于 ViT 搜索空間。（f）他們的 DSS-indicator 更適合用來評估不同的 ViT 模型。

方法主體

為了達到這個目的，研究者對 MSA 和 MLP 模塊進行了理論分析，希望找到某種可量化的屬性來有效地評估 ViT 網(wǎng)絡。

基于量化結果，他們觀察到：在 ViT 中，MSA 和 MLP 確實具有各自不同的、適合用來揭示模型效果的性質(zhì)。研究者有如下定義：衡量一個 MSA 的秩復雜程度，將其計作突觸多樣性（synaptic diversity）；估計一個 MLP 內(nèi)重要參數(shù)的數(shù)量，將其計作突觸顯著性（synaptic saliency）。當 MSA 擁有更高的突觸多樣性或者當 MLP 有更多的突觸顯著性時，其對應的 ViT 模型總是擁有更好的效果。

基于這個重要的結果，研究者設計了一個有效且高效的零代價代理評估指標 DSS-indicator（下圖 2），并基于此設計了一個包含模塊化策略的無訓練 Transformer 結構搜索算法（Transformer Architecture Search，TF-TAS）。

圖 2. 方法的整體框架圖。

具體來說，DSS-indicator 通過計算 MSA 的突觸多樣性和 MLP 的突觸顯著性來得到 ViT 結構的評價分數(shù)。這是學術界首次提出基于 MSA 的突觸多樣性和 MLP 的突觸顯著性來作為評價 ViT 結構的代理評估指標。而且需要注意的是，TF-TAS 與搜索空間設計和權值共享策略是正交的。因此，可以靈活地將 TF-TAS 與其他 ViT 搜索空間或 TAS 方法相結合，進一步提高搜索效率。

與人工設計的 ViT 和自動搜索的 ViT 相比，研究者設計的 TF-TAS 實現(xiàn)了具有競爭力的效果，將搜索過程從 24 GPU 天數(shù)縮短到不到 0.5 GPU 天數(shù)，大約快 48 倍。

MSA 的突觸多樣性

MSA 是 ViT 結構的一個基本組件，其多樣性對 ViT 效果有重要意義?；谝延械墓ぷ骺梢灾溃篗SA 模塊學到的特征表示存在秩崩潰（rank collapse）的現(xiàn)象。隨著輸入在網(wǎng)絡中前向傳播和深度的不斷加深，ViT 中 MSA 的輸出會逐漸收斂到秩為 1、并最終退化為一個秩為 1 的矩陣（每一行的值不變，即多樣性出現(xiàn)稀疏的情況）。秩崩潰意味著 ViT 模型效果很差。因此，我們可以通過估計秩崩潰的程度來推測 ViT 模型的效果。

然而，在高維空間中估計秩崩潰需要大量計算量。實際上，已經(jīng)被證明矩陣的秩包含特征中多樣性信息的代表性線索?；谶@些理解，MSA 模塊中權重參數(shù)的秩可以作為評價 ViT 結構的指標。

對于 MSA 模塊，直接對其權值矩陣的秩進行度量，存在計算量較大的問題。為了加速計算，研究者利用 MSA 權重矩陣的核范數(shù)近似其秩作為多樣性指標。理論上，當權重矩陣的 Frobenius 范數(shù)（F 范數(shù)）滿足一定條件時，權重矩陣的核范數(shù)可視為其秩的等價替換。具體來說，研究者將 MSA 模塊的權值參數(shù)矩陣表示為

。m 表示 MSA 中第 m 個線性層。因此，

的 F 范數(shù)可以定義為：

其中，

表示

中第 i 行 j 列的元素，根據(jù)算術均值和幾何均值的不等式，

的上界為：

上式表示

的上界即為

的最大線性獨立的向量數(shù)，即矩陣的秩。隨機給定

中的兩個向量

，

。當

，

獨立時，

的值相應的會更大。這表明：

的 F 范數(shù)越大，

的秩越接近

的多樣性。當

時，

的核范數(shù)可以是

秩的近似。形式上，

的核范數(shù)被定義為:

其中，

表示相應矩陣的跡，從而容易得到：

。因此，

的秩可近似為

。理論上，

和

成正比，這也表明利用的核范數(shù)可以測度

的多樣性。為了更好地估計權重隨機初始化的 ViT 網(wǎng)絡中 MSA 模塊的突觸多樣性，研究者在每個 MSA 模塊的梯度矩陣

(L 為損失函數(shù)) 上進一步考慮上述步驟。

總的來說，研究者對第 l 個 MSA 模塊中權重參數(shù)的突觸多樣性定義如下:

為了驗證 MSA 的突觸多樣性與給定 ViT 架構的測試精度之間的正相關關系，研究者對從 AutoFormer 搜索空間中采樣的 200 個 ViT 網(wǎng)絡進行完整的訓練，得到其對應的 MSA 模塊的分類效果和突觸多樣性。它們之間的 Kentall’s τ 相關系數(shù)為 0.65，如下圖 3a 所示。表明 MSA 的突觸多樣性與每個輸入 ViT 架構的效果之間的正相關聯(lián)系。

圖 3. （a）MSA 的突觸多樣性（紅）以及 MLP 的突觸顯著性（藍）的評估效果；（b-c）MSA 和 MLP 具有不同的剪枝敏感性。

MLP 的突觸顯著性

模型剪枝對于 CNN 領域已經(jīng)取得了很多進展，并開始在 Transformer 上得到應用。目前已經(jīng)有幾種有效的 CNN 剪枝方法被提出用來衡量早期訓練階段模型權重的重要性。主要有以下兩派方法：

測量在初始化狀態(tài)下衡量突觸的顯著性用于 CNN 模型的剪枝；
由于 Transformer 中不同模塊在初始化階段也有不同程度的冗余，因而可以通過對不同大小的 Transformer 進行剪枝。

與剪枝相似，TAS 主要搜索幾個重要維度，包括注意力頭數(shù)量、MSA 和 MLP 比值等。受這些剪枝方法的啟發(fā)，研究者嘗試使用突觸顯著性來評估不同的 ViT。然而， MSA 和 MLP 的結構差異較大，因此需要分析剪枝敏感性對度量 ViT 中不同模塊的影響。

為了進一步分析 MSA 和 MLP 對剪枝的敏感性不同對評估 ViT 模型的影響，研究者通過剪枝敏感性實驗給出了一些定量結果。如圖 3b 所示，他們從 AutoFormer 搜索空間中隨機抽樣 5 個 ViT 架構，分析 MSA 和 MLP 對剪枝的敏感性。結果顯示，MLP 對修剪比 MSA 更敏感。他們還對 PiT 搜索空間進行了分析，得到了類似的觀察結果 (圖 3c)。

此外，研究者采用 MSA 和 MLP 模塊上的突觸顯著性作為代理，分別計算代理 ViT 基準上的 Kendall’s τ 相關性系數(shù)。最終結果表明在 MLP 上突觸顯著性的 Kendall’s τ 為 0.47，優(yōu)于 MSA (0.24)、MLP 和 MSA (0.41)。

由于突觸顯著性通常以總和的形式計算，冗余的權重往往帶來負面的累積效應。MSA 模塊對剪枝不敏感，說明 MSA 的權值參數(shù)具有較高的冗余性。在剪枝領域中被證明冗余權參數(shù)的值要比非冗余權參數(shù)的值小得多。盡管這些冗余參數(shù)的值相對較小，但超過 50% 的冗余往往會產(chǎn)生較大的累積效應，尤其是在區(qū)分相似的 ViT 結構時。

對于累積效應，一般的零成本代理中不加區(qū)分地將 MSA 的冗余權重參數(shù)考慮在內(nèi)來衡量顯著性，導致相應的零成本代理中的累加形式存在 MSA 的累積效應。累積效應可能會使零成本代理給差的網(wǎng)絡更高的排名。同時，權重冗余對 MLP 模塊突觸顯著性的影響較小，因此可以作為評估 MLP 模塊權重次數(shù)秩的復雜性的一個指標，從一個方面指示模型的優(yōu)劣。

為了評估 ViT 中的 MLP，研究者基于突觸顯著性設計了評估的代理指標。在網(wǎng)絡剪枝中，對模型權值的重要性進行了廣泛的研究。由于神經(jīng)網(wǎng)絡主要由卷積層組成，有幾種基于剪枝的零成本代理可以直接用于測量神經(jīng)網(wǎng)絡的突觸顯著性。另一方面，ViT 體系結構主要由 MLP 和 MSA 模塊組成，它們具有不同的剪枝特性。通過對 MSA 和 MLP 模塊的剪枝敏感性分析，他們驗證了 MLP 模塊對剪枝更加敏感。因此，突觸顯著性可以更好地反映 MLP 模塊中權重重要性的差異。相比之下，MSA 模塊對剪枝相對不敏感，其突觸顯著性往往受到冗余權重的影響。

基于 MLP 的修剪敏感性，研究者建議以模塊化的方式測量突觸顯著性。具體來說，所提出的模塊化策略測量了作為 ViT 結構的一個重要部分的 MLPs 的突觸顯著性。給定一個 ViT 架構，第 l 個 MLP 模塊的顯著性得分為：

其中 n 為指定 ViT 網(wǎng)絡中第 l 個 MLP 的線性層數(shù)，通常設為 2。圖 3a 顯示了一些定性結果，以驗證

在評估 ViT 架構方面的有效性。

無需訓練的 TAS

基于上述分析，研究者設計了一種基于模塊化策略的無需訓練的 TAS（TF-TAS），來提高搜索 TAS 的搜索效率。如下公式所示，DSS-indicator 同時考慮 MSA 的突觸多樣性和 MLP 的突觸顯著性來對模型進行評分：

總的來說，DSS-indicator 從兩個不同的維度評估每個 ViT 結構。TF-TAS 在輸入模型經(jīng)過一個前向傳播和后向更新后計算

，作為相應的 ViT 模型的代理分數(shù)。研究者保持模型的輸入數(shù)據(jù)的每個像素為 1，以消除輸入數(shù)據(jù)對權重計算的影響。因此，

對隨機種子具有不變性，與真實的圖片輸入數(shù)據(jù)無關。

實驗結果

1.Image-Net

研究者首先在 ImageNet 數(shù)據(jù)集上進行搜索效果測試，結果如下所示。在三種參數(shù)量級上，研究者都能找到不亞于、甚至比基于 one-shot NAS 的 TAS 方法更好的模型結果。而且所需要的耗時（0.5 GPU days）要遠小于現(xiàn)有 TAS 方法所需的計算成本（24 GPU days 以上）。

2. 遷移實驗

為了進一步驗證搜索得到的模型的效果，研究者在 CIFAR-10、CIFAR-100 數(shù)據(jù)集上驗證其遷移性。按照 AutoFormer 論文的設定，他們將模型在 384 x 384 大小的圖像上進行 fintune，效果如下所示?；?DSS-indicator 找到的模型與基于 one-shot NAS 找到的模型在遷移性上不相上下。

3. 在其他 ViT 搜索空間的搜索效果

此外，研究者也在 PiT 搜索空間上進行了搜索測試，并按照論文的設定，在 COCO 數(shù)據(jù)集上測試了搜索到的模型結果對應的檢測效果。結果如下表所示：他們搜索找到的 PiT 模型 TF-TAS-Ti、TF-TAS-XS 和 TF-TAS-S 和基于手工設計的 PiT 的效果不相上下，而且遠好于隨機搜索的模型結果。并且在檢測效果上，研究者的方法也有一定的優(yōu)勢。這些結果驗證了該方法的有效性和普適性。

? CVPR 2022 Oral | 騰訊優(yōu)圖&廈門大學提出無需訓練的ViT結構搜索算法 ?

責任編輯：張燕妮來源：機器之心

算法訓練研究

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<sub id="dzdla"><p id="dzdla"></p></sub>