只需2層線性層，就能超越自注意力機制，清華計圖團隊又有新突破

作者：量子位編譯 2021-05-07 15:40:36

清華大學圖形學實驗室Jittor團隊在arXiv上提交論文“Beyond Self-attention: External Attention using Two Linear Layers for Visual Tasks”[2]，提出了一種新的注意機制，稱之為“External Attention”。

[[397888]]

本文經(jīng)AI新媒體量子位（公眾號ID:QbitAI）授權轉載，轉載請聯(lián)系出處。

5月4日，谷歌團隊在arXiv上提交了一篇論文“MLP-Mixer: An all-MLP Architecture for Vision”[1]，引起了廣大計算機視覺的研究人員的熱烈討論：MLP究竟有多大的潛力？

5月5日，清華大學圖形學實驗室Jittor團隊在arXiv上提交論文“Beyond Self-attention: External Attention using Two Linear Layers for Visual Tasks”[2]，提出了一種新的注意機制，稱之為“External Attention”。

基于兩個外部的、小的、可學習的和共享的存儲器，只用兩個級聯(lián)的線性層和歸一化層就可以取代了現(xiàn)有流行的學習架構中的“Self-attention”，揭示了線性層和注意力機制之間的關系。

同日，清華大學軟件學院丁貴廣團隊在arXiv上提交了論文“RepMLP: Re-parameterizing Convolutions into Fully-connected Layers for Image Recognition”[3]，展示了結合重參數(shù)化技術的MLP也取得了非常不錯的效果。

5月6日牛津大學的學者提交了一篇名為”Do You Even Need Attention? A Stack of Feed-Forward Layers Does Surprisingly Well on ImageNet”的論文[4]，也提出了Transformer中的attention是不必要的，僅僅使用Feed forward就可以在ImageNet上實現(xiàn)非常高的結果。

從Self-attention到External-attention

自注意力機制在自然語言處理和計算機視覺領域中起到了越來越重要的作用。對于輸入的Nxd維空間的特征向量F，自注意力機制使用基于自身線性變換的Query，Key和Value特征去計算自身樣本內(nèi)的注意力，并據(jù)此更新特征：

由于QKV是F的線性變換，簡單起見，我們可以將自注意力計算公式簡記如下：

這是F對F的注意力，也就是所謂的Self-attention。如果希望注意力機制可以考慮到來自其他樣本的影響，那么就需要一個所有樣本共享的特征。為此，我們引入一個外部的Sxd維空間的記憶單元M，來刻畫所有樣本最本質的特征，并用M來表示輸入特征。

我們稱這種新的注意力機制為External-attention。我們可以發(fā)現(xiàn)，公式(5)(6)中的計算主要是矩陣乘法，就是常見的線性變換，一個自注意力機制就這樣被兩層線性層和歸一化層代替了。我們還使用了之前工作[5]中提出的Norm方式來避免某一個特征向量的過大而引起的注意力失效問題。

為了增強External-attention的表達能力，與自注意力機制類似，我們采用兩個不同的記憶單元。