自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

最新Transformer模型盤點,Google研究員出品

新聞 前端
可高效處理長文本的模型Longformer、和堪稱“升級版”Transformer的BigBird模型,到底有什么區(qū)別?

 本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。

可高效處理長文本的模型Longformer、和堪稱“升級版”Transformer的BigBird模型,到底有什么區(qū)別?

最新Transformer模型盤點,Google研究員出品

Transformer的其他各種變體(X-former)到底都長什么樣、又有哪些新應用?

由于Transformer模型的發(fā)展速度日新月異,一天一個樣,哪怕是隔段時間回來研究,模型可能也已經多了不少。

Transformer模型,是谷歌在2017年推出的NLP經典模型(Bert就是用的Transformer)。

在機器翻譯任務上,Transformer表現超過了RNN和CNN,只需要編/解碼器就能達到很好的效果,可以高效地并行化。

好消息是,這里有一篇Transformer模型的“最新動向”,它集中探討Transformer新模型對于自注意力機制(Self-attention)的改進,并對這些模型進行對比。

此外,還有模型在NLP、計算機視覺和強化學習等各個領域的最新應用。

標準Transformer模型

首先來看看,標準的Transformer模型是什么樣的。

最新Transformer模型盤點,Google研究員出品

Transformer的核心部分,是右邊的兩個黑色實線框圈起來的兩部分,左邊是編碼器(Encoder),右邊是解碼器(Decoder)。

可以看見,編/解碼器主要由兩個模塊組合成:前饋神經網絡(圖中藍色的部分)和注意力機制(圖中玫紅色的部分),解碼器通常多一個(交叉)注意力機制。

Transformer最重要的部分,就是注意力機制。

通俗來講,注意力機制在圖像處理中的應用,是讓機器“像人一樣特別注意圖像的某個部分”,就像我們在看圖時,通常會“特別關注”圖中的某些地方。

[[343074]]

這其中,自注意力機制是定義Transformer模型特征的關鍵,其中一個重點難題就在于它的時間復雜度和空間復雜度上。

由于注意力機制直接將序列(sequence)兩兩比較,導致計算量巨大(計算量變成O(n²))。

最近,大量論文提出了新的Transformer“變種”,它們的根本目的都是加速模型的效率,但如果一篇篇去看,可能有點眼花繚亂。

為此,Google AI的研究人員特意整理了一篇Transformer模型的發(fā)展論文,仔細講解它們的出處。

“變種”后的Transformer模型

2種分類方法

使用方法來分類的話,Transformer模型可以分成如下3類:

只用編碼器:可用于分類
只用解碼器:可用于語言建模
編碼器-解碼器:可用于機器翻譯

但如果按這些變種的提高效率的原理,也就是“高效方法”來分類,那么Transformer模型的這些“變種”則可以被分成如下幾類:

最新Transformer模型盤點,Google研究員出品

Fixed Patterns(固定模式):將視野限定為固定的預定義模式,例如局部窗口、固定步幅塊,用于簡化注意力矩陣;

Learnable Patterns(可學習模式):以數據驅動的方式學習訪問模式,關鍵在于確定token相關性。

Memory(內存):利用可以一次訪問多個token的內存模塊,例如全局存儲器。

Low Rank(低秩):通過利用自注意力矩陣的低秩近似,來提高效率。

Kernels(內核):通過內核化的方式提高效率,其中核是注意力矩陣的近似,可視為低秩方法的一種。

Recurrence(遞歸):利用遞歸,連接矩陣分塊法中的各個塊,最終提高效率。

可以看見,近期Transformer相關的研究都被分在上面的圖像中了,非常清晰明了。

了解完分類方法后,接下來就是Transformer模型的各種變體了。

17種經典“X-former”

1、Memory Compressed Transformer(2018)

這是讓Transformer能更好地處理長序列的早期嘗試之一,主要修改了兩個部分:定位范圍注意、內存壓縮注意。

其中,前者旨在將輸入序列分為長度相似的模塊,并在每個部分中運行自注意力機制,這樣能保證每個部分的注意力成本不變,激活次數就能根據輸入長度線性縮放。

后者則是采用跨步卷積,減少注意力矩陣的大小、以及注意力的計算量,減少的量取決于跨步的步幅。

2、Image Transformer(2018)

這是個受卷積神經網絡啟發(fā)的Transformer變種,重點是局部注意范圍,即將接受域限制為局部領域,主要有兩種方案:一維局部注意和二維局部注意。

最新Transformer模型盤點,Google研究員出品

不過,這種模型有一個限制條件,即要以失去全局接受域為代價,以降低存儲和計算成本。

3、 Set Transformer(2019)

這個模型是為解決一種特殊應用場景而生的:輸入是一組特征,輸出是這組特征的函數。

最新Transformer模型盤點,Google研究員出品

它利用了稀疏高斯過程,將輸入集大小的注意復雜度從二次降為線性。

4、Sparse Transformer(2019)

這個模型的關鍵思想,在于僅在一小部分稀疏的數據對上計算注意力,以將密集注意力矩陣簡化為稀疏版本。

不過這個模型對硬件有所要求,需要自定義GPU內核,且無法直接在TPU等其他硬件上使用。

5、Axial Transformer(2019)

最新Transformer模型盤點,Google研究員出品

這個模型主要沿輸入張量的單軸施加多個注意力,每個注意力都沿特定軸混合信息,從而使沿其他軸的信息保持獨立。

由于任何單軸的長度通常都比元素總數小得多,因此這個模型可以顯著地節(jié)省計算和內存。

6、Longformer(2020)

Sparse Transformer的變體,通過在注意力模式中留有空隙、增加感受野來實現更好的遠程覆蓋。

在分類任務上,Longformer采用可以訪問所有輸入序列的全局token(例如CLS token)。

7、Extended Transformer Construction(2020)

同樣是Sparse Transformer的變體,引入了一種新的全局本地注意力機制,在引入全局token方面與Longformer相似。

但由于無法計算因果掩碼,ETC不能用于自動回歸解碼。

8、BigBird(2020)

與Longformer一樣,同樣使用全局內存,但不同的是,它有獨特的“內部變壓器構造(ITC)”,即全局內存已擴展為在sequence中包含token,而不是簡單的參數化內存。

然而,與ETC一樣,BigBird同樣不能用于自動回歸解碼。

9、Routing Transformer(2020)

提出了一種基于聚類的注意力機制,以數據驅動的方式學習注意力稀疏。為了確保集群中的token數量相似,模型會初始化聚類,計算每個token相對于聚類質心的距離。

10、Reformer(2020)

一個基于局部敏感哈希(LSH)的注意力模型,引入了可逆的Transformer層,有助于進一步減少內存占用量。

模型的關鍵思想,是附近的向量應獲得相似的哈希值,而遠距離的向量則不應獲得相似的哈希值,因此被稱為“局部敏感”。

11、Sinkhorn Transformer(2020)

這個模型屬于分塊模型,以分塊的方式對輸入鍵和值進行重新排序,并應用基于塊的局部注意力機制來學習稀疏模式。

12、Linformer(2020)

這是基于低秩的自注意力機制的高效Transformer模型,主要在長度維度上進行低秩投影,在單次轉換中按維度混合序列信息。

13、Linear Transformer(2020)

這個模型通過使用基于核的自注意力機制、和矩陣產品的關聯特性,將自注意力的復雜性從二次降低為線性。

目前,它已經被證明可以在基本保持預測性能的情況下,將推理速度提高多達三個數量級。

14、Performer(2020)

這個模型利用正交隨機特征(ORF),采用近似的方法避免存儲和計算注意力矩陣。

15、Synthesizer models(2020)

這個模型研究了調節(jié)在自注意力機制中的作用,它合成了一個自注意力模塊,近似了這個注意權重。

16、Transformer-XL(2020)

這個模型使用遞歸機制鏈接相鄰的部分?;趬K的遞歸可被視為與其他討論的技術正交的方法,因為它沒有明確稀疏密集的自注意力矩陣。

17、Compressive Transformers(2020)

這個模型是Transformer-XL的擴展,但不同于Transformer-XL,后者在跨段移動時會丟棄過去的激活,而它的關鍵思想則是保持對過去段激活的細粒度記憶。

整體來說,這些經典模型的參數量如下:

最新Transformer模型盤點,Google研究員出品

更詳細的解讀(包括具體的模型參數等),以及對Transformer未來趨勢的預測,可以戳下方傳送門查看整篇論文。

作者介紹

[[343077]]

論文一作Yi Tay,碩士和博士均畢業(yè)于新加坡國立大學計算機科學。

目前,Yi Tay在Google AI從事研究工作,主要方向是自然語言處理和機器學習。

傳送門

論文鏈接:
https://www.arxiv-vanity.com/papers/2009.06732

 

責任編輯:張燕妮 來源: 量子位
相關推薦

2021-06-29 15:33:28

谷歌Transformer模型

2022-06-06 10:58:52

訓練DeepMind研究

2021-02-21 00:18:47

惡意軟件研究職業(yè)技術

2022-06-15 18:57:43

人工智能

2020-08-24 08:15:29

軟件互聯網分布式

2020-12-23 17:50:46

AI語言模型AI倫理

2010-09-09 08:41:34

2011-07-30 13:22:49

2024-05-30 14:22:00

2022-02-07 15:05:07

模型AI訓練

2009-11-17 12:21:41

2020-08-11 07:45:38

軟件測試

2020-08-10 09:14:50

軟件測試工具技術

2010-03-11 09:39:02

微軟研究員泰克圖靈獎

2017-08-29 08:11:48

倉庫MITRFID

2013-08-18 18:26:21

App Store漏洞

2009-11-19 13:04:16

2020-12-03 10:56:31

軟件開發(fā)反饋弧

2015-12-21 13:39:47

2022-07-15 10:37:22

AI研究數據
點贊
收藏

51CTO技術棧公眾號