自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="h8h6k"></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

最新Transformer模型盤點，Google研究員出品

作者：蕭簫 2020-09-21 14:25:26

可高效處理長文本的模型Longformer、和堪稱“升級版”Transformer的BigBird模型，到底有什么區(qū)別？

本文經AI新媒體量子位（公眾號ID:QbitAI）授權轉載，轉載請聯系出處。

可高效處理長文本的模型Longformer、和堪稱“升級版”Transformer的BigBird模型，到底有什么區(qū)別？

最新Transformer模型盤點，Google研究員出品

Transformer的其他各種變體（X-former）到底都長什么樣、又有哪些新應用？

由于Transformer模型的發(fā)展速度日新月異，一天一個樣，哪怕是隔段時間回來研究，模型可能也已經多了不少。

Transformer模型，是谷歌在2017年推出的NLP經典模型（Bert就是用的Transformer）。

在機器翻譯任務上，Transformer表現超過了RNN和CNN，只需要編/解碼器就能達到很好的效果，可以高效地并行化。

好消息是，這里有一篇Transformer模型的“最新動向”，它集中探討Transformer新模型對于自注意力機制（Self-attention）的改進，并對這些模型進行對比。

此外，還有模型在NLP、計算機視覺和強化學習等各個領域的最新應用。

標準Transformer模型

首先來看看，標準的Transformer模型是什么樣的。

最新Transformer模型盤點，Google研究員出品

Transformer的核心部分，是右邊的兩個黑色實線框圈起來的兩部分，左邊是編碼器（Encoder），右邊是解碼器（Decoder）。

可以看見，編/解碼器主要由兩個模塊組合成：前饋神經網絡（圖中藍色的部分）和注意力機制（圖中玫紅色的部分），解碼器通常多一個（交叉）注意力機制。

Transformer最重要的部分，就是注意力機制。

通俗來講，注意力機制在圖像處理中的應用，是讓機器“像人一樣特別注意圖像的某個部分”，就像我們在看圖時，通常會“特別關注”圖中的某些地方。

這其中，自注意力機制是定義Transformer模型特征的關鍵，其中一個重點難題就在于它的時間復雜度和空間復雜度上。

由于注意力機制直接將序列（sequence）兩兩比較，導致計算量巨大（計算量變成O(n²)）。

最近，大量論文提出了新的Transformer“變種”，它們的根本目的都是加速模型的效率，但如果一篇篇去看，可能有點眼花繚亂。

為此，Google AI的研究人員特意整理了一篇Transformer模型的發(fā)展論文，仔細講解它們的出處。

“變種”后的Transformer模型

2種分類方法

按使用方法來分類的話，Transformer模型可以分成如下3類：

只用編碼器：可用于分類
只用解碼器：可用于語言建模
編碼器-解碼器：可用于機器翻譯

但如果按這些變種的提高效率的原理，也就是“高效方法”來分類，那么Transformer模型的這些“變種”則可以被分成如下幾類：

最新Transformer模型盤點，Google研究員出品

Fixed Patterns（固定模式）：將視野限定為固定的預定義模式，例如局部窗口、固定步幅塊，用于簡化注意力矩陣；

Learnable Patterns（可學習模式）：以數據驅動的方式學習訪問模式，關鍵在于確定token相關性。

Memory（內存）：利用可以一次訪問多個token的內存模塊，例如全局存儲器。

Low Rank（低秩）：通過利用自注意力矩陣的低秩近似，來提高效率。

Kernels（內核）：通過內核化的方式提高效率，其中核是注意力矩陣的近似，可視為低秩方法的一種。

Recurrence（遞歸）：利用遞歸，連接矩陣分塊法中的各個塊，最終提高效率。

可以看見，近期Transformer相關的研究都被分在上面的圖像中了，非常清晰明了。

了解完分類方法后，接下來就是Transformer模型的各種變體了。

17種經典“X-former”

1、Memory Compressed Transformer（2018）

這是讓Transformer能更好地處理長序列的早期嘗試之一，主要修改了兩個部分：定位范圍注意、內存壓縮注意。

其中，前者旨在將輸入序列分為長度相似的模塊，并在每個部分中運行自注意力機制，這樣能保證每個部分的注意力成本不變，激活次數就能根據輸入長度線性縮放。

后者則是采用跨步卷積，減少注意力矩陣的大小、以及注意力的計算量，減少的量取決于跨步的步幅。

2、Image Transformer（2018）

這是個受卷積神經網絡啟發(fā)的Transformer變種，重點是局部注意范圍，即將接受域限制為局部領域，主要有兩種方案：一維局部注意和二維局部注意。

最新Transformer模型盤點，Google研究員出品

不過，這種模型有一個限制條件，即要以失去全局接受域為代價，以降低存儲和計算成本。

3、 Set Transformer（2019）

這個模型是為解決一種特殊應用場景而生的：輸入是一組特征，輸出是這組特征的函數。

最新Transformer模型盤點，Google研究員出品

它利用了稀疏高斯過程，將輸入集大小的注意復雜度從二次降為線性。

4、Sparse Transformer（2019）

這個模型的關鍵思想，在于僅在一小部分稀疏的數據對上計算注意力，以將密集注意力矩陣簡化為稀疏版本。

不過這個模型對硬件有所要求，需要自定義GPU內核，且無法直接在TPU等其他硬件上使用。

5、Axial Transformer（2019）

最新Transformer模型盤點，Google研究員出品

這個模型主要沿輸入張量的單軸施加多個注意力，每個注意力都沿特定軸混合信息，從而使沿其他軸的信息保持獨立。

由于任何單軸的長度通常都比元素總數小得多，因此這個模型可以顯著地節(jié)省計算和內存。

6、Longformer（2020）

Sparse Transformer的變體，通過在注意力模式中留有空隙、增加感受野來實現更好的遠程覆蓋。

在分類任務上，Longformer采用可以訪問所有輸入序列的全局token（例如CLS token）。

7、Extended Transformer Construction（2020）

同樣是Sparse Transformer的變體，引入了一種新的全局本地注意力機制，在引入全局token方面與Longformer相似。

但由于無法計算因果掩碼，ETC不能用于自動回歸解碼。

8、BigBird（2020）

與Longformer一樣，同樣使用全局內存，但不同的是，它有獨特的“內部變壓器構造（ITC）”，即全局內存已擴展為在sequence中包含token，而不是簡單的參數化內存。

然而，與ETC一樣，BigBird同樣不能用于自動回歸解碼。

9、Routing Transformer（2020）

提出了一種基于聚類的注意力機制，以數據驅動的方式學習注意力稀疏。為了確保集群中的token數量相似，模型會初始化聚類，計算每個token相對于聚類質心的距離。

10、Reformer（2020）

一個基于局部敏感哈希（LSH）的注意力模型，引入了可逆的Transformer層，有助于進一步減少內存占用量。

模型的關鍵思想，是附近的向量應獲得相似的哈希值，而遠距離的向量則不應獲得相似的哈希值，因此被稱為“局部敏感”。

11、Sinkhorn Transformer（2020）

這個模型屬于分塊模型，以分塊的方式對輸入鍵和值進行重新排序，并應用基于塊的局部注意力機制來學習稀疏模式。

12、Linformer（2020）

這是基于低秩的自注意力機制的高效Transformer模型，主要在長度維度上進行低秩投影，在單次轉換中按維度混合序列信息。

13、Linear Transformer（2020）

這個模型通過使用基于核的自注意力機制、和矩陣產品的關聯特性，將自注意力的復雜性從二次降低為線性。

目前，它已經被證明可以在基本保持預測性能的情況下，將推理速度提高多達三個數量級。

14、Performer（2020）

這個模型利用正交隨機特征（ORF），采用近似的方法避免存儲和計算注意力矩陣。

15、Synthesizer models（2020）

這個模型研究了調節(jié)在自注意力機制中的作用，它合成了一個自注意力模塊，近似了這個注意權重。

16、Transformer-XL（2020）

這個模型使用遞歸機制鏈接相鄰的部分?；趬K的遞歸可被視為與其他討論的技術正交的方法，因為它沒有明確稀疏密集的自注意力矩陣。

17、Compressive Transformers（2020）

這個模型是Transformer-XL的擴展，但不同于Transformer-XL，后者在跨段移動時會丟棄過去的激活，而它的關鍵思想則是保持對過去段激活的細粒度記憶。

整體來說，這些經典模型的參數量如下：

最新Transformer模型盤點，Google研究員出品

更詳細的解讀（包括具體的模型參數等），以及對Transformer未來趨勢的預測，可以戳下方傳送門查看整篇論文。

作者介紹

論文一作Yi Tay，碩士和博士均畢業(yè)于新加坡國立大學計算機科學。

目前，Yi Tay在Google AI從事研究工作，主要方向是自然語言處理和機器學習。

傳送門

論文鏈接：
https://www.arxiv-vanity.com/papers/2009.06732

責任編輯：張燕妮來源：量子位

Google 開源技術

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<cite id="coigm"></cite>

<sub id="coigm"></sub>