解決Transformer訓練難題，微軟研究院把Transformer干到了1000層

作者：機器之心 2022-03-03 10:06:41

微軟研究院在一篇新論文《DeepNet: Scaling Transformers to 1,000 Layers》中終于將Transformer的深度擴展到了1000層。

數(shù)小時前剛出爐的論文《DeepNet: Scaling Transformers to 1,000 Layers》，來自微軟研究院。

該研究直接把Transformer深度提升到1000層！

下面讓我們看下這篇研究說了什么。

近年來，大規(guī)模 Transformer模型出現(xiàn)了這樣一種趨勢：隨著模型參數(shù)從數(shù)百萬增加至數(shù)十億甚至數(shù)萬億，性能相應地實現(xiàn)了顯著提升。大規(guī)模模型在一系列任務上都取得了SOTA性能，并在小樣本和零樣本學習設置下展現(xiàn)出了令人矚目的能力。如下圖1所示，盡管參數(shù)量已經(jīng)很大了，但Transformer模型的深度（depth）卻受到了訓練不穩(wěn)定的限制。

Nguyen和Salazar (2019)發(fā)現(xiàn)，基于post-norm連接（Post-LN），pre-norm 殘差連接（Pre-LN）能夠提升 Transformer的穩(wěn)定性。但是，Pre-LN在底層的梯度往往大于頂層，因而導致與 Post-LN相比性能下降。為了緩解這一問題，研究人員一直努力通過更好的初始化或更好的架構來改進深度Transformer的優(yōu)化。這些方法可以使多達數(shù)百層的Transformer模型實現(xiàn)穩(wěn)定化，然而以往的方法沒有能夠成功地擴展至1000層。

微軟研究院在一篇新論文《DeepNet: Scaling Transformers to 1,000 Layers》中終于將Transformer的深度擴展到了1000層。

論文地址：
?https://arxiv.org/pdf/2203.00555.pdf

研究者的目標是提升 Transformer 模型的訓練穩(wěn)定性，并將模型深度進行數(shù)量級的擴展。為此，他們研究了不穩(wěn)定優(yōu)化的原因，并且發(fā)現(xiàn)爆炸式模型更新是造成不穩(wěn)定的罪魁禍首。基于這些觀察，研究者在殘差連接處引入了一個新的歸一化函數(shù) —— DEEPNORM，它在將模型更新限制為常數(shù)時具有理論上的合理性。這一方法簡單但高效，只需要改變幾行代碼即可。最終，該方法提升了Transformer模型的穩(wěn)定性，并實現(xiàn)了將模型深度擴展到了1000多層。

此外，實驗結果表明，DEEPNORM 能夠將 Post-LN 的良好性能和Pre-LN的穩(wěn)定訓練高效結合起來。研究者提出的方法可以成為Transformers的首選替代方案，不僅適用于極其深（多于1000層）的模型，也適用于現(xiàn)有大規(guī)模模型。值得指出的是，在大規(guī)模多語言機器翻譯基準上，文中 32 億參數(shù)量的 200 層模型（DeepNet）比120億參數(shù)量的48層SOTA模型（即 Facebook AI的M2M模型）實現(xiàn)了 5% 的BLEU值提升。

DEEPNORM方法

如下圖2所示，使用 PostLN 實現(xiàn)基于 Transformer 的方法很簡單。與 Post-LN 相比，DEEPNORM 在執(zhí)行層歸一化之前up-scale了殘差連接。

（圖注）圖2：(a) DEEPNORM 的偽代碼，例如可以用其他標準初始化代替 Xavier 初始化 (Glorot and Bengio, 2010) ，其中α是一個常數(shù)。(b) 不同架構的 DEEPNORM 參數(shù)（N 層編碼器，M 層解碼器）。

此外，該研究還在初始化期間down-scale了參數(shù)。值得注意的是，該研究只擴展了前饋網(wǎng)絡的權重，以及注意力層的值投影和輸出投影。此外，殘差連接和初始化的規(guī)模取決于圖2中不同的架構。

深度Transformer的不穩(wěn)定性

該研究分析了深度Transformer不穩(wěn)定的原因。

首先，研究者觀察發(fā)現(xiàn)：更好的初始化方法可以讓 Transformer 的訓練更穩(wěn)定。之前的工作（Zhang et al., 2019a; Huang et al., 2020; Xu et al., 2021）也證實了這一點。

因此，研究者分析了有無適當初始化的 Post-LN 的訓練過程。通過更好的初始化，在執(zhí)行 Xavier 初始化后通過

down-scale第l層的權重。例如，第l層 FFN 的輸出投影

被初始化為

其中d’是輸入和輸出維度的平均值。研究者將此模型命名為 Post-LN-init。請注意，與之前的工作（Zhang et al., 2019a）不同， Post-LN-init是縮窄了較低層的擴展而不是較高層。研究者相信這種方法有助于將梯度擴展的影響與模型更新區(qū)分開來。此外，Post-LN-init 與 Post-LN 具有相同的架構，從而消除了架構的影響。

該研究在 IWSLT-14 De-En 機器翻譯數(shù)據(jù)集上訓練了 18L-18L Post-LN 和 18L-18L Post-LN-init。圖 3 可視化了它們的梯度和驗證損失曲線。如圖 3(c) 所示，Post-LN-init 收斂，而 Post-LN 沒有。 Post-LN-init 在最后幾層中具有更大的梯度范數(shù)，盡管其權重已按比例縮小。此外，研究者可視化最后一個解碼器層的梯度范數(shù)，模型深度從 6L-6L 到 24L-24L。

下圖 3 顯示，無論模型深度如何，最后一層 Post-LN-init 的梯度范數(shù)仍遠大于 Post-LN 的梯度范數(shù)。得出的結論是，深層梯度爆炸不應該是 Post-LN 不穩(wěn)定的根本原因，而模型更新的擴展往往可以解釋這一點。

然后研究者證明 Post-LN 的不穩(wěn)定性來自一系列問題，包括梯度消失以及太大的模型更新。如圖 4(a) 所示，他們首先可視化模型更新的范數(shù) ||ΔF||在訓練的早期階段：

其中x和θ_i分別代表輸入和第i次更新后的模型參數(shù)。Post-LN在訓練一開始就有爆炸式的更新，然后很快就幾乎沒有更新了。這表明該模型已陷入虛假的局部最優(yōu)。

warm-up和更好的初始化都有助于緩解這個問題，使模型能夠順利更新。當更新爆炸時，LN 的輸入會變大（見圖 4(b) 和圖 4(c)）。根據(jù)Xiong等人(2020)的理論分析，通過 LN 的梯度大小與其輸入的大小成反比：

相比于沒有warm-up或正確初始化的情況，圖 4(b) 和圖 4(c) 表明 ||x||的明顯大于

這解釋了 Post-LN 訓練中出現(xiàn)的梯度消失問題（見圖 4(d)）。

最重要的是，不穩(wěn)定性始于訓練開始時的大型模型更新。它使模型陷入糟糕的局部最優(yōu)狀態(tài)，這反過來又增加了每個 LN 的輸入量。隨著訓練的繼續(xù)，通過 LN 的梯度變得越來越小，從而導致嚴重的梯度消失，使得難以擺脫局部最優(yōu)，并進一步破壞了優(yōu)化的穩(wěn)定性。相反，Post-LN-init 的更新相對較小，對 LN 的輸入是穩(wěn)定的。這減輕了梯度消失的問題，使優(yōu)化更加穩(wěn)定。

DeepNet：極深的Transformer模型

研究者首先介紹了極深的Transformer模型——DeepNet，該模型可以通過緩解爆炸式模型更新問題來穩(wěn)定優(yōu)化過程。

DeepNet基于Transformer架構。與原版Transformer相比，DeepNet在每個子層使用了新方法DEEPNORM，而不是以往的Post-LN。DEEPNORM的公式如下所示。

其中，α是一個常數(shù)，G_l(x_l , θ_l)是參數(shù)為θ_l的第l個Transformer子層（即注意力或前饋網(wǎng)絡）的函數(shù)。DeepNet還將殘差內(nèi)部的權重θ_l擴展了β。

接著，研究者提供了對DeepNet模型更新預期大?。╡xpected magnitude）的估計。

他們可視化了IWSLT-14 De-En翻譯數(shù)據(jù)集上，Post-LN和DeepNet在早期訓練階段的模型更新情況，如下圖5所示?？梢钥吹?，相較于Post-LN，DeepNet的模型更新幾乎保持恒定。

最后，研究者提供理論分析，以表明 DeepNet的更新受到了 DEEPNORM 的常數(shù)限制。具體地，他們展示了 DeepNet的預期模型更新受到了適當參數(shù)α 和 β的常數(shù)限制。研究者的分析基于 SGD 更新，并通過實證證明對 Adam 優(yōu)化器效果很好。

研究者提供了對編碼器-解碼器架構的分析，它能夠以相同的方式自然地擴展到僅編碼器和僅解碼器的模型。具體如下圖所示，他們將模型更新的目標設定如下：

僅編碼器（例如 BERT）和僅解碼器（例如 GPT）架構的推導能夠以相同的方式進行。研究者將步驟總結如下：

神經(jīng)機器翻譯

該研究驗證了DeepNet 在流行的機器翻譯基準上的有效性，包括 IWSLT-14 德語-英語 (De-En) 數(shù)據(jù)集和 WMT-17 英語-德語 (En-De) 數(shù)據(jù)集。該研究將DeepNet 與多個SOTA深度 Transformer 模型進行比較，包括 DLCL 、NormFormer 、ReZero 、R- Fixup 、T-Fixup 、DS-init 和 Admin。

表 1 報告了 WMT-17 En-De 翻譯數(shù)據(jù)集上的基線和DeepNet 的結果：

圖 6 顯示了 IWSLT-14 數(shù)據(jù)集的結果

圖 7 報告了 WMT-17 驗證集的損失曲線

大規(guī)模多語言神經(jīng)機器翻譯

該研究首先使用 OPUS-100 語料庫來評估模型。OPUS100 是一個以英語為中心的多語言語料庫，涵蓋 100 種語言，是從 OPUS 集合中隨機抽取的。該研究將 DeepNet 擴展到 1,000 層，該模型有一個 500 層的編碼器、 500 層的解碼器、512 個隱藏大小、8 個注意力頭和 2,048 維度的前饋層。

表2總結了 DeepNet 和基線的結果。結果表明，增加網(wǎng)絡深度可以顯著提高 NMT 的翻譯質量：48 層的模型比 12 層的模型平均獲得 3.2 點的提高。 DeepNet 可以成功地將深度擴展到 1,000 層，比基線提高4.4 BLEU。值得注意的是，DeepNet 只訓練了 4 個 epoch，并且在計算預算更多的情況下，性能可以進一步提高。

深度擴展規(guī)律：該研究在OPUS100數(shù)據(jù)集上訓練具有{12,20,100,200,1000}層的DeepNet，圖8顯示了深度擴展曲線。與雙語NMT相比，多語NMT從擴展模型深度受益更多?？梢杂^察到多語 NMT 的 BLEU 值呈對數(shù)增長，規(guī)律可以寫成：L(d) = A log(d) + B，其中d是深度，A, B是關于其他超參數(shù)的常數(shù)。

更多數(shù)據(jù)和語言說明：為了探索DeepNet在多語NMT上的局限性，該研究隨后使用Schwenk等人提出的CCMatrix擴展訓練數(shù)據(jù)。此外，該研究還擴展了CCAligned 、OPUS 和Tatoeba的數(shù)據(jù)，以涵蓋Flores101評估集的所有語言。最終的數(shù)據(jù)由102種語言、1932個方向和12B對句子組成。利用這些數(shù)據(jù)，該研究用100層編碼器、100層解碼器、1024個隱藏維度、16個頭、4096個前饋層中間維度對DeepNet進行訓練。

該研究將 DeepNet 與SOTA多語 NMT 模型 M2M-100進行了比較。M2M-100 有一個 24 層的編碼器、一個 24 層的解碼器和 4,096 個隱藏大小，從而產(chǎn)生高達 12B 的參數(shù)。與M2M-100相比，DeepNet深而窄，參數(shù)只有3.2B。

在 M2M-100 之后，該研究在幾個多語言翻譯評估數(shù)據(jù)集上評估模型，包括 WMT、OPUS 、TED、 Flores。WMT的語言對是以英語為中心的。包括英語在內(nèi)的10種語言，其中大部分是高資源語言。對于 OPUS 數(shù)據(jù)集，該研究從包含 30 個評估對的測試集中選擇非英語方向。TED評估集有28種語言和756個方向，數(shù)據(jù)來自口語領域。 Flores 數(shù)據(jù)集包含 102 種語言之間的所有翻譯對。該研究使用涵蓋 M2M-100 和 DeepNet 支持的語言的子集，產(chǎn)生 87 種語言和 7,482 個翻譯方向。

表 3 報告了結果，為了公平比較，該研究使用與基線相同的評估方法。結果表明 DeepNet 在所有評估數(shù)據(jù)集上的性能都明顯優(yōu)于 M2M-100，表明深化模型是提高 NMT 模型質量的一個非常有前景的方向。

感興趣的讀者可閱讀論文原文，了解更多細節(jié)內(nèi)容。

責任編輯：張燕妮來源：機器之心Pro

Transforme 模型機器學習

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡