自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

預訓練無需注意力,擴展到4096個token不成問題,與BERT相當

人工智能 新聞
本文提出了雙向門控 SSM(BiGS)模型,結合基于狀態(tài)空間模型(SSM)的 Routing 層和基于乘法門的模型架構,在不使用注意力的情況下能夠復制 BERT 預訓練結果,并可擴展到 4096 個 token 的長程預訓練,不需要近似。

Transformer 作為 NLP 預訓練模型架構,能夠有效的在大型未標記的數(shù)據(jù)上進行學習,研究已經(jīng)證明,Transformer 是自 BERT 以來 NLP 任務的核心架構。

最近的工作表明,狀態(tài)空間模型(SSM)是長范圍序列建模有利的競爭架構。SSM 在語音生成和 Long Range Arena 基準上取得了 SOTA 成果,甚至優(yōu)于 Transformer 架構。除了提高準確率之外,基于 SSM 的 routing 層也不會隨著序列長度的增長而呈現(xiàn)二次復雜性。

本文中,來自康奈爾大學、 DeepMind 等機構的研究者提出了雙向門控 SSM (BiGS),用于無需注意力的預訓練,其主要是將 SSM routing 與基于乘法門控(multiplicative gating)的架構相結合。該研究發(fā)現(xiàn) SSM 本身在 NLP 的預訓練中表現(xiàn)不佳,但集成到乘法門控架構中后,下游準確率便會提高。

實驗表明,在受控設置下對相同數(shù)據(jù)進行訓練,BiGS 能夠與 BERT 模型的性能相匹配。通過在更長的實例上進行額外預訓練,在將輸入序列擴展到 4096 時,模型還能保持線性時間。分析表明,乘法門控是必要的,它修復了 SSM 模型在變長文本輸入上的一些特定問題。

圖片

論文地址:https://arxiv.org/pdf/2212.10544.pdf

方法介紹

SSM 通過以下微分方程將連續(xù)輸入 u (t) 與輸出 y (t) 聯(lián)系起來:

圖片

對于離散序列,SSM 參數(shù)被離散化,其過程可以近似為:

圖片

這個方程可以解釋為一個線性 RNN,其中 x_k 是一個隱藏狀態(tài)。y 也可以用卷積計算:

圖片

Gu 等人展示了一種在神經(jīng)網(wǎng)絡中使用 SSM 的有效方法,他們開發(fā)了參數(shù)化 A 的方法,稱為 HiPPO,其產(chǎn)生了一個穩(wěn)定而高效的架構,稱為 S4。這保留了 SSM 對長期序列建模的能力,同時比 RNN 訓練更有效。最近,研究人員提出了 S4 的簡化對角化版本,它通過對原始參數(shù)更簡單的近似實現(xiàn)了類似的結果。在高層次上,基于 SSM 的 routing 為神經(jīng)網(wǎng)絡中的序列建模提供了一種替代方法,而無需二次計算的注意力成本。

預訓練模型架構

SSM 能取代預訓練中的注意力嗎?為了回答這個問題,該研究考慮了兩種不同的架構,如圖 1 所示的堆疊架構(STACK)和乘法門控架構(GATED)。

具有自注意力的堆疊架構相當于 BERT /transformer 模型,門控架構是門控單元的雙向改編,最近也被用于單向 SSM。帶有乘法門控的 2 個序列塊(即前向和后向 SSM)夾在前饋層中。為了進行公平比較,門控架構的大小保持與堆疊架構相當。

圖片

圖 1:模型變量。STACK 是標準 transformer 架構,GATED 為基于門控單元。對于 Routing 組件(虛線),該研究同時考慮雙向 SSM(如圖所示)和標準自注意力。門控(X)表示逐元素乘法。

實驗結果 

預訓練

表 1 顯示了 GLUE 基準測試中不同預訓練模型的主要結果。BiGS 在 token 擴展上復制了 BERT 的準確率。這一結果表明,在這樣的計算預算下,SSM 可以復制預訓練 transformer 模型的準確率。這些結果明顯優(yōu)于其他基于非注意力的預訓練模型。想要達到這個準確率,乘法門控是必要的。在沒有門控的情況下,堆疊 SSM 的結果明顯更差。為了檢查這種優(yōu)勢是否主要來自于門控的使用,本文使用 GATE 架構訓練了一個基于注意力的模型;然而,結果顯示該模型的效果實際上低于 BERT。

圖片

表 1:GLUE 結果。(Top)在控制設置下,不同架構和 routing 的比較。參見圖 2 了解詳細信息。(Bottom) 報告了基于 CNN、LSTM 和 FNet 的其他非注意力預訓練模型的可比結果。

Long-Form 任務

表 2 結果顯示,可以將 SSM 與 Longformer EncoderDecoder (LED) 和 BART 進行比較,但是,結果顯示它在遠程任務中表現(xiàn)得也不錯,甚至更勝一籌。與其他兩種方法相比,SSM 的預訓練數(shù)據(jù)要少得多。即使 SSM 不需要在這些長度上進行近似,長格式也依舊很重要。

圖片

表 2:SCROLLS Encoder 測試結果?;€模型都是編碼器 —— 解碼器模型,一個基于 Longformer (LED),另一個基于 BART。輸入的長度有截斷。

更多內容請查看原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-01-01 13:31:47

模型訓練

2023-07-07 09:55:23

互聯(lián)網(wǎng)論文

2020-06-05 14:30:03

CephCPU 線程

2015-04-16 16:42:11

私有云云部署

2024-09-19 10:07:41

2015-08-13 13:44:21

優(yōu)化多核

2018-08-26 22:25:36

自注意力機制神經(jīng)網(wǎng)絡算法

2023-02-28 13:09:53

訓練模型

2020-03-17 09:42:00

谷歌開源機器學習

2025-02-25 09:40:00

模型數(shù)據(jù)AI

2022-04-11 09:20:00

模型訓練

2010-09-01 09:03:25

DB2臨時表

2020-03-13 15:33:54

Google 開源技術

2025-02-25 10:21:15

2020-06-16 11:12:26

醫(yī)療物聯(lián)網(wǎng)IOT

2011-09-14 15:23:00

Android 2.2

2013-02-21 09:41:49

CitusData數(shù)據(jù)庫Postgres

2023-07-30 15:42:45

圖神經(jīng)網(wǎng)絡PyTorch

2025-04-07 07:47:00

模型訓練AI

2021-10-25 15:50:42

區(qū)塊鏈金融科技
點贊
收藏

51CTO技術棧公眾號