自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<legend id="ngntf"><track id="ngntf"></track></legend>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

預訓練無需注意力，擴展到4096個token不成問題，與BERT相當

作者：機器之心 2022-12-31 13:55:28

人工智能新聞

本文提出了雙向門控 SSM（BiGS）模型，結合基于狀態(tài)空間模型（SSM）的 Routing 層和基于乘法門的模型架構，在不使用注意力的情況下能夠復制 BERT 預訓練結果，并可擴展到 4096 個 token 的長程預訓練，不需要近似。

Transformer 作為 NLP 預訓練模型架構，能夠有效的在大型未標記的數(shù)據(jù)上進行學習，研究已經(jīng)證明，Transformer 是自 BERT 以來 NLP 任務的核心架構。

最近的工作表明，狀態(tài)空間模型（SSM）是長范圍序列建模有利的競爭架構。SSM 在語音生成和 Long Range Arena 基準上取得了 SOTA 成果，甚至優(yōu)于 Transformer 架構。除了提高準確率之外，基于 SSM 的 routing 層也不會隨著序列長度的增長而呈現(xiàn)二次復雜性。

本文中，來自康奈爾大學、 DeepMind 等機構的研究者提出了雙向門控 SSM （BiGS），用于無需注意力的預訓練，其主要是將 SSM routing 與基于乘法門控（multiplicative gating）的架構相結合。該研究發(fā)現(xiàn) SSM 本身在 NLP 的預訓練中表現(xiàn)不佳，但集成到乘法門控架構中后，下游準確率便會提高。

實驗表明，在受控設置下對相同數(shù)據(jù)進行訓練，BiGS 能夠與 BERT 模型的性能相匹配。通過在更長的實例上進行額外預訓練，在將輸入序列擴展到 4096 時，模型還能保持線性時間。分析表明，乘法門控是必要的，它修復了 SSM 模型在變長文本輸入上的一些特定問題。

論文地址：https://arxiv.org/pdf/2212.10544.pdf

方法介紹

SSM 通過以下微分方程將連續(xù)輸入 u (t) 與輸出 y (t) 聯(lián)系起來：

對于離散序列，SSM 參數(shù)被離散化，其過程可以近似為：

這個方程可以解釋為一個線性 RNN，其中 x_k 是一個隱藏狀態(tài)。y 也可以用卷積計算：

Gu 等人展示了一種在神經(jīng)網(wǎng)絡中使用 SSM 的有效方法，他們開發(fā)了參數(shù)化 A 的方法，稱為 HiPPO，其產(chǎn)生了一個穩(wěn)定而高效的架構，稱為 S4。這保留了 SSM 對長期序列建模的能力，同時比 RNN 訓練更有效。最近，研究人員提出了 S4 的簡化對角化版本，它通過對原始參數(shù)更簡單的近似實現(xiàn)了類似的結果。在高層次上，基于 SSM 的 routing 為神經(jīng)網(wǎng)絡中的序列建模提供了一種替代方法，而無需二次計算的注意力成本。

預訓練模型架構

SSM 能取代預訓練中的注意力嗎？為了回答這個問題，該研究考慮了兩種不同的架構，如圖 1 所示的堆疊架構（STACK）和乘法門控架構（GATED）。

具有自注意力的堆疊架構相當于 BERT /transformer 模型，門控架構是門控單元的雙向改編，最近也被用于單向 SSM。帶有乘法門控的 2 個序列塊（即前向和后向 SSM）夾在前饋層中。為了進行公平比較，門控架構的大小保持與堆疊架構相當。

圖 1：模型變量。STACK 是標準 transformer 架構，GATED 為基于門控單元。對于 Routing 組件（虛線），該研究同時考慮雙向 SSM（如圖所示）和標準自注意力。門控（X）表示逐元素乘法。

實驗結果

預訓練

表 1 顯示了 GLUE 基準測試中不同預訓練模型的主要結果。BiGS 在 token 擴展上復制了 BERT 的準確率。這一結果表明，在這樣的計算預算下，SSM 可以復制預訓練 transformer 模型的準確率。這些結果明顯優(yōu)于其他基于非注意力的預訓練模型。想要達到這個準確率，乘法門控是必要的。在沒有門控的情況下，堆疊 SSM 的結果明顯更差。為了檢查這種優(yōu)勢是否主要來自于門控的使用，本文使用 GATE 架構訓練了一個基于注意力的模型；然而，結果顯示該模型的效果實際上低于 BERT。

表 1：GLUE 結果。（Top）在控制設置下，不同架構和 routing 的比較。參見圖 2 了解詳細信息。（Bottom) 報告了基于 CNN、LSTM 和 FNet 的其他非注意力預訓練模型的可比結果。

Long-Form 任務

表 2 結果顯示，可以將 SSM 與 Longformer EncoderDecoder (LED) 和 BART 進行比較，但是，結果顯示它在遠程任務中表現(xiàn)得也不錯，甚至更勝一籌。與其他兩種方法相比，SSM 的預訓練數(shù)據(jù)要少得多。即使 SSM 不需要在這些長度上進行近似，長格式也依舊很重要。

表 2：SCROLLS Encoder 測試結果?；€模型都是編碼器 —— 解碼器模型，一個基于 Longformer (LED)，另一個基于 BART。輸入的長度有截斷。

更多內容請查看原論文。

責任編輯：張燕妮來源：機器之心

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<p id="jpv6n"></p>

<sub id="jpv6n"><p id="jpv6n"></p></sub><cite id="jpv6n"></cite>

<sub id="jpv6n"></sub>