自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

徹底解決ChatGPT健忘癥!突破Transformer輸入限制:實測支持200萬個有效Token

人工智能
用RMT模型提升Transformer類模型的腦容量,內存需求不變,輸入序列可以無限長。

ChatGPT,或者說Transformer類的模型都有一個致命缺陷,就是太容易健忘,一旦輸入序列的token超過上下文窗口閾值,后續(xù)輸出的內容和前文邏輯就對不上了。

ChatGPT只能支持4000個token(約3000個詞)的輸入,即便最新發(fā)布的GPT-4也只支持最大32000的token窗口,如果繼續(xù)加大輸入序列長度,計算復雜度也會成二次方增長。

最近來自DeepPavlov, AIRI, 倫敦數(shù)學科學研究所的研究人員發(fā)布了一篇技術報告,使用循環(huán)記憶Transformer(RMT)將BERT的有效上下文長度提升到「前所未有的200萬tokens」,同時保持了很高的記憶檢索準確性。

論文鏈接:https://arxiv.org/pdf/2304.11062.pdf

該方法可以存儲和處理局部和全局信息,并通過使用循環(huán)讓信息在輸入序列的各segment之間流動。

實驗部分證明了該方法的有效性,在增強自然語言理解和生成任務中的長期依賴處理方面具有非凡的潛力,可以為記憶密集型應用程序實現(xiàn)大規(guī)模上下文處理。

不過天下沒有免費的午餐,雖然RMT可以不增加內存消耗,可以擴展到近乎無限的序列長度,但仍然存在RNN中的記憶衰減問題,并且需要更長的推理時間。

圖片

但也有網(wǎng)友提出了解決方案,RMT用于長期記憶,大上下文用于短期記憶,然后在夜間/維修期間進行模型訓練。

循環(huán)記憶Transformer

2022年,該團隊提出循環(huán)記憶Transformer(RMT)模型,通過在輸入或輸出序列中添加一個特殊的memory token,然后對模型進行訓練以控制記憶操作和序列表征處理,能夠在不改變原始Transformer模型的前提下,實現(xiàn)一個全新的記憶機制。

圖片

論文鏈接:https://arxiv.org/abs/2207.06881

發(fā)表會議:NeurIPS 2022

與Transformer-XL相比,RMT需要的內存更少,并可以處理更長序列的任務。

圖片

具體來說,RMT由m個實值的可訓練向量組成,過長的輸入序列被切分為幾個segments,記憶向量被預置到第一個segment embedding中,并與segment token一起處理。

圖片

與2022年提出的原始RMT模型不同的是,對于像BERT這樣的純編碼器模型,只在segment的開始部分添加一次記憶;解碼模型將記憶分成讀和寫兩部分。

在每個時間步長和segment中,按以下方式進行循環(huán),其中N為Transformer的層數(shù),t為時間步,H為segment

圖片

按順序處理輸入序列的segments后,為了實現(xiàn)遞歸連接,研究人員將當前segment的memory token的輸出傳遞給下一個segment的輸入:

圖片

RMT中的記憶和循環(huán)都只基于全局memory token,可以保持骨干Transformer模型不變,使得RMT的記憶增強能力可以與任意的Transformer模型兼容。

計算效率

按照公式可以估算不同大小和序列長度的RMT和Transformer模型所需的FLOPs

在詞匯量大小、層數(shù)、隱藏大小、中間隱藏大小和注意頭數(shù)的參數(shù)配置上,研究人員遵循OPT模型的配置,并計算了前向傳遞后的FLOPs數(shù)量,同時考慮到RMT循環(huán)的影響。

圖片

通過將一個輸入序列劃分為若干段,并僅在segment的邊界內計算全部注意力矩陣來實現(xiàn)線性擴展,結果可以看到,如果segment長度固定,RMT的推理速度對任意模型尺寸都是線性增長的。

由于FFN層的計算量較大,所以較大的Transformer模型往往表現(xiàn)出相對于序列長度較慢的二次方增長速度,不過在長度大于32,000的極長序列上,F(xiàn)LOPs又回到了二次增長的狀態(tài)。

對于有一個以上segment的序列(在本研究中大于512),RMT比非循環(huán)模型有更低的FLOPs,在尺寸較小的模型上最多可以將FLOPs的效率提升×295倍;在尺寸較大的模型如OPT-175B,可以提升×29倍。

記憶任務

為了測試記憶能力,研究人員構建了一個合成數(shù)據(jù)集,要求模型記憶簡單的事實和基本推理。

任務輸入包括一個或幾個事實和一個只能用所有這些事實來回答的問題。

為了增加任務的難度,任務中還添加了與問題或答案無關的自然語言文本,這些文本可以看作是噪音,所以模型的任務實際上是將事實與不相關的文本分開,并使用事實文本來回答問題。

圖片

圖片

事實記憶

測試RMT在記憶中長時間寫入和存儲信息的能力:在最簡單的情況下,事實位于輸入的開頭,問題在輸入的最后,并逐漸增加問題和答案之間的不相關文本數(shù)量,直到模型無法一次性接受所有輸入。

圖片

事實檢測和記憶

事實檢測通過將事實移到輸入中的一個隨機位置來增加任務難度,要求模型首先將事實與不相關的文本區(qū)分開來,將其寫入記憶,然后回答位于最后的問題。

基于記憶事實進行推理

記憶的另一個重要操作是利用記憶的事實和當前的背景進行推理。

為了評估這個功能,研究人員引入了一個更復雜的任務,將生成兩個事實并隨機地放置在輸入序列;在序列末尾提出的問題是必須選擇用正確的事實來回答問題。

圖片

實驗結果

研究人員使用HuggingFace Transformers中預訓練的Bert-base-cased模型作為所有實驗中RMT的主干,所有模型以記憶大小為10進行增強。

在4-8塊英偉達1080Ti GPU上進行訓練和評估;對于更長的序列,則切換到單張40GB的英偉達A100上進行加速評估。

課程學習(Curriculum Learning)

研究人員觀察到,使用訓練調度可以顯著改善解決方案的準確性和穩(wěn)定性。

剛開始讓RMT在較短的任務版本上進行訓練,在訓練收斂后,通過增加一個segment來增加任務長度,將課程學習過程一直持續(xù)到達到理想的輸入長度。

從適合單個segment的序列開始實驗,實際segment的大小為499,因為從模型輸入中保留了3個BERT的特殊標記和10個記憶占位符,總共大小為512。

可以注意到,在對較短的任務進行訓練后,RMT更容易解決較長的任務,因為使用較少的訓練步驟就能收斂到完美的解決方案。

外推能力(Extrapolation Abilities)

為了觀察RMT對不同序列長度的泛化能力,研究人員評估了在不同數(shù)量的segment上訓練的模型,以解決更大長度的任務。

圖片

可以觀察到,模型在較短的任務上往往表現(xiàn)良好,但在較長的序列上訓練模型后,就很難處理單segment推理任務。

一個可能的解釋是,由于任務規(guī)模超過了一個segment,模型在第一個segment就停止了對問題的預期,導致質量下降。

有趣的是,隨著訓練segment數(shù)量的增加,RMT對較長序列的泛化能力也出現(xiàn)了,在對5個或更多的segment進行訓練后,RMT可以對兩倍長的任務進行近乎完美的泛化。

為了測試泛化的極限,研究人員驗證任務的規(guī)模增加到4096個segment(即2,043,904個tokens)。

RMT在如此長的序列上保持得出奇的好,其中「檢測和記憶」任務是最簡單的,推理任務是最復雜的。

參考資料:https://arxiv.org/pdf/2304.11062.pdf

責任編輯:武曉燕 來源: 新智元
相關推薦

2022-08-03 16:21:03

AI算法神經(jīng)網(wǎng)絡

2009-12-07 14:28:14

2025-03-03 00:13:50

2024-03-01 13:31:21

2025-02-11 00:00:00

2022-10-08 23:55:58

iOS蘋果開發(fā)

2021-12-03 12:15:01

QT中文亂碼Windows

2009-11-27 10:31:02

GPRS路由

2009-12-21 14:12:30

路由器配置故障

2018-09-18 11:28:01

2023-02-27 08:08:54

Pulsar源碼重復消費

2021-03-13 21:00:30

電腦PC電腦彈窗廣告

2021-05-18 09:06:19

零信任郵件安全安全威脅

2021-02-18 08:22:26

KubernetesDocker鏡像

2022-05-31 09:01:13

GitHub工具安全

2009-12-04 17:15:36

2010-01-11 18:05:24

VB.NET窗體繼承

2010-01-12 16:33:08

交換機故障

2009-02-11 09:35:00

DHCP服務器故障

2009-12-14 18:18:10

路由器轉發(fā)故障
點贊
收藏

51CTO技術棧公眾號