自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

xLSTM:拳打Transformer,腳踢Mamba?! 原創(chuàng)

發(fā)布于 2025-2-17 07:53
瀏覽
0收藏

xLSTM:拳打Transformer,腳踢Mamba?!-AI.x社區(qū)

大模型技術(shù)論文不斷,每個月總會新增上千篇。本專欄精選論文重點解讀,主題還是圍繞著行業(yè)實踐和工程量產(chǎn)。若在閱讀過程中有些知識點存在盲區(qū),可以回到如何優(yōu)雅的談?wù)摯竽P椭匦麻喿x。另外斯坦福2024人工智能報告解讀為通識性讀物。若對于如果構(gòu)建生成級別的AI架構(gòu)則可以關(guān)注AI架構(gòu)設(shè)計。

記得在《重新審視神經(jīng)網(wǎng)絡(luò)》這篇文章中提及,任何人都可以構(gòu)建自己心目中的神經(jīng)網(wǎng)絡(luò)。在Transformers、Mamba、KAN之后,長短期記憶 (LSTM) 架構(gòu)的發(fā)明者Sepp Hochreiter和他在NXAI的團隊推出了一種稱為擴展LSTM (xLSTM) 的新變體。

1.xLSTM的背景

LSTM在自然語音處理的領(lǐng)域影響巨大,但它也有局限性。在一些特殊的任務(wù)上,比如最臨近鄰搜索的時候,在記憶細胞的更新方面就頗有壓力。來自ELLIS、LIT AI實驗室、奧地利林茨NXAI實驗室的研究人員希望通過解決LSTM語言模型的局限性來增強LSTM。

改進點有不少,小編認為沒有LSTM的基礎(chǔ)很難完全看得明白。因此決定初看改進點之后,將一些基本的知識點做回顧,否則只會走馬觀花。xLSTM的改進點:

引入具有適當(dāng)歸一化和穩(wěn)定技術(shù)的指數(shù)門控(可以理解為激活函數(shù))。

修改LSTM記憶結(jié)構(gòu),推出兩種記憶細胞。第一種是sLSTM,它具有標(biāo)量記憶、標(biāo)量更新和新記憶混合的能力,第二種是mLSTM,它擁有矩陣記憶,而且這些記憶可以通過協(xié)方差更新且全部具備并行運算

將上面的LSTM擴展體結(jié)合殘差網(wǎng)絡(luò)設(shè)計模式產(chǎn)生xLSTM塊,然后將這些塊堆疊到xLSTM架構(gòu)。

xLSTM:拳打Transformer,腳踢Mamba?!-AI.x社區(qū)

和Transformer和狀態(tài)空間模型相比,指數(shù)門控和修改后的記憶結(jié)構(gòu)增強了xLSTM的性能,無論是在性能還是擴展方面表現(xiàn)尚可。這些突破讓LSTM長期在大語言模型上的瓶頸得到解決,也許未來可能會成為新的大語言技術(shù)巨頭。

Transformer只是一種大語言模型的架構(gòu),核心還是注意力機制,然而計算的復(fù)雜度還是擺在那兒。有不少的競爭者例如Synthesizer、Linformer、Linear Transformer和Performer專注于線性開銷的注意力技術(shù)。狀態(tài)空間模型 (SSM) 因其上下文長度的線性也備受關(guān)注,S4、DSS、BiGS和Mamba異軍突起。具有線性單元和門控機制的循環(huán)神經(jīng)網(wǎng)絡(luò) (RNN) 也在掙扎,HGRN和RWKV。xLSTM則利用協(xié)方差更新規(guī)則、記憶混合和殘差堆疊架構(gòu)進行關(guān)鍵組件的增強,不容小覷。

在xLSTM用于語言建模的實驗評估中,xLSTM的功能在形式語言、聯(lián)想回憶任務(wù)和遠程競技場場景上進行了測試。與現(xiàn)有方法的比較揭示了xLSTM 在驗證困惑度方面的優(yōu)越性。

消融研究強調(diào)了指數(shù)門控和矩陣記憶在xLSTM性能中的重要性。對300B 個token進行的大語言建模驗證了xLSTM的有效性,顯示了其在處理長上下文、下游任務(wù)和多樣化文本域方面的魯棒性??s放行為分析表明,隨著規(guī)模的增加,xLSTM與其他模型相比具有良好的性能。隨著序列長度的增加,xLSTM架構(gòu)的時間復(fù)雜度為O(N),內(nèi)存復(fù)雜度為O(1),這點比Transformer更加高效。

2.指數(shù)門控

xLSTM論文中引入的指數(shù)門控機制是對LSTM中使用的傳統(tǒng)sigmoid門控的重大改進。這里要給大家科普一下,模型輸出數(shù)值一般會經(jīng)過激活函數(shù),sigmoid是其中的一種,任何輸入都會得到0~1期間的數(shù)值。一般在LSTM中,0就代表著不通過,1代表允許通過。那么門控的意思大白話就是門閥,它決定著信息的穿透度。




xLSTM:拳打Transformer,腳踢Mamba?!-AI.x社區(qū)







xLSTM:拳打Transformer,腳踢Mamba?!-AI.x社區(qū)




上圖就對比了原來LSTM和sLSTM的運算公式,新的里面由σ函數(shù)被替代為exp函數(shù)。原論文對于替換的解釋是由此增強了模型在處理新信息時能有效修改和更新其記憶的能力。

在傳統(tǒng)的 LSTM 中,sigmoid函數(shù)限制了模型對記憶單元狀態(tài)進行實質(zhì)性改變的能力,特別是當(dāng)門值接近0或1時。這種限制阻礙了LSTM快速適應(yīng)新數(shù)據(jù),并可能導(dǎo)致低效的記憶更新。

xLSTM通過用指數(shù)激活函數(shù)替換sigmoid激活函數(shù)來解決此問題。指數(shù)門控允許記憶細胞狀態(tài)發(fā)生更明顯的變化,(指數(shù)函數(shù)的取值范圍0~+∞)使模型能夠快速整合新信息并相應(yīng)地調(diào)整其記憶。歸一化器有助于穩(wěn)定指數(shù)門控并維持輸入門和遺忘門之間的平衡。

3.矩陣記憶

xLSTM論文的另關(guān)鍵貢獻是引入了矩陣記憶體(內(nèi)存,或者稱之存儲器),它取代了傳統(tǒng) LSTM中使用的標(biāo)量存儲單元。在LSTM中,存儲單元由單個標(biāo)量表示,約束了每個時間步可以存儲和處理的信息量。這種局限性可能會阻礙模型捕獲和保留復(fù)雜依賴關(guān)系和長期信息的能力。

xLSTM通過采用矩陣存儲器突破這一限制,其中每個存儲器單元由矩陣而不是標(biāo)量表示。從標(biāo)量內(nèi)存到矩陣內(nèi)存的轉(zhuǎn)變顯著增強了模型存儲和處理豐富的高維信息的能力。

矩陣內(nèi)存允許xLSTM捕獲輸入數(shù)據(jù)中更復(fù)雜的關(guān)系和依賴關(guān)系。它使模型能夠更全面地表示上下文和長期依賴性,從而提高需要理解和生成復(fù)雜序列的任務(wù)的性能。

4.可并行架構(gòu)

xLSTM最重要的進步是引入了可并行架構(gòu),它解決了傳統(tǒng)LSTM的主要限制。在傳統(tǒng)的LSTM中,令牌的處理是按順序執(zhí)行的,其中每個令牌一次處理一個,這限制了模型利用并行性的能力,并導(dǎo)致訓(xùn)練和推理時間變慢。xLSTM 架構(gòu)引入了mLSTM(矩陣內(nèi)存LSTM)和sLSTM(標(biāo)量 LSTM)塊的靈活組合,從而實現(xiàn)令牌的并行處理。



xLSTM:拳打Transformer,腳踢Mamba?!-AI.x社區(qū)





xLSTM:拳打Transformer,腳踢Mamba?!-AI.x社區(qū)



mLSTM塊

sLSTM塊

mLSTM被設(shè)計為同時對整個令牌序列進行操作,從而實現(xiàn)類似于 Transformer 模型實現(xiàn)的并行性的高效并行計算。主要還是利用矩陣存儲機制,使它們能夠并行捕獲和處理所有令牌的豐富、高維信息。這種并行處理能力顯著加快了訓(xùn)練和推理過程,使 xLSTM 比傳統(tǒng) LSTM 的計算效率更高。

另一方面,sLSTM 則被設(shè)計為保留了傳統(tǒng)LSTM的順序處理性質(zhì),允許模型捕獲對于特定任務(wù)可能很重要的某些順序依賴性。在 xLSTM 架構(gòu)中可以靈活的以不同比例堆疊mLSTM和sLSTM塊,提供了并行性和順序建模之間的平衡,從而能夠適應(yīng)各種語言建模任務(wù)。

本文轉(zhuǎn)載自 ??魯班模錘??,作者: 龐德公



?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
標(biāo)簽
已于2025-2-17 10:26:30修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦