自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="6lgjm"><i id="6lgjm"></i></sub>

<sub id="6lgjm"><p id="6lgjm"></p></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質的IT技術網(wǎng)站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

比肩Transformer的Mamba在時間序列上有效嗎？

發(fā)布于 2024-4-2 14:03

瀏覽

0收藏

Mamba是最近最火的模型之一，更是被業(yè)內認為可以有取代Transformer的潛力。今天介紹的這篇文章，探索了Mamba模型在時間序列預測任務上是有有效。本文首先給大家介紹Mamba的基礎原理，再結合這篇文章探索在時間序列預測場景中Mamba是否有效。

比肩Transformer的Mamba在時間序列上有效嗎？-AI.x社區(qū)

論文標題：Is Mamba Effective for Time Series Forecasting?

下載地址：??https://arxiv.org/pdf/2403.11144.pdf??

1、Mamba基礎原理

Mamba是一種基于State Space Model的結構，和RNN非常像。Mamba相比Transformer，在訓練階段和inference階段都有隨序列長度線性增長的時間復雜度，運算效率顯著由于Transformer這種結構。

Mamba的核心可以分為以下4個部分：

State Space Model（SSM）：狀態(tài)空間模型，用來刻畫上一個狀態(tài)對當前狀態(tài)的影響，以及當前狀態(tài)對輸出的影響；State Space Model中假設上一個狀態(tài)和當前時刻的輸入會影響下一個狀態(tài)，并且當前的觀測結果是由當前狀態(tài)決定的。SSM可以表示為如下形式，矩陣A、B、C、D為超參數(shù)；

比肩Transformer的Mamba在時間序列上有效嗎？-AI.x社區(qū)

卷積表達：用卷積來表達SSM，實現(xiàn)訓練階段的并發(fā)計算，通過將SSM中的計算輸出的公式按照時間展開，通過設計相應的卷積核到一定的形式，可以利用卷積來表達每個時刻的輸出為前面3個時刻輸出的函數(shù)：

比肩Transformer的Mamba在時間序列上有效嗎？-AI.x社區(qū)

Hippo Matrix：對于參數(shù)A，引入Hippo Matrix實現(xiàn)對歷史信息的衰減融合；

比肩Transformer的Mamba在時間序列上有效嗎？-AI.x社區(qū)

Selective模塊：對于參數(shù)B和參數(shù)C個性化的矩陣實現(xiàn)對歷史信息的個性化選擇，將每個時刻的參數(shù)矩陣轉換成關于輸入的函數(shù)，實現(xiàn)每個時刻個性化的參數(shù)。

比肩Transformer的Mamba在時間序列上有效嗎？-AI.x社區(qū)

關于Mamba更詳細的模型解析，以及后續(xù)的Mamba相關工作，也更新到了知識星球中，感興趣的同學可以在星球中進一步深入學習。

2、Mamba時間序列模型

下面介紹一下這篇文章中提出的Mamba時間序列預測框架，整體基于Mamba，對時間序列數(shù)據(jù)進行適配。整體分為Embedding、S/D-Mamba layer、Norm-FFN-Norm Layer三個部分。

Embedding：類似iTransformer的處理方法，對每個變量單獨進行映射，生成每個變量的embedding，再將每個變量的embedding輸入到后續(xù)的Mamba中。因此本文也可以看成是對iTransformer的模型結構的一個改造，改成了Mamba結構；

S/D-Mamba layer：Embedding的輸入維度為[batch_size, variable_number, dim]，將其輸入到Mamba中，文中探索了S和D兩種Mamba層，分別表示每層用一個mamba還是兩個mamba，兩個mamba會將兩個的輸出相加得到每層的輸出結果；

Norm-FFN-Norm Layer：在輸出層，使用normalization層和FFN層對Mamba的輸出表征進行歸一化和映射，結合殘差網(wǎng)絡，提升模型收斂性和穩(wěn)定性。

比肩Transformer的Mamba在時間序列上有效嗎？-AI.x社區(qū)

3、實驗效果

下圖是文中的核心實驗結果，對比了Mamba和iTransformer、PatchTST等業(yè)內主流時間序列模型的效果。文中還對不同的預測窗口、泛化性等進行了實驗對比。實驗表明，Mamba不僅在計算資源上有優(yōu)勢，在模型效果上也可以比肩Transformer相關的模型，并且在長周期的建模上也很有前景。

比肩Transformer的Mamba在時間序列上有效嗎？-AI.x社區(qū)

本文轉載自? ????圓圓的算法筆記??，作者： Fareise???

標簽

贊

收藏

回復

舉報

回復

相關推薦

在12個視頻理解任務中，Mamba先打敗了Transformer

輕薄滴假象 ? 3126瀏覽 ? 0回復
動態(tài)可擴展的時間序列Patch劃分方法

海因斯DK ? 5449瀏覽 ? 0回復
TFB：2024最新時間序列預測Benchmark

海因斯DK ? 6034瀏覽 ? 0回復
比Transformer更快更省，Mamba終于卷到網(wǎng)絡領域了

arnoldzhw ? 6040瀏覽 ? 0回復
基于Transformer的時間序列綜述

AI論文解讀 ? 3165瀏覽 ? 0回復
時間序列預測近期核心研究點總結

海因斯DK ? 4302瀏覽 ? 0回復
Self-Attention在時間序列預測中有效嗎？新Transformer架構效率效果雙提升

海因斯DK ? 4263瀏覽 ? 0回復
純MLP模型達到新SOTA，基于序列-核心表征融合的高效多元時間序列預測

海因斯DK ? 3407瀏覽 ? 0回復
預訓練大語言模型對時間序列預測真的有用嗎？去掉預訓練LLM效果反而提升

海因斯DK ? 4157瀏覽 ? 0回復
力壓Transformer，詳解Mamba和狀態(tài)空間模型

小虎哦哦 ? 3259瀏覽 ? 0回復
如何改良基于Basis的時間序列預測模型？

海因斯DK ? 2554瀏覽 ? 0回復
Transformer，會笑到最后嗎？

51CTO技術棧 ? 1967瀏覽 ? 0回復
一文總結擴散模型（Diffusion Model）在時間序列中的應用

海因斯DK ? 9303瀏覽 ? 0回復
Jamba-1.5：大規(guī)?；旌?em>Transformer-Mamba模型

sbf_2000 ? 2862瀏覽 ? 0回復
TSLANet：時間序列模型的新構思

魯班模錘1 ? 2244瀏覽 ? 0回復
一文梳理Transformer在時間序列預測中的發(fā)展歷程代表工作

海因斯DK ? 6581瀏覽 ? 0回復
頻域Mask實現(xiàn)只需正樣本的時間序列表示學習

海因斯DK ? 1929瀏覽 ? 0回復
xLSTM：拳打Transformer，腳踢Mamba？！

魯班模錘1 ? 1806瀏覽 ? 0回復
MTBench：用于金融時序推理和回答的多模態(tài)時間序列基準

靈度智能 ? 715瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

ICLR'25 | 基于記憶網(wǎng)絡和混合Prototype的時間序列異常檢測方法 10h前發(fā)布
大模型系列：一文匯總16個深度語言模型代表工作 2025-04-08 01:03:28發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復

王炸！MCP 架構設計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

只需5分鐘，教你用Python搭建MCP Server 0回復

下一篇： ICLR'24 | 對比學習引入全周期時間序列信息提升長周期時序預測效果

社區(qū)精華內容

目錄

<style id="i86pp"></style>