自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

力壓Transformer，詳解Mamba和狀態(tài)空間模型精華

發(fā)布于 2024-7-23 11:03

瀏覽

0收藏

大型語言模型（LLMs）之所以能夠在語言理解與生成上取得巨大成功，Transformer架構(gòu)是其強大的支撐。從開源的Mistral，到OpenAI開發(fā)的閉源模型ChatGPT，都采用了這一架構(gòu)。

然而，技術(shù)的探索從未止步。為進一步提升LLMs的性能，學(xué)界正在研發(fā)能夠超越Transformer的新架構(gòu)。其中，Mamba模型以其創(chuàng)新的狀態(tài)空間模型（State Space Model）成為研究的焦點。

本文介紹Mamba模型及其在語言建模領(lǐng)域的應(yīng)用，逐步解析狀態(tài)空間模型的基本概念，并通過豐富的可視化內(nèi)容，讓讀者直觀地理解這一技術(shù)如何有望挑戰(zhàn)現(xiàn)有的Transformer架構(gòu)。

1 Transformer架構(gòu)的挑戰(zhàn)

我們先對Transformer架構(gòu)做一個快速回顧，并指出其存在的一個主要缺陷。

Transformer架構(gòu)將文本輸入視為由一系列token構(gòu)成的序列。

力壓Transformer，詳解Mamba和狀態(tài)空間模型-AI.x社區(qū)

其核心優(yōu)勢在于，無論面對何種輸入，都能追溯到序列中的早期token，以此來推導(dǎo)出其深層的語義表示。

力壓Transformer，詳解Mamba和狀態(tài)空間模型-AI.x社區(qū)

1.1 Transformer的核心組件

Transformer由架構(gòu)兩部分組成：編碼器和解碼器。編碼器負責(zé)解析文本，而解碼器則負責(zé)生成文本。這種結(jié)構(gòu)的結(jié)合，使之能夠勝任從文本翻譯到內(nèi)容創(chuàng)作的多種任務(wù)。

力壓Transformer，詳解Mamba和狀態(tài)空間模型-AI.x社區(qū)

進一步地，我們可以僅利用解碼器部分來創(chuàng)建生成式模型。這種基于Transformer的模型，即生成預(yù)訓(xùn)練Transformer（GPT），通過解碼器來續(xù)寫或補全輸入的文本，展現(xiàn)出其在文本生成方面的強大能力。

力壓Transformer，詳解Mamba和狀態(tài)空間模型-AI.x社區(qū)

1.2 自注意力的高效訓(xùn)練

單個解碼器塊由兩個主要部分組成，即“掩蔽自注意力機制（Masked Self-attention）”和“前饋神經(jīng)網(wǎng)絡(luò)（Feedforward Neural Network）”。

力壓Transformer，詳解Mamba和狀態(tài)空間模型-AI.x社區(qū)

自注意力是這些模型運行如此良好的主要原因。它提供了整個序列的未壓縮視圖，并加快了訓(xùn)練速度。

具體來說，自注意力機制的工作原理是通過創(chuàng)建一個矩陣，該矩陣對序列中的每個token與之前所有token進行比較，并通過計算它們之間的相關(guān)性來確定權(quán)重。

力壓Transformer，詳解Mamba和狀態(tài)空間模型-AI.x社區(qū)

在訓(xùn)練過程中，自注意力矩陣是一次性整體構(gòu)建的，這表示不需要依次等待每個token的注意力計算完成，而是可以同時進行整個序列的注意力計算。例如，在處理“我”和“名字”的關(guān)聯(lián)之前，無需先完成“名字”和“是”的關(guān)聯(lián)計算。

這種設(shè)計實現(xiàn)了訓(xùn)練過程的并行化，極大地提升了訓(xùn)練速度，使Transformer架構(gòu)在處理大規(guī)模數(shù)據(jù)集時更加高效。

1.3 訓(xùn)練與推理的矛盾

然而，Transformer架構(gòu)也有其局限性。每當生成新的token時，必須對整個序列的注意力權(quán)重重新進行計算，哪怕此前已經(jīng)生成了若干token。

力壓Transformer，詳解Mamba和狀態(tài)空間模型-AI.x社區(qū)

生成長度為L的序列需要大約L2次計算，隨著序列的延長，計算成本會急劇上升。

力壓Transformer，詳解Mamba和狀態(tài)空間模型-AI.x社區(qū)

這種對序列全面重新計算的需求，是Transformer架構(gòu)的一個主要瓶頸。

接下來，讓我們看看傳統(tǒng)的遞歸神經(jīng)網(wǎng)絡(luò)（RNN）是如何克服這一推理過程中的效率問題。

1.4 RNN的潛力

遞歸神經(jīng)網(wǎng)絡(luò)（RNN）是一種處理序列數(shù)據(jù)的網(wǎng)絡(luò)結(jié)構(gòu)。在序列的每個時間點，RNN接收兩個輸入：當前時間點t的輸入數(shù)據(jù)和上一個時間點t-1的隱藏狀態(tài)，以此來計算下一個隱藏狀態(tài)并預(yù)測輸出結(jié)果。

RNN具有循環(huán)機制，能夠?qū)v史信息傳遞至下一步，類似于將每一步的信息“串聯(lián)”起來。這種機制可以通過可視化的方式“展開”，以便更清晰地理解其工作原理。

力壓Transformer，詳解Mamba和狀態(tài)空間模型-AI.x社區(qū)

在生成輸出時，RNN僅依賴于前一步驟的隱藏狀態(tài)和當前的輸入數(shù)據(jù)，避免了像Transformer那樣需要重新計算整個序列的歷史隱藏狀態(tài)。

正因如此，RNN在進行推理時速度較快，因為它的計算量與序列長度呈線性關(guān)系，理論上能夠處理無限長的上下文。

舉例來說，當我們將RNN應(yīng)用于之前的輸入文本。

力壓Transformer，詳解Mamba和狀態(tài)空間模型-AI.x社區(qū)

每個隱藏狀態(tài)都是對之前所有狀態(tài)的壓縮匯總。

但這里存在一個問題：隨著時間的推移，比如在生成名字"Maarten"時，最后一個隱藏狀態(tài)可能已經(jīng)丟失了對"Hello"的記憶，因為RNN在每一步只考慮了前一個狀態(tài)的信息。

此外，RNN的這種順序依賴性也導(dǎo)致了另一個問題：它的訓(xùn)練過程無法并行化，必須按順序逐步進行。

力壓Transformer，詳解Mamba和狀態(tài)空間模型-AI.x社區(qū)

與Transformer相比，RNN在推理速度上具有優(yōu)勢，但在訓(xùn)練并行化方面卻存在不足。

力壓Transformer，詳解Mamba和狀態(tài)空間模型-AI.x社區(qū)

這就引出了一個問題：能否找到一種結(jié)合了Transformer訓(xùn)練并行化優(yōu)勢和RNN線性推理優(yōu)勢的架構(gòu)呢？

答案是肯定的，Mamba模型就是。在深入了解Mamba架構(gòu)之前，先來了解狀態(tài)空間模型的世界。

2 狀態(tài)空間模型（SSM）

狀態(tài)空間模型（SSM），像Transformer和RNN一樣，處理信息序列，如文本和信號。在這一部分中，我們將了解SSM的基礎(chǔ)知識以及其與文本數(shù)據(jù)的關(guān)系。

2.1 什么是狀態(tài)空間

狀態(tài)空間模型是一種通過數(shù)學(xué)方法全面描述系統(tǒng)狀態(tài)的方式，包含了描述系統(tǒng)所必需的全部最小變量。

簡單來說，就像我們在迷宮中尋找路徑，狀態(tài)空間就是那張展示所有可能位置（即狀態(tài)）的地圖。在這張地圖上，每個點都代表一個獨特的位置，并且攜帶了如距離出口遠近等具體信息。

進一步簡化這個概念，可以將“狀態(tài)空間表示”理解為這張地圖的提煉，它不僅告訴我們當前所在的位置（即當前狀態(tài)），還展示了可能的目的地（未來狀態(tài)），以及如何通過特定的行動（比如右轉(zhuǎn)或左轉(zhuǎn)）達到下一個狀態(tài)。

力壓Transformer，詳解Mamba和狀態(tài)空間模型-AI.x社區(qū)

雖然狀態(tài)空間模型依賴方程和矩陣來捕捉系統(tǒng)的行為，但其核心目標是追蹤系統(tǒng)的位置、可能的移動方向及其變化路徑。

在這個模型中，用以描述狀態(tài)的變量，如示例中的X和Y坐標或者到出口的距離，統(tǒng)稱為“狀態(tài)向量”。

力壓Transformer，詳解Mamba和狀態(tài)空間模型-AI.x社區(qū)

這聽起來有點熟悉，因為在語言模型中，類似的嵌入或向量經(jīng)常用來描述輸入序列的“狀態(tài)”。例如，你當前的位置狀態(tài)就可以通過一個向量來表示：

力壓Transformer，詳解Mamba和狀態(tài)空間模型-AI.x社區(qū)

在神經(jīng)網(wǎng)絡(luò)的語境下，系統(tǒng)的“狀態(tài)”通常指的是其隱藏狀態(tài)，這在生成新token的過程中，尤其是在大型語言模型的背景下，扮演著至關(guān)重要的角色。

本文轉(zhuǎn)載自 ??AI科技論談??，作者： AI科技論談

標簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

一文詳解Transformer 細節(jié)及代碼實現(xiàn)

angel ? 3099瀏覽 ? 0回復(fù)
比肩Transformer的Mamba在時間序列上有效嗎？

海因斯DK ? 6548瀏覽 ? 0回復(fù)
VideoMamba：用于高效視頻理解的狀態(tài)空間模型

爛漫樹林 ? 3640瀏覽 ? 0回復(fù)
甲骨文寵兒力壓GPT-4斬獲競技場首勝，不綁定廠商，不做聊天機器人，Transformer最年輕作者帶飛大模型創(chuàng)業(yè)新

51CTO技術(shù)棧 ? 2367瀏覽 ? 0回復(fù)
一文詳解視覺Transformer模型壓縮和加速策略(量化/低秩近似/蒸餾/剪枝)

angel ? 4977瀏覽 ? 0回復(fù)
人大系多模態(tài)模型邁向AGI：首次實現(xiàn)自主更新，寫真視頻生成力壓Sora

輕薄滴假象 ? 2042瀏覽 ? 0回復(fù)
在12個視頻理解任務(wù)中，Mamba先打敗了Transformer

輕薄滴假象 ? 3128瀏覽 ? 0回復(fù)
比Transformer更快更省，Mamba終于卷到網(wǎng)絡(luò)領(lǐng)域了

arnoldzhw ? 6085瀏覽 ? 0回復(fù)
中國AI大模型論文數(shù)量全球第一，清華力壓麻省理工、斯坦福

Aceryt ? 2450瀏覽 ? 0回復(fù)
基于Mamba架構(gòu)的，狀態(tài)空間音頻分類模型AUM

Aceryt ? 2418瀏覽 ? 0回復(fù)
詳解Transformer中位置編碼Positional Encoding

Tang_Lan ? 4442瀏覽 ? 0回復(fù)
Jamba-1.5：大規(guī)?；旌?em>Transformer-Mamba模型

sbf_2000 ? 2870瀏覽 ? 0回復(fù)
【智匯金秋創(chuàng)造季】智匯成海，致敬開發(fā)者的“超級碼力”！

AI.x社區(qū)官方賬號 ? 33.0w瀏覽 ? 148回復(fù)
蘋果發(fā)布高效雙EMA梯度優(yōu)化方法，適配Transformer、Mamba模型

Aceryt ? 1748瀏覽 ? 0回復(fù)
突破算力限制！Meta開源“記憶層”，重塑Transformer架構(gòu)大模型

Aceryt ? 1999瀏覽 ? 0回復(fù)
2025年大模型與Transformer架構(gòu)：技術(shù)前沿與未來趨勢報告

歐米伽未來研究所 ? 6064瀏覽 ? 0回復(fù)
為什么大語言模型難以處理長上下文？從 Transformer 到 Mamba

Baihai_IDP ? 2584瀏覽 ? 0回復(fù)
xLSTM：拳打Transformer，腳踢Mamba？！

魯班模錘1 ? 1814瀏覽 ? 0回復(fù)
解鎖Transformer核心！一文吃透自注意力機制

人工智能訓(xùn)練營 ? 2993瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

Qwen3震撼發(fā)布，問鼎開源寶座，教你快速上手 15h前發(fā)布
Agent2Agent對比MCP，高效實現(xiàn)協(xié)作式AI 8天前發(fā)布

熱門推薦

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復(fù)

上一篇：無需代碼，使用LangFlow輕松創(chuàng)建LangChain大模型應(yīng)用

下一篇：動手實現(xiàn)GraphRAG，檢索效果大幅提升

社區(qū)精華內(nèi)容

目錄