自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

騰訊混元、英偉達(dá)都發(fā)混合架構(gòu)模型,Mamba-Transformer要崛起嗎?

人工智能 新聞
滑鐵盧大學(xué)計(jì)算機(jī)科學(xué)助理教授陳文虎(Wenhu Chen)最近發(fā)帖,盤(pán)點(diǎn)了一下最近的幾款 Mamba-Transformer 模型。我們對(duì)他的盤(pán)點(diǎn)進(jìn)行了整理,希望能帶給大家一些啟發(fā)。

在過(guò)去的一兩年中,Transformer 架構(gòu)不斷面臨來(lái)自新興架構(gòu)的挑戰(zhàn)。

在眾多非 Transformer 架構(gòu)中,Mamba 無(wú)疑是聲量較大且后續(xù)發(fā)展較好的一個(gè)。然而,與最初發(fā)布時(shí)那種仿佛「水火不容」的局面不同,最近一段時(shí)間,這兩種架構(gòu)似乎正在走向融合。

上周五,騰訊宣布推出自研深度思考模型「混元 T1」正式版,這是一個(gè)能秒回、吐字快、擅長(zhǎng)超長(zhǎng)文處理的強(qiáng)推理模型。而之所以具備這些優(yōu)勢(shì),很大程度上是因?yàn)轵v訊采用了 Hybrid-Mamba-Transformer 融合架構(gòu)。這一架構(gòu)有效降低了傳統(tǒng) Transformer 架構(gòu)的計(jì)算復(fù)雜度,減少了 KV-Cache 的內(nèi)存占用,從而顯著降低了訓(xùn)練和推理成本,讓混元 T1 實(shí)現(xiàn)首字秒出,吐字速度最快可達(dá) 80 token/s。

image.png

與此同時(shí),英偉達(dá)也推出了一個(gè)采用 Mamba-Transformer 混合架構(gòu)的模型家族 ——Nemotron-H,其速度是同體量競(jìng)品模型的三倍。

image.png

速度的提升與成本的降低,是 AI 大模型邁向更廣泛應(yīng)用與普及的必經(jīng)之路。如今,騰訊、英偉達(dá)等科技巨頭對(duì) Mamba-Transformer 混合架構(gòu)的高度關(guān)注與投入,釋放出一個(gè)極為重要的信號(hào):此類架構(gòu)所蘊(yùn)含的巨大價(jià)值,值得我們深入挖掘與探索。

恰好,滑鐵盧大學(xué)計(jì)算機(jī)科學(xué)助理教授陳文虎(Wenhu Chen)最近發(fā)帖,盤(pán)點(diǎn)了一下最近的幾款 Mamba-Transformer 模型。我們對(duì)他的盤(pán)點(diǎn)進(jìn)行了整理,希望能帶給大家一些啟發(fā)。

image.png

Mamba-Transformer 簡(jiǎn)介

Mamba-Transformer 混合架構(gòu),顧名思義,就是將 Mamba 與 Transformer 架構(gòu)組合到一起。

Transformer 想必大家已經(jīng)非常熟悉了,簡(jiǎn)單來(lái)說(shuō):Transformer 架構(gòu)是一種以自注意力機(jī)制為核心的深度學(xué)習(xí)模型,自 2017 年由 Ashish Vaswani 等人提出以來(lái),便革新了傳統(tǒng)序列模型的設(shè)計(jì)理念。其關(guān)鍵在于多頭自注意力機(jī)制能夠在全局范圍內(nèi)捕捉輸入序列中各元素之間的復(fù)雜依賴關(guān)系,同時(shí)通過(guò)位置編碼保留序列位置信息,加上殘差連接和層歸一化等技術(shù)確保了高效的并行計(jì)算和穩(wěn)定的訓(xùn)練過(guò)程。這種架構(gòu)不僅顯著提升了機(jī)器翻譯、文本生成等自然語(yǔ)言處理任務(wù)的性能,也為后續(xù) BERT、GPT 等預(yù)訓(xùn)練模型的快速發(fā)展奠定了堅(jiān)實(shí)基礎(chǔ)。

image.png

經(jīng)典 Transformer 架構(gòu)

而 Mamba 則是一種狀態(tài)空間模型(SSM)—— 該架構(gòu)的一大顯著優(yōu)勢(shì)是能高效地捕獲序列數(shù)據(jù)中的復(fù)雜依賴關(guān)系,并由此成為 Transformer 的一大強(qiáng)勁對(duì)手。

經(jīng)典的狀態(tài)空間模型可被視為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和卷積神經(jīng)網(wǎng)絡(luò)的(CNN 融合模型。它們可使用循環(huán)或卷積運(yùn)算進(jìn)行高效地計(jì)算,從而讓計(jì)算開(kāi)銷隨序列長(zhǎng)度而線性或近線性地變化,由此大幅降低計(jì)算成本。

作為 SSM 最成功的變體架構(gòu)之一,Mamba 的建模能力已經(jīng)可以比肩 Transformer,同時(shí)還能維持隨序列長(zhǎng)度的線性可擴(kuò)展性。

image.png

Mamba 首先引入了一個(gè)簡(jiǎn)單卻有效的選擇機(jī)制,可根據(jù)輸入對(duì) SSM 進(jìn)行重新參數(shù)化,從而可讓模型在濾除不相關(guān)信息的同時(shí)無(wú)限期地保留必要和相關(guān)的數(shù)據(jù)。然后,Mamba 還包含一種硬件感知型算法,可使用掃描(scan)而非卷積來(lái)循環(huán)地計(jì)算模型,這在 A100 GPU 上能讓計(jì)算速度提升 3 倍。

憑借強(qiáng)大的建模復(fù)雜長(zhǎng)序列數(shù)據(jù)的能力和近乎線性的可擴(kuò)展性,Mamba 已經(jīng)崛起成為一種重要的基礎(chǔ)模型架構(gòu)。

而要將 Mamba 與 Transformer 混合到一起,常見(jiàn)的方式有兩種:層級(jí)混合與序列級(jí)混合。如下圖所示,當(dāng)前的 Mamba-Transformer 混合架構(gòu)模型會(huì)根據(jù)自身需要選擇不同的混合策略。

image.png

Nemotron-H

3 月 21 日,英偉達(dá)推出了 Nemotron-H 系列的 Mamba-Transformer 混合架構(gòu)模型,其中包含多種規(guī)模的多種模型,比如 Nemotron-H-8B-Base、Nemotron-H-8B-Instruct、Nemotron-H-8B-VLM、Nemotron-H-47B-Base、 Nemotron-H-56B-Base、Nemotron-H-56B-VLM。其中 47B 版本可以在單臺(tái)商品級(jí) NVIDIA RTX 5090 GPU 上以 FP4 精度支持 100 萬(wàn) token 長(zhǎng)度上下文的推理。

實(shí)際上,Nemotron-H 就是英偉達(dá)近期發(fā)布的用于物理 AI 的強(qiáng)大 VLM 模型 Cosmos-Reason 1 背后的骨干網(wǎng)絡(luò)。

據(jù)介紹,通過(guò)采用 Mamba-Transformer 混合架構(gòu),相比于 SOTA 的開(kāi)源純 Transformer 模型,Nemotron-H 在保證了相當(dāng)乃至更好的準(zhǔn)確度的同時(shí),可以提供遠(yuǎn)遠(yuǎn)更快的推理速度(高達(dá) 3 倍)。下面兩圖展示了在 MMLU-Pro 基準(zhǔn)上,Nemotron-H 與同等數(shù)量級(jí)參數(shù)的開(kāi)源 Transformer 模型的準(zhǔn)確度與吞吐量對(duì)比??梢钥吹?,Nemotron-H 具有非常明顯的效率優(yōu)勢(shì)。

image.png

image.png

此外,英偉達(dá)也公布了 Nemotron-H 的其它一些細(xì)節(jié),包括 Nemotron-H-56B-Base 的訓(xùn)練使用了 6144 臺(tái) H100 GPU 和 20 萬(wàn)億 token,訓(xùn)練精度為 FP8(是 FP8 預(yù)訓(xùn)練的一次大規(guī)模展示);Nemotron-H-47B-Base 是 Nemotron-H-56B-Base 的蒸餾版 —— 蒸餾精度為 FP8 并使用了 630 億訓(xùn)練 token。

Hunyuan-Turbo-S 和 Hunyuan-T1

3 月 21 日同一天,騰訊也宣布推出了深度思考模型混元 T1 正式版,并同步在騰訊云官網(wǎng)上線。而在此之前,他們已于 3 月初發(fā)布了混元 Turbo S 基礎(chǔ)模型以及之后的混元 T1-preview 模型。

這些模型都采用了 Mamba-Transformer 混合架構(gòu),其中 T1 更是一款使用了大規(guī)模強(qiáng)化學(xué)習(xí)的強(qiáng)推理模型,在數(shù)學(xué)、邏輯推理、科學(xué)和代碼等理科難題具有非常明顯的優(yōu)勢(shì)。當(dāng)然,Mamba-Transformer 高效率的優(yōu)勢(shì)也在這里有非常明顯的體現(xiàn)。

sp_250320_173701.png

比如在大語(yǔ)言模型評(píng)估增強(qiáng)數(shù)據(jù)集 MMLU-PRO 上,混元 T1 取得了 87.2 分,僅次于 o1。在 CEval、AIME、Zebra Logic 等中英文知識(shí)及競(jìng)賽級(jí)數(shù)學(xué)、邏輯推理的公開(kāi)基準(zhǔn)測(cè)試中,混元 T1 的成績(jī)也達(dá)到業(yè)界領(lǐng)先推理模型的水平。

據(jù)介紹,混元 T1 正式版沿用了混元 Turbo S 的創(chuàng)新架構(gòu),采用 Hybrid-Mamba-Transformer 融合模式。這是工業(yè)界首次將混合 Mamba 架構(gòu)無(wú)損應(yīng)用于超大型推理模型。

這一架構(gòu)有效降低了傳統(tǒng) Transformer 結(jié)構(gòu)的計(jì)算復(fù)雜度,減少了 KV-Cache 的內(nèi)存占用,從而顯著降低了訓(xùn)練和推理成本,讓混元 T1 實(shí)現(xiàn)首字秒出,吐字速度達(dá)到最快 80 token/s。

圖片

 混元 T1 與 DeepSeek-R1 的吐字速度對(duì)比

混元 T1 在超長(zhǎng)文本推理領(lǐng)域也展現(xiàn)出獨(dú)特優(yōu)勢(shì)?;诔錾拈L(zhǎng)文捕捉能力,混元 T1 能有效解決長(zhǎng)文推理中常見(jiàn)的上下文丟失和長(zhǎng)距離信息依賴問(wèn)題。同時(shí),混合 Mamba 架構(gòu)針對(duì)長(zhǎng)序列處理進(jìn)行了專項(xiàng)優(yōu)化,通過(guò)高效的計(jì)算方式,在確保長(zhǎng)文本信息捕捉能力的同時(shí)大幅降低資源消耗,在相近的激活參數(shù)量下,實(shí)現(xiàn)了解碼速度提升 2 倍。

在體現(xiàn)推理模型基礎(chǔ)能力的常見(jiàn) benchmark 上,如大語(yǔ)言模型評(píng)估增強(qiáng)數(shù)據(jù)集 MMLU-PRO 中,混元 T1 取得 87.2 分,僅次于 o1。在 CEval、AIME、Zebra Logic 等中英文知識(shí)及競(jìng)賽級(jí)數(shù)學(xué)、邏輯推理的公開(kāi)基準(zhǔn)測(cè)試中,混元 T1 的成績(jī)也達(dá)到業(yè)界領(lǐng)先推理模型的水平。

STORM

STORM 同樣來(lái)自英偉達(dá),是一款基于視頻的多模態(tài)大型語(yǔ)言模型(Video-LLM)。相關(guān)研究論文已于本月初發(fā)布。

image.png

  • 論文標(biāo)題:Token-Efficient Long Video Understanding for Multimodal LLMs
  • 論文地址:https://arxiv.org/pdf/2503.04130

具體技術(shù)上,STORM 在圖像編碼器和 LLM 之間引入了一種新的時(shí)間編碼器,從而將視覺(jué)和語(yǔ)言表征整合到了一起。該架構(gòu)在工作流程早期引入了時(shí)間動(dòng)態(tài),從而可以顯著提升 Video-LLM 的時(shí)間推理能力,同時(shí)還能大幅提升的下游計(jì)算效率。該團(tuán)隊(duì)表示:「通過(guò)將時(shí)間信息直接注入視覺(jué) token,可以減輕 LLM 的時(shí)間推理負(fù)擔(dān),使其能夠?qū)W⒂诟呒?jí)的語(yǔ)言任務(wù)?!?/span>

image.png

架構(gòu)上,他們采用了 Mamba 狀態(tài)空間模型作為時(shí)間層的核心,這既能高效處理長(zhǎng)視頻,同時(shí)也可增強(qiáng)對(duì)經(jīng)過(guò)擴(kuò)展的時(shí)間上下文的泛化。這個(gè)時(shí)間層對(duì)圖像和視頻輸入的處理方式不同 —— 對(duì)于圖像,它的作用是空間掃描器,通過(guò)結(jié)合全局空間上下文來(lái)增強(qiáng) token;對(duì)于視頻,它同時(shí)執(zhí)行空間和時(shí)間掃描,以捕獲全面的時(shí)空信息。

Mamba 層的主要優(yōu)勢(shì)在于它能夠?qū)v史信息壓縮為狀態(tài)表征。由于視頻輸入中的連續(xù)幀通常包含冗余信息,因此時(shí)間編碼器可以有效地處理和傳播整個(gè)視頻序列的時(shí)間信息。這樣一來(lái),生成的視覺(jué) token 本身就封裝了時(shí)間歷史,并有效地總結(jié)了視頻的時(shí)間動(dòng)態(tài)。

有了這一特性,LLM 處理所需的視覺(jué) token 就更少了,同時(shí)還能保留關(guān)鍵信息。

他們的實(shí)驗(yàn)表明,新提出的方法效果很好,并且可以成功擴(kuò)展到長(zhǎng)上下文視頻理解模型,而不會(huì)影響訓(xùn)練效率。

image.png

Vamba

Vamba 則是一個(gè)用于長(zhǎng)視頻理解的 Mamba-Transformer 混合模型,來(lái)自前文中提到的陳文虎團(tuán)隊(duì)。

我們知道,由于因果自注意力運(yùn)算的二次復(fù)雜度(會(huì)導(dǎo)致訓(xùn)練和推理的計(jì)算成本很高),當(dāng)前領(lǐng)先的 Transformer LMM 其實(shí)很難處理長(zhǎng)視頻,尤其是當(dāng)視頻長(zhǎng)度長(zhǎng)達(dá) 1 個(gè)小時(shí)以上時(shí)?,F(xiàn)在雖有一些 token 壓縮方法可以減少視頻 token 的數(shù)量,但往往會(huì)丟失一些信息,并且處理極長(zhǎng)序列的效率很低。

于是 Vamba 團(tuán)隊(duì)探索了另一個(gè)方向:不對(duì)視頻 token 進(jìn)行壓縮,而是使用另一種模型架構(gòu)來(lái)提高在訓(xùn)練和推理預(yù)填充階段處理視頻 token 的效率。

VAMBA 由此誕生!這款混合 Mamba-Transformer 模型可以對(duì)長(zhǎng)達(dá) 1 個(gè)小時(shí)的視頻實(shí)現(xiàn)高效的理解。該團(tuán)隊(duì)說(shuō)明了設(shè)計(jì)這一架構(gòu)的關(guān)鍵見(jiàn)解:可以設(shè)計(jì)高效的模塊來(lái)近似基于 Transformer 的 LMM 中文本和視頻 token 的因果自注意力運(yùn)算。

image.png

  • 論文標(biāo)題:VAMBA: Understanding Hour-Long Videos with Hybrid Mamba-Transformers
  • 論文地址:https://arxiv.org/pdf/2503.11579
  • 項(xiàng)目地址:https://tiger-ai-lab.github.io/Vamba/

具體來(lái)說(shuō),他們提出: 

1、利用交叉注意力機(jī)制根據(jù)視頻 token 更新文本 token,由于文本 token 的長(zhǎng)度較短,這種方法成本較低;

2、采用 Mamba-2 以線性復(fù)雜度處理大量視頻 token。

image.png

假設(shè)輸入序列為 M + N 個(gè) token,其中 M 是視頻 token 的數(shù)量,N 是文本 token 的數(shù)量,該團(tuán)隊(duì)發(fā)現(xiàn)在許多長(zhǎng)視頻任務(wù)(M ? N)上,M 至少是 N 的 100 倍。

而該團(tuán)隊(duì)提出的新模型可以將訓(xùn)練 / 預(yù)填充計(jì)算復(fù)雜度從 O (d (M + N)2) 降低到 O (dMN + d2M),其中 d 是隱藏維度。不過(guò)該團(tuán)隊(duì)也指出,在實(shí)踐中,由于目前 Mamba 的硬件優(yōu)化不足,這種理論上的改進(jìn)可能無(wú)法完全實(shí)現(xiàn)。

盡管如此,他們?nèi)匀挥^察到,在長(zhǎng)視頻輸入的訓(xùn)練和推理過(guò)程中,GPU 內(nèi)存使用量和 FLOP / 運(yùn)行時(shí)間減少了 50% 以上。

VAMBA 可以使用 8 臺(tái) A100 GPU 進(jìn)行有效訓(xùn)練,而 LongVU 和 LongLLaVA 分別需要 64 和 24 臺(tái) GPU 進(jìn)行訓(xùn)練。通過(guò)進(jìn)行兩階段訓(xùn)練,新提出的 VAMBA 在高難度的小時(shí)級(jí)視頻理解基準(zhǔn) LVBench 上比之前最高效的視頻 LMM 提高了 4.3%。在其他長(zhǎng)視頻理解數(shù)據(jù)集上,如 Video-MME、MLVU 和 LongVideoBench ,VAMBA 也表現(xiàn)出色。

image.png

看起來(lái),Mamba-Transformer 混合架構(gòu)已經(jīng)開(kāi)始在推理以及多模態(tài)任務(wù)中展露頭角。通過(guò)合理的設(shè)計(jì),Transformer 強(qiáng)大的性能可以與 Mamba 在長(zhǎng)上下文和效率上的優(yōu)勢(shì)整合到一起,為大型語(yǔ)言模型(LLM)和大型多模態(tài)模型(LMM)帶來(lái)新的可能性。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2025-03-11 09:42:00

2025-03-10 08:47:00

模型AI訓(xùn)練

2024-05-22 18:10:38

2024-07-15 08:20:00

2025-03-24 08:26:45

2024-09-23 08:20:00

模型訓(xùn)練

2024-05-17 14:06:09

2024-11-06 09:47:00

2023-09-07 11:48:36

騰訊混元大模型

2024-08-13 12:49:29

2024-11-25 08:54:41

2023-10-26 15:38:03

混元大模型騰訊

2024-05-15 17:30:51

開(kāi)源模型

2022-04-29 16:47:57

AI騰訊

2024-12-11 08:28:15

2024-08-22 16:23:05

2024-09-05 16:37:37

2022-05-24 14:10:00

元宇宙云計(jì)算
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)