自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

上海AI Lab最新推出Mixture-of-Memories:線性注意力也有稀疏記憶了

人工智能 新聞
DeepSeek NSA 通過三種方式壓縮 “KV” 實(shí)現(xiàn) sparse attention,但這只是一種可以工作但不優(yōu)雅的折中方案。因?yàn)樗趬嚎s Transfromer 的記憶能力,以換取效率。

回顧 AGI 的爆發(fā),從最初的 pre-training (model/data) scaling,到 post-training (SFT/RLHF) scaling,再到 reasoning (RL) scaling,找到正確的 scaling 維度始終是問題的本質(zhì)。2017 年發(fā)布的 Transformer 架構(gòu)沿用至今,離不開 Transformer 強(qiáng)大的 “無損記憶” 能力,當(dāng)然也需要付出巨大的 KV 緩存代價(jià)。換句話說,Transformer 架構(gòu)具有強(qiáng)大的 memory scaling 能力。

DeepSeek NSA 通過三種方式壓縮 “KV” 實(shí)現(xiàn) sparse attention,但這只是一種可以工作但不優(yōu)雅的折中方案。因?yàn)樗趬嚎s Transfromer 的記憶能力,以換取效率。

另一方面,大概從 2023 年火到今天的線性序列建模方法(包括 linear attention 類,Mamba 系列,RWKV 系列)則是另一個(gè)極端,只維護(hù)一份固定大小 dxd 的 RNN memory state,然后加 gate,改更新規(guī)則,但這種方式始終面臨較低的性能上限,所以才會(huì)有各種混合架構(gòu)的同樣可以工作但不優(yōu)雅的折中方案。

我們認(rèn)為,未來的模型架構(gòu)一定具有兩點(diǎn)特性:強(qiáng)大的 memory scaling 能力 + 關(guān)于序列長度的低復(fù)雜度。后者可以通過高效注意力機(jī)制實(shí)現(xiàn),比如:linear 或者 sparse attention,是實(shí)現(xiàn)長序列建模的必備性質(zhì)。而前者仍然是一個(gè)有待探索的重要課題,我們把給出的方案稱為 “sparse memory”。

這促使我們設(shè)計(jì)了 MoM: Mixture-of-Memories,它讓我們從目前主流線性序列建模方法改 gate 和 RNN 更新規(guī)則的套路中跳脫出來,稀疏且無限制地?cái)U(kuò)大 memory 大小。MoM 通過 router 分發(fā) token(靈感來自 MoE)維護(hù)多個(gè) KV memory,實(shí)現(xiàn) memory 維度 scaling。每個(gè) memory 又可以進(jìn)行 RNN-style 計(jì)算,所以整體具有關(guān)于序列長度線性的訓(xùn)練復(fù)雜度,推理又是常數(shù)級(jí)復(fù)雜度。此外,我們又設(shè)計(jì)了 shared memory 和 local memory 合作分別處理全局和局部信息。實(shí)驗(yàn)表現(xiàn)相當(dāng)驚艷,尤其是在目前 linear 類方法效果不好的 recall-instensive 任務(wù)上表現(xiàn)格外好,甚至在 1.3B 模型上已經(jīng)和 Transformer 架構(gòu)旗鼓相當(dāng)。

圖片

  • 論文地址:https://arxiv.org/abs/2502.13685
  • 代碼地址:https://github.com/OpenSparseLLMs/MoM
  • 未來還會(huì)集成在:https://github.com/OpenSparseLLMs/Linear-MoE
  • 模型權(quán)重開源在:https://huggingface.co/linear-moe-hub

方法細(xì)節(jié)

Linear Recurrent Memory

對(duì)于這部分內(nèi)容,熟悉線性序列建模的小伙伴可以跳過了。

輸入 圖片經(jīng)過 query key value proj 得到圖片

圖片

最簡潔的 recurrent 形式線性序列建模方法(對(duì)標(biāo)最基礎(chǔ)的 linear attention)按照下面公式做 RNN 更新:

圖片

這里,我們不得不提一下,各種各樣的 Gate 形式(圖片前面的)和更新規(guī)則(  右邊的)就是在魔改上面的一行公式,各種具體形式如下表:

(各種方法本身有不同的符號(hào),像 Mamba, HGRN 就不用 q k v,這里為了統(tǒng)一對(duì)比全部對(duì)標(biāo)到 linear attention 形式。其中Titans的形式,把 memory update rule 看作 optimzier update 的話,最核心的還是 SGD 形式,暫時(shí)忽略momentum/weight decay ,只一個(gè)公式表達(dá)的話寫成這種梯度更新的形式是合理的。)

圖片

其實(shí)這些方法又可以進(jìn)一步細(xì)分為不同類別(很多地方都粗略的統(tǒng)一稱為 linear RNN 或者 RNN),這里論文暫時(shí)沒提:

  • Linear Attention, Lightning Attention, RetNet, GLA, DeltaNet, Gated DeltaNet 屬于 linear attention 類
  • Mamba2 屬于 SSM 類,HGRN2 屬于 linear RNN 類
  • TTT, Titans 屬于 Test-Time Training 類

Mixture-of-Memories

MoM 思路非常簡單,和 MoE 一樣按照 token 分發(fā),通過 router 為每個(gè) token 選擇 topk 的 memories 并計(jì)算各自權(quán)重:

圖片

所有激活的 topk memories 按照各自權(quán)重加權(quán)求和得到一份混合記憶:

圖片

然后就又回到了 linear 類方法一貫的輸出計(jì)算:

圖片

另外,這里我們額外引入了 shared memory 的概念,即每個(gè) token 都會(huì)經(jīng)過這個(gè)永遠(yuǎn)激活的 memory,有利于模型獲取全局信息。相對(duì)而言,其他稀疏激活的 memory 更擅長獲取局部信息。消融實(shí)驗(yàn)表明,shared memory 的存在對(duì)模型效果有明確的積極作用。

圖片

硬件高效實(shí)現(xiàn)

MoM的硬件高效Triton算子可以很方便地實(shí)現(xiàn),其輸出的計(jì)算可以簡單寫作:

圖片

也就是說 MoM 中每個(gè) memory 的計(jì)算過程可以復(fù)用現(xiàn)有的單個(gè)算子,再把所有 memory 的輸出加權(quán)求和起來。和直接在算子內(nèi)先求和再算輸出是數(shù)學(xué)等價(jià)的。

實(shí)驗(yàn)結(jié)果

in-context recall-instensive tasks

一直以來,線性序列建模方法因?yàn)樽陨矸浅S邢薜?memory 大小,在這類 in-context recall-intensive 任務(wù)上表現(xiàn)不好。同時(shí) Transformer 模型得益于其強(qiáng)大的無損記憶能力,非常擅長這類任務(wù)。所以已經(jīng)出現(xiàn)了各種層間 hybrid 的模型,來提升 linear 類模型在這類任務(wù)上的效果。

我們首先重點(diǎn)測試了這類任務(wù)(結(jié)果見下表),使用 Gated DeltaNet 作為 MoM 的 memory 計(jì)算形式(在 Memory 更新過程中,每個(gè) memory 都使用 Gated DeltaNet 的 gate 和更新規(guī)則),總共 4 個(gè) local sparse memory,激活 2 個(gè),還有一個(gè) shared memory。其中標(biāo) ? 的模型來自開源項(xiàng)目(https://huggingface.co/fla-hub),沒標(biāo) ?的是我們從頭預(yù)訓(xùn)練的模型。

結(jié)果還算相當(dāng)不錯(cuò),在沒有數(shù)據(jù)污染或任何套路的情況下,結(jié)果顯示 MoM 就是單純地效果好。這也和預(yù)期一致,翻倍擴(kuò)展 memory 大小,效果好過其他 linear 類方法。有一些意外的是,在 1.3B 的結(jié)果里,MoM 基本可以和 Transformer 相媲美。

圖片

其他評(píng)測效果

其他評(píng)測結(jié)果效果也不錯(cuò):

圖片

圖片

推理效率

推理效率是線性序列建模方法的重點(diǎn),結(jié)果顯示 MoM 在常數(shù)級(jí)復(fù)雜度推理速度和顯存占用方面,表現(xiàn)出強(qiáng)大的優(yōu)勢。

圖片

消融實(shí)驗(yàn)

圖片

圖片

Loss 曲線

圖片

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-02-25 09:40:00

模型數(shù)據(jù)AI

2024-11-08 15:00:00

AI模型

2025-02-07 16:15:27

2024-07-04 12:18:21

2022-02-21 09:25:57

VR研究Nature

2024-09-19 10:07:41

2018-05-03 16:27:29

RNN神經(jīng)網(wǎng)絡(luò)ResNet

2018-08-26 22:25:36

自注意力機(jī)制神經(jīng)網(wǎng)絡(luò)算法

2023-07-29 13:26:51

模型AI

2021-05-06 15:55:01

谷歌Android開發(fā)

2023-11-24 12:36:00

模型訓(xùn)練

2025-02-17 13:00:00

2024-11-21 08:39:08

2023-07-03 09:55:01

2011-07-07 13:12:58

移動(dòng)設(shè)備端設(shè)計(jì)注意力

2025-02-10 00:00:55

MHAValue向量

2024-07-03 12:12:33

訓(xùn)練模型

2023-07-30 15:42:45

圖神經(jīng)網(wǎng)絡(luò)PyTorch

2024-09-23 15:40:00

2018-06-07 16:56:29

AI設(shè)計(jì)師藝術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)