自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

DeepSeek新注意力機(jī)制引熱議!梁文鋒親自提交預(yù)印本,目標(biāo)明確降低計(jì)算成本

人工智能 新聞
那邊馬斯克瘋狂燒了20萬(wàn)張卡訓(xùn)出Grok 3,這廂DeepSeek重點(diǎn)關(guān)注的依然是壓縮計(jì)算和推理成本。

DeepSeek新注意力機(jī)制論文一出,再次引爆討論熱度。

依然是熟悉的畫(huà)風(fēng),熟悉的味道——

那邊馬斯克瘋狂燒了20萬(wàn)張卡訓(xùn)出Grok 3,這廂DeepSeek重點(diǎn)關(guān)注的依然是壓縮計(jì)算和推理成本。

具體來(lái)說(shuō),新論文提出了一種可原生訓(xùn)練的稀疏注意力機(jī)制,名為NSA(Native Sparse Attention)。

目的很明確:解決大模型上下文建模中,標(biāo)準(zhǔn)注意力機(jī)制造成的計(jì)算成本高昂的問(wèn)題。

效果也很明顯:

實(shí)驗(yàn)表明,在解碼64k上下文時(shí),基于softmax架構(gòu)的注意力計(jì)算占到總延遲的70%-80%。而在不影響性能的前提下,NSA在64k上下文的解碼、前向傳播和反向傳播中均實(shí)現(xiàn)了顯著加速。

其中前向傳播速度最高可提升9倍,反向傳播速度最高可提升6倍,解碼速度提升可達(dá)11.6倍。

正如不少網(wǎng)友提到的,NSA意味著DeepSeek找到了優(yōu)化注意力的方法,可以用更少的算力更加高效地訓(xùn)練大模型,并且,他們還把這些“秘籍”公開(kāi)了出來(lái)。

剛剛加入OpenAI不久的ViT核心作者Lucas Beyer也不禁開(kāi)麥:粉了粉了。

另一點(diǎn)受到關(guān)注的是,這篇論文的作者可以說(shuō)是DeepSeek系列大模型原班人馬,梁文鋒本人亦在其列——

論文還是梁文鋒親自傳上arXiv的。

實(shí)現(xiàn)超快速長(zhǎng)上下文訓(xùn)練推理

來(lái)看論文細(xì)節(jié)。

NSA的核心方法包括:

  • 動(dòng)態(tài)分層稀疏策略
  • 粗粒度Token壓縮
  • 細(xì)粒度Token選擇

整體框架上,NSA是用更緊湊的鍵值對(duì)替代原始注意力中的鍵值對(duì),通過(guò)壓縮、選擇和滑動(dòng)窗口(sliding window)三種映射策略得到優(yōu)化注意力輸出,保持高稀疏率。

采取分層設(shè)計(jì)的好處是:

  • 減少計(jì)算量的同時(shí),能有效避免信息丟失,是模型在處理長(zhǎng)序列時(shí)既高效又精準(zhǔn)。
  • 能夠在保證全局上下文感知的同時(shí),精確捕捉局部信息,提升模型的表現(xiàn)。
  • 可根據(jù)任務(wù)需求和上下文動(dòng)態(tài)調(diào)整稀疏程度

具體到算法設(shè)計(jì)上,粗粒度Token壓縮通過(guò)將連續(xù)的Token聚合成塊級(jí)表示,可以捕獲全局語(yǔ)義信息,同時(shí)減少注意力的計(jì)算負(fù)擔(dān)。

細(xì)粒度Token選擇從序列中選擇最重要的Token,保留關(guān)鍵的局部信息。

滑動(dòng)窗口則避免了局部模式的過(guò)度優(yōu)勢(shì)——在注意力機(jī)制中,局部模式往往會(huì)主導(dǎo)學(xué)習(xí)過(guò)程,阻止模型有效地從壓縮和選擇Token中學(xué)習(xí)。

為了實(shí)現(xiàn)以上創(chuàng)新,DeepSeek官方還強(qiáng)調(diào)了兩方面的關(guān)鍵工作:

  • 硬件對(duì)齊系統(tǒng):針對(duì)張量核心利用率和內(nèi)存訪問(wèn)優(yōu)化塊級(jí)稀疏注意力,確保均衡的算術(shù)強(qiáng)度。
  • 訓(xùn)練感知設(shè)計(jì):通過(guò)高效算法和向后運(yùn)算符實(shí)現(xiàn)穩(wěn)定的端到端訓(xùn)練。

研究人員用27B參數(shù)規(guī)模的模型進(jìn)行了實(shí)驗(yàn),結(jié)果顯示,全注意力機(jī)制和NSA在預(yù)訓(xùn)練損失方面,都表現(xiàn)出了穩(wěn)定的收斂性,并且NSA實(shí)現(xiàn)了更低的損失值。

在包含知識(shí)、推理和編碼能力的多個(gè)通用基準(zhǔn)測(cè)試中,與全注意力模型相比,NSA模型性能不降反超,在推理任務(wù)DROP中提升尤為明顯。

長(zhǎng)上下文方面,64k上下文的“大海撈針”測(cè)試?yán)铮琋SA完美過(guò)關(guān)。

在需要復(fù)雜長(zhǎng)下文推理的各項(xiàng)任務(wù)中,NSA的表現(xiàn)也基本超過(guò)了包括全注意力模型在內(nèi)的基線模型。

而在思維鏈推理評(píng)估中,通過(guò)知識(shí)蒸餾和監(jiān)督微調(diào),在8k和16k上下文設(shè)置下,AIME任務(wù)中NSA-R的得分均超過(guò)了全注意力模型。

這表明,NSA預(yù)訓(xùn)練的稀疏注意力模式能有效捕捉長(zhǎng)距離邏輯依賴,且其硬件對(duì)齊設(shè)計(jì)可支持不斷增加的推理深度。

效率方面,在8-GPU A100系統(tǒng)上,NSA的訓(xùn)練加速效果會(huì)隨上下文長(zhǎng)度的增加而增強(qiáng)。在64k上下文長(zhǎng)度時(shí),前向傳播速度最高可提升9倍,反向傳播速度最高可提升6倍,解碼速度提升可達(dá)11.6倍。

有意思的是,在馬斯克推出Grok 3炸場(chǎng)之時(shí),不少人感慨:“大力出奇跡”在大模型訓(xùn)練里仍然奏效——

在Grok 3成為大模型競(jìng)技場(chǎng)首個(gè)突破1400分模型的背后,是驚人的10萬(wàn)卡(后來(lái)擴(kuò)展到20萬(wàn))H100集群。

但現(xiàn)在,DeepSeek為代表的效率派們顯然在引發(fā)另一種方向上的思考:通往AGI的路,可以更高效,更本地化,更人人可用。

論文地址:https://arxiv.org/abs/2502.11089

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2025-02-19 09:18:04

2024-12-25 16:42:18

2010-05-14 09:02:03

云計(jì)算成本

2022-05-23 14:55:40

云計(jì)算工具成本

2018-08-26 22:25:36

自注意力機(jī)制神經(jīng)網(wǎng)絡(luò)算法

2020-06-09 11:16:42

云計(jì)算云平臺(tái)工具

2022-02-18 13:46:05

云計(jì)算混合云技巧

2025-02-19 15:30:00

模型訓(xùn)練數(shù)據(jù)

2024-09-19 10:07:41

2024-11-04 10:40:00

AI模型

2025-02-10 00:00:55

MHAValue向量

2025-02-14 11:22:34

2024-11-25 14:23:36

2025-02-27 12:06:45

2013-04-24 09:44:19

云計(jì)算成本模式云計(jì)算成本云計(jì)算成本分析

2013-01-18 14:00:59

VMware

2021-05-08 13:36:13

云計(jì)算AWS云平臺(tái)

2023-11-24 12:36:00

模型訓(xùn)練

2025-02-24 11:31:33

2025-02-24 13:00:00

YOLOv12目標(biāo)檢測(cè)Python
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)