AAAI2025 | 頻域+注意力雙加持!SNN性能飆升33%,刷新多項SOTA紀(jì)錄!
1. 一眼概覽
FSTA-SNN 提出了一種頻域驅(qū)動的時空注意力模塊(FSTA),顯著提升脈沖神經(jīng)網(wǎng)絡(luò)(SNN)的特征學(xué)習(xí)能力與能效,在多個數(shù)據(jù)集上實現(xiàn)了更優(yōu)性能和更低的脈沖發(fā)放率。
2. 核心問題
當(dāng)前 SNN 在信息稀疏表示方面雖具能效優(yōu)勢,但其中間脈沖輸出存在冗余且缺乏系統(tǒng)分析,導(dǎo)致特征提取能力受限、性能不穩(wěn)定。論文核心關(guān)注的問題是:如何在不增加能耗的前提下,抑制冗余脈沖、增強(qiáng)關(guān)鍵特征提取能力,從而提升 SNN 的整體性能與魯棒性。
3. 技術(shù)亮點
- 頻域分析揭示 SNN 學(xué)習(xí)偏好:首次系統(tǒng)性地從頻域角度分析 SNN 不同層級與時序特征的學(xué)習(xí)行為,發(fā)現(xiàn)淺層偏向垂直特征,深層偏向水平特征,不同時間步特征趨于穩(wěn)定。
- 提出 FSTA 模塊:設(shè)計輕量級的頻域驅(qū)動時空注意力模塊,結(jié)合 DCT 空間注意力和可學(xué)習(xí)的時間注意力,顯著抑制冗余脈沖,提升有效特征表達(dá)。
- 性能與能耗雙優(yōu):在 CIFAR-10、CIFAR-100、ImageNet、CIFAR10-DVS 等多個數(shù)據(jù)集上,F(xiàn)STA-SNN 實現(xiàn)最優(yōu)精度表現(xiàn),同時脈沖發(fā)放率降低約 33.99%,能耗無顯著增加。
4. 方法框架
FSTA 模塊以 plug-and-play 形式嵌入任意 SNN 網(wǎng)絡(luò)層,包含兩個子模塊:
1)DCT-based 空間注意力模塊
? 利用固定 DCT 卷積核提取不同頻率分量,捕捉更豐富的空間特征;
? 將頻域壓縮結(jié)果與原始特征點乘,強(qiáng)化重要區(qū)域。
2)時間注意力模塊
? 基于平均池化與最大池化提取每個時間步的脈沖幅值特征;
? 經(jīng)線性層與 Sigmoid 得到時間注意力權(quán)重,動態(tài)調(diào)整每個時間步貢獻(xiàn)度。
5. 實驗結(jié)果速覽
FSTA-SNN 在多個數(shù)據(jù)集上顯著優(yōu)于現(xiàn)有 SOTA 方法:
? CIFAR-10:ResNet19 架構(gòu)下準(zhǔn)確率達(dá) 96.52%,提升 0.44%;
? CIFAR-100:ResNet19 提升至 80.42%,為當(dāng)前最高;
? ImageNet:ResNet34 準(zhǔn)確率達(dá) 70.23%,領(lǐng)先現(xiàn)有方法近 3%;
? CIFAR10-DVS(動態(tài)數(shù)據(jù)):ResNet20 達(dá)到 82.70%,性能最優(yōu);
? 脈沖發(fā)放率減少:整網(wǎng)發(fā)放率下降約 33.99%。
6. 實用價值與應(yīng)用
FSTA-SNN 在不增加復(fù)雜性的前提下大幅提升 SNN 能效和表現(xiàn),極具應(yīng)用潛力:
? 低功耗智能設(shè)備:適用于邊緣計算、神經(jīng)擬態(tài)芯片等對能效要求高的場景;
? 事件驅(qū)動視覺處理:強(qiáng)化在動態(tài)視覺(如 DVS 攝像頭)中的實時處理能力;
? 脈沖神經(jīng)芯片部署:減少冗余脈沖,延長硬件壽命,利于大規(guī)模落地應(yīng)用。
7. 開放問題
? 當(dāng)前 FSTA 的頻域卷積核為固定設(shè)計,未來是否能引入可學(xué)習(xí)頻率權(quán)重,實現(xiàn)自適應(yīng)頻率感知?
? 不同任務(wù)中(如檢測、分割)是否也存在類似的空間-頻率偏好特征?FSTA 能否通用遷移?
? 在超低時間步設(shè)置下,F(xiàn)STA 的抑冗與增強(qiáng)效果是否仍能保持?