自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

CVPR2025 | MobileMamba:輕量級Mamba網(wǎng)絡(luò)新突破,兼顧多感受野、高效推理與超強(qiáng)精度

網(wǎng)絡(luò) 網(wǎng)絡(luò)管理
MobileMamba 提出了一種輕量級多感受野視覺 Mamba 網(wǎng)絡(luò),通過三階段網(wǎng)絡(luò)設(shè)計和 MRFFI(Multi-Receptive Field Feature Interaction) 模塊,在提升模型推理速度的同時,實(shí)現(xiàn)更高精度,超越現(xiàn)有 CNN、ViT 和 Mamba 結(jié)構(gòu)。

1. 一眼概覽

MobileMamba 提出了一種輕量級多感受野視覺 Mamba 網(wǎng)絡(luò),通過三階段網(wǎng)絡(luò)設(shè)計和 MRFFI(Multi-Receptive Field Feature Interaction) 模塊,在提升模型推理速度的同時,實(shí)現(xiàn)更高精度,超越現(xiàn)有 CNN、ViT 和 Mamba 結(jié)構(gòu)。

2. 核心問題

當(dāng)前輕量級視覺模型主要基于 CNN 和 Transformer:

CNN 局部感受野限制了全局建模能力。

Transformer 具備全局感受野,但高分辨率下計算復(fù)雜度高(O(N2))。

現(xiàn)有 Mamba 輕量級模型雖然 FLOPs 低,但推理速度較慢

MobileMamba 旨在:

優(yōu)化 Mamba 的推理速度,在保證低 FLOPs 的情況下提高吞吐量。

增強(qiáng)多尺度感受野交互,兼顧長短距離特征捕獲和高頻細(xì)節(jié)提取。

適應(yīng)高分辨率任務(wù),在分類、目標(biāo)檢測、語義分割等任務(wù)上提升表現(xiàn)。

3. 技術(shù)亮點(diǎn)

(1)三階段網(wǎng)絡(luò)設(shè)計

? 通過權(quán)衡四階段和三階段網(wǎng)絡(luò),選用三階段架構(gòu),在相同吞吐量下提升精度,或在相同精度下提升吞吐量。

(2)MRFFI(多感受野特征交互)模塊

WTE-Mamba(長程小波變換增強(qiáng) Mamba):結(jié)合全局建模與高頻邊緣信息提取。

MK-DeConv(多核深度卷積):提取不同尺度信息,增強(qiáng)局部感受野。

消除冗余身份映射(Eliminate Redundant Identity):減少通道冗余,提高計算效率。

(3)訓(xùn)練 & 測試策略優(yōu)化

知識蒸餾(Knowledge Distillation) 提高輕量級模型的學(xué)習(xí)能力。

擴(kuò)展訓(xùn)練輪次(Extended Training Epochs) 進(jìn)一步提升精度上限。

歸一化層融合(Normalization Layer Fusion) 在測試時加速推理。

4. 方法框架

圖片圖片

MobileMamba 通過以下核心步驟優(yōu)化推理和特征提?。?/span>

(1)多感受野特征交互(MRFFI)

? 通過 WTE-Mamba 進(jìn)行長程信息提取,同時結(jié)合小波變換增強(qiáng)高頻特征。

MK-DeConv 采用不同大小的卷積核進(jìn)行局部信息交互,提高多尺度感知能力。

? 通過 消除冗余身份映射 降低計算成本,提高推理速度。

(2)輕量級 Mamba 結(jié)構(gòu)

? 采用三階段設(shè)計,減少計算量,提高吞吐量。

? 結(jié)合 多方向掃描和低秩狀態(tài)空間映射,提升計算效率。

(3)優(yōu)化訓(xùn)練與推理

知識蒸餾:從更強(qiáng)的教師模型學(xué)習(xí),提高小模型性能。

延長訓(xùn)練輪數(shù):實(shí)驗(yàn)發(fā)現(xiàn) 300 輪未完全收斂,延長到 1000 輪可提升準(zhǔn)確率。

歸一化層融合:在推理時減少計算冗余,提高計算效率。

5. 實(shí)驗(yàn)結(jié)果速覽

圖片圖片

MobileMamba 在多個基準(zhǔn)測試中展現(xiàn)了優(yōu)越性能:

ImageNet-1K 分類

MobileMamba-B4 83.6% Top-1,比 EfficientVMamba 提升 +1.8%,且推理速度提升 ×3.5 倍。

目標(biāo)檢測(COCO)

Mask R-CNN:相比 EMO 提升 mAP +1.3↑,吞吐量 +57%↑。

RetinaNet:比 EfficientVMamba 提升 mAP +2.1↑,推理速度提升 ×4.3 倍

語義分割(ADE20K)

Semantic FPN:比 EdgeViT 提升 mIoU +1.1↑,F(xiàn)LOPs 僅為其 20%

PSPNet:比 MobileViTv2 提升 mIoU +0.4↑,F(xiàn)LOPs 僅 11%。

6. 實(shí)用價值與應(yīng)用

邊緣設(shè)備視覺計算:適用于智能手機(jī)、嵌入式設(shè)備、物聯(lián)網(wǎng)(IoT)等資源受限場景。

自動駕駛與監(jiān)控:在高分辨率場景下提供高效視覺計算,適用于目標(biāo)檢測、分割任務(wù)。

醫(yī)療影像分析:通過多感受野特性,提取關(guān)鍵醫(yī)學(xué)影像特征,提高診斷效率。

7. 開放問題

MobileMamba 的多感受野特征交互策略是否適用于其他任務(wù),如視頻理解或 3D 視覺?

如何進(jìn)一步優(yōu)化 MobileMamba 以提升 CPU/移動端推理速度?

能否結(jié)合 LoRA 或其他參數(shù)高效微調(diào)方法,提升 MobileMamba 在特定任務(wù)上的適應(yīng)性?

責(zé)任編輯:武曉燕 來源: 萍哥學(xué)AI
相關(guān)推薦

2025-03-10 08:47:00

模型AI訓(xùn)練

2025-03-14 10:26:58

2023-10-07 08:12:05

DAMO-YOLO算法

2023-04-26 08:24:46

DAMO-YOLO算法

2012-08-10 14:59:01

代碼

2025-03-11 13:49:20

2023-08-15 14:14:26

研究計算

2025-04-26 16:44:45

2019-05-07 14:42:03

深度學(xué)習(xí)編程人工智能

2013-04-27 19:22:54

Ubuntu 13.0Lunbuntu 13

2025-02-28 10:05:00

AI生成

2025-04-03 09:27:44

2009-07-14 18:05:28

輕量級Swing組件

2009-07-17 14:38:51

輕量級Swing組件

2009-08-21 15:16:15

2016-01-13 10:23:51

2020-04-10 14:10:50

人臉識別人工智能華為

2024-01-22 12:48:00

數(shù)據(jù)模型

2025-03-31 08:52:00

AI模型研究
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號