CVPR2025 | MobileMamba:輕量級Mamba網(wǎng)絡(luò)新突破,兼顧多感受野、高效推理與超強(qiáng)精度
1. 一眼概覽
MobileMamba 提出了一種輕量級多感受野視覺 Mamba 網(wǎng)絡(luò),通過三階段網(wǎng)絡(luò)設(shè)計和 MRFFI(Multi-Receptive Field Feature Interaction) 模塊,在提升模型推理速度的同時,實(shí)現(xiàn)更高精度,超越現(xiàn)有 CNN、ViT 和 Mamba 結(jié)構(gòu)。
2. 核心問題
當(dāng)前輕量級視覺模型主要基于 CNN 和 Transformer:
? CNN 局部感受野限制了全局建模能力。
? Transformer 具備全局感受野,但高分辨率下計算復(fù)雜度高(O(N2))。
? 現(xiàn)有 Mamba 輕量級模型雖然 FLOPs 低,但推理速度較慢。
MobileMamba 旨在:
? 優(yōu)化 Mamba 的推理速度,在保證低 FLOPs 的情況下提高吞吐量。
? 增強(qiáng)多尺度感受野交互,兼顧長短距離特征捕獲和高頻細(xì)節(jié)提取。
? 適應(yīng)高分辨率任務(wù),在分類、目標(biāo)檢測、語義分割等任務(wù)上提升表現(xiàn)。
3. 技術(shù)亮點(diǎn)
(1)三階段網(wǎng)絡(luò)設(shè)計
? 通過權(quán)衡四階段和三階段網(wǎng)絡(luò),選用三階段架構(gòu),在相同吞吐量下提升精度,或在相同精度下提升吞吐量。
(2)MRFFI(多感受野特征交互)模塊
? WTE-Mamba(長程小波變換增強(qiáng) Mamba):結(jié)合全局建模與高頻邊緣信息提取。
? MK-DeConv(多核深度卷積):提取不同尺度信息,增強(qiáng)局部感受野。
? 消除冗余身份映射(Eliminate Redundant Identity):減少通道冗余,提高計算效率。
(3)訓(xùn)練 & 測試策略優(yōu)化
? 知識蒸餾(Knowledge Distillation) 提高輕量級模型的學(xué)習(xí)能力。
? 擴(kuò)展訓(xùn)練輪次(Extended Training Epochs) 進(jìn)一步提升精度上限。
? 歸一化層融合(Normalization Layer Fusion) 在測試時加速推理。
4. 方法框架
圖片
MobileMamba 通過以下核心步驟優(yōu)化推理和特征提?。?/span>
(1)多感受野特征交互(MRFFI)
? 通過 WTE-Mamba 進(jìn)行長程信息提取,同時結(jié)合小波變換增強(qiáng)高頻特征。
? MK-DeConv 采用不同大小的卷積核進(jìn)行局部信息交互,提高多尺度感知能力。
? 通過 消除冗余身份映射 降低計算成本,提高推理速度。
(2)輕量級 Mamba 結(jié)構(gòu)
? 采用三階段設(shè)計,減少計算量,提高吞吐量。
? 結(jié)合 多方向掃描和低秩狀態(tài)空間映射,提升計算效率。
(3)優(yōu)化訓(xùn)練與推理
? 知識蒸餾:從更強(qiáng)的教師模型學(xué)習(xí),提高小模型性能。
? 延長訓(xùn)練輪數(shù):實(shí)驗(yàn)發(fā)現(xiàn) 300 輪未完全收斂,延長到 1000 輪可提升準(zhǔn)確率。
? 歸一化層融合:在推理時減少計算冗余,提高計算效率。
5. 實(shí)驗(yàn)結(jié)果速覽
圖片
MobileMamba 在多個基準(zhǔn)測試中展現(xiàn)了優(yōu)越性能:
? ImageNet-1K 分類
? MobileMamba-B4 83.6% Top-1,比 EfficientVMamba 提升 +1.8%,且推理速度提升 ×3.5 倍。
? 目標(biāo)檢測(COCO)
? Mask R-CNN:相比 EMO 提升 mAP +1.3↑,吞吐量 +57%↑。
? RetinaNet:比 EfficientVMamba 提升 mAP +2.1↑,推理速度提升 ×4.3 倍。
? 語義分割(ADE20K)
? Semantic FPN:比 EdgeViT 提升 mIoU +1.1↑,F(xiàn)LOPs 僅為其 20%。
? PSPNet:比 MobileViTv2 提升 mIoU +0.4↑,F(xiàn)LOPs 僅 11%。
6. 實(shí)用價值與應(yīng)用
? 邊緣設(shè)備視覺計算:適用于智能手機(jī)、嵌入式設(shè)備、物聯(lián)網(wǎng)(IoT)等資源受限場景。
? 自動駕駛與監(jiān)控:在高分辨率場景下提供高效視覺計算,適用于目標(biāo)檢測、分割任務(wù)。
? 醫(yī)療影像分析:通過多感受野特性,提取關(guān)鍵醫(yī)學(xué)影像特征,提高診斷效率。
7. 開放問題
MobileMamba 的多感受野特征交互策略是否適用于其他任務(wù),如視頻理解或 3D 視覺?
如何進(jìn)一步優(yōu)化 MobileMamba 以提升 CPU/移動端推理速度?
能否結(jié)合 LoRA 或其他參數(shù)高效微調(diào)方法,提升 MobileMamba 在特定任務(wù)上的適應(yīng)性?