自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

VideoMamba:用于高效視頻理解的狀態(tài)空間模型

發(fā)布于 2024-4-9 10:21
瀏覽
0收藏
我們提出了一個僅基于狀態(tài)空間模型(SSM)的高效視頻理解架構(gòu)VideoMamba,并通過大量的實驗證明了它具備一系列良好的特性,包括 (1) Visual Domain Scalability; (2) Short-term Action Sensitivity; (3) Long-term Video Superiority; (4) Modality Compatibility。這使得VideoMamba在一系列視頻benchmark上取得不俗的結(jié)果,尤其是長視頻benchmark,為未來更全面的視頻理解提供了更高效的方案。

VideoMamba:用于高效視頻理解的狀態(tài)空間模型-AI.x社區(qū)

VideoMamba:用于高效視頻理解的狀態(tài)空間模型-AI.x社區(qū)

論文題目: 

VideoMamba: State Space Model for Efficient Video Understanding 

論文鏈接:

??https://arxiv.org/abs/2403.06977??

代碼鏈接:

??https://github.com/OpenGVLab/VideoMamba??

Huggingface:

??https://huggingface.co/OpenGVLab/VideoMamba??

Online Demo:

??https://huggingface.co/spaces/OpenGVLab/VideoMamba??

一、Motivation

視頻表征學(xué)習(xí)長期以來存在兩大痛點,一是短clip里存在大量的時空冗余,二是長上下本需要復(fù)雜的時空關(guān)聯(lián)。曾經(jīng)風(fēng)靡一時的3D CNN和video transformer,分別使用卷積和自注意力機制解決了兩大難題。在我們之前的工作UniFormer[1]里,我們嘗試將卷積和自注意力無縫地結(jié)合,盡管它能同時解決兩大難題,但對于長視頻仍力不從心。而Gemini[2]和Sora[3]的爆火,使得長視頻理解與生成成為了研究的重心,這亟需更高效的視頻表征模型。

幸運的是,NLP領(lǐng)域這兩年涌現(xiàn)了不少高效算子,如S4[4], RWKV[5]和RetNet[6]。而Mamba[7]提出動態(tài)狀態(tài)空間模型(S6),能以線性復(fù)雜度進行長時的動態(tài)建模。這引領(lǐng)了一系列視覺任務(wù)的適配,如Vision Mamba[8]和VMamba[9],提出了多向SSM機制用于處理2D圖片,這些模型不僅能與基于注意力的架構(gòu)媲美,而且大大減小顯存開銷。

考慮到視頻產(chǎn)生的超長token序列,一個自然而然的問題便是,Mamba對視頻理解是否同樣有效?答案是肯定的。

二、 Methods

2.1 Architecture

在進入VideoMamba結(jié)構(gòu)的介紹之前,我們先看看用于1D序列的Mamba block,和用于視覺任務(wù)的雙向Mamba block。這里我們不再贅述SSM和Mamba的底層原理,感興趣的同學(xué)可以通過油管視頻(https://www.youtube.com/watch?v=8Q_tqwpTpVU)學(xué)習(xí)。

VideoMamba:用于高效視頻理解的狀態(tài)空間模型-AI.x社區(qū)

雙向Mamba在單向Mamba的基礎(chǔ)上,引入了對反向序列的SSM,這使得雙向Mamba能更好地對2D序列建模,從而提升對視覺輸入的感知能力。基于雙向Mamba,我們按照ViT[10]的設(shè)計,引入[CLS] token和空間位置編碼,并針對視頻建模,引入3D patch embedding和空間位置編碼,提出了如下所示的VideoMamba:

VideoMamba:用于高效視頻理解的狀態(tài)空間模型-AI.x社區(qū)

為了應(yīng)用雙向Mamba處理時空信息,我們拓展原本的2D掃描到不同的雙向3D掃描:

VideoMamba:用于高效視頻理解的狀態(tài)空間模型-AI.x社區(qū)

其中空間優(yōu)先掃描最簡單,實驗證明效果也最好?;谠摷軜?gòu),我們提出了三種不同size的模型,VideoMamba-Ti,VideoMamba-S和VideoMamba-M。

VideoMamba:用于高效視頻理解的狀態(tài)空間模型-AI.x社區(qū)

但在實驗里,當(dāng)我們增大VideoMamba規(guī)模時,非常容易過擬合,導(dǎo)致大模型的結(jié)果甚至差于小模型。為此,我們提出了Self-Distillation策略,使用訓(xùn)練好的小模型當(dāng)老師,引導(dǎo)大模型訓(xùn)練,有效地避免模型過擬合,而只需少量額外的開銷。

2.2 Masked Modeling

近來,VideoMAE[11]引入掩碼建模,顯著增強了模型對細粒度時序的理解能力,而UMT[12]進一步提出高效的掩碼對齊策略,不僅大大減小了訓(xùn)練開銷,還使得模型能魯棒地處理各種單模態(tài)和多模態(tài)任務(wù)。為了增強VideoMamba對時序的敏感性,同時驗證它和文本模態(tài)的兼容性,我們借鑒UMT的方式,引入CLIP-ViT當(dāng)teacher,進行兩階段蒸餾訓(xùn)練。

不同于UMT使用多層對齊,由于VideoMamba和ViT存在架構(gòu)差異,我們只對齊模型最后一層,考慮到Mamba block對連續(xù)token更友好,我們設(shè)計了逐行掩碼策略:

VideoMamba:用于高效視頻理解的狀態(tài)空間模型-AI.x社區(qū)

同時我們也考慮了注意力掩碼策略,這能保持語義性更強的鄰近token。

三、Experiments

3.1 Scale Up

我們首先在ImageNet上進行了圖像分類實驗如下所示

VideoMamba:用于高效視頻理解的狀態(tài)空間模型-AI.x社區(qū)

可見在沒有Self-Distillation (SD)時,VideoMamba-M和VideoMamba-B都會在訓(xùn)練的最后過擬合,其中VideoMamba-B尤為嚴(yán)重。而在引入SD后,VideoMamba-M收斂符合期望,且明顯強于老師模型VideoMamba-S。為了避免老師模型帶偏訓(xùn)練,我們引入了Early Stop策略,即提前移除蒸餾引導(dǎo),實驗發(fā)現(xiàn)并無提升。完整ImageNet對比如下:

VideoMamba:用于高效視頻理解的狀態(tài)空間模型-AI.x社區(qū)

和無層次化結(jié)構(gòu)的其他模型相比,VideoMamba優(yōu)于其他CNN和ViT的模型,如ConvNeXt和ViT。隨著模型規(guī)模和分辨率放大,性能穩(wěn)定提升。

3.2 Short-term Video Understanding

VideoMamba:用于高效視頻理解的狀態(tài)空間模型-AI.x社區(qū)

VideoMamba:用于高效視頻理解的狀態(tài)空間模型-AI.x社區(qū)

在上述K400和SthSthV2的短視頻分類任務(wù)中,我們同樣觀察到VideoMamba良好的放縮性,且顯著優(yōu)于基于注意力的視頻模型如TimeSformer和ViViT,與結(jié)合卷積和自注意力的UniFormer性能相當(dāng)。再者,在引入掩碼訓(xùn)練后,VideoMamba性能顯著提升,在細粒度動作分類SthSthV2數(shù)據(jù)集上,顯著好于基于ViT的UMT。

VideoMamba:用于高效視頻理解的狀態(tài)空間模型-AI.x社區(qū)

進一步的消融實驗表明,spatial-first掃描方案效果最好。不同于ImageNet上性能隨分辨率逐漸提升,視頻數(shù)據(jù)集上分辨率對性能影響有限,而幀數(shù)對性能影響明顯。對于掩碼建模,逐行掩碼優(yōu)于隨機掩碼策略,且注意力掩碼策略最有效;對齊最后一層效果最好;合適的掩碼比例和Droppath能較好提升訓(xùn)練效果。

3.3 Long-term Video Understanding

VideoMamba:用于高效視頻理解的狀態(tài)空間模型-AI.x社區(qū)

我們在Breakfast,COIN和LVU上評估了VideoMamba對長時視頻的理解能力,相較于以往feature-based的方法,VideoMamba僅需要輸入稀疏采樣的32-64幀,效果便大幅領(lǐng)先,且模型規(guī)模更小。

3.4 Multi-modality Video Understanding

VideoMamba:用于高效視頻理解的狀態(tài)空間模型-AI.x社區(qū)

我們將VideoMamba和BERT連接,構(gòu)造多模態(tài)模型,并使用大規(guī)模多模態(tài)數(shù)據(jù)進行預(yù)訓(xùn)練,在多個視頻文本檢索任務(wù)上進行了性能評估。實驗揭示VideoMamba同樣能很好地作為多模態(tài)的視覺編碼器,隨著預(yù)訓(xùn)練數(shù)據(jù)的增加,能持續(xù)提升多模態(tài)理解的能力,且由于以ViT為視覺編碼器的UMT,尤其是在包含長視頻(ANet和DiDeMo)和更復(fù)雜場景(LSMDC)的數(shù)據(jù)集上。

四、Conclusion

我們提出了僅基于狀態(tài)空間模型的視頻理解架構(gòu)VideoMamba,全面的實驗表明VideoMamba對視頻理解具有一系列良好特性,我們希望它可以為未來長視頻的表征學(xué)習(xí)指明道路。

References

[1] UniFormer: 

??https://github.com/Sense-X/UniFormer??

[2] Gemini: 

??https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/??

[3] Sora: ??https://openai.com/sora??

[4] S4: ??https://github.com/state-spaces/s4??

[5] RWKV: ??https://www.rwkv.com/??

[6] RetNet: 

??https://github.com/microsoft/unilm/tree/master/retnet??

[7] Mamba: ??https://github.com/state-spaces/mamba??

[8] Vision Mamba: ??https://github.com/hustvl/Vim??

[9] VMamba: ??https://github.com/MzeroMiko/VMamba??

[10] ViT: 

??https://github.com/google-research/vision_transformer??

[11] VideoMAE: 

??https://github.com/MCG-NJU/VideoMAE??

[12] UMT: 

??https://github.com/OpenGVLab/unmasked_teacher??

Illustration From IconScout By 22

本文轉(zhuǎn)載自??將門創(chuàng)投??,作者:黎昆昌 ????

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦