自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

VideoMAE:簡單高效的視頻自監(jiān)督預(yù)訓(xùn)練新范式

人工智能 新聞
本文將介紹南大、騰訊和上海人工智能實(shí)驗(yàn)室被NeurIPS 2022收錄的工作。

圖片

論文鏈接:https://arxiv.org/abs/2203.12602

代碼和預(yù)訓(xùn)練權(quán)重已經(jīng)在Github開源:https://github.com/MCG-NJU/VideoMAE

目錄1. 背景介紹
2. 研究動(dòng)機(jī)
3. 方法介紹
4. VideoMAE實(shí)現(xiàn)細(xì)節(jié)
5. 消融實(shí)驗(yàn)
6. VideoMAE的重要特性
7. 主要結(jié)果
8. 對社區(qū)的影響
9. 總結(jié)

背景介紹

視頻自監(jiān)督學(xué)習(xí) (Video Self-supervised Learning) :不利用標(biāo)簽信息,通過設(shè)計(jì)自監(jiān)督的代理任務(wù),從視頻數(shù)據(jù)中學(xué)習(xí)時(shí)空表征信息。現(xiàn)有的視頻自監(jiān)督預(yù)訓(xùn)練算法主要分為兩大類: (1) 基于對比學(xué)習(xí)的自監(jiān)督方法,如 CoCLR,CVRL等。(2 )基于時(shí)序相關(guān)代理任務(wù)的自監(jiān)督方法,如 DPC,SpeedNet,Pace 等。

動(dòng)作識別 (Action Recognition) : 對給定剪裁過視頻(Trimmed Video)進(jìn)行分類,識別這段視頻中人物的動(dòng)作。目前的主流方法有 2D-based (TSN,TSM,TDN等) ,3D-based(I3D,SlowFast等) 以及 Transformer-based(TimeSformer,ViViT,MViT,VideoSwin等)。動(dòng)作識別作為視頻領(lǐng)域的基礎(chǔ)任務(wù),常常作為視頻領(lǐng)域各種下游任務(wù) (例如時(shí)序行為檢測,時(shí)空動(dòng)作檢測) 的主干網(wǎng)絡(luò)(Backbone),去提取整個(gè)視頻級別或者視頻片段級別的時(shí)空特征。

動(dòng)作檢測 (Action Detection) : 該任務(wù)不僅需要對視頻進(jìn)行動(dòng)作分類,識別這段視頻中人物的動(dòng)作,還要在空間范圍內(nèi)用一個(gè)包圍框(bounding box)標(biāo)記出人物的空間位置。動(dòng)作檢測在電影視頻分析,體育視頻分析等場景下有廣泛的應(yīng)用場景。

研究動(dòng)機(jī)

自從2020年底視覺自注意力模型(Vision Transformer)被提出后,Transformer被廣泛應(yīng)用到了計(jì)算機(jī)視覺領(lǐng)域,并幫助改進(jìn)了一系列計(jì)算機(jī)視覺任務(wù)的性能。

然而,Vision Transformer需要利用大規(guī)模的帶標(biāo)簽的數(shù)據(jù)集進(jìn)行訓(xùn)練。最初,最原始的 ViT(Vanilla Vision Transformer)通過使用數(shù)億張帶標(biāo)簽的圖像進(jìn)行有監(jiān)督形式的預(yù)訓(xùn)練才能獲得良好的性能。目前的Video Transformer通?;趫D像數(shù)據(jù)訓(xùn)練的Vision Transformer模型(如 TimeSformer,ViViT等)并且依賴大規(guī)模圖像數(shù)據(jù)的預(yù)訓(xùn)練模型(例如 ImageNet-1K,ImageNet-21K,JFT-300M等)。TimeSformer,ViViT 均曾嘗試在視頻數(shù)據(jù)集中從頭開始訓(xùn)練Video Transformer模型, 但是都不能取得令人滿意的結(jié)果。因此,如何在不使用任何其他預(yù)訓(xùn)練模型或額外圖像數(shù)據(jù)的情況下,直接在視頻數(shù)據(jù)集上有效地訓(xùn)練Video Transformer,特別是最原始的ViT(Vanilla Vision Transformer),仍然是一個(gè)亟待解決的問題。需要注意的是,與圖像數(shù)據(jù)集相比,現(xiàn)有的視頻數(shù)據(jù)集的規(guī)模相對較小。例如,被廣泛使用的Kinectics-400數(shù)據(jù)集只有20多萬的訓(xùn)練樣本,樣本數(shù)量大約是ImageNet-21K數(shù)據(jù)集的1/50,JFT-300M數(shù)據(jù)集的1/1500,存在好幾個(gè)數(shù)量級的差距。同時(shí),相比訓(xùn)練圖像模型,訓(xùn)練視頻模型的計(jì)算開銷也大了很多。這進(jìn)一步增加了在視頻數(shù)據(jù)集上訓(xùn)練Video Transformer的難度。

最近,「掩碼+重建」(masking-and-reconstruction)這種自監(jiān)督訓(xùn)練范式在自然語言處理(BERT)和圖像理解(BEiT,MAE) 中取得了成功。因此,我們嘗試?yán)眠@種自監(jiān)督范式在視頻數(shù)據(jù)集上訓(xùn)練Video Transformer,并且提出了一種基于掩碼和重建 (masking-and-reconstruction)這種代理任務(wù)的視頻自監(jiān)督預(yù)訓(xùn)練算法VideoMAE(Video Masked Autoencoder)。經(jīng)過VideoMAE預(yù)訓(xùn)練的ViT模型能夠在Kinetics-400和Something-Something V2這種較大的視頻數(shù)據(jù)集,以及UCF101和HMDB51這種規(guī)模相對小的視頻數(shù)據(jù)集上取得大幅優(yōu)于其他方法的效果。

方法介紹

MAE概述

MAE采用一種非對稱編碼器-解碼器架構(gòu)來進(jìn)行掩碼和重建的自監(jiān)督預(yù)訓(xùn)練任務(wù)。一張 224x224分辨率的輸入圖像首先被分成大小為 16 ×16 的非重疊的視覺像素塊(token)。每個(gè)像素塊(token)會經(jīng)過塊嵌入(token embedding)的操作被轉(zhuǎn)化為高維特征。MAE采用較高的掩碼比率 (75%) 隨機(jī)遮蓋掉一部分的像素塊(token)。經(jīng)過掩碼操作后,將剩余的像素塊送到編碼器(encoder)中進(jìn)行特征提取。緊接著,將編碼器提取出來的特征塊與另一部分預(yù)設(shè)的可學(xué)習(xí)的像素塊(learnable token)進(jìn)行拼接,構(gòu)成和原始輸入圖像尺寸一樣大的特征。最后,利用一個(gè)輕量級的解碼器(decoder),基于這部分特征重建原始的圖像(實(shí)際實(shí)驗(yàn)過程中,重建目標(biāo)的是經(jīng)過歸一化的像素塊(normalized token) 。

視頻數(shù)據(jù)的特性

與圖像數(shù)據(jù)相比,視頻數(shù)據(jù)包含了更多的幀,也具有更加豐富的運(yùn)動(dòng)信息。本節(jié)會先分析一下視頻數(shù)據(jù)的特性。

圖片

對視頻數(shù)據(jù)不同掩碼策略的示例

時(shí)序冗余性

視頻數(shù)據(jù)中包含著密集的圖像幀,這些圖像幀包含的語義信息隨時(shí)間變化得非常緩慢。由此可見,視頻中密集連續(xù)的彩色圖像幀是高度冗余的,如圖所示。這種冗余性可能在實(shí)現(xiàn)MAE的過程中造成兩個(gè)問題。首先,如果采用原始視頻的密集幀率(例如 30 FPS)進(jìn)行預(yù)訓(xùn)練,則訓(xùn)練效率會非常低。因?yàn)檫@種設(shè)置會使得網(wǎng)絡(luò)更多地關(guān)注數(shù)據(jù)中的靜態(tài)表象特征或者一些局部變化緩慢的運(yùn)動(dòng)特征。其次,視頻中的時(shí)序冗余性會極大地稀釋了視頻中的運(yùn)動(dòng)特征。因此,這種情況會使得在正常掩碼率(例如,50% 到 75%)下,重建被掩碼的像素塊的任務(wù)變得相對簡單。這些問題會影響作為編碼器的Backbone在預(yù)訓(xùn)練的過程中提取運(yùn)動(dòng)特征。

時(shí)序相關(guān)性

視頻可以看作是由靜態(tài)圖片隨著時(shí)間的演化生成的,因此視頻幀之間也存在語義的對應(yīng)關(guān)系。如果不針對性地設(shè)計(jì)掩碼策略,這種時(shí)序相關(guān)性可能會增加重建過程中的「信息泄漏」的風(fēng)險(xiǎn)。具體來說,如圖所示,如果使用全局隨機(jī)掩碼或隨機(jī)掩碼圖像幀,網(wǎng)絡(luò)可以利用視頻中的時(shí)序相關(guān)性,通過「復(fù)制粘貼」相鄰幀中時(shí)序?qū)?yīng)位置的未被遮蔽的像素塊來進(jìn)行像素塊重建。這種情況下一定程度上也能完成代理任務(wù),但是可能會導(dǎo)致VideoMAE僅僅能學(xué)習(xí)到較低語義的時(shí)間對應(yīng)關(guān)系特征,而不是高層抽象的語義信息,例如對視頻內(nèi)容的時(shí)空推理能力。為了緩解這種情況,需要設(shè)計(jì)一種新的掩碼策略,使重建任務(wù)更加具挑戰(zhàn)性,這樣才能讓網(wǎng)絡(luò)更好地學(xué)習(xí)視頻中的時(shí)空特征表示。

VideoMAE方法介紹

圖片

VideoMAE的整體框架

為了解決前文中視頻預(yù)訓(xùn)練過程中采用掩碼和重建(masking-and-reconstruction)這種任務(wù)時(shí)可能遇到的問題,我們在VideoMAE中引入一些新的設(shè)計(jì)。

時(shí)序下采樣

根據(jù)前文中對視頻中密集連續(xù)幀中存在的時(shí)序冗余性的分析,因此在VideoMAE中選擇采用帶有時(shí)序間隔的采樣策略來進(jìn)行更加高效的視頻自監(jiān)督預(yù)訓(xùn)練。具體來說,首先從原始視頻中隨機(jī)采樣一個(gè)由 $t$ 個(gè)連續(xù)幀組成的視頻片段。然后使用帶有時(shí)序間隔采樣將視頻片段壓縮為幀,每個(gè)幀包含圖片個(gè)像素。在具體的實(shí)驗(yàn)設(shè)置中,Kinetics-400 和 Something-Something V2 數(shù)據(jù)集上的采樣間隔 分別設(shè)置為4和2。

時(shí)空塊嵌入

在輸入到編碼器中之前,對于采樣得到的視頻片段,采用時(shí)空聯(lián)合的形式進(jìn)行像素塊嵌入。具體來說,將大小為圖片視頻片段中大小為圖片的視覺像素視為一個(gè)視覺像素塊。因此,采樣得到的視頻片段經(jīng)過時(shí)空塊嵌入(cube embedding)層后可以得到圖片個(gè)視覺像素塊。在這個(gè)過程中,同時(shí)會將視覺像素塊的通道維度映射為。這種設(shè)計(jì)可以減少輸入數(shù)據(jù)的時(shí)空維度大小,一定程度上也有助于緩解視頻數(shù)據(jù)的時(shí)空冗余性。

帶有極高的掩碼比率的管道式掩碼策略

為了解決由視頻數(shù)據(jù)中的時(shí)序冗余性和時(shí)序相關(guān)性導(dǎo)致的「信息泄漏」問題,本方法選擇在自監(jiān)督預(yù)訓(xùn)練的過程中采用管道式掩碼策略。管道式的掩碼策略可以將單幀彩色圖像的掩碼方式自然地在整個(gè)視頻的時(shí)序上進(jìn)行拓展,即不同的幀中相同空間位置的視覺像素塊將被遮蔽。具體來說,管道式掩碼策略可以表示為 。不同的時(shí)間t共享相同的值。使用這種掩碼策略,相同空間位置的token將總是會被掩碼。所以對于一些視覺像素塊(例如,不同掩碼策略的示例圖第 4 行的包含手指的像素塊),網(wǎng)絡(luò)將無法在其他幀中找到其對應(yīng)的部分。這種設(shè)計(jì)這有助于減輕重建過程中出現(xiàn)「信息泄露」的風(fēng)險(xiǎn),可以讓VideoMAE通過提取原始視頻片段中的高層語義信息,來重建被掩碼的token。

相對于圖像數(shù)據(jù),視頻數(shù)據(jù)具有更強(qiáng)的冗余性,視頻數(shù)據(jù)的信息密度遠(yuǎn)低于圖像。這種特性使得VideoMAE使用極高的掩碼率(例如 90% 到 95%)進(jìn)行預(yù)訓(xùn)練。值得注意的是,MAE的默認(rèn)掩碼率為75% 。實(shí)驗(yàn)結(jié)果表明,使用極高的掩碼率不僅能夠加速預(yù)訓(xùn)練(僅有 5% 到 10% 的視覺像素塊被輸入到編碼器中),同時(shí)能夠提升模型的表征能力和在下游任務(wù)中的效果。

時(shí)空聯(lián)合自注意力機(jī)制

前文中提到了VideoMAE采用了極高的掩碼率,只保留了極少的token作為編碼器的輸入。為了更好地提取這部分未被遮蔽的token的時(shí)空特征,VideoMAE選擇使用原始的ViT作為Backbone,同時(shí)在注意力層中采用時(shí)空聯(lián)合自注意力(即不改變原始ViT的模型結(jié)構(gòu))。因此所有未被遮蔽的token都可以在自注意層中相互交互。時(shí)空聯(lián)合自注意力機(jī)制的圖片級別的計(jì)算復(fù)雜度是網(wǎng)絡(luò)的計(jì)算瓶頸,而前文中針對VideoMAE使用了極高掩碼比率策略,僅將未被遮蔽的token(例如10%)輸入到編碼器中。這種設(shè)計(jì)一定程度上可以有效地緩圖片級別的計(jì)算復(fù)雜度的問題。

 VideoMAE實(shí)現(xiàn)細(xì)節(jié)

圖片

VideoMAE框架的具體設(shè)計(jì)細(xì)節(jié)

上圖展示了VideoMAE采用的編碼器和解碼器的具體架構(gòu)設(shè)計(jì)(以ViT-B為例)。我們在下游的四個(gè)視頻動(dòng)作識別數(shù)據(jù)集和一個(gè)動(dòng)作檢測數(shù)據(jù)集上對VideoMAE進(jìn)行評估。這些數(shù)據(jù)集關(guān)注視頻中不同方面的運(yùn)動(dòng)信息。Kinetics-400 是一個(gè)大規(guī)模的 YouTube 視頻數(shù)據(jù)集,包含了大約 30 萬個(gè)剪裁過的視頻片段,涵蓋了 400 個(gè)不同的動(dòng)作類別。Kinetics-400 數(shù)據(jù)集主要包含日常生活中的活動(dòng),并且某些類別與交互對象或場景信息高度相關(guān)。Something-Something V2數(shù)據(jù)集中的視頻主要包含了不同對象執(zhí)行相同動(dòng)作,因此該數(shù)據(jù)集中的動(dòng)作識別更加關(guān)注運(yùn)動(dòng)屬性而不是對象或場景信息。其中訓(xùn)練集大約包含 17 萬個(gè)視頻片段,驗(yàn)證集大約包含 2.5 萬個(gè)視頻片段。UCF101 和 HMDB51 是兩個(gè)相對較小的視頻動(dòng)作識別數(shù)據(jù)集。UCF101的訓(xùn)練集大約包含 9500 個(gè)視頻,HMDB51的訓(xùn)練集大約包含 3500 個(gè)視頻。實(shí)驗(yàn)過程中,我們首先在訓(xùn)練集上使用VideoMAE對網(wǎng)絡(luò)進(jìn)行自監(jiān)督預(yù)訓(xùn)練,緊接在訓(xùn)練集上對編碼器(ViT)進(jìn)行有監(jiān)督形式的微調(diào),最后在驗(yàn)證集上對模型的性能進(jìn)行評估。對于動(dòng)作檢測數(shù)據(jù)集AVA,我們首先會加載Kinetics-400數(shù)據(jù)集上訓(xùn)練好的模型,對編碼器(ViT)進(jìn)行有監(jiān)督形式的微調(diào)。

消融實(shí)驗(yàn)

本節(jié)在Something-Something V2和Kinetics-400數(shù)據(jù)集上對VideoMAE進(jìn)行消融實(shí)驗(yàn)。消融實(shí)驗(yàn)?zāi)J(rèn)采用輸入為16幀的原始的ViT模型。同時(shí)在微調(diào)后進(jìn)行評估時(shí),在 Something-Something V2 上選擇2個(gè)視頻片段和3次裁剪進(jìn)行測試,在Kinetics-400上選擇5個(gè)視頻片段和3次裁剪進(jìn)行測試。

圖片

解碼器設(shè)計(jì)

輕量級解碼器是VideoMAE中的一個(gè)關(guān)鍵組件。表(a) 中展示了使用不同深度的解碼器的實(shí)驗(yàn)結(jié)果。與MAE不同,VideoMAE中更深的解碼器可以取得更好的性能,而深度較淺的解碼器可以有效地降低 GPU 的顯存占用。認(rèn)情況下解碼器的層數(shù)設(shè)置為 4。遵循MAE的經(jīng)驗(yàn)性設(shè)計(jì),VideoMAE中解碼器的通道寬度設(shè)置為編碼器的通道寬度的一半(例如,以ViT-B作為編碼器時(shí),解碼器的通道寬度設(shè)置為384)。

掩碼策略

在使用 75% 的掩碼比例下,將不同的掩碼策略與管道式掩碼策略進(jìn)行比較。如表(b)所示,全局隨機(jī)掩碼和隨機(jī)掩碼圖像幀的性能劣于管道式掩碼策略。這可能是由于管道式掩碼策略可以一定程度上緩解了視頻數(shù)據(jù)中的時(shí)序冗余性和時(shí)序相關(guān)性。如果將掩碼比率增加到 90% ,VideoMAE的在Something-Something上的性能可以進(jìn)一步從 68.0% 提升到 69.6%。VideoMAE中掩碼策略和的掩碼比率的設(shè)計(jì)可以使遮蔽加重建成為更具有挑戰(zhàn)性的代理任務(wù),強(qiáng)制模型學(xué)習(xí)到更加高層的時(shí)空特征。

重建目標(biāo)

這里比較了VideoMAE中的重建目標(biāo),結(jié)果在表(c)中。首先,如果只使用視頻片段中的中心幀作為重建目標(biāo),VideoMAE在下游任務(wù)中的性能會大大降低。同時(shí),VideoMAE對采樣間隔也很敏感。如果選擇重建更密集幀的視頻片段,其結(jié)果會明顯低于默認(rèn)的經(jīng)過時(shí)序下采樣的視頻片段。最后還嘗試從經(jīng)過時(shí)序下采樣的視頻片段中重建視頻片段中更加密集的幀,但這種設(shè)置會需要解碼更多的幀,使得訓(xùn)練速度變慢,效果也沒有很好。

預(yù)訓(xùn)練策略

這里比較了VideoMAE中的預(yù)訓(xùn)練策略,結(jié)果展示在表(d)中。與之前方法(TimeSformer,ViViT)的實(shí)驗(yàn)結(jié)論類似,在Something-Something V2 這個(gè)對運(yùn)動(dòng)信息更加敏感的數(shù)據(jù)集上從頭開始訓(xùn)練ViT并不能取得令人滿意的結(jié)果。如果利用大規(guī)模圖像數(shù)據(jù)集(ImageNet-21K)上預(yù)訓(xùn)練的ViT模型作為初始化,能夠獲得更好的準(zhǔn)確度,可以從 32.6% 提升到 61.8% 。而使用在 ImageNet-21K 和 Kinetics-400 上預(yù)訓(xùn)練的模型進(jìn)一步將準(zhǔn)確率提高到 65.2%。而利用VideoMAE從視頻數(shù)據(jù)集本身預(yù)訓(xùn)練得到的ViT,在不使用任何額外的數(shù)據(jù)的條件下,最終能達(dá)到 69.6% 的最佳性能。Kinetics-400 上也有相似的結(jié)論。

預(yù)訓(xùn)練數(shù)據(jù)集

這里比較了VideoMAE中的預(yù)訓(xùn)練數(shù)據(jù)集,結(jié)果展示在表(e)中。首先按照MAE的設(shè)置,在 ImageNet-1K 上對ViT自監(jiān)督預(yù)訓(xùn)練 1600 epoch。然后利用I3D中的策略,將 2D 塊嵌入層膨脹為3D 時(shí)空塊嵌入層,并在視頻數(shù)據(jù)集上微調(diào)模型。這種訓(xùn)練范式可以超過從頭有監(jiān)督訓(xùn)練的模型。緊接著,將MAE預(yù)訓(xùn)練的模型與在 Kinetics-400 上VideoMAE預(yù)訓(xùn)練的ViT模型的性能進(jìn)行了比較??梢园l(fā)現(xiàn)VideoMAE可以實(shí)現(xiàn)比MAE更好的性能。然而這兩種預(yù)訓(xùn)練模型均未能取得比僅在Something-Something V2 數(shù)據(jù)集上進(jìn)行自監(jiān)督預(yù)訓(xùn)練的VideoMAE更好的性能。由此可以分析,預(yù)訓(xùn)練數(shù)據(jù)集和目標(biāo)數(shù)據(jù)集之間的領(lǐng)域差異可能是一個(gè)重要問題。

預(yù)訓(xùn)練輪次

圖片

預(yù)訓(xùn)練的總輪次在VideoMAE中的影響

在消融實(shí)驗(yàn)中,VideoMAE預(yù)訓(xùn)練的總輪次默認(rèn)設(shè)置為800。我們嘗試在Kinetics-400 和 Something-Something V2數(shù)據(jù)集上對預(yù)訓(xùn)練輪次進(jìn)行深入探究。根據(jù)圖中的結(jié)果,采用更長的預(yù)訓(xùn)練輪次在兩個(gè)數(shù)據(jù)集上都可以帶來持續(xù)的增益。

VideoMAE的重要特性

VideoMAE是一種數(shù)據(jù)高效的學(xué)習(xí)器

圖片

VideoMAE與MoCov3在下游不同視頻動(dòng)作識別數(shù)據(jù)集上的性能比較

先前很多工作對視頻自監(jiān)督預(yù)訓(xùn)練進(jìn)行了廣泛的研究,但這些方法主要使用卷積神經(jīng)網(wǎng)絡(luò)作為Backbone,很少有方法去研究中基于ViT的訓(xùn)練機(jī)制。因此,為了驗(yàn)證基于ViT的VideoMAE對視頻自監(jiān)督預(yù)訓(xùn)練的有效性,我們對兩種基于ViT的訓(xùn)練方法進(jìn)行了比較:(1) 從頭開始有監(jiān)督訓(xùn)練模型,(2) 使用對比學(xué)習(xí)方法 (MoCo v3)進(jìn)行自監(jiān)督預(yù)訓(xùn)練。根據(jù)實(shí)驗(yàn)結(jié)果,可以發(fā)現(xiàn)VideoMAE明顯優(yōu)于其他兩種訓(xùn)練方法。例如,在數(shù)據(jù)規(guī)模最大的 Kinetics-400 數(shù)據(jù)集上,VideoMAE比從頭開始訓(xùn)練的準(zhǔn)確率高出大約 10%,比 MoCo v3 預(yù)訓(xùn)練的結(jié)果高出大約6%。VideoMAE卓越的性能表明,掩碼和重建(masking-and-reconstruction)這種自監(jiān)督范式為ViT提供了一種高效

的預(yù)訓(xùn)練機(jī)制。與此同時(shí)值得注意的是,隨著訓(xùn)練集的變小,VideoMAE與其他兩種訓(xùn)練方法之間的性能差距變得越來越大。值得注意的是,即使HMDB51數(shù)據(jù)集中只包含大約3500個(gè)視頻片段,基于VideoMAE 的預(yù)訓(xùn)練模型仍然可以獲得令人非常滿意的準(zhǔn)確率。這一新的結(jié)果表明VideoMAE是一種數(shù)據(jù)高效的學(xué)習(xí)器。這與對比學(xué)習(xí)需要大量數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練的情況不同。VideoMAE的數(shù)據(jù)高效的特性在視頻數(shù)據(jù)有限的場景下顯得尤為重要。

圖片

VideoMAE與MoCov3在Something-SomethingV2數(shù)據(jù)集上的效率分析

我們還進(jìn)一步比較了使用VideoMAE進(jìn)行預(yù)訓(xùn)練和使用MoCo v3預(yù)訓(xùn)練的計(jì)算效率。由于使用掩碼加重建這種極具挑戰(zhàn)性的代理任務(wù),每次迭代過程網(wǎng)絡(luò)只能觀察到10%的輸入數(shù)據(jù)(90%的token被遮蔽),因此VideoMAE需要更多的訓(xùn)練輪次數(shù)。極高比例的token被遮蔽這種設(shè)計(jì)大大節(jié)約了預(yù)訓(xùn)練的計(jì)算消耗和時(shí)間。VideoMAE預(yù)訓(xùn)練800輪次僅僅需要19.5小時(shí),而 MoCo v3 預(yù)訓(xùn)練300輪次就需要 61.7 小時(shí)。

 極高的掩碼率

圖片

掩碼比率在VideoMAE中的影響

極高的掩碼率是VideoMAE中的核心設(shè)計(jì)之一。我們在 Kinetics-400 和 Something-Something V2 數(shù)據(jù)集上對此設(shè)計(jì)進(jìn)行了深入探究。根據(jù)圖中的結(jié)果,當(dāng)掩碼比率非常高時(shí),即使是 95%時(shí),網(wǎng)絡(luò)在下游視頻動(dòng)作識別任務(wù)的這兩個(gè)重要數(shù)據(jù)集上仍然能表現(xiàn)出極佳的性能。這個(gè)現(xiàn)象與自然語言處理中的 BERT 和圖像的MAE中的存在巨大的不同。視頻數(shù)據(jù)中存在時(shí)序冗余性和時(shí)序相關(guān)性,使得VideoMAE相比于圖像數(shù)據(jù)和自然語言,能夠進(jìn)行極高的掩碼比率的操作。

圖片

我們還對經(jīng)過預(yù)訓(xùn)練的VideoMAE的重構(gòu)示例進(jìn)行了可視化。從圖中可以發(fā)現(xiàn),即使在極高的掩碼率下,VideoMAE也可以產(chǎn)生令人滿意的重建結(jié)果。這意味著VideoMAE能夠?qū)W習(xí)和提取出視頻中的時(shí)空特征。

泛化和遷移能力:數(shù)據(jù)的質(zhì)量與數(shù)量

圖片

VideoMAE與MoCov3在較小數(shù)據(jù)集上的特征遷移能力的性能比較

為了進(jìn)一步研究VideoMAE學(xué)習(xí)到的特征,本節(jié)對經(jīng)過預(yù)訓(xùn)練的VideoMAE的泛化和遷移能力進(jìn)行了評估。上表中展示了在 Kinetics-400 數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練的VideoMAE遷移到 Something-Something V2、UCF101 和 HMDB51數(shù)據(jù)集上的效果。同時(shí),表中也展示了使用 MoCo v3 進(jìn)行預(yù)訓(xùn)練的模型的遷移能力。根據(jù)表中的結(jié)果,利用VideoMAE進(jìn)行預(yù)訓(xùn)練的模型的遷移和泛化能力優(yōu)于基于 MoCo v3 進(jìn)行預(yù)訓(xùn)練的模型。這表明VideoMAE能夠?qū)W習(xí)到更多可遷移的特征表示。在 Kinetics-400 數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練的VideoMAE比直接在 UCF101 和 HMDB51 數(shù)據(jù)集上直接進(jìn)行預(yù)訓(xùn)練的VideoMAE效果好。但是在 Kinetics-400 數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練的模型在 Something-Something V2 數(shù)據(jù)集上的遷移能力較差。

圖片

為了進(jìn)一步探究造成這種不一致現(xiàn)象的原因,我們在Something-Something V2數(shù)據(jù)集上進(jìn)行了減少預(yù)訓(xùn)練視頻數(shù)量的實(shí)驗(yàn)。探究過程的包含了兩個(gè)實(shí)驗(yàn):(1)使用相同的訓(xùn)練輪次數(shù)(epoch) 進(jìn)行預(yù)訓(xùn)練,(2)使用相同的迭代次數(shù)(iteration)進(jìn)行預(yù)訓(xùn)練。從圖中的結(jié)果可以發(fā)現(xiàn),當(dāng)減小預(yù)訓(xùn)練樣本數(shù)時(shí),采用更多的訓(xùn)練迭代也能夠提升模型的性能。即使只使用了 4萬2千的預(yù)訓(xùn)練視頻,直接在 Something-Something V2 數(shù)據(jù)集上訓(xùn)練的VideoMAE仍然可以取得比利用 24萬視頻數(shù)據(jù)的 Kinetics-400 數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練更好的準(zhǔn)確率(68.7% 對比 68.5%)。這個(gè)發(fā)現(xiàn)意味著領(lǐng)域差異是視頻自監(jiān)督預(yù)訓(xùn)練過程中需要注意的另一個(gè)重要因素,當(dāng)預(yù)訓(xùn)練數(shù)據(jù)集和目標(biāo)數(shù)據(jù)集之間存在領(lǐng)域差異時(shí),預(yù)訓(xùn)練數(shù)據(jù)的質(zhì)量比數(shù)據(jù)的數(shù)量更重要。同時(shí),這個(gè)發(fā)現(xiàn)也間接驗(yàn)證了VideoMAE是一種針對視頻自監(jiān)督預(yù)訓(xùn)練的數(shù)據(jù)高效的學(xué)習(xí)器。

主要結(jié)果

圖片

Something-Something V2數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

圖片

Kinetics-400數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

圖片

UCF101和HMDB51數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

在無需使用任何額外數(shù)據(jù)的條件下,VideoMAE在Something-Something V2 和Kinetics-400 上的 Top-1 準(zhǔn)確率分別達(dá)到75.4%和87.4%。需要注意的是,Something-Something V2數(shù)據(jù)集上目前最佳的方法都強(qiáng)烈依賴于在外部數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練的模型進(jìn)行初始化。相反,VideoMAE在沒有利用任何外部數(shù)據(jù)的條件下能夠顯著優(yōu)于之前的最佳方法的準(zhǔn)確率約 5%。VideoMAE在Kinetics-400 數(shù)據(jù)集上也能取得非常卓越的性能。在視頻數(shù)據(jù)有限的情況下(例如,UCF101 數(shù)據(jù)集中僅包含不到1萬個(gè)訓(xùn)練視頻, HMDB51 中僅包含約3500個(gè)訓(xùn)練視頻),VideoMAE不需要利用任何額外的圖像和視頻數(shù)據(jù),也能夠在這些小規(guī)模視頻數(shù)據(jù)集上遠(yuǎn)遠(yuǎn)超過之前的最佳方法。

圖片

AVA v2.2數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

除了傳統(tǒng)的動(dòng)作分類任務(wù),我們還進(jìn)一步在視頻動(dòng)作檢測這種更精細(xì)的理解任務(wù)上驗(yàn)證VideoMAE模型的表征能力。我們選取了AVA v2.2數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)中,首先會加載Kinetics-400數(shù)據(jù)集上預(yù)訓(xùn)練好的模型,再對ViT進(jìn)行有監(jiān)督形式的微調(diào)。由表格可以發(fā)現(xiàn),經(jīng)過VideoMAE預(yù)訓(xùn)練的ViT模型可以在AVA v2.2數(shù)據(jù)集上取得非常好的結(jié)果。如果將自監(jiān)督預(yù)訓(xùn)練后的ViT模型,在Kinetics-400上進(jìn)行進(jìn)一步的有監(jiān)督的微調(diào),可以在動(dòng)作檢測任務(wù)上去得更好的表現(xiàn)(3 mAP-6mAP的提升)。這也說明了對VideoMAE自監(jiān)督預(yù)訓(xùn)練后的模型,在上游數(shù)據(jù)集進(jìn)行有監(jiān)督的微調(diào)后再遷移到下游任務(wù)中,模型的性能可以進(jìn)一步提升。

對社區(qū)的影響

我們于今年4月對VideoMAE的模型和代碼進(jìn)行了開源,收到了社區(qū)的持續(xù)關(guān)注和認(rèn)可。

圖片

根據(jù)Paper with Code榜單,VideoMAE已經(jīng)分別占據(jù)Something-Something V2[1]和AVA 2.2[2]榜單首位長達(dá)半年時(shí)間(2022年3月底至今)。如果不利用任何外部數(shù)據(jù),VideoMAE在Kinetics-400[3],UCF101[4],和HMDB51[5]數(shù)據(jù)集上的結(jié)果也是迄今為止最好的。

圖片

?https://huggingface.co/docs/transformers/main/en/model_doc/videomae?

幾個(gè)月前,VideoMAE的模型被Hugging Face的Transformers官方倉庫收錄,是該倉庫收錄的第一個(gè)視頻理解模型!一定程度上也反應(yīng)了社區(qū)對我們工作的認(rèn)可!希望我們的工作能為基于Transformer的視頻預(yù)訓(xùn)練提供一個(gè)簡單高效的基線方法,同時(shí)也能為后續(xù)基于Transformer的視頻理解方法帶來啟發(fā)。

?https://github.com/open-mmlab/mmaction2/tree/dev-1.x/configs/recognition/videomae?

目前視頻理解倉庫MMAction2也支持了對VideoMAE模型的推理。

圖片圖片

在剛剛結(jié)束的 ECCV 2022 2nd International Ego4D Workshop上,VideoMAE已經(jīng)迅速成為了幫助大家打比賽的利器。上海人工智能實(shí)驗(yàn)室在本屆Ego4D Challenge中的多個(gè)子賽道取得了冠軍 。其中,VideoMAE作為重要的Backbone,為他們的解決方案提供了強(qiáng)大的視頻特征。值得注意的一點(diǎn)是,從上面第一張圖中可以發(fā)現(xiàn),僅僅在Kinetics-400上進(jìn)行預(yù)訓(xùn)練的VideoMAE(ViT-L)的效果已經(jīng)可以超越在IG-65M視頻數(shù)據(jù)集(約為Kinetics-400樣本數(shù)據(jù)的300倍)上預(yù)訓(xùn)練的ir-CSN-152。這也進(jìn)一步驗(yàn)證了VideoMAE預(yù)訓(xùn)練模型的強(qiáng)大表征能力。

總結(jié)

我們這個(gè)工作的主要貢獻(xiàn)包含以下三個(gè)方面:

? 我們第一個(gè)提出了基于ViT的掩碼和重建的視頻自監(jiān)督預(yù)訓(xùn)練框架VideoMAE。即使在較小規(guī)模的視頻數(shù)據(jù)集上進(jìn)行自監(jiān)督預(yù)訓(xùn)練,VideoMAE仍能取得非常優(yōu)異的表現(xiàn)。為 了解決由時(shí)序冗余性 (temporal redundancy) 和時(shí)序相關(guān)性(temporal correlation) 導(dǎo)致的「信息泄漏」問題,我們提出了帶有極高掩碼率的管道式掩碼(tube masking with an extremely high ratio)。實(shí)驗(yàn)表明,這種設(shè)計(jì)是VideoMAE 最終能夠取得SOTA效果的關(guān)鍵。同時(shí),由于VideoMAE的非對稱編碼器-解碼器架構(gòu),大大降低了預(yù)訓(xùn)練過程的計(jì)算消耗,極大得節(jié)省了預(yù)訓(xùn)練過程的時(shí)間。

? VideoMAE 將NLP和圖像領(lǐng)域中的經(jīng)驗(yàn)成功在視頻理解領(lǐng)域進(jìn)行了自然但有價(jià)值的推廣,驗(yàn)證了簡單的基于掩碼和重建的代理任務(wù)可以為視頻自監(jiān)督預(yù)訓(xùn)練提供一種簡單但又非常有效的解決方案。使用 VideoMAE 進(jìn)行自監(jiān)督預(yù)訓(xùn)練后的 ViT 模型,在視頻理解領(lǐng)域的下游任務(wù)(如動(dòng)作識別,動(dòng)作檢測)上的性能明顯優(yōu)于從頭訓(xùn)練(train from scratch)或?qū)Ρ葘W(xué)習(xí)方法(contrastive learning) 。

? 實(shí)驗(yàn)過程中還有兩處有意思的發(fā)現(xiàn),可能被之前NLP和圖像理解中的研究工作忽視了: (1) VideoMAE是一種數(shù)據(jù)高效的學(xué)習(xí)器。即使在只有 3 千個(gè)左右的視頻數(shù)據(jù)集HMDB51上,VideoMAE也能夠完成自監(jiān)督預(yù)訓(xùn)練,并且在下游分類任務(wù)上可以取得遠(yuǎn)超過其他方法的結(jié)果。(2) 對于視頻自監(jiān)督預(yù)訓(xùn)練,當(dāng)預(yù)訓(xùn)練數(shù)據(jù)集與下游任務(wù)數(shù)據(jù)集之間存在明顯領(lǐng)域差異(domain gap)的時(shí)候,視頻數(shù)據(jù)的質(zhì)量可能比數(shù)量更加重要。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2022-01-06 09:57:02

數(shù)據(jù)計(jì)算機(jī)神經(jīng)網(wǎng)絡(luò)

2023-03-28 16:01:01

PytorchSimCLR算法

2023-09-06 09:59:12

雷達(dá)技術(shù)

2024-12-03 09:49:07

2020-07-29 12:16:12

預(yù)訓(xùn)練自訓(xùn)練神經(jīng)網(wǎng)絡(luò)

2023-10-25 09:50:07

自動(dòng)駕駛訓(xùn)練

2020-01-20 14:25:19

數(shù)據(jù)平臺架構(gòu)

2022-04-12 14:36:58

達(dá)摩院訓(xùn)練模型

2025-02-20 12:37:57

2024-04-28 08:00:41

2023-06-09 07:29:03

模型文本document

2025-03-17 09:12:00

訓(xùn)練模型AI

2024-07-30 09:14:13

模型數(shù)據(jù)

2025-03-03 09:22:00

2022-01-21 15:33:56

架構(gòu)模型AI

2021-05-12 15:22:07

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2024-01-29 00:24:07

圖像模型預(yù)訓(xùn)練

2021-11-15 10:00:22

模型人工智能NLP

2025-03-07 10:02:10

2022-11-03 17:26:16

火山引擎
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號