1、概述
現(xiàn)階段視頻分類算法,主要聚焦于視頻整體的內(nèi)容理解,給視頻整體打上標(biāo)簽,粒度較粗。較少的文章關(guān)注時(shí)序片段的細(xì)粒度理解,同時(shí)也從多模態(tài)角度分析視頻。本文將分享使用多模態(tài)網(wǎng)絡(luò)提高視頻理解精度的解決方案,并在youtube-8m 數(shù)據(jù)集中取得較大提升。
2、相關(guān)工作
在視頻分類人物中,NeXtVLAD[1]被證明是一種高效、快速的視頻分類方法。受ResNeXt方法的啟發(fā),作者成功地將高維的視頻特征向量分解為一組低維向量。該網(wǎng)絡(luò)顯著降低了之前 NetVLAD 網(wǎng)絡(luò)的參數(shù),但在特征聚合和大規(guī)模視頻分類方面仍然取得了顯著的性能。
RNN[2]已被證明在對序列數(shù)據(jù)進(jìn)行建模時(shí)表現(xiàn)出色。研究人員通常使用 RNN 對 CNN 網(wǎng)絡(luò)難以捕獲的視頻中的時(shí)間信息進(jìn)行建模。 GRU[3] 是 RNN 架構(gòu)的重要組成部分,可以避免梯度消失的問題。 Attention-GRU[4]指的是具有注意機(jī)制,有助于區(qū)分不同特征對當(dāng)前預(yù)測的影響。
為了結(jié)合視頻任務(wù)的空間特征和時(shí)間特征,后來又提出了雙流CNN [5]、3D-CNN [6]、以及slowfast[7]和ViViT[8]等。雖然這些模型在視頻理解任務(wù)上也取得良好的表現(xiàn),但還有提升的空間。比如,很多方法只針對單個(gè)模態(tài),或者只對整個(gè)視頻進(jìn)行處理,沒有輸出細(xì)粒度的標(biāo)簽。
3、技術(shù)方案
3.1 整體網(wǎng)絡(luò)結(jié)構(gòu)
本技術(shù)方案是旨在充分學(xué)習(xí)視頻多模態(tài)(文本、音頻、圖像)的語義特征,同時(shí)克服 youtube-8m數(shù)據(jù)集樣本極不均衡和半監(jiān)督的問題。
如Figure 1所示,整個(gè)網(wǎng)絡(luò)主要由前面混合多模態(tài)網(wǎng)絡(luò)(mix-Multmodal Network)和后面的圖卷積網(wǎng)絡(luò)(GCN[9])組成。mix-Multmodal Network 由三個(gè)差異化的多模態(tài)分類網(wǎng)絡(luò)構(gòu)成,具體差異化參數(shù)在Table1中。
Figure 1. 整體網(wǎng)絡(luò)結(jié)構(gòu)
Bert | NeXtVLAD | ||
Layers | Cluster Size | Reduction | |
Multimodal Net(1) | 12 | 136 | 16 |
Multimodal Net(3) | 12 | 112 | 16 |
Multimodal Net(3) | 6 | 112 | 8 |
Table 1. 三個(gè)差異化的 Multimodal Net 的參數(shù)
3.2 多模態(tài)網(wǎng)絡(luò)
如圖Figure 2所示,多模態(tài)網(wǎng)絡(luò)主要理解三個(gè)模態(tài)(文本、視頻、音頻),每個(gè)模態(tài)都包含三個(gè)過程:基礎(chǔ)語義理解、時(shí)序特征理解、模態(tài)融合。其中,視頻和音頻的語義理解模型分別使用的是EfficientNet[10]和VGGish,時(shí)序特征理解模型是NextVLAD。而文本的時(shí)序特征理解模型為Bert[11]。
多模態(tài)特征融合,我們采用的是SENet[12]。SENet網(wǎng)絡(luò)的前處理需要將各個(gè)模態(tài)的特征長度強(qiáng)行壓縮對齊,這樣會導(dǎo)致信息丟失。為了克服這個(gè)問題,我們采用了多Group的SENet的網(wǎng)絡(luò)結(jié)構(gòu)。實(shí)驗(yàn)表明,多個(gè)group的SENet網(wǎng)絡(luò)相較于單個(gè)SENet學(xué)習(xí)能力更強(qiáng)。
Figure 2. 多模態(tài)網(wǎng)絡(luò)結(jié)構(gòu)
3.3 圖卷積
由于Youtube-8M粗粒度標(biāo)簽全部標(biāo)注,細(xì)粒度標(biāo)簽只標(biāo)注了部分?jǐn)?shù)據(jù)。因此,引入 GCN來進(jìn)行半監(jiān)督分類任務(wù)。基本思想是通過在節(jié)點(diǎn)之間傳播信息來更新節(jié)點(diǎn)表示。對于多標(biāo)簽視頻分類任務(wù),標(biāo)簽依賴關(guān)系是一個(gè)重要信息。
在我們的任務(wù)中,每個(gè)標(biāo)簽將是圖(graph)的一個(gè)節(jié)點(diǎn)(node),兩個(gè)節(jié)點(diǎn)之間的線表示它們的關(guān)系[13][14]。所以我們可以訓(xùn)練一個(gè)矩陣來表示所有節(jié)點(diǎn)的關(guān)系。
以從我們的數(shù)據(jù)集中提取的一個(gè)簡化的標(biāo)簽相關(guān)圖 Figure 3為例,Label BMW --> Label Car,表示當(dāng) BMW 標(biāo)簽出現(xiàn)時(shí),Label Car 很可能發(fā)生,但反之則不一定。標(biāo)簽 Car 與所有其他標(biāo)簽具有高度相關(guān)性,沒有箭頭的標(biāo)簽表示這兩個(gè)標(biāo)簽彼此沒有關(guān)系。
Figure 3. 標(biāo)簽相關(guān)性示意圖
GCN網(wǎng)絡(luò)實(shí)現(xiàn)如Figure 4所示。GCN模塊由兩層堆疊的GCN(GCN(1) 和 GCN(2))組成,它們有助于學(xué)習(xí)標(biāo)簽相關(guān)圖,以將這些標(biāo)簽表示映射到一組相互依賴的分類器中。是輸入相關(guān)矩陣,由矩陣的值初始化。
和是將在網(wǎng)絡(luò)中訓(xùn)練的矩陣。是GCN學(xué)習(xí)到的分類器權(quán)重。
Figure 4. GCN網(wǎng)絡(luò)結(jié)構(gòu)
3.4 標(biāo)簽重加權(quán)
Youtube-8M 視頻分類任務(wù)是一個(gè)多標(biāo)簽分類任務(wù),然而,注釋數(shù)據(jù)僅選擇多標(biāo)簽中的一個(gè)進(jìn)行標(biāo)注為1,其余標(biāo)簽均為0。也就是說,某一個(gè)視頻片段除了可能是標(biāo)注的還可能是其他置為0的標(biāo)簽。這個(gè)問題也是個(gè)弱監(jiān)督問題。
針對此情況,我們提出了一種解決方法。在計(jì)算損失時(shí)給帶注釋的類賦予較大的權(quán)重,并為未注釋的類賦予較小的權(quán)重[15]。這種加權(quán)交叉熵方法將幫助模型更好地從不完整的數(shù)據(jù)集中學(xué)習(xí)。
3.5 特征增強(qiáng)
為了避免在訓(xùn)練模型時(shí)過擬合,我們添加了隨機(jī)生成的高斯噪聲并隨機(jī)注入到輸入特征向量的每個(gè)元素中。
如Figure 6 所示,噪聲將被添加到輸入特征向量中,掩碼向量隨機(jī)選擇 50% 的維度并將值設(shè)置為 1。這里的高斯噪聲是獨(dú)立的,但對于不同的輸入向量具有相同的分布。
Figure 6. 加高斯噪聲
同時(shí),為了避免多模態(tài)模型只學(xué)習(xí)某一個(gè)模態(tài)的特征,也就是在模態(tài)上過擬合。我們將模態(tài)特征也mask,保證輸入中至少有某一個(gè)模態(tài),如Figure 7所示。這樣就可以充分學(xué)習(xí)各個(gè)模態(tài)。
Figure 7. 模態(tài)Mask
4、實(shí)驗(yàn)
4.1 評價(jià)指標(biāo)
4.2 實(shí)驗(yàn)結(jié)果
4.2.1 多模態(tài)
為了驗(yàn)證多模態(tài)中每個(gè)模態(tài)的收益,我們做了消融實(shí)驗(yàn),結(jié)果如Table 2所示。單個(gè)模態(tài)作為特征時(shí),Video 的準(zhǔn)確率最高,Audio的準(zhǔn)確率最低,Text接近Video。雙模態(tài)時(shí),Video + Text 由明顯提升,再加上 Audio后,提升有限。
Modal | MAP@K | ||
Video | Audio | Text | |
√ |
|
| 69.2 |
| √ |
| 38.1 |
|
| √ | 65.8 |
√ | √ |
| 71.3 |
√ |
| √ | 73.9 |
| √ | √ | 70.5 |
√ | √ | √ | 74.6 |
Table 2. 多模態(tài)消融實(shí)驗(yàn)
4.2.2 圖卷積
同樣為驗(yàn)證GCN的收益,我們也做了對比實(shí)驗(yàn),其中閾值λ我們選擇了兩個(gè),分別是 0.2和0.4。如Table 3 所示,結(jié)果表明,原始模型(org)相比,GCN 生成的分類器有助于提高性能,特別時(shí)當(dāng)λ=0.4時(shí)。
Modal | MAP@K |
org | 74.0 |
+ GCN(λ=0.2) | 74.7 |
+ GCN(λ=0.4) | 74.9 |
Table 3. 圖卷積實(shí)驗(yàn)
4.2.3 差異化的多模態(tài)網(wǎng)絡(luò)
為了驗(yàn)證并聯(lián)的多模態(tài)網(wǎng)絡(luò)和差異化后的效果,我們設(shè)計(jì)五組實(shí)驗(yàn)。第一組模型是單獨(dú)的1個(gè)多模態(tài)網(wǎng)絡(luò),第二、三、四組是2個(gè)、3個(gè)、4個(gè)并聯(lián)的多模態(tài)網(wǎng)絡(luò),第五組是差異化的3個(gè)并聯(lián)的多模態(tài)網(wǎng)絡(luò)。
從結(jié)果來看,并聯(lián)網(wǎng)絡(luò)能提高精度,但是并聯(lián)4個(gè)以后進(jìn)度會下降,所以一味的增加并聯(lián)的網(wǎng)絡(luò)數(shù)并不能帶來收益。同時(shí),實(shí)驗(yàn)結(jié)果還表明,差異化的網(wǎng)絡(luò)結(jié)構(gòu)能更有效的擬合數(shù)據(jù)。
Modal | MAP@K |
One Multmodal Net | 78.2 |
Two Multmodal Net | 78.6 |
Three Multmodal Net | 78.9 |
Four Multmodal Net | 78.7 |
Three diff Multmodal Net | 79.2 |
Table 4. 差異化多模態(tài)網(wǎng)絡(luò)實(shí)驗(yàn)
4.2.4 標(biāo)簽重加權(quán)
標(biāo)簽重加權(quán)由兩個(gè)超參(n和m),通過實(shí)驗(yàn)表明,當(dāng)n=0.1 和m=2.5時(shí)準(zhǔn)確率提高較高。
Modal | MAP@K |
org | 77.8 |
+ ReWeight(n=0.1, m=2.0) | 78.2 |
+ ReWeight (n=0.1, m=2.5) | 78.3 |
+ ReWeight (n=0.1, m=3.0) | 78.1 |
Table 5. 標(biāo)簽重加權(quán)實(shí)驗(yàn)
4.2.5 特征增強(qiáng)
特征增強(qiáng)屬于數(shù)據(jù)增強(qiáng)的一種。實(shí)驗(yàn)表明,通過加入高斯噪聲,和mask掉某些模態(tài),都能提高模型的泛化能力。且此種加入高斯噪聲方式,實(shí)現(xiàn)簡單,遷移性強(qiáng),易于再其他網(wǎng)絡(luò)中實(shí)現(xiàn)。
Modal | MAP@K |
org | 81.2 |
+ Gaussian noises | 81.7 |
+ Gaussian noises + mask Modal | 82.1 |
Table 6. 特征增強(qiáng)實(shí)驗(yàn)
5、總結(jié)
實(shí)驗(yàn)表明,上述幾種方法均有不同程度的提高,尤其以多模態(tài)和圖卷積提升比較明顯。
我們希望在未來探索更多的標(biāo)簽依賴關(guān)系。 GCN 網(wǎng)絡(luò)也被證明在這項(xiàng)任務(wù)中很有用,我們認(rèn)為值得我們做更多的實(shí)驗(yàn),將 GCN 網(wǎng)絡(luò)與其他最先進(jìn)的視頻分類網(wǎng)絡(luò)結(jié)合起來。
引用
[1]. Rongcheng Lin, Jing Xiao, Jianping Fan: NeXtVLAD: An Efficient Neural Network to Aggregate Frame-level Features for Large-scale Video Classification.In: ECCV, workshop(2018)
[2]. Jeffrey L Elman. Finding structure in time. Cognitive science,14(2):179–211, 1990
[3]. Kyunghyun Cho, Bart Van Merrienboer, ¨ Caglar Gulcehre, Dzmitry Bahdanau, Fethi Bougares, Holger Schwenk, and Yoshua Bengio. Learning phrase representations using rnn encoder-decoder for statistical machine translation.arXiv, 2014.
[4]. Jan K Chorowski, Dzmitry Bahdanau, Dmitriy Serdyuk, Kyunghyun Cho,and Yoshua Bengio. Attention-based models for speech recognition. In NIPS,pages 577–585, 2015.
[5]. Karen Simonyan, Andrew Zisserman, Two-Stream Convolutional Networks for Action Recognition in Videos. In: NIPS (2014)
[6]. Du Tran, Lubomir Bourdev, Rob Fergus, Lorenzo Torresani, Manohar Paluri Learning Spatiotemporal Features With 3D Convolutional Networks. In:ICCV(2015)
[7]. ??Christoph Feichtenhofer??, ??Haoqi Fan??, ??Jitendra Malik??, ??Kaiming He??,SlowFast Networks for Video Recognition. In: CVPR (2019)?
[8]. Anurag Arnab, Mostafa Dehghani, Georg Heigold, Chen Sun, Mario Lu?i?,Cordelia Schmid, ViViT: A Video Vision Transformer. In: CVPR (2021)
[9]. Zhao-Min Chen, Xiu-Shen Wei, Peng Wang, Yanwen Guo: Multi-Label Image Recognition with Graph Convolutional Networks. In: CVPR (2019)
[10]. Mingxing Tan, Quoc V. Le, EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks, PMLR 97:6105-6114, 2019
[11]. Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova,BERT: Pre-training of deep bidirectional transformers for language understanding. In North American Association for Computational Linguistics (NAACL), 2019
[12]. Jie Hu, Li Shen, Gang Sun, Squeeze-and-Excitation Networks. In: CVPR (2018)?
[13]. Zhang Z,Sabuncu M. Generalized cross entropy loss for training deep neural networks with noisy labels[C]//Advances in neural information processing systems. 2018:
8778-8788.
[14]. Pereira R B, Plastino A, Zadrozny B, et al. Correlation analysis of performance measures for multi-label classification [J]. Information Processing & Management, 2018,
54(3): 359-369.
[15]. Panchapagesan S, Sun M, Khare A, et al.Multi-Task Learning and Weighted Cross-Entropy for DNN-Based Keyword Spotting[C]. 2016: 760-764.