自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

基于RGB視頻數(shù)據(jù)的深度行為分類模型發(fā)展綜述之二

大數(shù)據(jù)
理解視頻中的人體行為在視頻監(jiān)控、自動(dòng)駕駛以及安全保障等領(lǐng)域有著廣泛的應(yīng)用前景

摘 要

理解視頻中的人體行為在視頻監(jiān)控、自動(dòng)駕駛以及安全保障等領(lǐng)域有著廣泛的應(yīng)用前景。目前視頻中的人體行為分類研究是對(duì)分割好的視頻片段進(jìn)行單人的行為分類。對(duì)視頻中的人體行為分類研究已經(jīng)從最初的幾種簡(jiǎn)單人體動(dòng)作到幾乎包含所有日常生活的幾百類行為。上篇官微文章詳細(xì)介紹了基于RGB視頻數(shù)據(jù)的兩種深度行為分類模型,本文將介紹第三種深度行為分類模型——基于3D卷積神經(jīng)網(wǎng)絡(luò)的,并對(duì)三種模型進(jìn)行分析和對(duì)比。

基于 3D卷積網(wǎng)絡(luò)深度行為分類模型

視頻特征學(xué)習(xí)的難點(diǎn)在于時(shí)序特征的學(xué)習(xí)。表現(xiàn)良好的雙流架構(gòu)在基于2D CNN挖掘空間信息的同時(shí),不斷探索時(shí)序上運(yùn)動(dòng)特征的表達(dá)方式。這里的運(yùn)動(dòng)特征指的是視頻幀外觀的改變。視頻本身就是一個(gè)3D體,用3D卷積的方式獲取視頻中的空時(shí)特征顯然是更直觀的,3D卷積網(wǎng)絡(luò)(3D ConvNets)比2D卷積網(wǎng)絡(luò)更適用于時(shí)空特征的學(xué)習(xí)。3D卷積與2D卷積的區(qū)別如圖1所示,圖中(a)(b)是2D卷積核分別應(yīng)用于單幀圖像和多幀圖像(或者是單通道圖像,多通道圖像),輸出2D特征圖,(c)是3D卷積核應(yīng)用于3D視頻體,輸出的3D特征圖保留了時(shí)間維度的信息。  

 圖 1 2D與3D卷積示意圖

Baccouche等人[1]和Ji等人[2]首先提出了3D卷積網(wǎng)絡(luò),使用3D卷積核同時(shí)處理空間和時(shí)間維度,然而該3D卷積模型淺層且參數(shù)量巨大,十分臃腫。Karpathy [3]等人在研究如何使用2D CNN來融合時(shí)間信息時(shí),發(fā)現(xiàn)在單個(gè)視頻幀上運(yùn)算的網(wǎng)絡(luò)與處理整個(gè)視頻空時(shí)體的網(wǎng)絡(luò)表現(xiàn)差異很小,因此認(rèn)為時(shí)間維度上的建模對(duì)于行為識(shí)別的精度并不重要。Facebook在2015年提出C3D[4],該模型實(shí)現(xiàn)了與2014年雙流法接近的視頻行為分類的精度。它使用3D卷積和3D池化以及全連接層構(gòu)成了11層的淺層網(wǎng)絡(luò)(如圖2),其最大的優(yōu)勢(shì)在于速度,然而C3D的模型大小卻達(dá)到321MB,甚至大于152層ResNet[5]的235MB模型。這樣的模型訓(xùn)練起來是困難的,且無法在像ImageNet這樣大規(guī)模圖片數(shù)據(jù)集上預(yù)訓(xùn)練,淺層的網(wǎng)絡(luò)也限制了模型的分類性能。2017年,F(xiàn)acebook實(shí)驗(yàn)室的Du Tran[6]等人又在殘差網(wǎng)絡(luò)框架下重新實(shí)現(xiàn)了C3D,使得推理速度快了兩倍的同時(shí)模型參數(shù)也少了兩倍。

 圖 2 C3D模型示意圖

為了進(jìn)一步提高3D CNN模型的泛化能力,P3D[7]將三維卷積核分解為二維空間卷積和一維時(shí)間卷積((2+1)D卷積)(如圖3)。

 圖 3 3D卷積分解成(2+1)D卷積

Pseudo-3D(P3D)[7]在殘差學(xué)習(xí)[5]的框架下,將2維的殘差單元中的卷積核全部擴(kuò)充成3維的卷積核,并將3*3*3的卷積核分解為一個(gè)1*3*3的二維空間卷積和3*1*1的一維時(shí)域卷積。P3D模型加深了模型深度的同時(shí),提高了視頻人體行為分類的精度,并且相比于原始的C3D降低了模型大小。I3D[8]是基于ImageNet預(yù)訓(xùn)練的Inception-V1骨干網(wǎng)絡(luò),將網(wǎng)絡(luò)中的2D卷積核和池化核都擴(kuò)展為3D的,同時(shí)結(jié)合雙流網(wǎng)絡(luò)處理連續(xù)多幀的 RGB圖像和光流圖像。使用大型視頻數(shù)據(jù)集Kinetics預(yù)訓(xùn)練后,I3D模型在更小的UCF 101數(shù)據(jù)集上展現(xiàn)了優(yōu)越的性能,成為了后續(xù)研究工作重點(diǎn)比較的模型。2018年Facebook和谷歌deepmina團(tuán)隊(duì)又分別在P3D和I3D的基礎(chǔ)上,進(jìn)一步探究3D空時(shí)卷積在行為識(shí)別中的作用,相繼提出了R(2+1)D [9] 和S3D [10]。兩個(gè)網(wǎng)絡(luò)都采用了將3D卷積核分解為2D卷積核加1D卷積核的形式(如圖3),證明了從長(zhǎng)期時(shí)序上學(xué)習(xí)視頻的時(shí)間動(dòng)態(tài)特征的必要性。R(2+1)D模型相比3D網(wǎng)絡(luò),在不增加模型參數(shù)量的情況下,具有更強(qiáng)的表達(dá)能力且更易優(yōu)化,尤其是在網(wǎng)絡(luò)層數(shù)加深時(shí)。S3D模型在準(zhǔn)確率、模型容量、還有計(jì)算效率上都實(shí)現(xiàn)了比原始的I3D更好的性能,在S3D模型基礎(chǔ)上S3D-G增加了上下文特征門控機(jī)制,進(jìn)一步提高了行為分類的精度。視頻的行為分類任務(wù)應(yīng)用2D可分離卷積大大提升了精度與計(jì)算能力,受此啟發(fā),facebook在2019年最新的一個(gè)研究工作CSN[11],考慮了卷積運(yùn)算中通道交互的因素,將一個(gè)3D卷積核分為的傳統(tǒng)卷積,用于通道交互;的深度卷積用于局部空時(shí)交互。CSN在顯著減少模型參數(shù)量的同時(shí)又提升了精度,其中的通道分離對(duì)模型有正則化的作用,避免了過度擬合。本文在UCF101數(shù)據(jù)集和kinetics數(shù)據(jù)集上對(duì)上述3D網(wǎng)絡(luò)模型的參數(shù)量,計(jì)算效率,以及分類精度做了對(duì)比。(如表1所示)。

表 1 在UCF101和kinetics數(shù)據(jù)集上比較3D卷積模型

 UCF 101數(shù)據(jù)集雖然是流行的視頻行為分類標(biāo)準(zhǔn),但研究者們都有的共識(shí)是其有限的視頻數(shù)據(jù)量無法支持從頭開始訓(xùn)練較深的CNN網(wǎng)絡(luò)。上述3D CNN研究工作都關(guān)注對(duì)3D卷積核的分解,主要?jiǎng)訖C(jī)之一是將3D卷積核分解為2D卷積核和1D卷積核之后,其中的2D卷積核可以使用圖像數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,對(duì)于已標(biāo)注視頻數(shù)據(jù)的需求也會(huì)大大減少。Kinetics大規(guī)模視頻數(shù)據(jù)集的出現(xiàn)給3D CNN的發(fā)展提供了新的前景。Hara等人[12]應(yīng)用Kinetics數(shù)據(jù)集訓(xùn)練了基于殘差網(wǎng)絡(luò)及其擴(kuò)展版本的不同深度的3D CNN網(wǎng)絡(luò),發(fā)現(xiàn)Kinetics的數(shù)據(jù)量已經(jīng)足夠支持訓(xùn)練152層的深度Resnet 3D網(wǎng)絡(luò),并且這樣訓(xùn)練出來的簡(jiǎn)單的3D CNN結(jié)構(gòu)的分類精度已經(jīng)可以和I3D相比。Wang等人[13]則是在I3D三維網(wǎng)絡(luò)的基礎(chǔ)上,使用ResNet-101骨干網(wǎng)絡(luò),通過加入非局部模塊來獲得視頻中更長(zhǎng)距離的空時(shí)依賴關(guān)系,這樣使得模型NL-I3D在僅輸入RGB視頻幀的情況下,行為分類的性能已經(jīng)十分優(yōu)越。

先進(jìn)方法的比較分析

基于雙流架構(gòu),RNN網(wǎng)絡(luò)以及3D網(wǎng)絡(luò)的深度行為分類模型示意圖如圖4所示。

a)Two-Stream b)LSTM c)3D ConvNet

 圖 4 基于RGB視頻數(shù)據(jù)的三種深度行為分類模型示意圖

為了進(jìn)一步提升模型的性能,研究者們?cè)诟鱾€(gè)方面不斷努力,包括使用多種輸入數(shù)據(jù)形式(RGB圖像,RGB差,光流圖像,扭曲光流,運(yùn)動(dòng)矢量等等),探究時(shí)序上的融合方法,將2D卷積核擴(kuò)展為3D卷積核,提取關(guān)鍵視頻幀,增加注意力機(jī)制等等。概括來講,對(duì)于這三種深度行為分類模型的研究,重點(diǎn)在于如何更有效地挖掘更具有判別力的空域外觀信息和更長(zhǎng)期的時(shí)序運(yùn)動(dòng)信息。三種深度行為分類模型在UCF 101和Kinetics數(shù)據(jù)集上的性能如表2所示。

表 2 深度行為分類模型在UCF 101和Kinetics數(shù)據(jù)集上的性能對(duì)比 

 在表2數(shù)據(jù)中,基于RNN的行為分類模型的推理速度沒有具體體現(xiàn),但是從模型復(fù)雜度來看,其推理速度與雙流法和3D網(wǎng)絡(luò)相比沒有任何優(yōu)勢(shì),同時(shí)分類精度也有一定差距。這是因?yàn)榛赗NN網(wǎng)絡(luò)的分類模型雖然能進(jìn)行更長(zhǎng)期的時(shí)序建模,但其聚合空間信息以及表示時(shí)序上運(yùn)動(dòng)的能力都很有限。在2017年之前,雙流架構(gòu)良好的性能表現(xiàn)使得研究者們對(duì)雙流架構(gòu)的關(guān)注度非常高,相比之下3D網(wǎng)絡(luò)的發(fā)展則十分緩慢。但是2017年之后,3D網(wǎng)絡(luò)的關(guān)注度明顯提高,原因可以歸結(jié)于三點(diǎn):(1)可以利用現(xiàn)有的數(shù)據(jù)訓(xùn)練深度3D網(wǎng)絡(luò)。P3D,I3D等2D CNN擴(kuò)展的3D網(wǎng)絡(luò)可以使用大規(guī)模的圖片數(shù)據(jù)集Imagenet進(jìn)行預(yù)訓(xùn)練,并且大型視頻數(shù)據(jù)集kinetics的提出使直接訓(xùn)練更深的3D網(wǎng)絡(luò)成為可能。(2)光流無法很好地建模時(shí)序上的動(dòng)態(tài)變化,并且計(jì)算量很大。2017年Facebook實(shí)驗(yàn)室探究了光流在行為分類中的作用,發(fā)現(xiàn)光流實(shí)際上無法提供與外觀互補(bǔ)的運(yùn)動(dòng)信息,它能有效提高行為分類的精度是因?yàn)楣饬鲗?duì)圖像外觀的不變性。(3)視頻本身是空時(shí)體,用3D網(wǎng)絡(luò)進(jìn)行空時(shí)建模更為直觀。

 應(yīng)用于視頻中行為分類的深度模型追隨著圖像任務(wù)上深度學(xué)習(xí)模型的發(fā)展步伐,從最初的11層的淺層3D網(wǎng)絡(luò)C3D到在ResNet深度殘差框架下擴(kuò)展的3D網(wǎng)絡(luò)Res-C3D,以及在ResNet-152層上實(shí)現(xiàn)的199層的P3D和152層的CSN,研究模型的深度越來越深,這極大地歸功于可訓(xùn)練公開視頻數(shù)據(jù)量的增加。在對(duì)3D空時(shí)建模不斷地探索中,研究者們都試圖在進(jìn)一步提高行為分類精度的同時(shí)減少模型的參數(shù)和加快運(yùn)算速度。這些研究都證明了3D空時(shí)卷積應(yīng)用于視頻上比2D卷積更具優(yōu)勢(shì)。因?yàn)橐曨l本身是空時(shí)三維體,時(shí)間維度的信息對(duì)理解視頻來說是必不可少的。

到目前為止,基于RGB視頻數(shù)據(jù)的深度行為分類模型的研究取得了不錯(cuò)的分類效果,在目前最大規(guī)模的視頻數(shù)據(jù)集Kinetics上分類精度達(dá)到了93.8%。然而,上述深度行為分類模型的研究都是基于對(duì)分割好的視頻片段進(jìn)行單人行為的分類。我們必須清醒的認(rèn)識(shí)到,在真實(shí)的場(chǎng)景中,理解視頻中的人體行為仍具有很大的挑戰(zhàn)。

1、真實(shí)的視頻場(chǎng)景中復(fù)雜的背景,光照變化、人體外貌變化、攝像機(jī)視角以及運(yùn)動(dòng)速度等不確定因素,都會(huì)影響深度行為分類模型的性能。

2、真實(shí)視頻流中包含了大量長(zhǎng)時(shí)間的非動(dòng)作冗余視頻段。在對(duì)人體行為分類的基礎(chǔ)上,進(jìn)一步提取明確人體行為的時(shí)間邊界,則是視頻時(shí)序行為檢測(cè)任務(wù)。該任務(wù)也有研究者不斷在當(dāng)前深度行為分類模型的基礎(chǔ)上嘗試解決,但效果和速度都低于當(dāng)前的應(yīng)用要求。

3、基于RGB視頻的深度行為分類模型能夠從視頻圖像幀中獲得細(xì)致的外觀紋理特征,但是很難在空間和時(shí)間上對(duì)不同的人體運(yùn)動(dòng)建模。因此很難適用于多人的場(chǎng)景中。 

 

責(zé)任編輯:武曉燕 來源: 51CTO專欄
相關(guān)推薦

2020-02-06 15:31:55

視頻數(shù)據(jù)分類模型發(fā)展

2024-12-30 13:40:00

2022-10-26 15:41:38

深度學(xué)習(xí)Deepfake機(jī)器學(xué)習(xí)

2020-02-27 16:23:19

網(wǎng)絡(luò)安全態(tài)勢(shì)

2024-03-22 15:08:47

CLIP機(jī)器學(xué)習(xí)人工智能

2022-02-11 14:02:09

游戲JS鴻蒙

2021-07-01 15:56:42

深度學(xué)習(xí)人工智能互聯(lián)網(wǎng)

2022-08-19 09:00:00

人工智能GANs生成模型

2019-04-01 14:36:07

物聯(lián)網(wǎng)平臺(tái)物聯(lián)網(wǎng)IOT

2023-02-01 23:00:42

大數(shù)據(jù)

2022-10-25 08:00:00

Huggingfac開源庫數(shù)據(jù)倉庫

2024-04-18 10:39:57

2020-05-07 20:52:01

入侵檢測(cè)響應(yīng)模型

2024-07-01 10:19:22

2010-06-24 17:03:45

BitTorrent協(xié)

2017-08-07 10:08:29

深度學(xué)習(xí)分類體系信息檢索

2018-04-17 14:20:45

物聯(lián)網(wǎng)發(fā)展趨勢(shì)互聯(lián)網(wǎng)

2023-09-26 22:13:09

深度學(xué)習(xí)

2023-12-25 15:15:17

模型訓(xùn)練

2022-10-11 16:34:28

深度學(xué)習(xí)模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)