自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

基于RGB視頻數(shù)據(jù)的深度行為分類模型發(fā)展綜述之一

安全 應(yīng)用安全
理解視頻中的人體行為在視頻監(jiān)控、自動(dòng)駕駛以及安全保障等領(lǐng)域有著廣泛的應(yīng)用前景。

 摘要:

理解視頻中的人體行為在視頻監(jiān)控、自動(dòng)駕駛以及安全保障等領(lǐng)域有著廣泛的應(yīng)用前景。目前視頻中的人體行為分類研究是對(duì)分割好的視頻片段進(jìn)行單人的行為分類。對(duì)視頻中的人體行為分類研究已經(jīng)從最初的幾種簡(jiǎn)單人體動(dòng)作到幾乎包含所有日常生活的幾百類行為。近些年來基于RGB視頻數(shù)據(jù)的先進(jìn)深度行為分類模型可以分為三類:基于雙流架構(gòu)的、基于循環(huán)神經(jīng)網(wǎng)絡(luò)RNN的和基于3D卷積神經(jīng)網(wǎng)絡(luò)的。本文將詳細(xì)介紹前兩種深度行為分類模型。

一、視頻行為分類

當(dāng)前人體行為識(shí)別的研究主要分為兩個(gè)子任務(wù):行為分類和時(shí)序行為檢測(cè)。行為分類一般是對(duì)分割好的視頻片段進(jìn)行行為分類,每一個(gè)視頻片段僅包含一個(gè)行為實(shí)例。然而,現(xiàn)實(shí)生活中大部分視頻都是未分割的長(zhǎng)視頻,因此時(shí)序行為檢測(cè)任務(wù)從未分割的長(zhǎng)視頻中檢測(cè)出行為的開始、結(jié)束時(shí)間以及行為類別,一段長(zhǎng)視頻中一般包含一個(gè)或多個(gè)行為實(shí)例。行為分類是時(shí)序行為檢測(cè)的基礎(chǔ),時(shí)序行為檢測(cè)是比行為分類更復(fù)雜的研究任務(wù),行為分類的經(jīng)典模型(如TSN,C3D,I3D等)也被廣泛用于時(shí)序行為檢測(cè)任務(wù)當(dāng)中。現(xiàn)在視頻中人體行為識(shí)別的研究工作大部分都致力于提高行為分類模型的性能,并且研究最廣泛的是對(duì)單人行為的識(shí)別。

二、評(píng)估數(shù)據(jù)集

對(duì)于數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)方法來說,龐大的視頻數(shù)據(jù)量顯然能夠提升模型的性能。本文選用了最新且規(guī)模更大視頻數(shù)據(jù)集kinetics,來分別比較最新的基于RGB視頻輸入數(shù)據(jù)的行為分類模型的性能,同時(shí)也使用典型的視頻數(shù)據(jù)集UCF101, 幫助分析和比較經(jīng)典的深度行為分類模型。UCF 101和Kinetics數(shù)據(jù)集的評(píng)估度量標(biāo)準(zhǔn)都是是平均精度均值(mAP)。在對(duì)視頻中的行為進(jìn)行分類時(shí),每一個(gè)視頻片段都會(huì)預(yù)測(cè)一個(gè)行為標(biāo)簽。假設(shè)有C個(gè)行為類別,每個(gè)視頻片段都對(duì)應(yīng)一個(gè)有C個(gè)元素的列表,每個(gè)元素代表著該視頻屬于行為c的概率,并將C個(gè)類別標(biāo)簽按照概率值從高到底排序。假設(shè)一共有n個(gè)視頻片段,并取一個(gè)視頻片段的預(yù)測(cè)得分列表中的前k個(gè)值,P(k)分別是類別標(biāo)簽排名在前k的預(yù)測(cè)概率值,rel(k)是指示函數(shù),表明第k個(gè)標(biāo)簽是否是真陽(yáng)性(true positive),如果是則為1,否則為0。因此,某個(gè)行為類別的平均精度(AP)的計(jì)算方式是

 

平均精度均值(mAP)是所有類別的平均精度求和后再取均值。

 

 

UCF 101數(shù)據(jù)集一般只取預(yù)測(cè)概率最高的標(biāo)簽作為預(yù)測(cè)標(biāo)簽(k=1,top-1)。而Kinetics數(shù)據(jù)集中,細(xì)粒度的行為類別劃分導(dǎo)致一個(gè)視頻片段可能包含多種動(dòng)作。例如,開車”時(shí)“發(fā)短信”,“彈奏尤克里里”時(shí)“跳草裙舞”,“跳舞”時(shí)“刷牙”等等。所以在Kinetics數(shù)據(jù)集上進(jìn)行評(píng)估時(shí),通常選擇得分最高的前5個(gè)標(biāo)簽作為預(yù)測(cè)的行為類別標(biāo)簽(k=5,top-5)。本文在比較模型的推理速度時(shí),選用了兩個(gè)評(píng)價(jià)指標(biāo)。一個(gè)是每秒幀率(FPS) ,即每秒模型可以處理的視頻幀的數(shù)量。另一個(gè)是每秒浮點(diǎn)運(yùn)算次數(shù)(GFLOPS)。本文中顯示的GFLOPs指標(biāo)均采用32幀的視頻片段作為模型的輸入數(shù)據(jù)。

 

 

三、深度行為分類模型

在視頻人體行為分類的研究中,關(guān)鍵且具有挑戰(zhàn)性的一個(gè)問題是如何從視頻的時(shí)序維度上獲得人體的運(yùn)動(dòng)信息?;赗GB視頻的深度學(xué)習(xí)方法根據(jù)時(shí)序建模方式的不同可以分為基于雙流架構(gòu)的,基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的和基于3D卷積神經(jīng)網(wǎng)絡(luò)的。早期將深度學(xué)習(xí)方法擴(kuò)展應(yīng)用于RGB視頻中的一個(gè)經(jīng)典嘗試是,擴(kuò)展2D卷積神經(jīng)網(wǎng)絡(luò)形成雙流架構(gòu),分別來獲得視頻幀的空間特征以及幀間的運(yùn)動(dòng)特征。隨后有研究將循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)與卷積神經(jīng)網(wǎng)絡(luò)(CNN)結(jié)合,試圖學(xué)習(xí)更全局的視頻時(shí)序信息??紤]到視頻本身是多了時(shí)間維度的3D體,3D網(wǎng)絡(luò)則直觀地使用3D卷積核來獲得視頻的空時(shí)特征。這些基于RGB視頻的行為分類方法主要關(guān)注兩點(diǎn):(1)如何在視頻中提取出更具有判別力的外觀特征;(2)如何獲得時(shí)序上視頻幀外觀的改變。在介紹這類深度學(xué)習(xí)的方法之前,不得不首先提一下經(jīng)典的手工提取特征的方法iDT(improved Dense Trajectories)[1],是深度學(xué)習(xí)應(yīng)用到視頻領(lǐng)域之前性能最好的方法,它通過光流追蹤圖像像素點(diǎn)在時(shí)間上的運(yùn)動(dòng)軌跡。該方法有個(gè)很大的缺點(diǎn)是獲得的特征維度甚至比原視頻還要高,計(jì)算速度非常慢。早期的深度學(xué)習(xí)的方法在和iDT結(jié)合之后都能取得一定的效果提升。發(fā)展到現(xiàn)在,深度學(xué)習(xí)方法在視頻行為分類上的性能已較iDT有大幅提升。1、雙流架構(gòu)2014年Karpathy [2]等人采用兩個(gè)獨(dú)立流分別獲取低分辨率幀和高分辨率的特征,在時(shí)間上采用慢融合的方式擴(kuò)展了所有卷積層在時(shí)間上的連通性,這是將CNN擴(kuò)展到視頻行為分類的運(yùn)用,但其性能與傳統(tǒng)方法iDT還有一定的差距。Simonyan首次提出基于光流的雙流(two-stream)架構(gòu),分別使用視頻幀和幀間的光流圖像作為CNN的輸入。該方法可以說是CNN擴(kuò)展到視頻行為分類的首次非常成功的嘗試,在UCF101上的精度達(dá)到了88%,優(yōu)于手工特征提取的方法iDT。結(jié)合光流輸入的雙流架構(gòu)的良好表現(xiàn)激發(fā)了后續(xù)對(duì)許多基于雙流架構(gòu)的改進(jìn)。雙流融合法(Two-stream Fusion) [3]在雙流架構(gòu)的基礎(chǔ)上,使用VGG-net深度模型作為骨干網(wǎng)絡(luò),并提出在最后一個(gè)卷積層后融合特征比在全連接層之后融合特征的效果要好。考慮到這兩種雙流方法無法對(duì)長(zhǎng)期時(shí)序結(jié)構(gòu)建模,時(shí)序上一次僅能處理連續(xù)10幀的堆疊光流場(chǎng),空域則僅處理單幀圖像。時(shí)序分割網(wǎng)絡(luò)(TSN) [4]則直接對(duì)整段視頻建模,在時(shí)序上將整個(gè)視頻分段(segment),最后融合不同片段的類別得分,來獲得長(zhǎng)期的時(shí)序特征,融合后的預(yù)測(cè)結(jié)果是視頻級(jí)的預(yù)測(cè),在UCF 101數(shù)據(jù)集上的精度達(dá)到了94.2%。TSN的模型如圖1所示。

 

 

 

圖 1 時(shí)序分割網(wǎng)絡(luò)(TSN)模型架構(gòu)

TSN在UCF 101數(shù)據(jù)集上的性能表現(xiàn)已經(jīng)非常優(yōu)越。Lan等人[5]提出深度局部特征(DVOF),在TSN模型的基礎(chǔ)上利用深度網(wǎng)絡(luò)提取局部特征,將聚合局部特征形成的全局特征輸入到淺層網(wǎng)絡(luò)進(jìn)行分類,來糾正局部特征學(xué)習(xí)到的錯(cuò)誤的行為標(biāo)簽信息。時(shí)序關(guān)系推理(TRN)[6]是2017年MIT周博磊大神基于TSN改進(jìn)的一個(gè)很具有啟發(fā)性的研究工作。TRN在時(shí)間維度上能夠提取不同尺度的視頻特征,然后使用多層感知機(jī)(MLP)融合不同時(shí)間尺度的幀間關(guān)系,用于學(xué)習(xí)和推理視頻幀之間的時(shí)間依賴關(guān)系。該方法在UCF101上的性能提高并不明顯,這是因?yàn)閁CF101中的視頻數(shù)據(jù)表示的動(dòng)作在空間上的上下文關(guān)聯(lián)更強(qiáng),但是論文在時(shí)序上下文相關(guān)性更強(qiáng)的Something-Something[]視頻數(shù)據(jù)集上驗(yàn)證了TRN發(fā)現(xiàn)視頻中時(shí)序關(guān)系的能力?;诠饬鞯碾p流架構(gòu)展現(xiàn)了優(yōu)越的性能,然而光流的計(jì)算需要消耗很大的計(jì)算資源。也有方法嘗試能夠代替光流表示運(yùn)動(dòng)信息的方法,Zhang等人[7]提出計(jì)算運(yùn)動(dòng)矢量(motion vector)來代替光流作為CNN的輸入,推理速度能達(dá)到每秒390.7幀,作者將光流CNN中學(xué)習(xí)的特征和知識(shí)遷移到運(yùn)動(dòng)矢量CNN中期望能彌補(bǔ)運(yùn)動(dòng)矢量在細(xì)粒度和噪聲上的不足,但是最終模型在精度上還有很大的犧牲。上述雙流方法在UCF101數(shù)據(jù)集上的性能如表1。

 

 

 

表 1 雙流架構(gòu)在UCF101數(shù)據(jù)集上的性能對(duì)比

2、RNN網(wǎng)絡(luò)CNN是典型的前饋神經(jīng)網(wǎng)絡(luò),上述基于CNN網(wǎng)絡(luò)的模型一次僅能處理有限的視頻幀,如典型的TSN處理一次處理10個(gè)視頻幀并通過時(shí)序聚合方式獲得更長(zhǎng)期的視頻級(jí)的預(yù)測(cè),C3D則一次處理16幀,I3D則是一次處理64幀圖片。然而在實(shí)際生活中,很多常見的人類行為比如握手,飲酒,打電話,或步行、游泳等重復(fù)動(dòng)作的行為通常持續(xù)數(shù)十秒跨越數(shù)百個(gè)視頻幀。循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的循環(huán)結(jié)構(gòu),能夠?qū)⑾惹暗男畔⑦B接到當(dāng)前任務(wù),允許信息長(zhǎng)期存在,因此可以很好地對(duì)序列結(jié)構(gòu)建模。然而早期的 RNN網(wǎng)絡(luò)不能對(duì)長(zhǎng)期的依賴關(guān)系進(jìn)行建模,也不能在很長(zhǎng)一段時(shí)間內(nèi)存儲(chǔ)關(guān)于過去輸入的信息。理論上講一個(gè)足夠大的RNN應(yīng)該能夠建模任意復(fù)雜度的序列,然而在訓(xùn)練RNN時(shí)會(huì)出現(xiàn)梯度消失和梯度爆炸問題。RNN網(wǎng)絡(luò)的變體,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)則解決了這個(gè)問題。LRCN[8]將LSTM用于在時(shí)間序列上對(duì)2D卷積網(wǎng)絡(luò)提取的幀特征建模,發(fā)現(xiàn)這樣的網(wǎng)絡(luò)結(jié)構(gòu)顯著提高了那些動(dòng)作持續(xù)時(shí)間長(zhǎng)和動(dòng)作的靜態(tài)外觀易混淆的行為分類精度。Ng[9]等人比較了特征池化和LSTM兩種時(shí)序聚合方式,將CNN輸出的幀級(jí)特征聚合成視頻級(jí),說明在整合視頻序列中長(zhǎng)期的信息可以實(shí)現(xiàn)更好的視頻分類,論文中也通過雙流架構(gòu)分別使用RGB和光流圖像作為輸入。Sharma 等人[10]開創(chuàng)性地在基于LSTM的網(wǎng)絡(luò)中引入了注意力機(jī)制,提出了soft-attention LSTM,該模型讓網(wǎng)絡(luò)能夠關(guān)注視頻幀中與行為類別相關(guān)的區(qū)域。VideoLSTM[11]則是在soft-attention LSTM的基礎(chǔ)上堆疊了一個(gè)RNN用于運(yùn)動(dòng)建模并且裝配了增強(qiáng)版的注意力模型,然而復(fù)雜的模型結(jié)構(gòu)并沒有明顯地提高性能。上述模型都是采用了CNN+LSTM的形式,使用CNN提取視頻幀特征,并用LSTM直接聚合多個(gè)視頻幀來獲得視頻時(shí)序上的依賴關(guān)系。然而,通過這樣的方式學(xué)習(xí)到的運(yùn)動(dòng)隱含地假設(shè)了視頻中的運(yùn)動(dòng)在不同的空間位置上是靜止的。Sun[12]等人提出了Lattice LSTM(L2STM),通過學(xué)習(xí)記憶單元在不同空間位置的獨(dú)立隱藏狀態(tài)轉(zhuǎn)換來擴(kuò)展LSTM,有效地增強(qiáng)了時(shí)間上動(dòng)態(tài)建模能力。上述基于RNN網(wǎng)絡(luò)的視頻中人體行為分類方法在UCF 101數(shù)據(jù)集上的精度如表2所示。

 

 

 

表 2 在UCF101數(shù)據(jù)集上比較RNN行為分類模型

責(zé)任編輯:武曉燕 來源: 51CTO專欄
相關(guān)推薦

2020-02-07 17:48:53

RGB視頻數(shù)據(jù)分類模型

2024-12-30 13:40:00

2022-10-26 15:41:38

深度學(xué)習(xí)Deepfake機(jī)器學(xué)習(xí)

2024-03-22 15:08:47

CLIP機(jī)器學(xué)習(xí)人工智能

2023-12-25 15:15:17

模型訓(xùn)練

2018-03-08 16:04:19

2022-08-19 09:00:00

人工智能GANs生成模型

2021-07-01 15:56:42

深度學(xué)習(xí)人工智能互聯(lián)網(wǎng)

2022-10-25 08:00:00

Huggingfac開源庫(kù)數(shù)據(jù)倉(cāng)庫(kù)

2024-04-18 10:39:57

2020-05-07 20:52:01

入侵檢測(cè)響應(yīng)模型

2017-08-07 10:08:29

深度學(xué)習(xí)分類體系信息檢索

2024-07-01 10:19:22

2009-09-04 13:02:17

IT職業(yè)規(guī)劃孔文達(dá)

2010-06-24 17:03:45

BitTorrent協(xié)

2022-02-11 14:39:11

游戲JS鴻蒙

2023-09-26 22:13:09

深度學(xué)習(xí)

2022-10-11 16:34:28

深度學(xué)習(xí)模型

2024-05-17 13:17:39

2024-06-19 16:11:22

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)