自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

打架識別,基于循環(huán)神經(jīng)網(wǎng)絡(luò)RNN的視頻分類任務(wù)

人工智能
對于視頻分類任務(wù),不需要Decoder?網(wǎng)絡(luò),用多頭自注意力模型?搭建一個(gè) Encoder網(wǎng)絡(luò)即可。

哈嘍,大家好。

今天給大家分享AI項(xiàng)目——打架識別。

圖片

使用的技術(shù)跟我們上次分享的摔倒識別不同,摔倒識別使用的是基于骨骼點(diǎn)的時(shí)空卷積神經(jīng)網(wǎng)絡(luò),適用于人體骨骼行為,而這次分享的打架識別使用的是循環(huán)神經(jīng)網(wǎng)絡(luò)RNN,可以實(shí)現(xiàn)更通用的視頻分類任務(wù)。

當(dāng)然也可以用Vision Transformer,文中也有介紹。

代碼已經(jīng)打包好了,獲取方式見評論區(qū)。

1. 整體思路

視頻其實(shí)就是某種行為的連續(xù)序列,因此要使用序列模型處理,循環(huán)神經(jīng)網(wǎng)絡(luò)RNN就是序列模型。

RNN最初應(yīng)用在自然語言處理中,如:根據(jù)輸入詞,判斷下一次詞的概率

圖片

模型為了讀懂每個(gè)詞代表的含義,模型會把每個(gè)詞用n維向量表示,這個(gè)過程  其實(shí)就是word embedding。

按照這個(gè)思路,一段視頻其實(shí)就是一句話,視頻里每張畫面就是一個(gè)詞,同樣地,我們也可以用卷機(jī)神經(jīng)網(wǎng)絡(luò)將每張圖映射成n維向量。

所以,我們就可以訓(xùn)練一個(gè)RNN模型,將表示視頻的n維向量送入RNN模型,讓他輸出視頻類別的概率。

現(xiàn)在比較流行的RNN模型有LSTM、GRU,本文使用的是GRU。

2. 數(shù)據(jù)集

打架的開源數(shù)據(jù)集有很多,如:fight-detection-surv-dataset、A-Dataset-for-Automatic-Violence-Detection-in-Videos和UBI_FIGHTS等等。

我使用的是fight-detection-surv-dataset數(shù)據(jù)集,包括 150 個(gè)打架視頻和 150 個(gè)正常視頻。

數(shù)據(jù)集很小,訓(xùn)練的時(shí)候很容易過擬合,精度只有 70%。但思路和代碼都是可以復(fù)用的。

大家做的時(shí)候可以換成大的數(shù)據(jù)集,比如:ucf數(shù)據(jù),包含很多動作視頻

圖片

ucf50數(shù)據(jù)集

我用這個(gè)數(shù)據(jù)集訓(xùn)練過 GRU 和 Transformer模型,效果還可以。

3. 提取視頻特征

接下來,我們要做的就是提取視頻特征,將視頻中每張畫面映射成n維向量。

使用InceptionResNetV2網(wǎng)絡(luò),輸入一張圖片,輸出的是 1536 維向量。

def video_feat_extractor():
inception_resnetv2 = InceptionResNetV2(
include_top=False,
weights='imagenet',
pooling='avg',
input_shape=(IMAGE_SIZE, IMAGE_SIZE, 3))

inputs = tf.keras.Input(shape=(IMAGE_SIZE, IMAGE_SIZE, 3))
inputs_preprocessed = preprocess_input(inputs)
outputs = inception_resnetv2(inputs_preprocessed)

return tf.keras.Model(inputs, outputs, name='video_feat_extractor')

這樣,詞向量就已經(jīng)有了。然后再抽取每個(gè)視頻的前20幀,組成一個(gè)句子。

MAX_FRAMES = 20
video_feat_extractor_model = video_feat_extractor()

# 取前MAX_FRAMES幀
frames = frames[:MAX_FRAMES]
# 計(jì)算視頻特征
video_feat = video_feat_extractor_model(frames)
dataset_feats.append(video_feat)

dataset_feats是20 * 1536的向量。

這樣,我們就將一個(gè)視頻用向量形式表示出來了。

4. 循環(huán)神經(jīng)網(wǎng)絡(luò)

GRU是LSTM的一個(gè)變種

圖片

模型搭建也比較簡單。

model = keras.Sequential([
layers.InputLayer(input_shape=(MAX_FRAMES, FRAME_FEAT_LEN)),

layers.GRU(4, return_sequences=False),
layers.Dropout(0.1),
layers.Dense(class_num, activatinotallow='softmax')
])

GRU超參數(shù) 4 代表 4 個(gè) unit,即:模型輸出向量長度是 4,大家如果做其他分類任務(wù),可以嘗試調(diào)整該值。

圖片

編譯模型

model.compile(optimizer=optimizers.Adam(0.0001), 
loss='sparse_categorical_crossentropy',
metrics=['accuracy'])

這是個(gè)多分類任務(wù),因此損失函數(shù)使用sparse_categorical_crossentropy。

接著就可以訓(xùn)練模型了,模型在訓(xùn)練集和測試集精度如下:

圖片

5. vision transformer

同樣的,我們也可以用流行的Transformer來訓(xùn)練視頻分類模型

圖片

對于視頻分類任務(wù),不需要Decoder網(wǎng)絡(luò),用多頭自注意力模型搭建一個(gè) Encoder網(wǎng)絡(luò)即可。

關(guān)于vision transformer后續(xù)有機(jī)會的話我會專門分享一個(gè)項(xiàng)目,這次代碼以GRU為主。

責(zé)任編輯:武曉燕 來源: 渡碼
相關(guān)推薦

2022-04-22 12:36:11

RNN神經(jīng)網(wǎng)絡(luò))機(jī)器學(xué)習(xí)

2022-10-19 07:42:41

圖像識別神經(jīng)網(wǎng)絡(luò)

2022-06-16 10:29:33

神經(jīng)網(wǎng)絡(luò)圖像分類算法

2017-11-29 13:55:55

神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)RNN

2017-06-19 15:12:30

Uber神經(jīng)網(wǎng)絡(luò)事件預(yù)測

2020-12-19 11:05:57

循環(huán)神經(jīng)網(wǎng)絡(luò)PyTorch神經(jīng)網(wǎng)絡(luò)

2018-07-04 15:17:07

CNNNLP模型

2020-09-09 09:51:41

神經(jīng)網(wǎng)絡(luò)DA技術(shù)感知器

2022-10-11 23:35:28

神經(jīng)網(wǎng)絡(luò)VGGNetAlexNet

2018-07-29 06:46:07

神經(jīng)網(wǎng)絡(luò)RNN循環(huán)神經(jīng)網(wǎng)絡(luò)

2019-10-25 16:18:34

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2017-12-14 21:17:24

2018-12-20 11:38:37

神經(jīng)元神經(jīng)網(wǎng)絡(luò)語言

2021-06-21 10:43:25

Python神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)

2017-11-29 14:41:48

神經(jīng)網(wǎng)絡(luò)遞歸神經(jīng)網(wǎng)絡(luò)RNN

2017-08-28 21:31:37

TensorFlow深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

2017-04-26 09:30:53

卷積神經(jīng)網(wǎng)絡(luò)實(shí)戰(zhàn)

2022-12-14 08:25:10

2018-02-09 09:59:12

神經(jīng)網(wǎng)絡(luò)算法識別

2018-07-03 16:10:04

神經(jīng)網(wǎng)絡(luò)生物神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號