單幀標(biāo)注視頻就能學(xué)到片段特征，達(dá)到全監(jiān)督性能！華科拿下時(shí)序行為檢測(cè)新SOTA

作者：量子位 2024-01-08 13:30:00

人工智能新聞

過去TAL中的建模是片段甚至實(shí)例級(jí)的，而現(xiàn)在只要視頻里的一幀就能實(shí)現(xiàn)，效果媲美全監(jiān)督。

如何從一段視頻中找出感興趣的片段？時(shí)序行為檢測(cè)（Temporal Action Localization，TAL）是一種常用方法。

利用視頻內(nèi)容進(jìn)行建模之后，就可以在整段視頻當(dāng)中自由搜索了。

而華中科技大學(xué)與密歇根大學(xué)的聯(lián)合團(tuán)隊(duì)最近又為這項(xiàng)技術(shù)帶來了新的進(jìn)展——

過去TAL中的建模是片段甚至實(shí)例級(jí)的，而現(xiàn)在只要視頻里的一幀就能實(shí)現(xiàn)，效果媲美全監(jiān)督。

來自華中科技大學(xué)的團(tuán)隊(duì)提出了一種名為HR-Pro的新框架，用于點(diǎn)標(biāo)注監(jiān)督的時(shí)序行為檢測(cè)。

通過多層級(jí)的reliability propagation，HR-Pro可以網(wǎng)絡(luò)學(xué)習(xí)到更具辨別力的片段級(jí)特征和更可靠的實(shí)例級(jí)邊界。

HR-Pro包括兩個(gè)可靠性感知的階段，能夠有效地從片段級(jí)別和實(shí)例級(jí)別的點(diǎn)標(biāo)注中傳播高置信度的線索，從而使網(wǎng)絡(luò)能夠?qū)W習(xí)到更具區(qū)分性的片段表示和更可靠的提議。

在多個(gè)基準(zhǔn)數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)證明，HR-Pro明顯優(yōu)于現(xiàn)有方法，并取得了最先進(jìn)的結(jié)果，證明了其方法的有效性和點(diǎn)標(biāo)注的潛力。

表現(xiàn)比肩全監(jiān)督方式

下圖展示了HR-Pro與LACP在THUMOS14測(cè)試視頻上進(jìn)行時(shí)序行為檢測(cè)表現(xiàn)比較。

HR-Pro展現(xiàn)出更了準(zhǔn)確的動(dòng)作實(shí)例檢測(cè)，具體來說：

對(duì)于“高爾夫揮桿”行為，HR-Pro有效地區(qū)分了行為和背景片段，減輕了LACP難以處理的False Positive預(yù)測(cè)；
對(duì)于鐵餅投擲行為，HR-Pro檢測(cè)到比LACP更完整的片段，后者在非區(qū)分性動(dòng)作片段上具有較低的激活值。

數(shù)據(jù)集上的測(cè)試結(jié)果，也印證了這一直觀感受。

將THUMOS14數(shù)據(jù)集上的檢測(cè)結(jié)果可視化后可以觀察到，在實(shí)例級(jí)別完整性學(xué)習(xí)之后，高質(zhì)量預(yù)測(cè)和低質(zhì)量預(yù)測(cè)之間的差異顯著增大。

（左側(cè)是實(shí)例級(jí)別完整性學(xué)習(xí)之前的結(jié)果，右側(cè)是學(xué)習(xí)之后的結(jié)果。橫軸和縱軸分別表示時(shí)間和可靠性分?jǐn)?shù)。）

整體來看，在常用4個(gè)數(shù)據(jù)集中，HR-Pro的性能均大幅超越最先進(jìn)的點(diǎn)監(jiān)督方法，在THUMOS14數(shù)據(jù)集上的平均mAP達(dá)到60.3%，相較之前的SoTA方法(53.7%)的提升為6.5%，并且能與一些全監(jiān)督方法達(dá)到相當(dāng)?shù)男Ч?/p>

在THUMOS14測(cè)試集上與下表中的先前最先進(jìn)方法相比，對(duì)于IoU閾值在0.1到0.7之間，HR-Pro的平均mAP為60.3%，比先前最先進(jìn)方法CRRC-Net高6.5%。

并且HR-Pro能夠與具有競(jìng)爭(zhēng)力的全監(jiān)督方法達(dá)到相當(dāng)?shù)谋憩F(xiàn)，例如AFSD（對(duì)于IoU閾值在0.3到0.7之間，平均mAP為51.1% vs. 52.0%）。

△HR-Pro與前SOTA方法在THUMOS14數(shù)據(jù)集上的對(duì)比

在各種基準(zhǔn)數(shù)據(jù)集上的通用性和優(yōu)越性方面，HR-Pro也明顯優(yōu)于現(xiàn)有方法，在GTEA、BEOID和ActivityNet 1.3上分別取得了3.8%、7.6%和2.0%的提高。

△HR-Pro與前SOTA方法在GTEA等數(shù)據(jù)集上的對(duì)比

那么，HR-Pro具體是如何實(shí)現(xiàn)的呢？

學(xué)習(xí)分兩階段進(jìn)行

研究團(tuán)隊(duì)提出了多層級(jí)可靠傳播方法，在片段級(jí)引入可靠片段記憶模塊并利用交叉注意力的方法向其他片段傳播，在實(shí)例級(jí)提出基于點(diǎn)監(jiān)督的提議生成來關(guān)聯(lián)片段和實(shí)例，用于產(chǎn)生不同可靠度的proposals，進(jìn)一步在實(shí)例級(jí)優(yōu)化proposals的置信度和邊界。

HR-Pro的模型結(jié)構(gòu)如下圖所示：時(shí)序行為檢測(cè)被劃分為兩階段的學(xué)習(xí)過程，即片段級(jí)別的判別性學(xué)習(xí)和實(shí)例級(jí)別的完整性學(xué)習(xí)。

階段一：片段級(jí)判別學(xué)習(xí)

研究團(tuán)隊(duì)引入可靠性感知的片段級(jí)判別學(xué)習(xí)，提出為每個(gè)類別存儲(chǔ)可靠原型，并通過視頻內(nèi)和視頻間的方式將這些原型中的高置信度線索傳播到其他片段。

片段級(jí)可靠原型構(gòu)建

為了構(gòu)建片段級(jí)別的可靠原型，團(tuán)隊(duì)創(chuàng)建了一個(gè)在線更新的原型memory，用于存儲(chǔ)各類行為的可靠原型mc（其中 c = 1, 2, …, C），以便能夠利用整個(gè)數(shù)據(jù)集的特征信息。

研究團(tuán)隊(duì)選擇了具有點(diǎn)標(biāo)注的片段特征初始化原型：

接下來，研究人員使用偽標(biāo)記的行為片段特征來更新每個(gè)類別的原型，具體表述如下：

片段級(jí)可靠性感知優(yōu)化

為了將片段級(jí)可靠原型的特征信息傳遞到其他片段，研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)Reliabilty-aware Attention Block（RAB），通過交叉注意力的方式實(shí)現(xiàn)了將原型中的可靠信息注入到其他的片段中，從而增強(qiáng)片段特征的魯棒性，并增加對(duì)較不具有判別力片段的關(guān)注。