單幀標(biāo)注視頻就能學(xué)到片段特征,達(dá)到全監(jiān)督性能!華科拿下時(shí)序行為檢測(cè)新SOTA
如何從一段視頻中找出感興趣的片段?時(shí)序行為檢測(cè)(Temporal Action Localization,TAL)是一種常用方法。
利用視頻內(nèi)容進(jìn)行建模之后,就可以在整段視頻當(dāng)中自由搜索了。
而華中科技大學(xué)與密歇根大學(xué)的聯(lián)合團(tuán)隊(duì)最近又為這項(xiàng)技術(shù)帶來了新的進(jìn)展——
過去TAL中的建模是片段甚至實(shí)例級(jí)的,而現(xiàn)在只要視頻里的一幀就能實(shí)現(xiàn),效果媲美全監(jiān)督。
來自華中科技大學(xué)的團(tuán)隊(duì)提出了一種名為HR-Pro的新框架,用于點(diǎn)標(biāo)注監(jiān)督的時(shí)序行為檢測(cè)。
通過多層級(jí)的reliability propagation,HR-Pro可以網(wǎng)絡(luò)學(xué)習(xí)到更具辨別力的片段級(jí)特征和更可靠的實(shí)例級(jí)邊界。
HR-Pro包括兩個(gè)可靠性感知的階段,能夠有效地從片段級(jí)別和實(shí)例級(jí)別的點(diǎn)標(biāo)注中傳播高置信度的線索,從而使網(wǎng)絡(luò)能夠?qū)W習(xí)到更具區(qū)分性的片段表示和更可靠的提議。
在多個(gè)基準(zhǔn)數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)證明,HR-Pro明顯優(yōu)于現(xiàn)有方法,并取得了最先進(jìn)的結(jié)果,證明了其方法的有效性和點(diǎn)標(biāo)注的潛力。
表現(xiàn)比肩全監(jiān)督方式
下圖展示了HR-Pro與LACP在THUMOS14測(cè)試視頻上進(jìn)行時(shí)序行為檢測(cè)表現(xiàn)比較。
HR-Pro展現(xiàn)出更了準(zhǔn)確的動(dòng)作實(shí)例檢測(cè),具體來說:
- 對(duì)于“高爾夫揮桿”行為,HR-Pro有效地區(qū)分了行為和背景片段,減輕了LACP難以處理的False Positive預(yù)測(cè);
- 對(duì)于鐵餅投擲行為,HR-Pro檢測(cè)到比LACP更完整的片段,后者在非區(qū)分性動(dòng)作片段上具有較低的激活值。
數(shù)據(jù)集上的測(cè)試結(jié)果,也印證了這一直觀感受。
將THUMOS14數(shù)據(jù)集上的檢測(cè)結(jié)果可視化后可以觀察到,在實(shí)例級(jí)別完整性學(xué)習(xí)之后,高質(zhì)量預(yù)測(cè)和低質(zhì)量預(yù)測(cè)之間的差異顯著增大。
(左側(cè)是實(shí)例級(jí)別完整性學(xué)習(xí)之前的結(jié)果,右側(cè)是學(xué)習(xí)之后的結(jié)果。橫軸和縱軸分別表示時(shí)間和可靠性分?jǐn)?shù)。)
整體來看,在常用4個(gè)數(shù)據(jù)集中,HR-Pro的性能均大幅超越最先進(jìn)的點(diǎn)監(jiān)督方法,在THUMOS14數(shù)據(jù)集上的平均mAP達(dá)到60.3%,相較之前的SoTA方法(53.7%)的提升為6.5%,并且能與一些全監(jiān)督方法達(dá)到相當(dāng)?shù)男Ч?/p>
在THUMOS14測(cè)試集上與下表中的先前最先進(jìn)方法相比,對(duì)于IoU閾值在0.1到0.7之間,HR-Pro的平均mAP為60.3%,比先前最先進(jìn)方法CRRC-Net高6.5%。
并且HR-Pro能夠與具有競(jìng)爭(zhēng)力的全監(jiān)督方法達(dá)到相當(dāng)?shù)谋憩F(xiàn),例如AFSD(對(duì)于IoU閾值在0.3到0.7之間,平均mAP為51.1% vs. 52.0%)。
△HR-Pro與前SOTA方法在THUMOS14數(shù)據(jù)集上的對(duì)比
在各種基準(zhǔn)數(shù)據(jù)集上的通用性和優(yōu)越性方面,HR-Pro也明顯優(yōu)于現(xiàn)有方法,在GTEA、BEOID和ActivityNet 1.3上分別取得了3.8%、7.6%和2.0%的提高。
△HR-Pro與前SOTA方法在GTEA等數(shù)據(jù)集上的對(duì)比
那么,HR-Pro具體是如何實(shí)現(xiàn)的呢?
學(xué)習(xí)分兩階段進(jìn)行
研究團(tuán)隊(duì)提出了多層級(jí)可靠傳播方法,在片段級(jí)引入可靠片段記憶模塊并利用交叉注意力的方法向其他片段傳播,在實(shí)例級(jí)提出基于點(diǎn)監(jiān)督的提議生成來關(guān)聯(lián)片段和實(shí)例,用于產(chǎn)生不同可靠度的proposals,進(jìn)一步在實(shí)例級(jí)優(yōu)化proposals的置信度和邊界。
HR-Pro的模型結(jié)構(gòu)如下圖所示:時(shí)序行為檢測(cè)被劃分為兩階段的學(xué)習(xí)過程,即片段級(jí)別的判別性學(xué)習(xí)和實(shí)例級(jí)別的完整性學(xué)習(xí)。
階段一:片段級(jí)判別學(xué)習(xí)
研究團(tuán)隊(duì)引入可靠性感知的片段級(jí)判別學(xué)習(xí),提出為每個(gè)類別存儲(chǔ)可靠原型,并通過視頻內(nèi)和視頻間的方式將這些原型中的高置信度線索傳播到其他片段。
片段級(jí)可靠原型構(gòu)建
為了構(gòu)建片段級(jí)別的可靠原型,團(tuán)隊(duì)創(chuàng)建了一個(gè)在線更新的原型memory,用于存儲(chǔ)各類行為的可靠原型mc(其中 c = 1, 2, …, C),以便能夠利用整個(gè)數(shù)據(jù)集的特征信息。
研究團(tuán)隊(duì)選擇了具有點(diǎn)標(biāo)注的片段特征初始化原型:
接下來,研究人員使用偽標(biāo)記的行為片段特征來更新每個(gè)類別的原型,具體表述如下:
片段級(jí)可靠性感知優(yōu)化
為了將片段級(jí)可靠原型的特征信息傳遞到其他片段,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)Reliabilty-aware Attention Block(RAB),通過交叉注意力的方式實(shí)現(xiàn)了將原型中的可靠信息注入到其他的片段中,從而增強(qiáng)片段特征的魯棒性,并增加對(duì)較不具有判別力片段的關(guān)注。
為了學(xué)習(xí)到更加具有判別里的片段特征,團(tuán)隊(duì)還構(gòu)建了可靠性感知的片段對(duì)比損失:
階段二:實(shí)例級(jí)完整性學(xué)習(xí)
為了充分探索實(shí)例級(jí)別行為的時(shí)序結(jié)構(gòu)并優(yōu)化提議的得分排名,團(tuán)隊(duì)引入了實(shí)例級(jí)別的動(dòng)作完整性學(xué)習(xí)。
這種方法旨在通過可靠的實(shí)例原型的指導(dǎo),通過實(shí)例級(jí)別的特征學(xué)習(xí)來精化提議的置信度得分和邊界。
實(shí)例級(jí)可靠原型構(gòu)建
為了在訓(xùn)練過程中利用點(diǎn)標(biāo)注的實(shí)例級(jí)別先驗(yàn)信息,團(tuán)隊(duì)提出了一種基于點(diǎn)標(biāo)注的提議生成方法用于生成不同Reliability的proposals。
根據(jù)其可靠性分?jǐn)?shù)和相對(duì)點(diǎn)標(biāo)注的時(shí)序位置,這些提議可以分為兩種類型:
- 可靠提議(Reliable Proposals, RP):對(duì)于每個(gè)類別中的每個(gè)點(diǎn),提議包含了這個(gè)點(diǎn),并具有最高的可靠性;
- 正樣本提議(Positive Proposals, PP):所有其余的候選提議。
為確保正樣本和負(fù)樣本數(shù)量平衡,研究團(tuán)隊(duì)將那些具有類別無關(guān)的注意力分?jǐn)?shù)低于預(yù)定義值的片段分組為負(fù)樣本提議(Negative Proposals, NP)。
實(shí)例級(jí)可靠性感知優(yōu)化
為了預(yù)測(cè)每個(gè)提議的完整性分?jǐn)?shù),研究團(tuán)隊(duì)將敏感邊界的提議特征輸入至得分預(yù)測(cè)頭φs:
然后用正/負(fù)樣本提議與可靠提議的IoU作為指導(dǎo),監(jiān)督提議的完整性分?jǐn)?shù)預(yù)測(cè):
為了獲得更準(zhǔn)確邊界的行為proposal,研究者將每個(gè)PP中的proposal的起始區(qū)域特征和結(jié)束區(qū)域特征輸入到回歸預(yù)測(cè)頭φr中,以預(yù)測(cè)proposal開始和結(jié)束時(shí)間的偏移量。
進(jìn)一步計(jì)算得到精細(xì)化的proposals,并希望精細(xì)化后的proposals與可靠proposal重合。
總之,HR-Pro只需很少的標(biāo)注就能很好的效果大幅度降低了獲取標(biāo)簽的成本,同時(shí)又擁有較強(qiáng)的泛化能力,為實(shí)際部署應(yīng)用提供了有利條件。
據(jù)此,作者預(yù)計(jì),HR-Pro將在行為分析、人機(jī)交互、駕駛分析等領(lǐng)域擁有廣闊的應(yīng)用前景。
論文地址:https://arxiv.org/abs/2308.12608