自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

單幀標(biāo)注視頻就能學(xué)到片段特征,達(dá)到全監(jiān)督性能!華科拿下時(shí)序行為檢測(cè)新SOTA

人工智能 新聞
過去TAL中的建模是片段甚至實(shí)例級(jí)的,而現(xiàn)在只要視頻里的一幀就能實(shí)現(xiàn),效果媲美全監(jiān)督。

如何從一段視頻中找出感興趣的片段?時(shí)序行為檢測(cè)(Temporal Action Localization,TAL)是一種常用方法。

利用視頻內(nèi)容進(jìn)行建模之后,就可以在整段視頻當(dāng)中自由搜索了。

而華中科技大學(xué)與密歇根大學(xué)的聯(lián)合團(tuán)隊(duì)最近又為這項(xiàng)技術(shù)帶來了新的進(jìn)展——

過去TAL中的建模是片段甚至實(shí)例級(jí)的,而現(xiàn)在只要視頻里的一幀就能實(shí)現(xiàn),效果媲美全監(jiān)督。

圖片

來自華中科技大學(xué)的團(tuán)隊(duì)提出了一種名為HR-Pro的新框架,用于點(diǎn)標(biāo)注監(jiān)督的時(shí)序行為檢測(cè)。

通過多層級(jí)的reliability propagation,HR-Pro可以網(wǎng)絡(luò)學(xué)習(xí)到更具辨別力的片段級(jí)特征和更可靠的實(shí)例級(jí)邊界。

HR-Pro包括兩個(gè)可靠性感知的階段,能夠有效地從片段級(jí)別和實(shí)例級(jí)別的點(diǎn)標(biāo)注中傳播高置信度的線索,從而使網(wǎng)絡(luò)能夠?qū)W習(xí)到更具區(qū)分性的片段表示和更可靠的提議。

在多個(gè)基準(zhǔn)數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)證明,HR-Pro明顯優(yōu)于現(xiàn)有方法,并取得了最先進(jìn)的結(jié)果,證明了其方法的有效性和點(diǎn)標(biāo)注的潛力。

表現(xiàn)比肩全監(jiān)督方式

下圖展示了HR-Pro與LACP在THUMOS14測(cè)試視頻上進(jìn)行時(shí)序行為檢測(cè)表現(xiàn)比較。

HR-Pro展現(xiàn)出更了準(zhǔn)確的動(dòng)作實(shí)例檢測(cè),具體來說:

  • 對(duì)于“高爾夫揮桿”行為,HR-Pro有效地區(qū)分了行為和背景片段,減輕了LACP難以處理的False Positive預(yù)測(cè);
  • 對(duì)于鐵餅投擲行為,HR-Pro檢測(cè)到比LACP更完整的片段,后者在非區(qū)分性動(dòng)作片段上具有較低的激活值。

圖片

數(shù)據(jù)集上的測(cè)試結(jié)果,也印證了這一直觀感受。

將THUMOS14數(shù)據(jù)集上的檢測(cè)結(jié)果可視化后可以觀察到,在實(shí)例級(jí)別完整性學(xué)習(xí)之后,高質(zhì)量預(yù)測(cè)和低質(zhì)量預(yù)測(cè)之間的差異顯著增大。

(左側(cè)是實(shí)例級(jí)別完整性學(xué)習(xí)之前的結(jié)果,右側(cè)是學(xué)習(xí)之后的結(jié)果。橫軸和縱軸分別表示時(shí)間和可靠性分?jǐn)?shù)。)

圖片

整體來看,在常用4個(gè)數(shù)據(jù)集中,HR-Pro的性能均大幅超越最先進(jìn)的點(diǎn)監(jiān)督方法,在THUMOS14數(shù)據(jù)集上的平均mAP達(dá)到60.3%,相較之前的SoTA方法(53.7%)的提升為6.5%,并且能與一些全監(jiān)督方法達(dá)到相當(dāng)?shù)男Ч?/p>

在THUMOS14測(cè)試集上與下表中的先前最先進(jìn)方法相比,對(duì)于IoU閾值在0.1到0.7之間,HR-Pro的平均mAP為60.3%,比先前最先進(jìn)方法CRRC-Net高6.5%。

并且HR-Pro能夠與具有競(jìng)爭(zhēng)力的全監(jiān)督方法達(dá)到相當(dāng)?shù)谋憩F(xiàn),例如AFSD(對(duì)于IoU閾值在0.3到0.7之間,平均mAP為51.1% vs. 52.0%)。

圖片

△HR-Pro與前SOTA方法在THUMOS14數(shù)據(jù)集上的對(duì)比

在各種基準(zhǔn)數(shù)據(jù)集上的通用性和優(yōu)越性方面,HR-Pro也明顯優(yōu)于現(xiàn)有方法,在GTEA、BEOID和ActivityNet 1.3上分別取得了3.8%、7.6%和2.0%的提高。

圖片

△HR-Pro與前SOTA方法在GTEA等數(shù)據(jù)集上的對(duì)比

那么,HR-Pro具體是如何實(shí)現(xiàn)的呢?

學(xué)習(xí)分兩階段進(jìn)行

研究團(tuán)隊(duì)提出了多層級(jí)可靠傳播方法,在片段級(jí)引入可靠片段記憶模塊并利用交叉注意力的方法向其他片段傳播,在實(shí)例級(jí)提出基于點(diǎn)監(jiān)督的提議生成來關(guān)聯(lián)片段和實(shí)例,用于產(chǎn)生不同可靠度的proposals,進(jìn)一步在實(shí)例級(jí)優(yōu)化proposals的置信度和邊界。

HR-Pro的模型結(jié)構(gòu)如下圖所示:時(shí)序行為檢測(cè)被劃分為兩階段的學(xué)習(xí)過程,即片段級(jí)別的判別性學(xué)習(xí)實(shí)例級(jí)別的完整性學(xué)習(xí)。

圖片

階段一:片段級(jí)判別學(xué)習(xí)

研究團(tuán)隊(duì)引入可靠性感知的片段級(jí)判別學(xué)習(xí),提出為每個(gè)類別存儲(chǔ)可靠原型,并通過視頻內(nèi)和視頻間的方式將這些原型中的高置信度線索傳播到其他片段。

片段級(jí)可靠原型構(gòu)建

為了構(gòu)建片段級(jí)別的可靠原型,團(tuán)隊(duì)創(chuàng)建了一個(gè)在線更新的原型memory,用于存儲(chǔ)各類行為的可靠原型mc(其中 c = 1, 2, …, C),以便能夠利用整個(gè)數(shù)據(jù)集的特征信息。

研究團(tuán)隊(duì)選擇了具有點(diǎn)標(biāo)注的片段特征初始化原型:

圖片

接下來,研究人員使用偽標(biāo)記的行為片段特征來更新每個(gè)類別的原型,具體表述如下:

圖片

片段級(jí)可靠性感知優(yōu)化

為了將片段級(jí)可靠原型的特征信息傳遞到其他片段,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)Reliabilty-aware Attention Block(RAB),通過交叉注意力的方式實(shí)現(xiàn)了將原型中的可靠信息注入到其他的片段中,從而增強(qiáng)片段特征的魯棒性,并增加對(duì)較不具有判別力片段的關(guān)注。

圖片

為了學(xué)習(xí)到更加具有判別里的片段特征,團(tuán)隊(duì)還構(gòu)建了可靠性感知的片段對(duì)比損失:

圖片

階段二:實(shí)例級(jí)完整性學(xué)習(xí)

為了充分探索實(shí)例級(jí)別行為的時(shí)序結(jié)構(gòu)并優(yōu)化提議的得分排名,團(tuán)隊(duì)引入了實(shí)例級(jí)別的動(dòng)作完整性學(xué)習(xí)。

這種方法旨在通過可靠的實(shí)例原型的指導(dǎo),通過實(shí)例級(jí)別的特征學(xué)習(xí)來精化提議的置信度得分和邊界。

實(shí)例級(jí)可靠原型構(gòu)建

為了在訓(xùn)練過程中利用點(diǎn)標(biāo)注的實(shí)例級(jí)別先驗(yàn)信息,團(tuán)隊(duì)提出了一種基于點(diǎn)標(biāo)注的提議生成方法用于生成不同Reliability的proposals。

根據(jù)其可靠性分?jǐn)?shù)和相對(duì)點(diǎn)標(biāo)注的時(shí)序位置,這些提議可以分為兩種類型:

  • 可靠提議(Reliable Proposals, RP):對(duì)于每個(gè)類別中的每個(gè)點(diǎn),提議包含了這個(gè)點(diǎn),并具有最高的可靠性;
  • 正樣本提議(Positive Proposals, PP):所有其余的候選提議。

為確保正樣本和負(fù)樣本數(shù)量平衡,研究團(tuán)隊(duì)將那些具有類別無關(guān)的注意力分?jǐn)?shù)低于預(yù)定義值的片段分組為負(fù)樣本提議(Negative Proposals, NP)。

實(shí)例級(jí)可靠性感知優(yōu)化

為了預(yù)測(cè)每個(gè)提議的完整性分?jǐn)?shù),研究團(tuán)隊(duì)將敏感邊界的提議特征輸入至得分預(yù)測(cè)頭φs:

圖片

然后用正/負(fù)樣本提議與可靠提議的IoU作為指導(dǎo),監(jiān)督提議的完整性分?jǐn)?shù)預(yù)測(cè):

圖片

為了獲得更準(zhǔn)確邊界的行為proposal,研究者將每個(gè)PP中的proposal的起始區(qū)域特征和結(jié)束區(qū)域特征輸入到回歸預(yù)測(cè)頭φr中,以預(yù)測(cè)proposal開始和結(jié)束時(shí)間的偏移量。

進(jìn)一步計(jì)算得到精細(xì)化的proposals,并希望精細(xì)化后的proposals與可靠proposal重合。

圖片
圖片
圖片

總之,HR-Pro只需很少的標(biāo)注就能很好的效果大幅度降低了獲取標(biāo)簽的成本,同時(shí)又擁有較強(qiáng)的泛化能力,為實(shí)際部署應(yīng)用提供了有利條件。

據(jù)此,作者預(yù)計(jì),HR-Pro將在行為分析、人機(jī)交互、駕駛分析等領(lǐng)域擁有廣闊的應(yīng)用前景。

論文地址:https://arxiv.org/abs/2308.12608

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-07-05 09:21:37

2024-07-05 10:38:15

SOTA目標(biāo)檢測(cè)

2024-11-25 07:10:00

NumPro視頻大模型AI

2024-01-06 17:12:44

視頻AI

2025-03-03 05:00:00

DiffUCD擴(kuò)散模型SOTA

2023-02-07 14:10:19

目標(biāo)檢測(cè)

2021-07-08 15:39:50

機(jī)器學(xué)習(xí)人工智能計(jì)算

2024-04-02 09:17:50

AI數(shù)據(jù)開源

2024-03-25 13:06:00

數(shù)據(jù)訓(xùn)練

2023-07-31 11:30:27

研究技術(shù)

2022-03-07 10:04:09

機(jī)器學(xué)習(xí)訓(xùn)練模型

2024-10-28 14:20:00

2024-02-19 08:35:00

2025-03-13 12:39:22

2025-03-03 10:17:00

模型數(shù)據(jù)生成

2009-03-19 10:11:42

華為電信采購(gòu)

2024-12-12 11:58:29

模型YOLO跨層

2023-03-20 13:43:00

AI論文

2023-08-02 12:52:02

谷歌模型

2024-02-23 11:10:00

AI訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)