自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<s id="o6ev9"><li id="o6ev9"></li></s>

^{<blockquote id="o6ev9"></blockquote>}

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

一句話精準(zhǔn)視頻片段定位！清華新方法拿下SOTA｜已開源

作者：陳厚倫 2024-01-06 17:12:44

人工智能新聞

ADPN的特點(diǎn)在于能夠高效利用視頻中視覺和音頻模態(tài)的一致性與互補(bǔ)性來增強(qiáng)視頻片段定位性能。

只需一句話描述，就能在一大段視頻中定位到對(duì)應(yīng)片段！

比如描述“一個(gè)人一邊下樓梯一邊喝水”，通過視頻畫面和腳步聲的匹配，新方法一下子就能揪出對(duì)應(yīng)起止時(shí)間戳：

就連“大笑”這種語義難理解型的，也能準(zhǔn)確定位：

方法名為自適應(yīng)雙分支促進(jìn)網(wǎng)絡(luò)（ADPN），由清華大學(xué)研究團(tuán)隊(duì)提出。

具體來說，ADPN是用來完成一個(gè)叫做視頻片段定位（Temporal Sentence Grounding，TSG）的視覺-語言跨模態(tài)任務(wù)，也就是根據(jù)查詢文本從視頻中定位到相關(guān)片段。

ADPN的特點(diǎn)在于能夠高效利用視頻中視覺和音頻模態(tài)的一致性與互補(bǔ)性來增強(qiáng)視頻片段定位性能。

相較其他利用音頻的TSG工作PMI-LOC、UMT，ADPN方法從音頻模態(tài)獲取了更顯著地性能提升，多項(xiàng)測(cè)試拿下新SOTA。

目前該工作已經(jīng)被ACM Multimedia 2023接收，且已完全開源。

一起來看看ADPN究竟是個(gè)啥～

一句話定位視頻片段

視頻片段定位（Temporal Sentence Grounding，TSG）是一項(xiàng)重要的視覺-語言跨模態(tài)任務(wù)。

它的目的是根據(jù)自然語言查詢，在一個(gè)未剪輯的視頻中找到與之語義匹配的片段的起止時(shí)間戳，它要求方法具備較強(qiáng)的時(shí)序跨模態(tài)推理能力。

然而，大多數(shù)現(xiàn)有的TSG方法只考慮了視頻中的視覺信息，如RGB、光流（optical flows）、深度（depth）等，而忽略了視頻中天然伴隨的音頻信息。

音頻信息往往包含豐富的語義，并且與視覺信息存在一致性和互補(bǔ)性，如下圖所示，這些性質(zhì)會(huì)有助于TSG任務(wù)。

△圖1

(a)一致性：視頻畫面和腳步聲一致地匹配了查詢中的“走下樓梯”的語義；(b)互補(bǔ)性：視頻畫面難以識(shí)別出特定行為來定位查詢中的“笑”的語義，但是笑聲的出現(xiàn)提供了強(qiáng)有力的互補(bǔ)定位線索。

因此研究人員深入研究了音頻增強(qiáng)的視頻片段定位任務(wù)（Audio-enhanced Temporal Sentence Grounding，ATSG），旨在更優(yōu)地從視覺與音頻兩種模態(tài)中捕獲定位線索，然而音頻模態(tài)的引入也帶來了如下挑戰(zhàn)：

音頻和視覺模態(tài)的一致性和互補(bǔ)性是與查詢文本相關(guān)聯(lián)的，因此捕獲視聽一致性與互補(bǔ)性需要建模文本-視覺-音頻三模態(tài)的交互。
音頻和視覺間存在顯著的模態(tài)差異，兩者的信息密度和噪聲強(qiáng)度不同，這會(huì)影響視聽學(xué)習(xí)的性能。

為了解決上述挑戰(zhàn)，研究人員提出了一種新穎的ATSG方法“自適應(yīng)雙分支促進(jìn)網(wǎng)絡(luò)”（Adaptive Dual-branch Prompted Network，ADPN）。

通過一種雙分支的模型結(jié)構(gòu)設(shè)計(jì)，該方法能夠自適應(yīng)地建模音頻和視覺之間的一致性和互補(bǔ)性，并利用一種基于課程學(xué)習(xí)的去噪優(yōu)化策略進(jìn)一步消除音頻模態(tài)噪聲的干擾，揭示了音頻信號(hào)對(duì)于視頻檢索的重要性。

ADPN的總體結(jié)構(gòu)如下圖所示：

△圖2：自適應(yīng)雙分支促進(jìn)網(wǎng)絡(luò)（ADPN）總體示意圖

它主要包含三個(gè)設(shè)計(jì)：

1、雙分支網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)

考慮到音頻的噪聲更加明顯，且對(duì)于TSG任務(wù)而言，音頻通常存在更多冗余信息，因此音頻和視覺模態(tài)的學(xué)習(xí)過程需要賦予不同的重要性，因此本文涉及了一個(gè)雙分支的網(wǎng)絡(luò)結(jié)構(gòu)，在利用音頻和視覺進(jìn)行多模態(tài)學(xué)習(xí)的同時(shí)，對(duì)視覺信息進(jìn)行強(qiáng)化。

具體地，參見圖2(a)，ADPN同時(shí)訓(xùn)練一個(gè)只使用視覺信息的分支（視覺分支）和一個(gè)同時(shí)使用視覺信息和音頻信息的分支（聯(lián)合分支）。

兩個(gè)分支擁有相似的結(jié)構(gòu)，其中聯(lián)合分支增加了一個(gè)文本引導(dǎo)的線索挖掘單元（TGCM）建模文本-視覺-音頻模態(tài)交互。訓(xùn)練過程兩個(gè)分支同時(shí)更新參數(shù)，推理階段使用聯(lián)合分支的結(jié)果作為模型預(yù)測(cè)結(jié)果。

2、文本引導(dǎo)的線索挖掘單元（Text-Guided Clues Miner，TGCM）

考慮到音頻與視覺模態(tài)的一致性與互補(bǔ)性是以給定的文本查詢作為條件的，因此研究人員設(shè)計(jì)了TGCM單元建模文本-視覺-音頻三模態(tài)間的交互。

參考圖2(b)，TGCM分為”提取“和”傳播“兩個(gè)步驟。

首先以文本作為查詢條件，從視覺和音頻兩種模態(tài)中提取關(guān)聯(lián)的信息并集成；然后再以視覺與音頻各自模態(tài)作為查詢條件，將集成的信息通過注意力傳播到視覺與音頻各自的模態(tài)，最終再通過FFN進(jìn)行特征融合。

3、課程學(xué)習(xí)優(yōu)化策略

研究人員觀察到音頻中含有噪聲，這會(huì)影響多模態(tài)學(xué)習(xí)的效果，于是他們將噪聲的強(qiáng)度作為樣本難度的參考，引入課程學(xué)習(xí)（Curriculum Learning，CL）對(duì)優(yōu)化過程進(jìn)行去噪，參考圖2(c)。

他們根據(jù)兩個(gè)分支的預(yù)測(cè)輸出差異來評(píng)估樣本的難度，認(rèn)為過于難的樣本大概率表示其音頻含有過多的噪聲而不適于TSG任務(wù)，于是根據(jù)樣本難度的評(píng)估分?jǐn)?shù)對(duì)訓(xùn)練過程的損失函數(shù)項(xiàng)進(jìn)行重加權(quán)，旨在丟棄音頻的噪聲引起的不良梯度。

（其余的模型結(jié)構(gòu)與訓(xùn)練細(xì)節(jié)請(qǐng)參考原文。）

多項(xiàng)測(cè)試新SOTA

研究人員在TSG任務(wù)的benchmark數(shù)據(jù)集Charades-STA和ActivityNet Captions上進(jìn)行實(shí)驗(yàn)評(píng)估，與baseline方法的比較如表1所示。

ADPN方法能夠取得SOTA性能；特別地，相較其他利用音頻的TSG工作PMI-LOC、UMT，ADPN方法從音頻模態(tài)獲取了更顯著地性能提升，說明了ADPN方法利用音頻模態(tài)促進(jìn)TSG的優(yōu)越性。

△表1：Charades-STA與ActivityNet Captions上實(shí)驗(yàn)結(jié)果

研究人員進(jìn)一步通過消融實(shí)驗(yàn)展示了ADPN中不同的設(shè)計(jì)單元的有效性，如表2所示。

△表2：Charades-STA上消融實(shí)驗(yàn)

研究人員選取了一些樣本的預(yù)測(cè)結(jié)果進(jìn)行了可視化，并且繪制了TGCM中”提取“步驟中的”文本 to 視覺“（T→V）和”文本 to 音頻“（T→A）注意力權(quán)重分布，如圖3所示。

可以觀察到音頻模態(tài)的引入改善了預(yù)測(cè)結(jié)果。從“Person laughs at it”的案例中，可以看到T→A的注意力權(quán)重分布更接近Ground Truth，糾正了T→V的權(quán)重分布對(duì)模型預(yù)測(cè)的錯(cuò)誤引導(dǎo)。

△圖3：案例展示

總的來說，本文研究人員提出了一種新穎的自適應(yīng)雙分支促進(jìn)網(wǎng)絡(luò)（ADPN）來解決音頻增強(qiáng)的視頻片段定位（ATSG）問題。

他們?cè)O(shè)計(jì)了一個(gè)雙分支的模型結(jié)構(gòu)，聯(lián)合訓(xùn)練視覺分支和視聽聯(lián)合分支，以解決音頻和視覺模態(tài)之間的信息差異。

他們還提出了一種文本引導(dǎo)的線索挖掘單元（TGCM），用文本語義作為指導(dǎo)來建模文本-音頻-視覺交互。

最后，研究人員設(shè)計(jì)了一種基于課程學(xué)習(xí)的優(yōu)化策略來進(jìn)一步消除音頻噪音，以自感知的方式評(píng)估樣本難度作為噪音強(qiáng)度的度量，并自適應(yīng)地調(diào)整優(yōu)化過程。

他們首先在ATSG中深入研究了音頻的特性，更好地提升了音頻模態(tài)對(duì)性能的提升作用。

未來，他們希望為ATSG構(gòu)建更合適的評(píng)估基準(zhǔn)，以鼓勵(lì)在這一領(lǐng)域進(jìn)行更深入的研究。

論文鏈接：https://dl.acm.org/doi/pdf/10.1145/3581783.3612504
倉(cāng)庫(kù)鏈接：https://github.com/hlchen23/ADPN-MM

責(zé)任編輯：張燕妮來源：量子位

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

^{<blockquote id="sbkxm"></blockquote>}

<style id="sbkxm"></style>