自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

CVPR'25跨模態(tài)因果對(duì)齊，讓機(jī)器更懂視覺(jué)證據(jù)

2025-03-17 10:25:28

來(lái)自中山大學(xué)、新加坡南洋理工大學(xué)等團(tuán)隊(duì)提出跨模態(tài)因果對(duì)齊框架（CRA），通過(guò)因果干預(yù)和跨模態(tài)對(duì)齊，顯著提升時(shí)空定位的準(zhǔn)確性與可解釋性。

跨模態(tài)因果對(duì)齊，讓機(jī)器更懂視覺(jué)證據(jù)！

來(lái)自中山大學(xué)、新加坡南洋理工大學(xué)等團(tuán)隊(duì)提出跨模態(tài)因果對(duì)齊框架（CRA），通過(guò)因果干預(yù)和跨模態(tài)對(duì)齊，顯著提升時(shí)空定位的準(zhǔn)確性與可解釋性。

相關(guān)論文已被CVPR 2025接收，代碼已開(kāi)源。

圖片

事情是這樣的——

近年來(lái)隨著多模態(tài)大模型的發(fā)展，視頻問(wèn)答（VideoQA）任務(wù)——要求模型根據(jù)視頻內(nèi)容回答自然語(yǔ)言問(wèn)題——性能顯著提升。

然而，現(xiàn)有模型往往依賴訓(xùn)練數(shù)據(jù)中的統(tǒng)計(jì)偏差（如語(yǔ)言關(guān)鍵詞與答案的虛假關(guān)聯(lián)），而非真正的因果視覺(jué)證據(jù)，導(dǎo)致回答缺乏可解釋性。

舉個(gè)栗子～

例如下圖中，當(dāng)視頻中出現(xiàn)“嬰兒”和“女性”時(shí)，模型可能僅因二者高頻共現(xiàn)而給出答案，卻忽略真實(shí)因果事件（如“女性抱起嬰兒”）。

也就是說(shuō)，雖然結(jié)果答對(duì)了，但過(guò)程中模型采納的是錯(cuò)誤的視覺(jué)依據(jù)。

圖片

針對(duì)類似情況，為提供可靠的視覺(jué)證據(jù)支持，視頻問(wèn)答定位（VideoQG）任務(wù)應(yīng)運(yùn)而生，要求模型同時(shí)輸出答案及其對(duì)應(yīng)視頻片段的時(shí)間區(qū)間。

但現(xiàn)有方法面臨兩大挑戰(zhàn)：

多模態(tài)偏差：視頻與語(yǔ)言中的混淆因素（如高頻關(guān)鍵詞、短時(shí)視覺(jué)特征）導(dǎo)致模型學(xué)習(xí)虛假關(guān)聯(lián)；
弱監(jiān)督限制：標(biāo)注視頻片段成本高昂，現(xiàn)有模型依賴視頻問(wèn)答（VideoQA）的弱監(jiān)督信號(hào)，難以精準(zhǔn)定位。

以上就是CRA框架誕生的背景。

此外，中山大學(xué)HCP-Lab團(tuán)隊(duì)已將關(guān)鍵的因果模塊集成到開(kāi)源因果框架CausalVLR中。

該框架是一個(gè)基于PyTorch的python開(kāi)源工具包，用于因果關(guān)系發(fā)現(xiàn)，因果推理，為各種視覺(jué)語(yǔ)言推理任務(wù)實(shí)現(xiàn)最先進(jìn)的因果學(xué)習(xí)算法。

三模塊驅(qū)動(dòng)因果推理

現(xiàn)有方法常因依賴于訓(xùn)練數(shù)據(jù)中的統(tǒng)計(jì)偏差，導(dǎo)致模型無(wú)法準(zhǔn)確識(shí)別與問(wèn)題相關(guān)的因果視覺(jué)場(chǎng)景，進(jìn)而產(chǎn)生不準(zhǔn)確的時(shí)空定位結(jié)果。

為克服這一問(wèn)題，CRA框架通過(guò)三個(gè)核心模塊實(shí)現(xiàn)了從噪聲抑制、特征對(duì)齊到因果關(guān)系建模的全流程優(yōu)化。

該框架在NextGQA和STAR數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明，CRA能夠顯著提升模型的時(shí)空定位能力和因果推理的準(zhǔn)確性，為視頻問(wèn)答定位任務(wù)提供了更可靠的技術(shù)解決方案。

圖片

三個(gè)核心模塊具體展開(kāi)如下：

GSG：抑制噪聲，聚焦關(guān)鍵幀

第一個(gè)，高斯平滑定位模塊（GSG）。

GSG模塊通過(guò)自適應(yīng)高斯濾波去噪，精準(zhǔn)估計(jì)視頻片段的時(shí)間間隔。

圖片

它的核心功能，是基于跨模態(tài)注意力估計(jì)時(shí)間區(qū)間，通過(guò)自適應(yīng)高斯濾波去噪，生成魯棒的視頻片段特征。

技術(shù)亮點(diǎn)主要有仨：

1、跨模態(tài)注意力計(jì)算：利用CLIP視頻特征與RoBERTa語(yǔ)言特征的交互，生成初始時(shí)間注意力權(quán)重；
2、自適應(yīng)高斯濾波：引入可學(xué)習(xí)參數(shù)的高斯核，抑制時(shí)序上的不穩(wěn)定噪聲（如無(wú)關(guān)背景幀），突出關(guān)鍵事件區(qū)域（下圖）；

圖片

3、動(dòng)態(tài)閾值分割：根據(jù)平滑后的注意力分布，動(dòng)態(tài)截取高響應(yīng)區(qū)間，提升定位精度。

消融實(shí)驗(yàn)顯示，移除高斯濾波（GSG w/o GS）會(huì)導(dǎo)致IoU@0.5下降2.2%（下表），證明其對(duì)噪聲抑制的關(guān)鍵作用。

圖片

△GSG消融實(shí)驗(yàn)，其中SGG w/o GS?表示GSG在訓(xùn)練過(guò)程中具有高斯平滑，但在推理過(guò)程中沒(méi)有高斯平滑

CMA：弱監(jiān)督下的雙向?qū)R

第二個(gè)，交叉模態(tài)對(duì)齊模塊（CMA）。

CMA模塊利用雙向?qū)Ρ葘W(xué)習(xí)，增強(qiáng)視頻與問(wèn)答特征的對(duì)齊效果。

它的核心功能，是通過(guò)雙向?qū)Ρ葘W(xué)習(xí)，對(duì)齊視頻片段特征與問(wèn)答特征，增強(qiáng)跨模態(tài)一致性。

技術(shù)亮點(diǎn)有二：

雙向InfoNCE損失：從同一批次中采樣正/負(fù)樣本，分別對(duì)齊視覺(jué)→語(yǔ)言和語(yǔ)言→視覺(jué)特征（公式1-2）；
動(dòng)態(tài)難樣本挖掘：優(yōu)先選擇語(yǔ)義差異大的負(fù)樣本，迫使模型關(guān)注細(xì)粒度因果關(guān)聯(lián)。

圖片

移除CMA模塊后，Acc@GQA下降2%，IoP@0.5下降2.2%（下表），凸顯其對(duì)弱監(jiān)督訓(xùn)練的重要性。

圖片

ECI：切斷虛假因果鏈

第三個(gè)，顯式因果干預(yù)模塊（ECI）。

ECI模塊則通過(guò)前門和后門干預(yù)，消除多模態(tài)偏差，提升因果一致性。

它的核心功能，是針對(duì)視覺(jué)和語(yǔ)言模態(tài)分別設(shè)計(jì)前門干預(yù)與后門干預(yù)，消除多模態(tài)混淆因素。

技術(shù)亮點(diǎn)有二：

語(yǔ)言后門干預(yù)：解析問(wèn)答語(yǔ)義結(jié)構(gòu)圖（如主謂賓關(guān)系），阻斷關(guān)鍵詞與答案的虛假路徑；
視覺(jué)前門干預(yù)：以視頻片段為中介變量，通過(guò)特征聚類模擬混雜因子分布，重構(gòu)因果鏈（公式3-4）。

圖片

實(shí)驗(yàn)結(jié)果顯示，在NextGQA數(shù)據(jù)集上，去除了Causal模塊后相對(duì)于CRA在Acc@GQA造成了1.2%的性能損失。

實(shí)驗(yàn)結(jié)果：多維度性能領(lǐng)先

在NextGQA數(shù)據(jù)集中，CRA以18.2%超越Temp[CLIP]（NG+）2.2%，且在使用FrozenBiLM大模型時(shí)仍保持優(yōu)勢(shì)。

此外，IoP@0.5達(dá)28.5%，顯著優(yōu)于基于LLM偽標(biāo)注的TimeCraft（27.8%），證明其無(wú)需額外數(shù)據(jù)的高效性。

圖片

在STAR數(shù)據(jù)集中，CRA分別以26.8%與27.5%的Acc@GQA分?jǐn)?shù)在Temp[CLIP]和FrozenBiLM的Backbone下領(lǐng)先NG+。

圖片

而通過(guò)統(tǒng)計(jì)弱監(jiān)督視頻定位的分布情況，研究團(tuán)隊(duì)可以觀察到NG+局限于小區(qū)間的估計(jì)，而CRA所估計(jì)的區(qū)間與真實(shí)分布情況更符合。

圖片

綜上，CRA框架通過(guò)跨模態(tài)因果對(duì)齊，首次在弱監(jiān)督條件下實(shí)現(xiàn)了視頻問(wèn)答定位的高精度與可解釋性。

目前，CRA框架代碼已開(kāi)源。

研究團(tuán)隊(duì)表示，CRA為視頻理解提供了新的因果推理范式，或?qū)⑼苿?dòng)自動(dòng)駕駛、智能監(jiān)控等領(lǐng)域的可信AI應(yīng)用。

論文地址：https://arxiv.org/abs/2503.07635CRA-GQA

倉(cāng)庫(kù)：https://github.com/WissingChen/CRA-GQA

因果框架倉(cāng)庫(kù)：https://github.com/HCPLab-SYSU/CausalVLR

責(zé)任編輯：武曉燕來(lái)源：量子位

跨模態(tài)機(jī)器視覺(jué)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<cite id="km5cx"><track id="km5cx"></track></cite>

<sub id="km5cx"><p id="km5cx"><li id="km5cx"></li></p></sub>

<style id="km5cx"></style>

^{<blockquote id="km5cx"></blockquote>}