自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

CVPR'25跨模態(tài)因果對齊,讓機(jī)器更懂視覺證據(jù)丨中大南洋理工等聯(lián)合開源

人工智能 新聞
來自中山大學(xué)、新加坡南洋理工大學(xué)等團(tuán)隊提出跨模態(tài)因果對齊框架(CRA),通過因果干預(yù)和跨模態(tài)對齊,顯著提升時空定位的準(zhǔn)確性與可解釋性。

跨模態(tài)因果對齊,讓機(jī)器更懂視覺證據(jù)!

來自中山大學(xué)、新加坡南洋理工大學(xué)等團(tuán)隊提出跨模態(tài)因果對齊框架(CRA),通過因果干預(yù)和跨模態(tài)對齊,顯著提升時空定位的準(zhǔn)確性與可解釋性。

相關(guān)論文已被CVPR 2025接收,代碼已開源。

圖片

事情是這樣的——

近年來隨著多模態(tài)大模型的發(fā)展,視頻問答(VideoQA)任務(wù)——要求模型根據(jù)視頻內(nèi)容回答自然語言問題——性能顯著提升。

然而,現(xiàn)有模型往往依賴訓(xùn)練數(shù)據(jù)中的統(tǒng)計偏差(如語言關(guān)鍵詞與答案的虛假關(guān)聯(lián)),而非真正的因果視覺證據(jù),導(dǎo)致回答缺乏可解釋性。

舉個栗子~

例如下圖中,當(dāng)視頻中出現(xiàn)“嬰兒”和“女性”時,模型可能僅因二者高頻共現(xiàn)而給出答案,卻忽略真實因果事件(如“女性抱起嬰兒”)。

也就是說,雖然結(jié)果答對了,但過程中模型采納的是錯誤的視覺依據(jù)。

圖片

針對類似情況,為提供可靠的視覺證據(jù)支持,視頻問答定位(VideoQG)任務(wù)應(yīng)運而生,要求模型同時輸出答案及其對應(yīng)視頻片段的時間區(qū)間。

但現(xiàn)有方法面臨兩大挑戰(zhàn):

  • 多模態(tài)偏差:視頻與語言中的混淆因素(如高頻關(guān)鍵詞、短時視覺特征)導(dǎo)致模型學(xué)習(xí)虛假關(guān)聯(lián);
  • 弱監(jiān)督限制:標(biāo)注視頻片段成本高昂,現(xiàn)有模型依賴視頻問答(VideoQA)的弱監(jiān)督信號,難以精準(zhǔn)定位。

以上就是CRA框架誕生的背景。

此外,中山大學(xué)HCP-Lab團(tuán)隊已將關(guān)鍵的因果模塊集成到開源因果框架CausalVLR中。

該框架是一個基于PyTorch的python開源工具包,用于因果關(guān)系發(fā)現(xiàn),因果推理,為各種視覺語言推理任務(wù)實現(xiàn)最先進(jìn)的因果學(xué)習(xí)算法。

三模塊驅(qū)動因果推理

現(xiàn)有方法常因依賴于訓(xùn)練數(shù)據(jù)中的統(tǒng)計偏差,導(dǎo)致模型無法準(zhǔn)確識別與問題相關(guān)的因果視覺場景,進(jìn)而產(chǎn)生不準(zhǔn)確的時空定位結(jié)果。

為克服這一問題,CRA框架通過三個核心模塊實現(xiàn)了從噪聲抑制、特征對齊到因果關(guān)系建模的全流程優(yōu)化。

該框架在NextGQA和STAR數(shù)據(jù)集上的實驗結(jié)果表明,CRA能夠顯著提升模型的時空定位能力和因果推理的準(zhǔn)確性,為視頻問答定位任務(wù)提供了更可靠的技術(shù)解決方案。

圖片

三個核心模塊具體展開如下:

GSG:抑制噪聲,聚焦關(guān)鍵幀

第一個,高斯平滑定位模塊(GSG)。

GSG模塊通過自適應(yīng)高斯濾波去噪,精準(zhǔn)估計視頻片段的時間間隔。

圖片

它的核心功能,是基于跨模態(tài)注意力估計時間區(qū)間,通過自適應(yīng)高斯濾波去噪,生成魯棒的視頻片段特征。

技術(shù)亮點主要有仨:

1、跨模態(tài)注意力計算:利用CLIP視頻特征與RoBERTa語言特征的交互,生成初始時間注意力權(quán)重;
2、自適應(yīng)高斯濾波:引入可學(xué)習(xí)參數(shù)的高斯核,抑制時序上的不穩(wěn)定噪聲(如無關(guān)背景幀),突出關(guān)鍵事件區(qū)域(下圖)

圖片

3、動態(tài)閾值分割:根據(jù)平滑后的注意力分布,動態(tài)截取高響應(yīng)區(qū)間,提升定位精度。

消融實驗顯示,移除高斯濾波(GSG w/o GS)會導(dǎo)致IoU@0.5下降2.2%(下表),證明其對噪聲抑制的關(guān)鍵作用。

圖片

△GSG消融實驗,其中SGG w/o GS?表示GSG在訓(xùn)練過程中具有高斯平滑,但在推理過程中沒有高斯平滑

CMA:弱監(jiān)督下的雙向?qū)R

第二個,交叉模態(tài)對齊模塊(CMA)。

CMA模塊利用雙向?qū)Ρ葘W(xué)習(xí),增強(qiáng)視頻與問答特征的對齊效果。

它的核心功能,是通過雙向?qū)Ρ葘W(xué)習(xí),對齊視頻片段特征與問答特征,增強(qiáng)跨模態(tài)一致性。

技術(shù)亮點有二:

  • 雙向InfoNCE損失:從同一批次中采樣正/負(fù)樣本,分別對齊視覺→語言和語言→視覺特征(公式1-2)
  • 動態(tài)難樣本挖掘:優(yōu)先選擇語義差異大的負(fù)樣本,迫使模型關(guān)注細(xì)粒度因果關(guān)聯(lián)。

圖片

移除CMA模塊后,Acc@GQA下降2%,IoP@0.5下降2.2%(下表),凸顯其對弱監(jiān)督訓(xùn)練的重要性。

圖片

ECI:切斷虛假因果鏈

第三個,顯式因果干預(yù)模塊(ECI)。

ECI模塊則通過前門和后門干預(yù),消除多模態(tài)偏差,提升因果一致性。

它的核心功能,是針對視覺和語言模態(tài)分別設(shè)計前門干預(yù)與后門干預(yù),消除多模態(tài)混淆因素。

技術(shù)亮點有二:

  • 語言后門干預(yù):解析問答語義結(jié)構(gòu)圖(如主謂賓關(guān)系),阻斷關(guān)鍵詞與答案的虛假路徑;
  • 視覺前門干預(yù):以視頻片段為中介變量,通過特征聚類模擬混雜因子分布,重構(gòu)因果鏈(公式3-4)。

圖片

實驗結(jié)果顯示,在NextGQA數(shù)據(jù)集上,去除了Causal模塊后相對于CRA在Acc@GQA造成了1.2%的性能損失。

實驗結(jié)果:多維度性能領(lǐng)先

在NextGQA數(shù)據(jù)集中,CRA以18.2%超越Temp[CLIP](NG+)2.2%,且在使用FrozenBiLM大模型時仍保持優(yōu)勢。

此外,IoP@0.5達(dá)28.5%,顯著優(yōu)于基于LLM偽標(biāo)注的TimeCraft(27.8%),證明其無需額外數(shù)據(jù)的高效性。

圖片

在STAR數(shù)據(jù)集中,CRA分別以26.8%與27.5%的Acc@GQA分?jǐn)?shù)在Temp[CLIP]和FrozenBiLM的Backbone下領(lǐng)先NG+。

圖片

通過統(tǒng)計弱監(jiān)督視頻定位的分布情況,研究團(tuán)隊可以觀察到NG+局限于小區(qū)間的估計,而CRA所估計的區(qū)間與真實分布情況更符合。

圖片

綜上,CRA框架通過跨模態(tài)因果對齊,首次在弱監(jiān)督條件下實現(xiàn)了視頻問答定位的高精度與可解釋性。

目前,CRA框架代碼已開源。

研究團(tuán)隊表示,CRA為視頻理解提供了新的因果推理范式,或?qū)⑼苿幼詣玉{駛、智能監(jiān)控等領(lǐng)域的可信AI應(yīng)用。

論文地址:https://arxiv.org/abs/2503.07635
CRA-GQA倉庫:https://github.com/WissingChen/CRA-GQA
因果框架倉庫:https://github.com/HCPLab-SYSU/CausalVLR

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-03-17 10:25:28

2023-04-10 16:34:46

模型文本

2019-07-16 08:09:32

開源技術(shù) 趨勢

2023-12-03 08:46:20

模型開源

2024-08-30 12:58:43

AI多模態(tài)技術(shù)

2022-08-22 15:42:12

模型圖像

2017-04-06 10:40:49

機(jī)器學(xué)習(xí)開源Python庫

2025-03-03 07:15:00

模型訓(xùn)練AI

2024-08-21 13:18:43

2024-12-18 10:22:49

2024-08-13 15:00:00

大模型提示學(xué)習(xí)

2022-07-28 12:18:40

視覺語言模型

2021-05-12 09:42:25

AI 數(shù)據(jù)人工智能

2023-02-28 12:38:22

谷歌數(shù)據(jù)集機(jī)器翻譯

2023-05-19 13:24:20

模型AI

2022-03-04 19:07:03

模型視覺人工智能

2024-01-15 16:41:00

模型數(shù)據(jù)

2018-10-29 10:08:01

2020-12-31 06:55:37

機(jī)器人自然語言人工智能
點贊
收藏

51CTO技術(shù)棧公眾號