自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

讓AI更懂物理世界!人大北郵上海AI Lab等提出多模態(tài)分割新方法

人工智能
未來(lái),可以考慮更優(yōu)質(zhì)的多模態(tài)融合技術(shù)、模型應(yīng)用的實(shí)時(shí)性以及數(shù)據(jù)集的擴(kuò)展與多樣化, 以將多模態(tài)指代分割應(yīng)用到視頻分析、醫(yī)療圖像處理、自動(dòng)駕駛和機(jī)器人導(dǎo)航等挑戰(zhàn)中。

讓AI像人類(lèi)一樣借助多模態(tài)線(xiàn)索定位感興趣的物體,有新招了!

來(lái)自人大高瓴GeWu-Lab、北郵、上海AI Lab等機(jī)構(gòu)的研究人員提出Ref-AVS(Refer and Segment Objects in Audio-Visual Scenes,視聽(tīng)場(chǎng)景下的指代分割),讓AI能看、會(huì)聽(tīng),更懂真實(shí)物理世界。

相關(guān)論文已入選頂會(huì)ECCV2024。

圖片圖片

舉個(gè)例子,在下面這張圖中,機(jī)器如何準(zhǔn)確定位真正在演奏樂(lè)器的人?

圖片圖片

搞單打獨(dú)斗肯定不行,但這正是已有研究正在做的。(各自從視覺(jué)、文本和音頻線(xiàn)索的角度出發(fā))

  • 視頻對(duì)象分割(VOS,Video Object Segmentation):通常以第一幀中的對(duì)象掩碼作為參考,指導(dǎo)后續(xù)幀中特定對(duì)象的分割。(嚴(yán)重依賴(lài)于第一幀的精確標(biāo)注)
  • 視頻對(duì)象參考分割(Ref-VOS,Referring Video Object Segmentation):基于自然語(yǔ)言描述分割視頻中的物體,取代了VOS中的掩碼標(biāo)注。(雖然更易于訪問(wèn),但能力有限)
  • 視聽(tīng)分割(AVS,Audio-Visual Segmentation):以音頻為指導(dǎo)來(lái)分割視頻中發(fā)聲的物體。(無(wú)法應(yīng)對(duì)不發(fā)聲的物體)

而新方法Ref-AVS,整合了多個(gè)模態(tài)(文本,音頻和視覺(jué))之間的關(guān)系來(lái)適應(yīng)更真實(shí)的動(dòng)態(tài)視聽(tīng)場(chǎng)景。

這下,同時(shí)在唱歌和彈吉他的人也能被輕松找到了。

且同一段素材還能拿來(lái)反復(fù)用,找出正在發(fā)聲的吉他也不在話(huà)下。

與此同時(shí),研究人員構(gòu)建了一個(gè)名為Ref-AVS Bench的數(shù)據(jù)集,并設(shè)計(jì)了一個(gè)端到端框架來(lái)高效處理多模態(tài)線(xiàn)索。

具體如下。

構(gòu)建了數(shù)據(jù)集Ref-AVS Bench

概括而言,數(shù)據(jù)集Ref-AVS Bench共有40020個(gè)視頻幀,包含6888個(gè)物體和20261個(gè)指代表達(dá)式(Reference Expression)。

每個(gè)數(shù)據(jù)都包含與視頻幀對(duì)應(yīng)的音頻,并提供逐幀的像素級(jí)標(biāo)注。

為了確保所指代對(duì)象(Object)的多樣性,團(tuán)隊(duì)選擇了包含背景的52個(gè)類(lèi)別, 其中48個(gè)類(lèi)別的可發(fā)聲物體,以及3個(gè)類(lèi)別的靜態(tài)、不可發(fā)聲物體。

在視頻收集過(guò)程中,所有視頻均來(lái)自油管并截取10秒。

在整個(gè)手動(dòng)收集過(guò)程中,團(tuán)隊(duì)刻意避免以下情況的視頻:

a) 包含大量相同語(yǔ)義實(shí)例的視頻;
b) 有大量編輯和相機(jī)視角切換的視頻;
c) 包含合成創(chuàng)作的非現(xiàn)實(shí)視頻。

同時(shí),為了提高與真實(shí)世界分布的一致性,團(tuán)隊(duì)挑選了有助于數(shù)據(jù)集內(nèi)場(chǎng)景多樣化的視頻。

比如涉及多個(gè)對(duì)象(如樂(lè)器、人、車(chē)輛等)之間交互的視頻。

圖片

另外,表達(dá)式(Expression)的多樣性是Ref-AVS數(shù)據(jù)集構(gòu)建的核心要素之一。

除去本身固有的文本語(yǔ)義信息,表達(dá)式還由聽(tīng)覺(jué)、視覺(jué)和時(shí)間三個(gè)維度的信息組成。

聽(tīng)覺(jué)維度包含音量、節(jié)奏等特征,而視覺(jué)維度則包含物體的外觀和空間等屬性。

團(tuán)隊(duì)還利用時(shí)間線(xiàn)索來(lái)生成具有時(shí)序提示的引用,例如“先發(fā)出聲音的(物體)”或“后出現(xiàn)的(物體)”。

通過(guò)整合聽(tīng)覺(jué)、視覺(jué)和時(shí)間信息,研究設(shè)計(jì)出豐富的表達(dá)式,不僅可以準(zhǔn)確反映多模態(tài)場(chǎng)景,還可以滿(mǎn)足用戶(hù)對(duì)精確引用的特定需求。

圖片

而且,表達(dá)式的準(zhǔn)確性也是一個(gè)核心關(guān)注點(diǎn)。

研究遵循三個(gè)規(guī)則來(lái)生成高質(zhì)量的表達(dá)式:

1)唯一性:一個(gè)表達(dá)式所指代的對(duì)象必須是唯一的,不能同時(shí)指代多個(gè)對(duì)象。
2)必要性:可以使用復(fù)雜的表達(dá)式來(lái)指代對(duì)象,但句子中的每個(gè)形容詞都應(yīng)該縮小目標(biāo)對(duì)象的范圍,避免對(duì)所要指代的對(duì)象進(jìn)行不必要和冗余的描述。
3)清晰度:某些表達(dá)模板涉及主觀因素,例如“聲音更大的__”。只有在情況足夠清晰時(shí)才應(yīng)使用此類(lèi)表達(dá),以避免產(chǎn)生歧義。

團(tuán)隊(duì)將每段10秒的視頻分成十個(gè)相等的1秒片段,利用Grounding SAM來(lái)分割和標(biāo)記關(guān)鍵幀,隨后要求標(biāo)注員手動(dòng)檢查和更正這些關(guān)鍵幀。

此過(guò)程使團(tuán)隊(duì)能夠在關(guān)鍵幀內(nèi)為多個(gè)目標(biāo)對(duì)象生成掩碼和標(biāo)簽。

一旦確定了關(guān)鍵幀的掩碼,研究就會(huì)應(yīng)用跟蹤算法來(lái)跟蹤目標(biāo)對(duì)象,并在10s的跨度內(nèi)獲得目標(biāo)對(duì)象的最終掩碼標(biāo)簽(Ground Truth Mask)。

到了數(shù)據(jù)分割與統(tǒng)計(jì),測(cè)試集中的視頻及其對(duì)應(yīng)的注釋會(huì)經(jīng)過(guò)訓(xùn)練過(guò)的標(biāo)注人員的細(xì)致審查和校正。

為了全面評(píng)估模型在Ref-AVS任務(wù)中的表現(xiàn),測(cè)試集進(jìn)一步被劃分為三個(gè)不同的子集。

圖片

具體而言,三個(gè)測(cè)試子集包括:

  • 已見(jiàn)子集 (Seen):包括那些在訓(xùn)練集中出現(xiàn)過(guò)的物體類(lèi)別,建立該子集的目的是評(píng)估模型的基本性能。
  • 未見(jiàn)子集 (Unseen):專(zhuān)門(mén)用于評(píng)估模型在未見(jiàn)音視頻場(chǎng)景中的泛化能力。
  • 空指代子集 (Null):測(cè)試模型對(duì)空引用的魯棒性,即表達(dá)式與視頻中的任何對(duì)象都不相關(guān)。

具體咋實(shí)現(xiàn)的?

完成了數(shù)據(jù)集準(zhǔn)備后,團(tuán)隊(duì)利用多模態(tài)線(xiàn)索來(lái)增強(qiáng)表達(dá)式指代能力(Expression Enhancing with Multimodal Cues, EEMC),以實(shí)現(xiàn)更好的視聽(tīng)指代分割。

圖片

具體而言,在時(shí)序雙模態(tài)融合(Temporal Bi-Modal Transformer)模塊中,團(tuán)隊(duì)將包含時(shí)序信息的視聽(tīng)模態(tài)信息(FV, FA)分別與文本信息FT進(jìn)行融合。

注意, 為了讓模型更好的感知時(shí)序信息,研究提出了一種直觀的Cached memory機(jī)制(CV,CA )。

Cached memory需要存儲(chǔ)從開(kāi)始到當(dāng)前時(shí)刻的時(shí)序平均模態(tài)特征,以捕捉時(shí)序變化中多模態(tài)信息的變化幅度。多模態(tài)特征(QV, QA)計(jì)算方式如下:圖片

其中,??表示時(shí)序中的特定時(shí)間步, ??則是一個(gè)可調(diào)節(jié)的超參數(shù)用于控制時(shí)序過(guò)程中模型對(duì)特征時(shí)序變化的敏感度。

當(dāng)此刻的音頻或視覺(jué)特征與過(guò)去特征的均值相比變化不大時(shí), 輸出的特征保持幾乎不變。

然而,當(dāng)變化較為明顯時(shí),cached memory可以放大當(dāng)前特征的差異,從而產(chǎn)生具有顯著特征的輸出。

此后,拼接的多模態(tài)特征被送入Multimodal Integration Transformer模塊中進(jìn)行多模態(tài)融合, 產(chǎn)生包含多模態(tài)信息的指代表達(dá)式的最終特征(QM)作為掩碼解碼器的輸入。

掩碼解碼器是一個(gè)Transformer架構(gòu)的分割基礎(chǔ)模型如MaskFormer,Mask2Former或者SAM。

團(tuán)隊(duì)選擇Mask2Former作為分割基礎(chǔ)模型,將其預(yù)訓(xùn)練的mask queries作為??,將多模態(tài)指代表達(dá)式特征作為 ?? 和 ?? 。

經(jīng)過(guò)一個(gè)cross-attention transformer(CATF)將多模態(tài)指代表達(dá)式特征遷移到mask queries中,從而實(shí)現(xiàn)讓分割基礎(chǔ)模型根據(jù)多模態(tài)特征進(jìn)行分割。

實(shí)驗(yàn)結(jié)果

在定量實(shí)驗(yàn)中,團(tuán)隊(duì)將研究提出的基線(xiàn)方法與其它方法進(jìn)行對(duì)比,且為了公平補(bǔ)充了其他方法缺失的模態(tài)信息。

在Seen子集上的測(cè)試結(jié)果顯示,新方法Ref-AVS超越了其它方法的性能。

同時(shí)在Unseen子集和Null子集上,Ref-AVS展示了可泛化性,并且可以準(zhǔn)確地跟隨指代表達(dá)。

圖片

在定性實(shí)驗(yàn)中, 團(tuán)隊(duì)在Ref-AVS Bench測(cè)試集上對(duì)分割掩碼進(jìn)行可視化,并與AVSegFormer和ReferFormer進(jìn)行比較。

圖片

結(jié)果顯示,ReferFormer在Ref-VOS任務(wù)中的表現(xiàn)以及AVSegFormer在AVS任務(wù)中的表現(xiàn)都未能準(zhǔn)確分割出表達(dá)中描述的對(duì)象。

具體來(lái)說(shuō),AVSegFormer在理解表達(dá)時(shí)遇到困難,往往直接生成聲音源。

例如,在左下角的樣本中,AVSegFormer錯(cuò)誤地將吸塵器分割為目標(biāo),而不是男孩。

另一方面,Ref-VOS可能無(wú)法充分理解音頻-視覺(jué)場(chǎng)景,因此誤將幼童識(shí)別為鋼琴演奏者,如右上角的樣本所示。

相比之下,Ref-AVS方法展現(xiàn)了更出色的能力,能夠同時(shí)處理多模態(tài)表達(dá)和場(chǎng)景,從而準(zhǔn)確地理解用戶(hù)指令并分割出目標(biāo)對(duì)象。

未來(lái),可以考慮更優(yōu)質(zhì)的多模態(tài)融合技術(shù)、模型應(yīng)用的實(shí)時(shí)性以及數(shù)據(jù)集的擴(kuò)展與多樣化, 以將多模態(tài)指代分割應(yīng)用到視頻分析、醫(yī)療圖像處理、自動(dòng)駕駛和機(jī)器人導(dǎo)航等挑戰(zhàn)中。

更多詳情歡迎查閱原論文。

論文地址:https://arxiv.org/abs/2407.10957項(xiàng)目主頁(yè):https://gewu-lab.github.io/Ref-AVS/

責(zé)任編輯:武曉燕 來(lái)源: 量子位
相關(guān)推薦

2025-04-10 09:38:37

2025-02-25 10:04:10

2022-12-08 13:00:10

AI性別偏見(jiàn)

2024-10-23 19:47:54

2020-05-14 14:21:50

谷歌AI數(shù)據(jù)

2025-03-13 09:47:29

2025-01-23 10:08:00

虛擬數(shù)字AI

2025-03-17 08:20:00

神經(jīng)網(wǎng)絡(luò)AI模型

2022-12-12 11:31:39

數(shù)據(jù)學(xué)習(xí)

2023-06-05 10:09:03

研究人工智能

2022-07-25 15:34:01

量化仿真數(shù)據(jù)誤差內(nèi)存占用

2024-10-25 14:30:00

模型AI

2022-09-30 15:15:41

模型框架

2022-05-12 13:39:48

AI研究模型

2023-04-27 13:06:46

AI手機(jī)模型

2022-02-18 09:53:17

AI芯片設(shè)計(jì)

2024-02-06 13:31:55

語(yǔ)義分割損失函數(shù)指標(biāo)

2021-08-31 09:45:15

神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)語(yǔ)音

2025-02-19 11:28:00

2025-02-06 07:26:35

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)