GPT-4結(jié)合SAM2:免訓(xùn)練多模態(tài)分割的全新解決方案!| 已開源
免訓(xùn)練多模態(tài)分割領(lǐng)域有了新突破!
中科院信工所、北航、合工大、美團(tuán)等單位聯(lián)合提出了一種名為AL-Ref-SAM 2的方法。
這種方法利用GPT-4和SAM-2來統(tǒng)一多模態(tài)分割,讓系統(tǒng)在免訓(xùn)練的情況下,也能擁有不亞于全監(jiān)督微調(diào)的性能!
≥ 全監(jiān)督方法
多模態(tài)分割主要有兩種方法:一種是依據(jù)文字描述找到視頻中特定對象的分割方法(RVOS),另一種是通過聲音識別視頻中發(fā)聲對象的方法(AVS)。
免訓(xùn)練的多模態(tài)視頻指代分割雖然在數(shù)據(jù)和訓(xùn)練成本上有較大優(yōu)勢,卻由于缺乏在特定任務(wù)數(shù)據(jù)上針對性的模型參數(shù)調(diào)整,導(dǎo)致性能與全監(jiān)督方法有較大差距。
而研究團(tuán)隊(duì)要解決的就是這個(gè)問題。
實(shí)驗(yàn)中,他們對多個(gè)RVOS基準(zhǔn)數(shù)據(jù)集進(jìn)行了廣泛驗(yàn)證,包括Ref-YouTube-VOS、Ref-DAVIS17和MeViS,同時(shí)在AVSBench的多個(gè)子集上也進(jìn)行了測試。
最后的實(shí)驗(yàn)結(jié)果顯示,AL-Ref-SAL 2在這些數(shù)據(jù)集上的表現(xiàn)不僅優(yōu)于其他無需訓(xùn)練和弱監(jiān)督的方法,并且甚至在一定情況下,系統(tǒng)的性能可以與全監(jiān)督方法相媲美。
特別是在Ref-YouTube-VOS和Ref-DAVIS17這兩個(gè)數(shù)據(jù)集上,AL-Ref-SAM 2的表現(xiàn)甚至超過了大多數(shù)全監(jiān)督方法。
△ 免訓(xùn)練設(shè)置下三階段分割基線方法(a)與本文方法(b)的比較
具體咋實(shí)現(xiàn)的?
研究團(tuán)隊(duì)把AL-Ref-SAM 2的算法分成了三個(gè)階段:
第一階段:獲取形式統(tǒng)一的指代信息,對于RVOS任務(wù),指代信息是輸入的文本描述本身,而對于AVS任務(wù),研究人員們利用LBRU模塊將音頻轉(zhuǎn)化為對發(fā)聲對象的語言形式描述。
第二階段:根據(jù)語言指代和視頻內(nèi)容,利用GPT-4進(jìn)行兩階段時(shí)空推理,從視頻中逐步選出關(guān)鍵幀和關(guān)鍵框。
第三階段:以關(guān)鍵幀為分割起點(diǎn),關(guān)鍵框?yàn)槌跏继崾?,利用SAM 2獲得目標(biāo)對象在整段視頻中的分割掩碼序列。
△ AL-Ref-SAM 2的整體流程
具體實(shí)驗(yàn)細(xì)節(jié),請看下文展開~
語言綁定的音頻指代轉(zhuǎn)換(LBRU)
LBRU將音頻信號轉(zhuǎn)換為與語言描述統(tǒng)一的格式(例如“[CLS] that is making sound”,其中[CLS]代表了具體的發(fā)聲對象類別),以減少音頻信息中的語義模糊性和冗余性。
為了獲取發(fā)聲對象的準(zhǔn)確類別,LBRU利用了一個(gè)預(yù)訓(xùn)練音頻分類器,如BEATs,對音頻進(jìn)行分類,并保留置信度前k高的類別文本。
由于這些類別中可能包含了重復(fù)類別或背景聲類別,LBRU進(jìn)一步引入了視頻作為視覺上下文,利用GPT-4根據(jù)視頻內(nèi)容對音頻類別進(jìn)行過濾、合并,并將保留的音頻類別轉(zhuǎn)化為發(fā)出該聲音的對象類別。
△ 語言綁定的音頻指代轉(zhuǎn)換模塊
GPT輔助的關(guān)鍵幀/框選擇(GPT-PS)
GPT-PS利用GPT-4分別進(jìn)行時(shí)序推理選出關(guān)鍵幀,以及空間推理選出關(guān)鍵框。
在時(shí)序推理階段,為了使GPT可以處理視頻格式的內(nèi)容,研究團(tuán)隊(duì)首先對視頻幀進(jìn)行采樣,將采樣后的若干幀拼接為一張圖并在圖上標(biāo)出幀號。
為了顯式引導(dǎo)GPT在理解視頻內(nèi)容的基礎(chǔ)上選擇關(guān)鍵幀,他們還針對性地設(shè)計(jì)了關(guān)鍵幀思維鏈提示模板,要求GPT首先描述整段視頻的場景,再根據(jù)語言指代選出關(guān)鍵幀。
之后,研究人員將語言指代信息和關(guān)鍵幀輸入GroundingDINO模型中,獲得多個(gè)可能的候選框。
在空間推理階段,首先將候選框畫在關(guān)鍵幀上,并且依舊將其與其他采樣幀順序拼接作為視覺信號輸入GPT。
類似地,他們也設(shè)計(jì)了關(guān)鍵框思維鏈提示模板,要求GPT描述每個(gè)候選框中對象的特征和不同對象之間的關(guān)系,并對指代信息進(jìn)行語法分析確定真正的指代主體,最后再根據(jù)語言指代選出包含目標(biāo)對象的候選框作為關(guān)鍵框。
以下是研究團(tuán)隊(duì)得出的相關(guān)數(shù)據(jù):
論文鏈接:https://arxiv.org/pdf/2408.15876
代碼鏈接:https://github.com/appletea233/AL-Ref-SAM2