基于跨模態(tài)元遷移,美圖&大連理工的參考視頻目標(biāo)分割方法只需單階段
引言
參考視頻目標(biāo)分割(Referring VOS, RVOS)是一個(gè)新興起的任務(wù),它旨在根據(jù)參考文本,從一段視頻序列中分割出文本所指述的對(duì)象。與半監(jiān)督視頻目標(biāo)分割相比,RVOS 只依賴(lài)抽象的語(yǔ)言描述而不是像素級(jí)的參考掩膜,為人機(jī)交互提供了一種更方便的選擇,因此受到了廣泛關(guān)注。
論文鏈接:https://www.aaai.org/AAAI22Papers/AAAI-1100.LiD.pdf
該研究的主要目的是為解決現(xiàn)有 RVOS 任務(wù)中所面臨的兩大挑戰(zhàn):
- 如何將文本信息、圖片信息進(jìn)行跨模態(tài)融合,從而既保持兩種模態(tài)間的尺度一致性,又能充分地將文本所提供的有用特征參考充分融入到圖片特征中;
- 如何拋棄現(xiàn)有方法的二階段策略(即先在圖片級(jí)別逐幀得到粗略的結(jié)果,再利用該結(jié)果作為參考,經(jīng)過(guò)增強(qiáng)時(shí)序信息的結(jié)構(gòu)細(xì)化得到最終預(yù)測(cè)),將整個(gè) RVOS 任務(wù)統(tǒng)一進(jìn)單階段的框架中。
對(duì)此,該研究提出了一種跨模態(tài)元遷移的端到端 RVOS 框架 ——YOFO,其主要的貢獻(xiàn)和創(chuàng)新點(diǎn)為:
- 只需單階段推理,即可實(shí)現(xiàn)利用參考文本信息直接得到視頻目標(biāo)的分割結(jié)果,在兩個(gè)主流的數(shù)據(jù)集 ——Ref-DAVIS2017 和 Ref-Youtube-VOS 上獲得的效果超越了目前所有二階段方法;
- 提出了一個(gè)元遷移(Meta-Transfer)模塊來(lái)增強(qiáng)時(shí)序信息,從而實(shí)現(xiàn)了更聚焦于目標(biāo)的特征學(xué)習(xí);
- 提出了一個(gè)多尺度跨模態(tài)特征挖掘(Multi-Scale Cross-Modal Feature Mining)模塊,能夠充分融合語(yǔ)言、圖片中的有用特征。
實(shí)現(xiàn)策略
YOFO 框架主要流程如下:輸入圖片和文本先分別經(jīng)過(guò)圖片編碼器和語(yǔ)言編碼器提取特征,隨后在多尺度跨模態(tài)特征挖掘模塊進(jìn)行融合。融合后的雙模態(tài)特征在包含了記憶庫(kù)的元遷移模塊中進(jìn)行簡(jiǎn)化,排除掉語(yǔ)言特征中的冗余信息,同時(shí)能保存時(shí)序信息來(lái)增強(qiáng)時(shí)間相關(guān)性,最后通過(guò)一個(gè)解碼器得到分割結(jié)果。
圖 1:YOFO 框架主要流程。
多尺度跨模態(tài)特征挖掘模塊:該模塊通過(guò)逐級(jí)融合不同尺度的兩個(gè)模態(tài)特征,能夠保持圖像特征所傳達(dá)的尺度信息與語(yǔ)言特征間的一致性,更重要的是保證了語(yǔ)言信息不會(huì)在融合過(guò)程中被多尺度圖像信息所淡化淹沒(méi)。
圖 2:多尺度跨模態(tài)特征挖掘模塊。
元遷移模塊:采用了一種 learning-to-learn 策略,過(guò)程可以簡(jiǎn)單地描述為以下的映射函數(shù)。其中遷移函數(shù)是一個(gè)卷積,則
是它的卷積核參數(shù):
優(yōu)化的過(guò)程可以表達(dá)為以下目標(biāo)函數(shù):
其中,M 代表能夠儲(chǔ)存歷史信息的記憶庫(kù),W 代表不同位置的權(quán)重,能夠?qū)μ卣髦胁煌奈恢觅x予不同的關(guān)注度,Y 代表儲(chǔ)存在記憶庫(kù)中的每個(gè)視頻幀的雙模態(tài)特征。該優(yōu)化過(guò)程盡可能地使元遷移函數(shù)具有重構(gòu)雙模態(tài)特征的能力,同時(shí)也使得整個(gè)框架能夠進(jìn)行端到端的訓(xùn)練。
訓(xùn)練和測(cè)試:訓(xùn)練時(shí)所使用的損失函數(shù)是 lovasz loss,訓(xùn)練集為兩個(gè)視頻數(shù)據(jù)集 Ref-DAVIS2017、Ref-Youtube-VOS,并通過(guò)靜態(tài)數(shù)據(jù)集 Ref-COCO 進(jìn)行隨機(jī)仿射變換模擬視頻數(shù)據(jù)作為輔助訓(xùn)練。元遷移的過(guò)程在訓(xùn)練和預(yù)測(cè)時(shí)都要進(jìn)行,整個(gè)網(wǎng)絡(luò)在 1080ti 上的運(yùn)行速度達(dá)到了 10FPS。
實(shí)驗(yàn)結(jié)果
研究采用的方法在兩個(gè)主流 RVOS 數(shù)據(jù)集(Ref-DAVIS2017 和 Ref-Youtube-VOS)上均取得了優(yōu)異的效果,量化指標(biāo)及部分可視化效果圖如下:
圖 3:在兩個(gè)主流數(shù)據(jù)集上的量化指標(biāo)。
圖 4:在 VOS 數(shù)據(jù)集上的可視化效果。
圖 5:YOFO 的其他可視化效果展示。
研究還通過(guò)一系列的消融實(shí)驗(yàn)以說(shuō)明特征挖掘模塊(FM)以及元遷移模塊(MT)的有效性。
圖 6:特征挖掘模塊(FM)以及元遷移模塊(MT)的有效性。
此外,研究分別對(duì)使用了 MT 模塊和不使用 MT 模塊的解碼器輸出特征進(jìn)行了可視化,可以明顯地看出 MT 模塊能夠正確地捕捉到語(yǔ)言所描述的內(nèi)容且對(duì)干擾噪聲進(jìn)行過(guò)濾。
圖 7:使用 MT 模塊前后的解碼器輸出特征對(duì)比。關(guān)于研究團(tuán)隊(duì)
本論文由美圖影像研究院(MT Lab)和大連理工大學(xué)盧湖川團(tuán)隊(duì)的研究者們共同提出。美圖影像研究院(MT Lab)是美圖公司致力于計(jì)算機(jī)視覺(jué)、機(jī)器學(xué)習(xí)、增強(qiáng)現(xiàn)實(shí)、云計(jì)算等領(lǐng)域的算法研究、工程開(kāi)發(fā)和產(chǎn)品化落地的團(tuán)隊(duì),為美圖現(xiàn)有和未來(lái)的產(chǎn)品提供核心算法支持,并通過(guò)前沿技術(shù)推動(dòng)美圖產(chǎn)品發(fā)展,被稱(chēng)為「美圖技術(shù)中樞」,曾先后多次參與 CVPR、ICCV、ECCV 等計(jì)算機(jī)視覺(jué)國(guó)際頂級(jí)會(huì)議,并斬獲冠亞軍十余項(xiàng)。