發(fā)揮offline方法的潛力,武大&快手提出解耦合的視頻實例分割框架DVIS
視頻分割任務(wù) (Video Segmentation) 由圖像分割任務(wù)擴(kuò)展而來,旨在同時分割、檢測、追蹤視頻中的所有目標(biāo),是一項比圖像分割更具挑戰(zhàn)的基礎(chǔ)任務(wù)。
相比于逐幀處理視頻幀的圖像分割算法,視頻分割算法可以提供時序穩(wěn)定、準(zhǔn)確的分割結(jié)果,并追蹤每一個單獨(dú)的目標(biāo),實現(xiàn)視頻中實例級別的理解與編輯功能。視頻分割在視頻編輯、短視頻基礎(chǔ)工具、自動駕駛、監(jiān)控安防等下游任務(wù)有著重要作用。
視頻編輯(目標(biāo)擦除)[a]
視頻編輯(視頻換背景)[b]
自動駕駛(車輛與行人分割與追蹤)
近年來,Transformer [1] 在 CV 中各個領(lǐng)域被廣泛應(yīng)用。DETR [2] 作為基于 Transformer 的經(jīng)典工作之一,在圖像目標(biāo)檢測、圖像實例分割領(lǐng)域展現(xiàn)出了強(qiáng)大的潛力。相比于基于 ROI 的實例表征方式,DETR 所采用的基于 Query 的實例表征方式展現(xiàn)出了更強(qiáng)勁的表征能力以及靈活性。受到圖像目標(biāo)檢測領(lǐng)域進(jìn)展的啟發(fā),VisTR [9] 首次將 Transformer 應(yīng)用于 VIS 領(lǐng)域,展現(xiàn)出了巨大的性能提升。隨后基于 Transformer 的方法在 VIS 領(lǐng)域成為了主流。
目前視頻分割領(lǐng)域的方法可以分為在線 (online) 與離線 (offline) 方法。在線方法在預(yù)測當(dāng)前幀結(jié)果時以當(dāng)前幀及歷史幀作為輸入,主要應(yīng)用于需要實時處理的需求場景,如自動駕駛中的實時感知。離線方法在預(yù)測當(dāng)前幀結(jié)果時可以利用視頻中任意幀作為輸入,主要應(yīng)用于離線處理的需求場景,如視頻編輯等。
現(xiàn)有的 SOTA 的 online 方法 (MinVIS [3]、IDOL [4] 等) 遵循著先執(zhí)行圖像分割后逐幀關(guān)聯(lián)實例的技術(shù)路線。這種技術(shù)路線并未根據(jù)其他幀的信息來優(yōu)化當(dāng)前幀的分割結(jié)果,因此缺乏對于視頻信息的有效利用。
現(xiàn)有的 SOTA 的 offline 方法 (SeqFormer [5]、Mask2Former-VIS [6]、VITA [7]、IFC [8] 等) 采用一個緊耦合網(wǎng)絡(luò)來端到端地處理視頻分割任務(wù)。雖然這種技術(shù)路線理論上可以更加有效地利用視頻信息,但是在長視頻以及復(fù)雜場景中,性能卻不盡人意。如以下視頻抽幀所示,當(dāng)視頻中出現(xiàn)很多個同類目標(biāo)發(fā)生相互遮擋換位等情況時,Mask2Former-VIS 的目標(biāo)跟蹤結(jié)果出現(xiàn)錯亂,分割精度也受到影響。
Mask2Former-VIS 在換位場景極易追蹤出錯(ID 請放大觀看)
offline 方法相比于 online 方法可以利用更多的信息,因此理論上應(yīng)該有著更好的表現(xiàn)。然而事實并非如此,在復(fù)雜場景下現(xiàn)有的 offline 方法的性能顯著低于 online 方法。我們認(rèn)為這是由于現(xiàn)有的 offline 方法對實例表征的設(shè)定所導(dǎo)致的?,F(xiàn)有的 offline 方法采用單一的可學(xué)習(xí)的 query 來表征視頻中的一個實例,這種可學(xué)習(xí)的 query 可以被看作位置以及大小先驗。然而在實際場景中,某個實例的表觀和空間位置都可能發(fā)生大幅變化,因此僅靠位置與大小先驗很難從所有幀中都探測到該實例的正確特征。 正如上面視頻 demo 所示,3 號 query(紅色掩碼覆蓋)學(xué)習(xí)到的先驗位置信息處在視頻的右側(cè),然而視頻前段所標(biāo)記的大象在視頻結(jié)束時已運(yùn)動至視頻左側(cè)。
那么如何充分利用視頻信息以使得 offline 方法發(fā)揮出理論上應(yīng)有的潛力?來自武漢大學(xué)與快手 Y-tech 的研究者共同研發(fā)了一種新的視頻實例分割算法——DVIS,回答了該問題。研究論文已被 ICCV2023 接收。
- 論文地址:https://arxiv.org/pdf/2306.03413.pdf
- 項目地址:https://github.com/zhang-tao-whu/DVIS
DVIS 在 OVIS、YouTube-VIS、VIPSeg 等數(shù)據(jù)集上均取得了 SOTA 表現(xiàn),在 OVIS 數(shù)據(jù)集上從 2023 年 2 月霸榜至今,并在 CVPR 2023 的 PVUW 挑戰(zhàn)賽、ICCV2023 的 LSVOS 挑戰(zhàn)賽等多項賽事中取得冠軍。
具體來說,DVIS 具有以下特性:
- DVIS 可以實現(xiàn)視頻通用分割,可以處理視頻實例分割 (VIS)、視頻語義分割 (VSS) 以及視頻全景分割 (VPS) 三大任務(wù)。
- DVIS 可以在 online 以及 offline 模式下運(yùn)行。
- 解耦的設(shè)計使得 DVIS 訓(xùn)練所需要的計算資源較少,相比于 segmenter 僅帶來了不足 5% 的額外計算代價,DVIS-R50 可以在 2080Ti 上一天內(nèi)完成訓(xùn)練。
- DVIS 在多個 VIS 以及 VPS 的數(shù)據(jù)集上均取得 SOTA 性能。
效果展示
在本文之前,VIS 領(lǐng)域的 SOTA 方法 MinVIS 在復(fù)雜視頻上的表現(xiàn)較差,主要體現(xiàn)在目標(biāo)跟蹤 ID 容易發(fā)生錯亂、分割掩碼破碎等現(xiàn)象。本文提出的 DVIS 則可以在復(fù)雜長視頻中追蹤并穩(wěn)定分割目標(biāo)。MinVIS 和 DVIS 的對比如下視頻所示。
除此之外,DVIS 在目標(biāo)占畫面比例較小時依然表現(xiàn)良好:
方法簡介
既然直接建模實例在整個視頻上的表征是困難的,那么是否可以首先在單幀中建模實例,然后逐幀關(guān)聯(lián)實例來獲取同一實例在所有幀的表征,最后再對實例的時序信息加以利用。毫無疑問,逐幀關(guān)聯(lián)的難度要比直接關(guān)聯(lián)所有視頻幀上的同一實例小得多。在給出時間上良好對齊的實例特征的情況下,有效地對這些特征加以利用也是輕而易舉的。
我們將 VIS 任務(wù)分解為圖像分割、物體關(guān)聯(lián)、時序精化三個子步驟,相應(yīng)的我們分別設(shè)計 segmenter、tracker 和 refiner 三個網(wǎng)絡(luò)模塊來處理這三個子步驟。其中圖像分割即為在單幀中分割出目標(biāo)并獲取目標(biāo)的表征。物體關(guān)聯(lián)即為關(guān)聯(lián)相鄰幀的目標(biāo)表征,為 refiner 提供一個良好對齊的初值。時序精化即為基于對齊好的物體時序信息來優(yōu)化物體的分割結(jié)果以及追蹤結(jié)果。
當(dāng) DVIS 的架構(gòu)確定好后,我們需要針對圖像分割、物體關(guān)聯(lián)、時序精化三個子步驟分別設(shè)計合理的 segmenter、tracker 以及 refiner 網(wǎng)絡(luò)。圖像分割子步驟中,我們采用了 SOTA 的圖像通用分割網(wǎng)絡(luò) Mask2Former 作為 segmenter 來提取物體的表征;物體關(guān)聯(lián)子步驟中,我們將追蹤建模為參考去噪 / 重建任務(wù),并設(shè)計了 Referring Tracker 來進(jìn)行穩(wěn)健的目標(biāo)關(guān)聯(lián);在時序精化子步驟中,我們基于 1D 卷積以及 Self Attention 實現(xiàn)了 Temporal Refiner 來有效地利用物體的時序信息。
1. Referring Tracker
DVIS 將相鄰幀物體的關(guān)聯(lián)任務(wù)建模為根據(jù)上一幀物體 query 來重建當(dāng)前幀對應(yīng)的物體 query,即給定上一幀物體的 query 作為 reference query,然后從 segmenter 輸出的當(dāng)前幀的 object query 中聚合信息,最后輸出 reference query 相應(yīng)的實例在當(dāng)前幀的掩碼和類別。Referring Tracker 通過 Referring Cross Attention 來學(xué)習(xí)以上過程。Referring Cross Attention 充分利用 refrence query 來指導(dǎo)信息的聚合并阻隔了 reference query 與當(dāng)前信息的混雜,其由標(biāo)準(zhǔn) Cross Attention 稍作改動而得到:
2. Temporal Refiner
在 Referring Tracker 輸出在時間維度上基本對齊的目標(biāo) query 后,就可以很容易的通過標(biāo)準(zhǔn)操作(如 1D 卷積以及 Self Attention)來對時序特征進(jìn)行有效利用。我們設(shè)計的 Temporal Refiner 也非常簡單,由 1D 卷積以及 Self Attention 來聚合時序特征。Temporal Refiner 基于物體的時序特征來優(yōu)化分割結(jié)果以及追蹤結(jié)果。
值得一提的是 DVIS 的設(shè)計很靈活,Referring Tracker 可以疊加于任何 query-based 的圖像分割器來實現(xiàn)在線的視頻分割,Temporal Refiner 同樣可以疊加于任何在線的視頻分割器來獲取更強(qiáng)大的分割性能。
實驗結(jié)果
我們在 OVIS 數(shù)據(jù)集上對于 Referring Tracker 和 Temporal Refiner 的作用進(jìn)行了消融實驗。Tracker 的主要作用是實現(xiàn)更魯棒的目標(biāo)關(guān)聯(lián),尤其是對于中度遮擋和重度遮擋的物體有較大改善(如下表所示,為中度遮擋以及重度遮擋的目標(biāo)分別帶來了 5.2 AP 和 4.3 AP 的性能提升)。Refiner 的主要作用是充分利用時序信息,結(jié)果顯示由于時序信息的有效利用,Temporal Refiner 對于被輕度、中度、重度遮擋物體的性能都有顯著提升(如下表所示,為輕度、中度以及重度遮擋的目標(biāo)分別帶來了 2.4 AP 和 1.8 AP 和 5.1 AP 的性能提升)。
并且,由于 Referring Tracker 和 Temporal Refiner 僅處理 object query,因此計算代價很小,計算量總和少于 Segmenter 的 5%(見下表):
DVIS 在 OVIS、YouTube-VIS (2019,2021) 以及 VIPSeg 等數(shù)據(jù)集上均取得 SOTA:
結(jié)論
在本文中,我們提出了 DVIS,一種將 VIS 任務(wù)解耦的框架,將 VIS 任務(wù)分為三個子任務(wù):分割,跟蹤和細(xì)化。我們的貢獻(xiàn)有三個方面:1)我們將解耦策略引入了 VIS 任務(wù)并提出了 DVIS 框架,2)我們提出了 Referring Tracker,通過將幀間關(guān)聯(lián)建模為引用去噪來增強(qiáng)跟蹤的魯棒性,3)我們提出了 Temporal Refiner,利用整個視頻的信息來精化分割結(jié)果,彌補(bǔ)了之前工作在這方面的缺失。結(jié)果表明,DVIS 在所有 VIS 數(shù)據(jù)集上實現(xiàn)了 SOTA 性能。
雖然 DVIS 的設(shè)計來源于對 VIS 領(lǐng)域內(nèi)既有方法不足的反思,但是 DVIS 的設(shè)計并不局限于視頻實例分割領(lǐng)域,其可以無任何改動的在 VIS,VPS 和 VSS 上都取得 SOTA 性能,這證明了 DVIS 的通用性與強(qiáng)大潛力。我們希望,DVIS 將成為一個強(qiáng)大且基礎(chǔ)的基準(zhǔn),并且我們的解耦洞見將激發(fā)在線和離線 VIS 領(lǐng)域的未來研究。
從未來技術(shù)發(fā)展的角度上,我們將會繼續(xù)探索面向圖像、視頻以及更多模態(tài)的基礎(chǔ)視覺感知技術(shù),從模型通用性、開放類別等角度進(jìn)一步拓展基礎(chǔ)視覺感知技術(shù)的邊界。