用SAM做零樣本視頻對象分割!港科大等開源首個「稀疏點傳播」方法SAM-PT,性能直追有監(jiān)督SOTA
視頻分割是自動駕駛、機器人技術、視頻編輯等應用場景的基礎技術,但目前的方法在零樣本學習設置下,或是預測未見過的樣本時,會出現性能不一致等問題。
今年4月,Meta AI開源了一個非常強大的圖像分割基礎模型Segment Anything Model(SAM),經過1100萬張圖像訓練后,SAM具有非常強的泛化性能,并可以應用于各種下游應用。
不過,雖然SAM屠榜了整個圖像分割領域,但它并不適用于視頻分割任務。
圖片
最近,來自蘇黎世聯邦理工學院、香港科技大學、瑞士洛桑聯邦理工學院的研究人員發(fā)布了SAM-PT模型,利用穩(wěn)健和稀疏的點選擇(point selection)和傳播(propagation)技術來生成遮罩,將SAM的零樣本能力擴展到動態(tài)視頻的跟蹤和分割任務上,在多個視頻物體分割數據集基準DAVIS, YouTube-VOS和MOSE中取得了穩(wěn)定且強大的零樣本性能。
論文鏈接:https://arxiv.org/pdf/2307.01197.pdf
代碼鏈接:https://github.com/SysCV/sampt
與傳統(tǒng)的、以物體為中心的掩碼傳播策略相比,SAM-PT創(chuàng)新型地使用點傳播來利用與物體語義無關的局部結構信息;并通過對零樣本開放世界不明視頻物體(Unidentified Video Objects, UVO)基準的直接評估,突出了基于點跟蹤的優(yōu)勢,也有助于保持SAM的靈活性。
為了進一步提升模型性能,研究人員利用K-Medoids聚類來進行點的始化,并同時追蹤positive和negative的點以明確區(qū)分目標物體;還采用了多個掩碼解碼來完善掩碼,并設計了一個點重新初始化策略來提高跟蹤的準確性。
SAM-PT
背景知識SAM
視覺基礎模型SAM可用于提示分割任務( promptable segmentation),即在給定「提示」的情況下,進行零樣本和少樣本的圖像分割任務。
SAM的訓練數據為SA-1B,包含1100萬張圖像和超過10億個遮罩,比現有的分割數據集大400倍,大規(guī)模數據也使得SAM對新數據有著非常強大的零樣本泛化性能。
圖片
SAM的實驗結果展現了其從單一前景點產生高質量遮罩的能力,并在使用提示工程的零樣本設置下,對各種下游任務都展現出強大的泛化能力,包括但不限于邊緣檢測、object proposal generation和實例分割任務。
SAM由三個主要部分組成:一個圖像編碼器、一個靈活的提示編碼器和一個快速掩碼解碼器。
圖像編碼器是Vision Transformer(ViT)的主干部分,處理高分辨率的1024×1024圖像,生成64×64空間大小的圖像嵌入。
提示編碼器將稀疏的提示作為輸入,包括點、框和文本,或密集的提示,如遮罩等,并將這些提示翻譯成具有c個維度的token
輕量級掩碼解碼器整合圖像和提示嵌入,實時預測分割掩碼,使SAM能夠以最小的計算開銷適應各種提示。
SAM-PT
雖然SAM在圖像分割方面展現出強大的性能,但它在處理視頻分割任務上卻有內在的局限性。
這篇論文中提出的Segment Anything Meets Point Tracking(SAM-PT)方法有效地將SAM擴展到了視頻,提供了強大的視頻分割性能,并且不需要對任何視頻分割數據進行訓練。
圖片
SAM-PT主要由四個步驟組成:為第一幀選擇查詢點;使用點跟蹤器將選擇的查詢點傳播到所有視頻幀;使用SAM根據傳播的點生成每幀的分割掩碼;通過從預測的遮罩中采樣查詢點來重新初始化。
1. 查詢點的選擇
查詢點(query point)可以表示目標物體(positive points)或指定背景和非目標物體(negative points),用戶可以手動和交互式地提供查詢點,也可以從真實標注遮罩中獲得。
例如,在半監(jiān)督視頻物體分割任務中,標注遮罩是為物體出現的第一幀準備的。
圖片
研究人員使用了不同的點取樣技術,通過考慮幾何位置或特征的不相似性,從真實標注遮罩中獲得查詢點。
抽樣技術包括:
隨機采樣是一種直觀的方法,從地面真實遮罩中隨機選擇查詢點。
K-Medoids采樣,將K-Medoids聚類的聚類中心作為查詢點,以確保對物體不同部分的良好覆蓋以及對噪聲和異常值的穩(wěn)健性。
Shi-Tomasi 采樣,從遮罩下的圖像中提取ShiTomasi corner point,并且已經被證明是很好的追蹤特征。
混合取樣,結合了上述技術的混合方法,可以結合不同技術的獨特優(yōu)勢。
雖然每種方法在影響模型性能方面都有不同的特點,但消融研究顯示,K-Medoids采樣的結果是最好的,可以完整地覆蓋各種物體;其次是Shi-Tomasi采樣方法。
2. 點追蹤(Point Tracking)
用查詢點初始化后,使用穩(wěn)健的點追蹤器在視頻的所有幀中進行點傳播,從而可以得到點軌跡和occulusion分數。
研究人員采用最先進的點跟蹤器PIPS對點進行傳播,因為PIPS對長序列追蹤等有挑戰(zhàn)性的場景下(如object occulusion和re-sppearance)上更加穩(wěn)健,實驗結果也顯示出比鏈式光流傳播(chained optical flow propagation)或第一幀對應(first-frame correspondence)等方法更有效。
3. 分割
在預測的軌跡中,non-occulded點作為目標物體在整個視頻中的指示器,可以用來提示SAM,并利用其固有的泛化能力來輸出每幀分割掩碼預測。
與需要對視頻分割數據進行訓練或微調的傳統(tǒng)跟蹤方法不同,該方法在零樣本視頻分割任務中表現出色。
圖片
研究人員通過兩次調用SAM來結合正樣本點和負樣本點:首先用正樣本點提示SAM來定義物體的初始位置;然后同時用正負點以及之前的掩碼預測來提示SAM,其中負樣本點在物體和背景之間提供了更細微的區(qū)別,并有助于消除錯誤的分割區(qū)域。
最后通過重復第二次的SAM提示來執(zhí)行數量不等的遮罩優(yōu)化迭代,利用SAM將模糊的遮罩細化為更精確的遮罩,從消融實驗中也可以看到這步可以明顯提高視頻物體分割的性能。
4. 點追蹤重初始化
一旦prediction horizon中h=8幀,研究人員可以選擇使用預測的遮罩對查詢點進行重新初始化,并將該變體表示為SAM-PT-reinit;在達到8之前,使用最后一個預測遮罩對新點進行采樣。
在這個階段,所有之前的點都會被丟棄,并用新的采樣點來代替。
對新的點重復步驟1-4,直到視頻中的所有幀都被處理完畢;重新初始化過程的作用是通過丟棄已經變得不可靠或被遮擋的點來提高跟蹤的準確性,同時納入視頻中后來變得可見的物體分割的點。
實驗部分
視頻對象分割
從實驗結果來看,SAM方法在DAVIS 2017數據集上優(yōu)于其他沒有在任何視頻對象上訓練過的方法。
圖片
J&F指標的平均得分是76.6分,比PerSAM-F高出4.7分,比SegGPT通用模型高出一個百分點,實驗重復測試了8次,表中列出了平均值和標準差。
SAM-PT方法在YouTube-VOS 2018和MOSE 2023數據集上的表現也超過了PerSAM-F,取得了67.0和41.0的平均分;但在不同的遮罩訓練數據下,SAM-PT這兩個數據集上的表現弱于SegGPT
圖片
雖然SAM-PT的零樣本學習性能很有競爭力,但某些限制仍然存在,主要是由于點追蹤器在處理遮擋、小物體、運動模糊和重新識別方面的限制,錯誤可能會傳播到未來的視頻幀中。
圖片