Meta再下一城:SAM 2 原創(chuàng)
“繼用于圖像的Meta Segment Anything Model (SAM)取得成功之后,我們發(fā)布了SAM 2,這是一種用于在圖像和視頻中實時進行對象分割的統(tǒng)一模型,已經(jīng)達到最先進的性能?!?nbsp;模型適用于增強現(xiàn)實(AR)、虛擬現(xiàn)實(VR)、機器人、自動駕駛車輛和視頻編輯等需要時間定位的應用。
1.SAM 2
分割是計算機視覺的重要組成部分,用于識別哪些圖像像素屬于物體。它在各種現(xiàn)實世界場景中都有應用,從分析科學圖像到編輯照片。最早在2023年,Meta宣布了Segment Anything項目,發(fā)布了Segment Anything模型 (SAM) 和Segment Anything 1B的MaskLet數(shù)據(jù)集 SA-1B,以加速該領域的研究。
Meta發(fā)布的Segment Anything Model 2 (SAM 2)比原來的SAM更準確,速度快六倍。目前支持視頻和圖像中的對象分割。它專為圖像和視頻中的對象分割而設計,通過支持實時處理和zero-shot的泛化、可提示的模型架構,在處理復雜的視覺數(shù)據(jù)方面表現(xiàn)出色。
SAM 2的主要特點:
- SAM 2可以分割以前從未遇到過的物體,表現(xiàn)出強大的零樣本泛化能力。它在17個零樣本視頻數(shù)據(jù)集的交互式視頻分割方面明顯優(yōu)于以前的方法,并且需要的人工交互大約減少三倍。
- SAM 2在其23個數(shù)據(jù)集的零樣本基準測試套件上優(yōu)于SAM,同時速度快 6倍。
- 與之前最先進的模型相比,SAM 2在現(xiàn)有的視頻對象分割基準測試(DAVIS、MOSE、LVOS、YouTube-VOS)方面表現(xiàn)出色。
- 模型實現(xiàn)了實時推理速度,每秒處理大約44幀。這使得SAM 2適用于需要即時反饋的應用,例如視頻編輯和增強現(xiàn)實。
- 用于視頻分割注釋的SAM 2比使用SAM進行手動每幀注釋快 8.4倍。
SAM 2在Apache 2.0許可下可用,因此任何人都可以在SAM 2模型之上構建自己的體驗。目前Meta已經(jīng)開放如下資料:
- SAM 2代碼和權重在寬松的Apache 2.0許可證下。
- BSD-3許可證下的 SAM 2評估代碼。
- SA-V數(shù)據(jù)集,包括 ~51k真實世界視頻和超過600k個Masklet,采用 CC BY 4.0許可。
上面的表格為本次使用的數(shù)據(jù)集和開源VOS數(shù)據(jù)集的對比,比較的維度又視頻數(shù)量、持續(xù)時間、掩碼數(shù)量、掩碼、幀數(shù)和消失率。SA-V Manual僅包含手動注釋的標簽。SA-V Manual+Auto將手動注釋的標簽與自動生成的掩碼相結合。
2.模型細節(jié)
下圖為SAM2的框架,希望通過使用基礎模型 (b) 解決交互式的視覺分割任務 (a),這個模型是在數(shù)據(jù)引擎 (c) 上面采集到的大規(guī)模SA-V的數(shù)據(jù)集上訓練而成。SAM 2通過流式存儲存儲先前的Prompt和預測結果,進而達到能夠通過一個或多個視頻幀上的Prompt(點擊、框或蒙版)的方式分割區(qū)域<形成遮罩!>。
下圖為一個具體的例子,先在視頻的第一幀中對目標對象進行Prompt以獲得該對象的分割結果。綠色點表示正提示(正向提示,表示對象的一部分),紅色點表示負提示(負向提示,表示不是對象的一部分)。SAM 2 會自動將分割結果傳播到后續(xù)幀(用藍色箭頭表示),形成一個MaskLet(綠色部分)。如果SAM 2在某一幀后(例如第 2 幀之后)失去了對對象的跟蹤,可以在新幀中提供額外提示(紅色箭頭),以糾正MaskLet。
第3幀中只需一次點擊即可恢復對象,并將其傳播以獲得正確的 MaskLet。與獨立的SAM +視頻跟蹤器方法相比這種方法更高效。傳統(tǒng)方法在第3幀中需要多次點擊以重新注釋對象。SAM 2的記憶功能使得僅需一次點擊即可恢復對象(如舌頭)的分割結果。這種能力在處理視頻中的對象不僅減少了用戶的操作次數(shù),還能在對象跟蹤失效時進行快速精校。
若從模型架構上來解釋的話,對于給定幀分割預測取決于當前提示和/或先前觀察到的記憶。視頻以流式方式處理,圖像編碼器(綠色)一次消耗一個幀,并與先前幀中的目標對象的記憶(粉色)交叉關注<藍色部分,Cross-Attention,其本質(zhì)上也是利用了多層的Transformer堆疊>。掩碼解碼器(橙色)(也可以選擇接受輸入提示)進行當前幀的分割遮罩預測。
上圖為標注過程,每個過程都有自己的標注器,跟蹤,識別錯誤,持續(xù)校正
與之前的工作進行比較,SAM 2在給出第1幀的真實遮罩之后進行的視頻分割方面表現(xiàn)良好,尤其在準確度(J &F、G)和速度(FPS)方面。所有 FPS 估計值均基于A100 GPU。
