分割一切還不夠,還要視頻跟蹤一切,《清明上河圖》也能輕松拿下
本月初,Meta 發(fā)布「分割一切」AI 模型(Segment Anything Model,簡稱 SAM),可以為任何圖像或視頻中的任何物體生成 mask,甚至包括沒有見過的物體和圖像。有人將這一研究比喻為計算機視覺領域的 GPT-3 時刻之一。
Meta 表示,「SAM 已經學會了關于物體的一般概念,可以為任何圖像或視頻中的任何物體生成 mask,甚至包括在訓練過程中沒有遇到過的物體和圖像類型。SAM 足夠通用,可以涵蓋廣泛的用例,并且可以在新的圖像『領域』即開即用,無需額外的訓練?!?/span>
該模型一經發(fā)布,迅速引起計算機視覺領域的轟動,更是有人發(fā)出「CV 不存在了」這樣的感慨。
然而目前 SAM 的應用主要集中在圖像領域,在視頻領域的應用仍然未被深入探索,尤其是對視頻目標的跟蹤 / 分割,仍是巨大挑戰(zhàn)。同時,現(xiàn)有的跟蹤模型的局限性也很明顯,如,場景切換在現(xiàn)實視頻中很常見,而現(xiàn)有的跟蹤模型只能在單一場景下實現(xiàn)目標的精準定位;現(xiàn)有的模型要求準確的模版初始化,需要人為提供目標邊界框或精準掩碼,因而可用性被極大限制。
近日,南方科技大學鄭鋒團隊提出了「跟蹤一切」(Track Anything Model ,TAM)的交互工具,其在視頻中實現(xiàn)高性能的交互式跟蹤和分割。Track Anything 是基于 SAM 的二次創(chuàng)作模型,適用于視頻領域任意目標的跟蹤任務,可以通過簡單的鼠標點擊實現(xiàn)對任意視頻任意目標的像素級跟蹤,實現(xiàn)了目標跟蹤的交互性、靈活性、可用性。
- 論文地址:https://arxiv.org/pdf/2304.11968.pdf
- 項目地址:https://github.com/gaomingqi/Track-Anything
- Demo 地址:https://huggingface.co/spaces/watchtowerss/Track-Anything
Track Anything:交互式跟蹤任意視頻任意目標
Track Anything 效果到底如何呢?我們先從幾個示例來說明。首先是多目標跟蹤與分割。《清明上河圖》大家早已耳聞,畫中人物眾多、形態(tài)各異,其間還穿插各種動作等等。想要跟蹤里面的目標難度還是比較大的。下面視頻顯示 Track Anything 很好的跟蹤了物體。
接下來考察 Track Anything 在快速運動場景下的跟蹤能力。眾所周知,打籃球需要動作敏捷、健步如飛…… 用 AI 技術跟蹤一位籃球運動員并不容易,加之運動員動作幅度大、相互之間出現(xiàn)遮擋等,都加大了跟蹤難度,出現(xiàn)錯誤跟蹤、漏跟蹤情況。但從下面展示的效果來看,即便是在瞬息萬變的籃球比賽,Track Anything 跟蹤效果都做的非常好。
接下來,我們在看一個示例。從下面視頻中可以看到,一位身姿矯健的男生靈活的跨越眾多障礙,即便人的運動速度再快、動作再復雜等,Track Anything 都能很好的處理。
由于 Track Anything 跟蹤效果非常好,受到廣大網友的好評。就像下面這位網友所說的:「這項研究給人一種強烈的終結者的感覺。SAM 在分割圖像方面很在行,但在視頻方面卻不出色,而TMA僅通過少量人工輸入,就能很好的實現(xiàn)對視頻中物體的跟蹤與分割。」
技術介紹
鄭鋒團隊通過以使用者為中介的 SAM 與 VOS 模型的交互式組合,提出了 Track Anything 工具,它擁有強大的視頻目標跟蹤能力,并提供用戶友好的操作界面,只需要簡單的點擊操作,就可以任意地跟蹤用戶感興趣的一個或多個目標區(qū)域,還可以根據用戶需求靈活調整目標對象,并自帶用戶糾錯和視頻編輯功能。其技術流程如下:
1 基于 SAM,用戶通過正負樣本點的選取,確定目標對象在視頻中某一幀的空間區(qū)域。
2 使用用戶確定的區(qū)域作為模板初始化跟蹤模型。跟蹤過程中,通過建立每個視頻幀與模板區(qū)域之間的密集關聯(lián),實現(xiàn)將用戶選取信息向整個視頻的傳遞過程,從而實現(xiàn)目標跟蹤。
3 跟蹤過程中,用戶可以隨時暫停,同樣通過正負樣本選取的方式,實現(xiàn)對其他目標的追蹤,或修正當前目標追蹤的結果。
4 基于跟蹤結果,用戶可以使用目標擦除或視頻修復功能,實現(xiàn)在視頻中對特定區(qū)域的編輯。
總之,通過 Track Anything,使用者可以輕松地完成視頻中單個或多個目標的精確標注,視頻特定區(qū)域提取及編輯,以及長時 / 轉場視頻中的目標跟蹤。
相關功能陸續(xù)上線中,歡迎大家試用!
鄭鋒團隊不僅在視頻領域研發(fā)了Track-Anything,還在圖像和語言領域還推出了Caption-Anything系統(tǒng)。它是一個多功能的圖像處理工具,結合了Segment Anything、Visual Captioning和ChatGPT在圖像和語言領域的能力。項目地址:https://github.com/ttengwang/Caption-Anything/。