自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

視頻分割大結(jié)局!浙大最新發(fā)布SAM-Track:通用智能視頻分割一鍵直達(dá)

人工智能 新聞
只需要一句話、一個(gè)點(diǎn)擊、一支畫筆,就能在任意場(chǎng)景分割追蹤任意物體!

近期,浙江大學(xué)ReLER實(shí)驗(yàn)室將SAM與視頻分割進(jìn)行深度結(jié)合,發(fā)布Segment-and-Track Anything (SAM-Track)。

SAM-Track賦予了SAM對(duì)視頻目標(biāo)進(jìn)行跟蹤的能力,并支持多種方式(點(diǎn)、畫筆、文字)進(jìn)行交互。

在此基礎(chǔ)上,SAM-Track統(tǒng)一了多個(gè)傳統(tǒng)視頻分割任務(wù),達(dá)成了一鍵分割追蹤任意視頻中的任意目標(biāo),將傳統(tǒng)視頻分割外推至通用視頻分割。

SAM-Track具有卓越的性能,在復(fù)雜場(chǎng)景下僅需單卡就能高質(zhì)量地穩(wěn)定跟蹤數(shù)百個(gè)目標(biāo)。

圖片

項(xiàng)目地址:https://github.com/z-x-yang/Segment-and-Track-Anything

論文地址:https://arxiv.org/abs/2305.06558

效果展示

SAM-Track支持語言輸入作為Prompt。比如,給定類別文本「熊貓」,便可一鍵實(shí)例級(jí)分割追蹤所有屬于「熊貓」這一類別的目標(biāo)。

圖片

也可進(jìn)一步給出更詳細(xì)的描述,比如輸入文字「最左邊的熊貓」,SAM-Track可以定位至特定目標(biāo)進(jìn)行分割追蹤。

圖片

相較于傳統(tǒng)視頻追蹤算法,SAM-Track的另一個(gè)強(qiáng)大之處在于可對(duì)大量目標(biāo)同時(shí)進(jìn)行跟蹤分割,并自動(dòng)檢測(cè)新出現(xiàn)的物體。

圖片

SAM-Track還支持多種交互方式組合使用,用戶可根據(jù)實(shí)際需求搭配。比如使用畫筆來框定與人體緊密連接的滑板,防止分割多余物體,而后使用點(diǎn)擊選擇人體。

全自動(dòng)視頻目標(biāo)分割與追蹤自然也不在話下,各種應(yīng)用場(chǎng)景包括街景、航拍、AR、動(dòng)畫、醫(yī)學(xué)圖像等,均可一鍵分割追蹤并自動(dòng)檢測(cè)新出現(xiàn)的物體。

圖片

如果對(duì)自動(dòng)分割結(jié)果不滿意,用戶可在此基礎(chǔ)上進(jìn)行編輯修正,例如使用點(diǎn)擊來修正過分割的電車。

圖片

同時(shí)最新版本的SAM-Track支持對(duì)追蹤結(jié)果進(jìn)行在線瀏覽,可選擇中間任意一幀的分割結(jié)果進(jìn)行修改和新增目標(biāo),并再次追蹤。

圖片

為了方便用戶線上體驗(yàn),項(xiàng)目提供了WebUI,可通過Colab一鍵部署:

圖片

模型組成

SAM-Track模型基于ECCV'22 VOT Workshop四個(gè)賽道的冠軍方案DeAOT。

DeAOT是一個(gè)高效的多目標(biāo)VOS模型,在給定首幀物體標(biāo)注的情況下,可以對(duì)視頻其余幀中的物體進(jìn)行追蹤分割。

DeAOT采用一種識(shí)別機(jī)制,將一個(gè)視頻中的多個(gè)目標(biāo)嵌入到同一高維空間中,從而實(shí)現(xiàn)了同時(shí)對(duì)多個(gè)物體進(jìn)行追蹤。

DeAOT在多物體追蹤方面的速度表現(xiàn)能夠與其他針對(duì)單個(gè)物體追蹤的VOS方法相媲美。

此外,通過基于分層的Transformer的傳播機(jī)制,DeAOT更好地聚合了長(zhǎng)時(shí)序和短時(shí)序信息,表現(xiàn)出了優(yōu)異的追蹤性能。

由于DeAOT需要參考幀的標(biāo)注來初始化,為了提高便捷性,SAM-Track使用了最近在圖像分割領(lǐng)域大放異彩的Segment Anything Model(SAM)模型來獲取標(biāo)注信息。

利用SAM出色的零樣本遷移能力,以及多種交互方式,SAM-Track能高效地為DeAOT獲取高質(zhì)量的參考幀標(biāo)注信息。

雖然SAM模型在圖像分割領(lǐng)域表現(xiàn)出色,但它無法輸出語義標(biāo)簽,且文本提示也不能很好地支持Referring Object Segmentation及其他依賴深層語義理解的任務(wù)。

因此,SAM-Track模型進(jìn)一步集成了Grounding-DINO,實(shí)現(xiàn)了高精度的語言引導(dǎo)的視頻分割。Grounding DINO是一個(gè)開放集合目標(biāo)檢測(cè)模型,具有很好的語言理解能力。

根據(jù)輸入的類別或目標(biāo)對(duì)象的詳細(xì)描述,Grounding-DINO可以檢測(cè)到目標(biāo)并返回位置框。

SAM-Track模型架構(gòu)

如下圖所示,SAM-Track模型支持了三種物體跟蹤模式,分別為交互跟蹤模式、自動(dòng)跟蹤模式以及融合模式。

圖片

對(duì)于交互跟蹤模式,SAM-Track模型首先會(huì)應(yīng)用SAM,在參考幀中利用點(diǎn)擊或畫框的方式選中目標(biāo),直到得到用戶滿意的交互分割結(jié)果。

如果想要實(shí)現(xiàn)語言引導(dǎo)的視頻物體分割,SAM-Track則會(huì)調(diào)用Grounding-DINO根據(jù)輸入的文本,先得到目標(biāo)物體的位置框,并在此基礎(chǔ)上通過SAM得到感興趣物體的分割結(jié)果。

最后DeAOT將交互分割結(jié)果作為參考幀,對(duì)選中的目標(biāo)進(jìn)行追蹤。在追蹤的過程中,DeAOT會(huì)將過去幀中的視覺嵌入和高維ID嵌入分層傳播到當(dāng)前幀中,實(shí)現(xiàn)逐幀追蹤分割多個(gè)目標(biāo)對(duì)象。因此,SAM-Track能過支持多模態(tài)的交互方式來追蹤分割視頻中的感興趣物體。

然而,交互跟蹤模式無法處理視頻中出現(xiàn)的新出現(xiàn)的物體。限制了SAM-Track在特定領(lǐng)域的應(yīng)用,例如,自動(dòng)駕駛,智慧城市等。

為了進(jìn)一步拓展SAM-Track的應(yīng)用范圍和性能,SAM-Track實(shí)現(xiàn)了自動(dòng)跟蹤模式,對(duì)視頻中出現(xiàn)的新物體進(jìn)行追蹤。

自動(dòng)跟蹤模式通過Segment Everything和Object of Interest Segmentation兩種方式來獲得每n幀中新出現(xiàn)的物體的注釋。對(duì)于新出現(xiàn)的物體的ID分配問題,SAM-Track采用了比較掩碼模塊(CMR)來確定新的對(duì)象的ID。

融合模式則是把交互跟蹤模式和自動(dòng)跟蹤模式相結(jié)合。通過交互式跟蹤模式用戶可以很方便地獲取視頻中第一幀的注釋,而自動(dòng)跟蹤模式則可以處理視頻后續(xù)幀中出現(xiàn)的未被選中的新對(duì)象。追蹤方法的組合擴(kuò)大了SAM-Track的應(yīng)用范圍,增加了SAM-Track的實(shí)用性。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2023-04-23 15:42:18

圖像視頻

2023-04-25 11:36:17

CV模型

2024-12-18 16:47:31

計(jì)算機(jī)視覺圖像分割

2023-03-28 16:37:38

論文視頻

2024-07-30 10:51:51

2024-07-15 12:27:08

2020-03-04 09:35:55

開源技術(shù) 軟件

2024-01-24 09:24:19

自動(dòng)駕駛算法

2023-07-10 15:00:34

圖像模型

2022-01-21 09:31:37

PythonLinux視頻

2023-04-06 13:44:41

摳圖AI

2013-11-27 10:52:48

360騰訊

2025-04-01 00:00:22

數(shù)據(jù)場(chǎng)景競(jìng)品

2020-02-10 07:45:46

QQ騰訊QQ群

2013-01-17 10:44:16

飛視美視頻網(wǎng)絡(luò)統(tǒng)一通信

2024-08-15 08:31:35

SAM 2LLM大型語言模

2024-01-04 17:03:48

微軟Windows

2024-06-25 09:35:04

模型訓(xùn)練

2024-11-21 16:43:57

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)