自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

殺瘋了!Meta開源SAM-2:可商用,隨意分割視頻、圖像

發(fā)布于 2024-7-30 10:38
瀏覽
0收藏

2023年4月5日,Meta首次開源了視覺分割模型SAM,能夠根據(jù)交互和自動(dòng)化兩種方式任意切割視頻、圖像中的所有元素,當(dāng)時(shí)這個(gè)模型被譽(yù)為計(jì)算機(jī)視覺界的“ChatGPT時(shí)刻”。目前,SAM在Github超過(guò)45000顆星。


今天凌晨,Meta在SAM的基礎(chǔ)之上對(duì)架構(gòu)、功能以及準(zhǔn)確率等進(jìn)行大量更新,正式開源了SAM-2,并支持Apache 2.0規(guī)則的商業(yè)化。這也是繼上周Llama 3.1之后,再次開源重磅模型。


同時(shí)Meta還分享了SAM-2的訓(xùn)練數(shù)據(jù)集SA-V,包含了51,000真實(shí)世界視頻和超過(guò)600,000個(gè)時(shí)空遮罩,這比其他同類數(shù)據(jù)集大50倍左右,可幫助開發(fā)人員構(gòu)建更好的視覺模型。


SAM-2開源地址:https://github.com/facebookresearch/segment-anything-2

在線demo:https://sam2.metademolab.com/

數(shù)據(jù)集地址:https://ai.meta.com/datasets/segment-anything-video/

殺瘋了!Meta開源SAM-2:可商用,隨意分割視頻、圖像-AI.x社區(qū)

SAM-2架構(gòu)簡(jiǎn)單介紹

SAM-2基礎(chǔ)架構(gòu)是基于transformer模型并引入了流式記憶機(jī)制,主要由圖像編碼器、記憶編碼器、記憶注意力模塊、提示編碼器和掩模解碼器等模塊組成。


圖像編碼器作為SAM-2處理視頻幀的起點(diǎn)采用了流式處理方法,能夠處理任意長(zhǎng)度的視頻,相比第一代可以使用更少的交互提升3倍效率。它使用的是一個(gè)預(yù)訓(xùn)練的Hiera模型,能夠提供多尺度的特征表示,為后續(xù)的記憶注意力模塊和掩模解碼器提供豐富的上下文信息。

殺瘋了!Meta開源SAM-2:可商用,隨意分割視頻、圖像-AI.x社區(qū)

記憶編碼器和記憶注意力模塊是本次SAM-2的重要?jiǎng)?chuàng)新之一。記憶編碼器負(fù)責(zé)將模型先前的預(yù)測(cè)和用戶交互動(dòng)作編碼為記憶,并將這些記憶存儲(chǔ)在記憶庫(kù)中,用于影響后續(xù)幀的分割結(jié)果。


記憶注意力模塊則利用這些記憶來(lái)增強(qiáng)當(dāng)前幀的特征表示,使其能夠更好地捕捉目標(biāo)對(duì)象在時(shí)間序列中的動(dòng)態(tài)變化

殺瘋了!Meta開源SAM-2:可商用,隨意分割視頻、圖像-AI.x社區(qū)

記憶編碼器通過(guò)將預(yù)測(cè)的分割掩模降采樣并與當(dāng)前幀的特征融合,生成記憶特征。隨后通過(guò)一系列輕量級(jí)的卷積層進(jìn)一步處理,以整合信息。記憶庫(kù)則保留了目標(biāo)對(duì)象在視頻中的歷史信息,通過(guò)維護(hù)一個(gè)先進(jìn)先出隊(duì)列來(lái)存儲(chǔ)最近N幀的記憶。


提示編碼器的設(shè)計(jì)遵循了SAM的原則,能夠接受點(diǎn)擊、框選或遮罩等不同類型的提示,以定義給定幀中對(duì)象的范圍。這些稀疏提示通過(guò)位置編碼和學(xué)習(xí)到的嵌入表示進(jìn)行表示,而遮罩則通過(guò)卷積操作進(jìn)行嵌入,并與幀嵌入相加。

殺瘋了!Meta開源SAM-2:可商用,隨意分割視頻、圖像-AI.x社區(qū)

掩模解碼器的設(shè)計(jì)在很大程度上遵循了第一代SAM的架構(gòu),使用了雙向transformer塊,這些塊更新提示和幀嵌入。為了處理可能存在多個(gè)兼容目標(biāo)掩模的模糊提示,SAM-2預(yù)測(cè)每個(gè)幀上的多個(gè)掩模,這對(duì)于確保模型輸出有效掩模至關(guān)重要。

SA – V訓(xùn)練數(shù)據(jù)集

現(xiàn)有的視頻分割數(shù)據(jù)集通常存在一些限制,例如,注釋對(duì)象主要集中在人、車輛和動(dòng)物等特定類別,并且往往只覆蓋整個(gè)對(duì)象而忽略了部分和子部分。


此外,這些數(shù)據(jù)集的規(guī)模相對(duì)較小,無(wú)法滿足訓(xùn)練強(qiáng)大的視頻分割模型的需求。為了解決這些難題,Meta開發(fā)了SA – V數(shù)據(jù)集并使用了三大階段。

殺瘋了!Meta開源SAM-2:可商用,隨意分割視頻、圖像-AI.x社區(qū)

在第一階段,使用了SAM模型來(lái)輔助人類標(biāo)注。標(biāo)注者的任務(wù)是在視頻的每幀中以每秒6幀的速度使用SAM和像素精確的手動(dòng)編輯工具來(lái)標(biāo)注目標(biāo)對(duì)象的掩碼。


由于這是一種逐幀的方法,所有幀都需要從頭開始標(biāo)注掩碼,因此流程非常緩慢,平均標(biāo)注時(shí)間為每幀37.8秒。但這種方法能夠產(chǎn)生高質(zhì)量的空間標(biāo)注,在這個(gè)階段,共收集了16000個(gè)掩碼片段,涵蓋了1400個(gè)視頻。


第二階段,引入了SAM 2 Mask,它只接受掩碼作為提示。標(biāo)注者首先使用SAM和其他工具在第一幀中生成空間掩碼,然后使用SAM 2 Mask將標(biāo)注的掩碼在時(shí)間上傳播到其他幀,以獲得完整的時(shí)空掩碼片段。

殺瘋了!Meta開源SAM-2:可商用,隨意分割視頻、圖像-AI.x社區(qū)

通過(guò)這個(gè)階段的工作,收集了635,000個(gè)掩碼片段,標(biāo)注時(shí)間下降到每幀7.4秒,相比第一階段有了顯著的提高,速度提升了約5.1倍。

第三階段,使用了完全功能的SAM-2,它能夠接受各種類型的提示,包括點(diǎn)和掩碼。與前兩個(gè)階段不同,SAM-2受益于對(duì)象在時(shí)間維度上的記憶來(lái)生成掩碼預(yù)測(cè)。

殺瘋了!Meta開源SAM-2:可商用,隨意分割視頻、圖像-AI.x社區(qū)

這意味著標(biāo)注者只需要偶爾對(duì)SAM 2提供的預(yù)測(cè)掩碼進(jìn)行細(xì)化點(diǎn)擊,就能夠在中間幀中編輯預(yù)測(cè)的掩碼片段,而不需要像在第一階段那樣從頭開始標(biāo)注。通過(guò)多次重新訓(xùn)練和更新SAM-2,標(biāo)注時(shí)間進(jìn)一步下降到每幀4.5秒,相比第一階段速度提升了約8.4倍。


所以,SA – V在開發(fā)SAM-2過(guò)程中發(fā)揮了重要作用,也是目前最大視覺分割訓(xùn)練數(shù)據(jù)集之一。


本文轉(zhuǎn)自 AIGC開放社區(qū) ,作者:AIGC開放社區(qū)


原文鏈接:??https://mp.weixin.qq.com/s/eutXy6YCWsvtv-wGAcNaPA??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦