譯者 | 李睿
審校 | 重樓
Meta公司發(fā)布的對象分割模型SAM 2可以執(zhí)行實時圖像和視頻分割,并且可以應(yīng)用于許多領(lǐng)域,而無需對特定數(shù)據(jù)進(jìn)行微調(diào)。
Meta公司日前發(fā)布了其新的Segment Anything Model 2 (SAM 2),由于目前人們主要關(guān)注的是大型語言模型(LLM),因此并沒有得到應(yīng)有的關(guān)注。SAM 2可以進(jìn)行實時圖像和視頻分割,并且可以應(yīng)用于許多領(lǐng)域,而無需對特定數(shù)據(jù)進(jìn)行微調(diào)。
圖1使用Meta的SAM 2模型進(jìn)行對象分割
Meta公司已經(jīng)發(fā)布了模型權(quán)重、代碼和用于訓(xùn)練它的數(shù)據(jù)集,這將對研究和開發(fā)社區(qū)非常有用。以下是SAM 2的工作原理及其對許多工業(yè)應(yīng)用程序(包括未來幾代LLM)可能產(chǎn)生的影響。
從SAM到SAM 2
對象分割是一項復(fù)雜的任務(wù),需要識別圖像中屬于對象的所有像素。傳統(tǒng)上,創(chuàng)建對象分割模型是一項非常復(fù)雜的任務(wù),需要專業(yè)技術(shù)知識、目標(biāo)應(yīng)用程序的大量注釋數(shù)據(jù)以及成本昂貴的機(jī)器學(xué)習(xí)訓(xùn)練基礎(chǔ)設(shè)施。
Meta公司于2023年發(fā)布的SAM改變了這一現(xiàn)狀,它提提供了一種可以開箱即用的模型來處理許多用例。SAM可以接受“提示”,提示可以包括點、邊界框或文本,并檢測哪些像素屬于與提示對應(yīng)的對象。這相當(dāng)于LLM的對象分割,它可以在不進(jìn)行再訓(xùn)練的情況下完成許多任務(wù)。
SAM的工作原理是學(xué)習(xí)匹配輸入圖像的編碼,并為每個對象提示轉(zhuǎn)換為彩色像素。該模型在SA-1B上進(jìn)行訓(xùn)練,SA-1B是一個包含10億張注釋圖像的數(shù)據(jù)集。關(guān)于數(shù)據(jù)注釋過程的一個有趣的事實是,研究人員使用了一個迭代過程。
他們首先在一組帶注釋的示例上訓(xùn)練了初始版本的SAM。然后,使用該模型來幫助注釋者加快下一組示例的注釋過程。他們利用新的數(shù)據(jù)對SAM進(jìn)行微調(diào),提高其性能,并以更快的速度重復(fù)這個循環(huán)。
圖2 SAM架構(gòu)
SAM已經(jīng)被用于各種用途,從Instagram等消費者應(yīng)用程序到科學(xué)和醫(yī)學(xué)應(yīng)用程序。SAM也成為圖像標(biāo)記過程的重要組成部分,幫助機(jī)器學(xué)習(xí)團(tuán)隊加快為其專業(yè)分割模型創(chuàng)建訓(xùn)練示例的過程。
SAM 2通過添加一些組件來改進(jìn)SAM,使其更適合檢測視頻中的同一對象。視頻中對象分割的挑戰(zhàn)在于對象可能會變形、遮擋或在不同幀中從不同角度顯示。SAM 2添加了內(nèi)存組件,使模型能夠確??鐜囊恢滦?。
記憶機(jī)制由記憶編碼器、記憶庫和記憶注意力模塊組成。當(dāng)應(yīng)用于靜止圖像時,內(nèi)存組件是空的,模型的行為類似于SAM。當(dāng)模型用于視頻時,內(nèi)存組件存儲有關(guān)對象和用戶先前提示的信息。用戶可以在視頻的不同部分添加或刪除提示,以改進(jìn)模型的輸出。在每一幀中,記憶信息都會根據(jù)前一幀的信息來調(diào)整模型的預(yù)測。
圖3 Meta SAM 2架構(gòu)
SAM 2還附帶了SA-V,這是一個全新的數(shù)據(jù)集,具有更大、更豐富的訓(xùn)練示例集。SA-V在大約51,000個視頻中包含60多萬個注釋圖像。這些視頻展示了從全球47個國家收集的真實場景。注釋包括整個對象、對象部分以及具有挑戰(zhàn)性的場景,例如對象部分被遮擋的實例。
與其前身一樣,SA-V在模型本身的幫助下進(jìn)行了注釋。注釋者使用SAM 2的早期版本來注釋示例,然后人工糾正注釋并重新訓(xùn)練模型。通過重復(fù)這個過程,他們改進(jìn)了模型,提高了自動注釋的速度和質(zhì)量。
Meta公司表示,“使用我們的工具和循環(huán)中的SAM 2的注釋大約比每幀使用SAM快8.4倍,也比將SAM與現(xiàn)成的跟蹤器結(jié)合起來快得多?!?/p>
SAM – 2的實際應(yīng)用
根據(jù)Meta公司研究團(tuán)隊發(fā)布的報告,在17個零樣本視頻數(shù)據(jù)集上,SAM 2在交互式視頻分割方面明顯優(yōu)于以前的方法,并且需要的人機(jī)交互減少了大約三倍。SAM 2還提供每秒約44幀的近實時推理。
研究人員已經(jīng)根據(jù)Apache 2.0許可證提供了SAM 2的代碼和權(quán)重,這意味著用戶可以免費將其用于商業(yè)目的。他們還發(fā)布了SA-V數(shù)據(jù)集。此舉是Meta公司最近推動將其人工智能研究、模型和工具開源的一部分,以應(yīng)對OpenAI、Anthropic和谷歌等公司的封閉發(fā)布。
很多開發(fā)人員和研究人員將這種模型重新用于專門的用例。該模型已經(jīng)非常高效,有39兆字節(jié)到224兆字節(jié)四種大小,足以在筆記本電腦和智能手機(jī)等許多邊緣設(shè)備上運行。但是,通用模型將在非常專業(yè)的應(yīng)用程序或內(nèi)存和計算受限的設(shè)備上遇到障礙。SAM 2和SA-V將如何幫助企業(yè)為特定工廠生產(chǎn)線上的對象檢測等專門應(yīng)用創(chuàng)建微小對象分割模型令人感興趣。它對自動駕駛行業(yè)也非常有用,因為自動駕駛行業(yè)需要大量的注釋數(shù)據(jù),而注釋速度的任何百分比的提高都是明顯的勝利。
同樣有趣的是,如何將SAM 2等模型與語言模型相結(jié)合以用于更復(fù)雜的應(yīng)用程序。目前,大多數(shù)視覺語言模型(VLM)都是用于處理原始像素數(shù)據(jù)和文本。而了解可以用基于對象分割模型輸出或原始像素和粒度對象分割組合的VLM來實現(xiàn)什么,這將是一件有趣的事情。這可能對機(jī)器人技術(shù)尤其有用,因為視覺語言模型(VLM)和更新的視覺-語言-行動(VLA)模型正在這一領(lǐng)域取得進(jìn)展。
至于Meta公司,可以期待SAM 2、Llama 3和下一代人工智能創(chuàng)新將在該公司一些最雄心勃勃的項目中找到自己的方式,包括增強(qiáng)現(xiàn)實眼鏡。
原文標(biāo)題:Meta SAM 2 is the most impressive object segmentation model,作者:Ben Dickson