自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

剛剛,Meta開(kāi)源「分割一切」2.0模型,視頻也能分割了

人工智能
剛剛,Meta 在 SIGGRAPH 上重磅宣布 Segment Anything Model 2 (SAM 2) 來(lái)了。在其前身的基礎(chǔ)上,SAM 2 的誕生代表了領(lǐng)域內(nèi)的一次重大進(jìn)步 —— 為靜態(tài)圖像和動(dòng)態(tài)視頻內(nèi)容提供實(shí)時(shí)、可提示的對(duì)象分割,將圖像和視頻分割功能統(tǒng)一到一個(gè)強(qiáng)大的系統(tǒng)中。

還記得 Meta 的「分割一切模型」嗎?這個(gè)模型在去年 4 月發(fā)布,被很多人認(rèn)為是顛覆傳統(tǒng) CV 任務(wù)的研究。

時(shí)隔一年多,剛剛,Meta 在 SIGGRAPH 上重磅宣布 Segment Anything Model 2 (SAM 2) 來(lái)了。在其前身的基礎(chǔ)上,SAM 2 的誕生代表了領(lǐng)域內(nèi)的一次重大進(jìn)步 —— 為靜態(tài)圖像和動(dòng)態(tài)視頻內(nèi)容提供實(shí)時(shí)、可提示的對(duì)象分割,將圖像和視頻分割功能統(tǒng)一到一個(gè)強(qiáng)大的系統(tǒng)中。

圖片

SAM 2 可以分割任何視頻或圖像中的任何對(duì)象 —— 甚至是它以前沒(méi)有見(jiàn)過(guò)的對(duì)象和視覺(jué)域,從而支持各種不同的用例,而無(wú)需自定義適配。

在與黃仁勛的對(duì)話中,扎克伯格提到了 SAM 2:「能夠在視頻中做到這一點(diǎn),而且是在零樣本的前提下,告訴它你想要什么,這非????!?/span>

圖片

Meta 多次強(qiáng)調(diào)了最新模型 SAM 2 是首個(gè)用于實(shí)時(shí)、可提示的圖像和視頻對(duì)象分割的統(tǒng)一模型,它使視頻分割體驗(yàn)發(fā)生了重大變化,并可在圖像和視頻應(yīng)用程序中無(wú)縫使用。SAM 2 在圖像分割準(zhǔn)確率方面超越了之前的功能,并且實(shí)現(xiàn)了比現(xiàn)有工作更好的視頻分割性能,同時(shí)所需的交互時(shí)間為原來(lái)的 1/3。

該模型的架構(gòu)采用創(chuàng)新的流式內(nèi)存(streaming memory)設(shè)計(jì),使其能夠按順序處理視頻幀。這種方法使 SAM 2 特別適合實(shí)時(shí)應(yīng)用,為各個(gè)行業(yè)開(kāi)辟了新的可能性。

當(dāng)然,處理視頻對(duì)算力的要求要高得多。SAM 2 仍然是一個(gè)龐大的模型,也只有像 Meta 這樣的能提供強(qiáng)大硬件的巨頭才能運(yùn)行,但這種進(jìn)步還是說(shuō)明了一些問(wèn)題:一年前,這種快速、靈活的分割幾乎是不可能的。SAM 2 可以在不借助數(shù)據(jù)中心的情況下運(yùn)行,證明了整個(gè)行業(yè)在計(jì)算效率方面的進(jìn)步。

模型需要大量的數(shù)據(jù)來(lái)訓(xùn)練,Meta 還發(fā)布了一個(gè)大型帶注釋數(shù)據(jù)庫(kù),包括大約 51,000 個(gè)真實(shí)世界視頻和超過(guò) 600,000 個(gè) masklets。與現(xiàn)有最大的視頻分割數(shù)據(jù)集相比,其視頻數(shù)量多 4.5 倍,注釋多 53 倍,Meta 根據(jù) CC BY 4.0 許可分享 SA-V。在 SAM 2 的論文中,另一個(gè)包含超過(guò) 100,000 個(gè)「內(nèi)部可用」視頻的數(shù)據(jù)庫(kù)也用于訓(xùn)練,但沒(méi)有公開(kāi)。

與 SAM 一樣,SAM 2 也會(huì)開(kāi)源并免費(fèi)使用,并在 Amazon SageMaker 等平臺(tái)上托管。為了履行對(duì)開(kāi)源 AI 的承諾,Meta 使用寬松的 Apache 2.0 協(xié)議共享代碼和模型權(quán)重,并根據(jù) BSD-3 許可分享 SAM 2 評(píng)估代碼。

目前,Meta 已經(jīng)提供了一個(gè) Web 的演示體驗(yàn)地址:https://sam2.metademolab.com/demo

正如扎克伯格上周在一封公開(kāi)信中指出的那樣,開(kāi)源人工智能比任何其他現(xiàn)代技術(shù)都更具有潛力,可以提高人類(lèi)的生產(chǎn)力、創(chuàng)造力和生活質(zhì)量,同時(shí)還能加速經(jīng)濟(jì)增長(zhǎng)并推動(dòng)突破性的醫(yī)學(xué)和科學(xué)研究。人工智能社區(qū)利用 SAM 取得的進(jìn)展給我們留下了深刻的印象, SAM 2 必將釋放更多令人興奮的可能性。

圖片

SAM 2 可立即應(yīng)用于各種各樣的實(shí)際用例 - 例如,跟蹤對(duì)象(左)或分割顯微鏡捕獲的視頻中的移動(dòng)細(xì)胞以輔助科學(xué)研究(右)。

圖片

未來(lái),SAM 2 可以作為更大型 AI 系統(tǒng)的一部分,通過(guò) AR 眼鏡識(shí)別日常物品,并向用戶(hù)提供提醒和說(shuō)明。

SAM 2 前腳剛上線,大家就迫不及待的用起來(lái)了:「在 Meta 未提供的測(cè)試視頻上試用 SAM 2。效果好得令人瞠目結(jié)舌?!?/span>

圖片

來(lái)源:https://x.com/BenjaminDEKR/status/1818066956173664710

還有網(wǎng)友認(rèn)為,SAM 2 的出現(xiàn)可能會(huì)使其他相關(guān)技術(shù)黯然失色。

圖片


如何構(gòu)建 SAM 2?

SAM 能夠了解圖像中對(duì)象的一般概念。然而,圖像只是動(dòng)態(tài)現(xiàn)實(shí)世界的靜態(tài)快照。許多重要的現(xiàn)實(shí)用例需要在視頻數(shù)據(jù)中進(jìn)行準(zhǔn)確的對(duì)象分割,例如混合現(xiàn)實(shí)、機(jī)器人、自動(dòng)駕駛車(chē)輛和視頻編輯。Meta 認(rèn)為通用的分割模型應(yīng)該適用于圖像和視頻。

圖像可以被視為具有單幀的非常短的視頻。Meta 基于這個(gè)觀點(diǎn)開(kāi)發(fā)了一個(gè)統(tǒng)一的模型,無(wú)縫支持圖像和視頻輸入。處理視頻的唯一區(qū)別是,模型需要依靠?jī)?nèi)存來(lái)調(diào)用該視頻之前處理的信息,以便在當(dāng)前時(shí)間步準(zhǔn)確地分割對(duì)象。

視頻中對(duì)象的成功分割需要了解實(shí)體在空間和時(shí)間上的位置。與圖像分割相比,視頻提出了重大的新挑戰(zhàn)。對(duì)象運(yùn)動(dòng)、變形、遮擋、光照變化和其他因素可能會(huì)因幀而異。由于攝像機(jī)運(yùn)動(dòng)、模糊和分辨率較低,視頻的質(zhì)量通常低于圖像,這增加了難度。因此,現(xiàn)有的視頻分割模型和數(shù)據(jù)集在為視頻提供可比的「分割任何內(nèi)容」功能方面存在不足。

Meta 構(gòu)建 SAM 2 和新 SA-V 數(shù)據(jù)集來(lái)解決這些挑戰(zhàn)。

與用于 SAM 的方法類(lèi)似,Meta 對(duì)視頻分割功能的研究涉及設(shè)計(jì)新任務(wù)、模型和數(shù)據(jù)集。

研究團(tuán)隊(duì)首先開(kāi)發(fā)了可提示的(promptable)視覺(jué)分割任務(wù)并設(shè)計(jì)了一個(gè)能夠執(zhí)行該任務(wù)的模型 ——SAM 2。

然后,研究團(tuán)隊(duì)使用 SAM 2 來(lái)幫助創(chuàng)建視頻對(duì)象分割數(shù)據(jù)集 ——SA-V,該數(shù)據(jù)集比當(dāng)前存在的任何數(shù)據(jù)集大一個(gè)數(shù)量級(jí)。研究團(tuán)隊(duì)使用它來(lái)訓(xùn)練 SAM 2 以實(shí)現(xiàn) SOTA 性能。

可提示的視覺(jué)分割

研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)可提示的視覺(jué)分割任務(wù),將圖像分割任務(wù)推廣到視頻領(lǐng)域。SAM 經(jīng)過(guò)訓(xùn)練,以圖像中的輸入點(diǎn)、框或掩碼來(lái)定義目標(biāo)對(duì)象并預(yù)測(cè)分割掩碼。該研究訓(xùn)練 SAM 2 在視頻的任何幀中獲取輸入提示來(lái)定義要預(yù)測(cè)的時(shí)空掩碼(即「masklet」)。 

SAM 2 根據(jù)輸入提示立即預(yù)測(cè)當(dāng)前幀上的掩碼,并將其臨時(shí)傳播(temporally propagate)以生成跨所有視頻幀的目標(biāo)對(duì)象的 masklet。一旦預(yù)測(cè)出初始 masklet,就可以通過(guò)在任何幀中向 SAM 2 提供附加提示來(lái)迭代完善它。這可以根據(jù)需要重復(fù)多次,直到獲得所需的 masklet。

統(tǒng)一架構(gòu)中的圖像和視頻分割

SAM 2 架構(gòu)可以看作是 SAM 從圖像領(lǐng)域到視頻領(lǐng)域的推廣。 

SAM 2 可以通過(guò)點(diǎn)擊、邊界框或掩碼被提示,以定義給定幀中對(duì)象的范圍。輕量級(jí)掩碼解碼器采用當(dāng)前幀的圖像嵌入和編碼提示來(lái)輸出該幀的分割掩碼。在視頻設(shè)置中,SAM 2 將此掩碼預(yù)測(cè)傳播到所有視頻幀以生成 masklet,然后在任何后續(xù)幀上迭代添加提示以細(xì)化 masklet 預(yù)測(cè)。

為了準(zhǔn)確預(yù)測(cè)所有視頻幀的掩碼,研究團(tuán)隊(duì)引入了一種由記憶編碼器、記憶庫(kù)(memory bank)和記憶注意力模塊組成的記憶機(jī)制。當(dāng)應(yīng)用于圖像時(shí),內(nèi)存組件為空,模型的行為類(lèi)似于 SAM。對(duì)于視頻,記憶組件能夠存儲(chǔ)關(guān)于該會(huì)話中的對(duì)象和先前用戶(hù)交互的信息,從而允許 SAM 2 在整個(gè)視頻中生成 masklet 預(yù)測(cè)。如果在其他幀上提供了額外的提示,SAM 2 可以根據(jù)對(duì)象存儲(chǔ)的記憶上下文有效地糾正其預(yù)測(cè)。

幀的記憶由記憶編碼器根據(jù)當(dāng)前掩碼預(yù)測(cè)創(chuàng)建,并放置在記憶庫(kù)中以用于分割后續(xù)幀。記憶庫(kù)由先前幀和提示幀的記憶組成。記憶注意力操作從圖像編碼器獲取每幀嵌入,并根據(jù)記憶庫(kù)進(jìn)行調(diào)整以產(chǎn)生嵌入,然后將其傳遞到掩碼解碼器以生成該幀的掩碼預(yù)測(cè)。對(duì)于所有后續(xù)幀重復(fù)此操作。

Meta 采用流式架構(gòu),這是 SAM 在視頻領(lǐng)域的自然推廣,一次處理一個(gè)視頻幀并將有關(guān)分割對(duì)象的信息存儲(chǔ)在記憶中。在每個(gè)新處理的幀上,SAM 2 使用記憶注意力模塊來(lái)關(guān)注目標(biāo)對(duì)象之前的記憶。這種設(shè)計(jì)允許實(shí)時(shí)處理任意長(zhǎng)的視頻,這不僅對(duì)于 SA-V 數(shù)據(jù)集的注釋收集效率很重要,而且對(duì)于現(xiàn)實(shí)世界的應(yīng)用(例如在機(jī)器人領(lǐng)域)也很重要。

當(dāng)圖像中被分割的對(duì)象存在模糊性時(shí),SAM 會(huì)輸出多個(gè)有效掩碼。例如,當(dāng)一個(gè)人點(diǎn)擊自行車(chē)輪胎時(shí),模型可以將這次點(diǎn)擊解釋為僅指輪胎或整個(gè)自行車(chē),并輸出多個(gè)預(yù)測(cè)。在視頻中,這種模糊性可能會(huì)擴(kuò)展到視頻幀中。例如,如果在一幀中只有輪胎可見(jiàn),則輪胎上的點(diǎn)擊可能僅與輪胎相關(guān),或者隨著自行車(chē)的更多部分在后續(xù)幀中變得可見(jiàn),這種點(diǎn)擊可能是針對(duì)整個(gè)自行車(chē)的。為了處理這種模糊性,SAM 2 在視頻的每個(gè)步驟創(chuàng)建多個(gè)掩碼。如果進(jìn)一步的提示不能解決歧義,模型會(huì)選擇置信度最高的掩碼,以便在視頻中進(jìn)一步傳播。

在圖像分割任務(wù)中,在給定積極提示的情況下,幀中始終存在可分割的有效對(duì)象。在視頻中,特定幀上可能不存在有效對(duì)象,例如由于對(duì)象被遮擋或從視圖中消失。為了解釋這種新的輸出模式,研究團(tuán)隊(duì)添加了一個(gè)額外的模型輸出(「遮擋 head(occlusion head)」),用于預(yù)測(cè)當(dāng)前幀中是否存在感興趣的對(duì)象。這使得 SAM 2 能夠有效地處理遮擋。

SA-V:Meta 構(gòu)建了最大的視頻分割數(shù)據(jù)集

圖片

來(lái)自 SA-V 數(shù)據(jù)集的視頻和掩碼注釋。

為了收集一個(gè)大型且多樣化的視頻分割數(shù)據(jù)集,Meta 建立了一個(gè)數(shù)據(jù)引擎,其中注釋員使用 SAM 2 交互地在視頻中注釋 masklet,然后將新注釋的數(shù)據(jù)用于更新 SAM 2。他們多次重復(fù)這一循環(huán),以迭代地改進(jìn)模型和數(shù)據(jù)集。與 SAM 類(lèi)似,Meta 不對(duì)注釋的 masklet 施加語(yǔ)義約束,注重的是完整的物體(如人)和物體的部分(如人的帽子)。

借助 SAM 2,收集新的視頻對(duì)象分割掩碼比以往更快,比每幀使用 SAM 快約 8.4 倍。此外,Meta 發(fā)布的 SA-V 數(shù)據(jù)集的注釋數(shù)量是現(xiàn)有視頻對(duì)象分割數(shù)據(jù)集的十倍以上,視頻數(shù)量大約是其 4.5 倍。 

總結(jié)而言,SA-V 數(shù)據(jù)集的亮點(diǎn)包括:

  • 在大約 51,000 個(gè)視頻中有超過(guò) 600,000 個(gè) masklet 注釋?zhuān)?/span>
  • 視頻展示了地理上不同的真實(shí)場(chǎng)景,收集自 47 個(gè)國(guó)家;
  • 覆蓋整個(gè)對(duì)象、對(duì)象中的一部分,以及在物體被遮擋、消失和重新出現(xiàn)的情況下具有挑戰(zhàn)性的實(shí)例。 

結(jié)果

下方兩個(gè)模型都是用第一幀中的 T 恤蒙版初始化的。對(duì)于 baseline,Meta 使用來(lái)自 SAM 的蒙版,問(wèn)題是過(guò)度分割并包括人的頭部,而不是僅跟蹤 T 恤。相比之下,SAM 2 能夠在整個(gè)視頻中準(zhǔn)確跟蹤對(duì)象部分。

為了創(chuàng)建統(tǒng)一的圖像和視頻分割模型,Meta 將圖像視為單幀視頻,在圖像和視頻數(shù)據(jù)上聯(lián)合訓(xùn)練 SAM 2。團(tuán)隊(duì)利用了去年作為 Segment Anything 項(xiàng)目的一部分發(fā)布的 SA-1B 圖像數(shù)據(jù)集、SA-V 數(shù)據(jù)集以及額外的內(nèi)部許可視頻數(shù)據(jù)集。

圖片

SAM 2(右)提高了 SAM(左)圖像中的對(duì)象分割精度。

SAM 2 論文也展示了該模型的多項(xiàng)提升:

SAM 2 在 17 個(gè)零樣本視頻數(shù)據(jù)集的交互式視頻分割方面表現(xiàn)明顯優(yōu)于以前的方法,并且所需的人機(jī)交互減少了大約三倍。

圖片

圖片

SAM 2 在 23 個(gè)數(shù)據(jù)集零樣本基準(zhǔn)測(cè)試套件上的表現(xiàn)優(yōu)于 SAM,而且速度快了六倍。

圖片

與之前的最先進(jìn)模型相比,SAM 2 在現(xiàn)有的視頻對(duì)象分割基準(zhǔn)(DAVIS、MOSE、LVOS、YouTube-VOS)上表現(xiàn)出色。

圖片

使用 SAM 2 進(jìn)行推理感覺(jué)很實(shí)時(shí),速度大約為每秒 44 幀。

循環(huán)中使用 SAM 2 進(jìn)行視頻分割注釋的速度比使用 SAM 進(jìn)行手動(dòng)每幀注釋快 8.4 倍。

圖片

為了衡量 SAM 2 的公平性,Meta 對(duì)特定人群的模型性能進(jìn)行了評(píng)估。結(jié)果表明,在感知性別和 18-25 歲、26-50 歲和 50 歲以上三個(gè)感知年齡組評(píng)估中,模型顯示的差異很小。

圖片

更多結(jié)果,請(qǐng)查看論文。

論文地址:https://scontent-sjc3-1.xx.fbcdn.net/v/t39.2365-6/453323338_287900751050452_6064535069828837026_n.pdf?_nc_cat=107&ccb=1-7&_nc_sid=3c67a6&_nc_ohc=TnvI-AaGawoQ7kNvgFJPdfC&_nc_ht=scontent-sjc3-1.xx&oh=00_AYAlCBmHCcIEnDo-YzzCScg8NZPgTQlwjE9FVlniLRw5JQ&oe=66AE2179

局限性

雖然 SAM 2 在分割圖像和短視頻中的對(duì)象方面表現(xiàn)出色,但仍然會(huì)遇到諸多挑戰(zhàn)。

SAM 2 可能會(huì)在攝像機(jī)視角發(fā)生劇烈變化、長(zhǎng)時(shí)間遮擋、擁擠的場(chǎng)景或較長(zhǎng)的視頻中失去對(duì)對(duì)象的追蹤。

在實(shí)際應(yīng)用中,Meta 設(shè)計(jì)了交互式模型來(lái)緩解這一問(wèn)題,并通過(guò)在任意幀中點(diǎn)擊校正來(lái)實(shí)現(xiàn)人工干預(yù),從而恢復(fù)目標(biāo)對(duì)象。

圖片

在擁擠的場(chǎng)景中,SAM 2 有時(shí)會(huì)混淆多個(gè)外觀相似的對(duì)象。

當(dāng)目標(biāo)對(duì)象只在一幀中指定時(shí),SAM 2 有時(shí)會(huì)混淆對(duì)象,無(wú)法正確分割目標(biāo),如上述視頻中的馬匹所示。在許多情況下,通過(guò)在未來(lái)幀中進(jìn)行額外的細(xì)化提示,這一問(wèn)題可以完全解決,并在整個(gè)視頻中獲得正確的 masklet。

雖然 SAM 2 支持同時(shí)分割多個(gè)單獨(dú)對(duì)象的功能,但模型的效率卻大大降低。實(shí)際上,SAM 2 對(duì)每個(gè)對(duì)象進(jìn)行單獨(dú)處理,只利用共享的每幀嵌入,不進(jìn)行對(duì)象間通信。雖然這簡(jiǎn)化了模型,但納入共享的對(duì)象級(jí)上下文信息有助于提高效率。

圖片

SAM 2 的預(yù)測(cè)可能會(huì)錯(cuò)過(guò)快速移動(dòng)對(duì)象的細(xì)節(jié)。

對(duì)于復(fù)雜的快速運(yùn)動(dòng)對(duì)象,SAM 2 有時(shí)會(huì)漏掉一些細(xì)節(jié),而且預(yù)測(cè)結(jié)果在幀之間可能不穩(wěn)定,如上文騎自行車(chē)者的視頻所示。

在同一幀或其他幀中添加進(jìn)一步的提示來(lái)優(yōu)化預(yù)測(cè)只能部分緩解此問(wèn)題。在訓(xùn)練過(guò)程中,如果模型預(yù)測(cè)在幀間抖動(dòng),不會(huì)對(duì)其進(jìn)行任何懲罰,因此無(wú)法保證時(shí)間上的平滑性。提高這種能力可以促進(jìn)需要對(duì)精細(xì)結(jié)構(gòu)進(jìn)行詳細(xì)定位的實(shí)際應(yīng)用。

雖然 Meta 的數(shù)據(jù)引擎在循環(huán)中使用了 SAM 2,且在自動(dòng) masklet 生成方面也取得了長(zhǎng)足進(jìn)步,但仍然依賴(lài)人工注釋來(lái)完成一些步驟,例如驗(yàn)證 masklet 質(zhì)量和選擇需要校正的幀。

因此,未來(lái)的發(fā)展需要進(jìn)一步自動(dòng)化這個(gè)數(shù)據(jù)注釋過(guò)程,以提高效率。要推動(dòng)這項(xiàng)研究,還有很多工作要做。

參考鏈接:

https://ai.meta.com/blog/segment-anything-2-video/。

https://techcrunch.com/2024/07/29/zuckerberg-touts-metas-latest-video-vision-ai-with-nvidia-ceo-jensen-huang/。

責(zé)任編輯:姜華 來(lái)源: 機(jī)器之心
相關(guān)推薦

2023-12-07 07:16:57

Meta訓(xùn)練

2023-04-27 09:27:44

視頻AI

2024-03-01 10:04:11

研究訓(xùn)練編碼器

2023-05-04 12:19:47

模型AI

2023-04-10 15:52:57

模型樣本

2023-05-19 13:24:20

模型AI

2023-04-25 11:36:17

CV模型

2024-07-30 14:45:08

2023-11-22 11:40:00

Meta模型

2023-07-17 13:14:45

模型分割

2023-04-25 17:06:38

視覺(jué)任務(wù)

2023-06-27 17:35:39

FastSAM模型SAM

2023-04-23 15:42:18

圖像視頻

2023-07-05 14:06:43

視頻AI

2023-12-10 15:21:39

2024-11-25 10:00:00

AI視頻

2023-08-09 17:38:47

模型AI

2023-10-05 12:28:41

AI論文

2025-03-13 11:11:04

2023-09-07 15:11:44

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)