自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

首篇!全面解讀高效Segment Anything模型變體:各種圖像分割加速策略和核心技術(shù)展示 精華

發(fā)布于 2024-10-29 12:50
瀏覽
0收藏

首篇!全面解讀高效Segment Anything模型變體:各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2410.04960

亮點(diǎn)直擊

  • 提供了一項(xiàng)系統(tǒng)的高效 SAM 變體全面回顧,旨在加速分割任務(wù)。介紹了一個(gè)結(jié)構(gòu)良好的分類法,將這些方法根據(jù)其采用的加速策略進(jìn)行分類。據(jù)我們所知,這是第一項(xiàng)專門關(guān)注該領(lǐng)域的調(diào)查。
  • 對(duì)這些變體的效率和準(zhǔn)確性進(jìn)行了全面的評(píng)估和比較,旨在幫助研究人員選擇最能滿足其性能和應(yīng)用需求的模型。
  • 提出了幾個(gè)未來研究的潛在方向,為讀者提供啟發(fā),以推動(dòng)該領(lǐng)域的持續(xù)發(fā)展。

?

Segment Anything Model (SAM) 是一款基礎(chǔ)模型,專用于圖像分割任務(wù),以其在多樣應(yīng)用中的強(qiáng)大泛化能力而聞名。然而,它的出色性能伴隨著顯著的計(jì)算和資源需求,這使得在資源有限的環(huán)境(如移動(dòng)設(shè)備)中進(jìn)行部署變得具有挑戰(zhàn)性。為了解決這個(gè)問題,已經(jīng)提出了多種 SAM 變體,以提高效率而不犧牲準(zhǔn)確性。


本綜述首次全面回顧了這些高效的 SAM 變體。我們首先探討推動(dòng)該研究的動(dòng)機(jī),然后介紹 SAM 和模型加速中使用的核心技術(shù)。接下來,深入分析各種加速策略,并按方法進(jìn)行分類。最后,提供了對(duì)這些方法的統(tǒng)一和全面的評(píng)估,評(píng)估它們?cè)诖硇曰鶞?zhǔn)上的效率和準(zhǔn)確性,并對(duì)它們的整體性能進(jìn)行明確比較。

1 引言

基礎(chǔ)模型的出現(xiàn)已經(jīng)徹底改變了人工智能(AI)領(lǐng)域。基礎(chǔ)模型是大型神經(jīng)網(wǎng)絡(luò),在海量數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,具有強(qiáng)大的表示能力和出色的泛化能力,能夠在各種任務(wù)中表現(xiàn)出色。在自然語(yǔ)言處理(NLP)領(lǐng)域,最近流行的研究趨勢(shì)是大型語(yǔ)言模型(LLMs),如OpenAI的GPT系列、Google的PaLM系列和Meta的LLaMA系列等,這些模型取得了顯著的發(fā)展。同時(shí),視覺轉(zhuǎn)換器(ViT)的成功首次將轉(zhuǎn)換器架構(gòu)引入計(jì)算機(jī)視覺(CV)領(lǐng)域,為視覺基礎(chǔ)模型(VFM)開辟了新紀(jì)元。像CLIP、LLaVA和Video-ChatGPT等視覺-語(yǔ)言基礎(chǔ)模型旨在對(duì)齊視覺和語(yǔ)言模態(tài),在眾多下游視覺任務(wù)中表現(xiàn)出色。


最近,Meta提出了一種新型的基礎(chǔ)模型,用于通用圖像分割,即 Segment Anything Model (SAM) 。SAM 完全在他們提出的 SA-1B 數(shù)據(jù)集上進(jìn)行訓(xùn)練,該數(shù)據(jù)集包含超過十億個(gè)mask和一千一百萬張圖像,旨在通過任何提示(例如點(diǎn)、框、mask和文本)實(shí)現(xiàn)有效的分割。SAM 能夠很好地泛化到廣泛的下游任務(wù)(如邊緣檢測(cè)、目標(biāo)提議和實(shí)例分割),只需提供適當(dāng)?shù)奶崾?。SAM 的出現(xiàn)引起了研究界的廣泛關(guān)注,并催生了大量相關(guān)工作,探索 SAM 在各種場(chǎng)景中的泛化能力,包括不同的圖像分割任務(wù)、視頻分析任務(wù)和 3D 視覺任務(wù)。隨著 SAM 的巨大成功,升級(jí)版的 Segment Anything Model 2 (SAM 2) 

盡管 SAM 在廣泛應(yīng)用中取得了成功,原始的 Segment Anything Model (SAM),特別是 SAM-H,由于運(yùn)行速度慢和計(jì)算成本高面臨顯著的局限性。在資源受限或?qū)崟r(shí)環(huán)境(如邊緣設(shè)備和移動(dòng)應(yīng)用)中部署 SAM 時(shí),這些挑戰(zhàn)尤為明顯。隨著對(duì)在實(shí)際資源受限場(chǎng)景中部署機(jī)器學(xué)習(xí)模型的需求不斷增加,SAM 當(dāng)前的設(shè)計(jì)在廣泛使用中顯得效率低下。這導(dǎo)致了對(duì)更輕量級(jí)、高效變體的迫切需求,這些變體可以在滿足模型強(qiáng)大分割能力的同時(shí)應(yīng)對(duì)這些限制。優(yōu)化 SAM 以提高效率的挑戰(zhàn)進(jìn)一步加劇,因?yàn)樵趯?shí)時(shí)應(yīng)用、移動(dòng)平臺(tái)和嵌入式系統(tǒng)中對(duì)計(jì)算資源的需求越來越高。隨著研究界努力克服這些障礙,全面了解在提高 SAM 效率方面的最新進(jìn)展變得至關(guān)重要。因此,開展一項(xiàng)詳細(xì)的調(diào)查,以研究提高 SAM 效率和擴(kuò)展其在多樣環(huán)境中的適用性的努力,是及時(shí)且必要的。


隨著與 SAM 相關(guān)的研究不斷增加,已有若干調(diào)查從不同角度提供了概述。然而,這些現(xiàn)有的調(diào)查主要集中在 SAM 的下游應(yīng)用上,并存在幾項(xiàng)局限性


  • 沒有一項(xiàng)調(diào)查關(guān)注到提高 SAM 效率的新興領(lǐng)域,而這一領(lǐng)域正在獲得重要關(guān)注,對(duì)實(shí)際應(yīng)用的部署至關(guān)重要。
  • 除了一項(xiàng)外,這些調(diào)查缺乏結(jié)構(gòu)化的分類法,以便更清晰地組織和參考。
  • 大多數(shù)先前的調(diào)查主要集中在收集和描述基于 SAM 的方法,但缺乏對(duì)這些方法的系統(tǒng)性評(píng)估或比較。


為了解決這些不足,本文開展了本次調(diào)查,旨在全面回顧高效 Segment Anything 模型的發(fā)展,并公平地評(píng)估和比較它們。


本調(diào)查的其余部分組織如下。在第2節(jié)中,我們首先介紹原始 SAM 的背景,然后回顧可以應(yīng)用于提高 SAM 效率的高效視覺表示骨干和模型壓縮技術(shù)。在第3節(jié)中,我們根據(jù)目標(biāo)和技術(shù)對(duì)現(xiàn)有方法進(jìn)行分類,詳細(xì)回顧每個(gè)類別。我們還討論了進(jìn)一步加速 SAM 的幾個(gè)潛在研究方向。在第4節(jié)中,我們對(duì)這些模型在效率、準(zhǔn)確性和相應(yīng)的權(quán)衡方面進(jìn)行公平評(píng)估。最后,在第5節(jié)中,我們簡(jiǎn)要總結(jié)了本次調(diào)查。

2 初步概述

2.1 Segment Anything Model

Segment Anything Model (SAM) 是圖像分割領(lǐng)域中的一個(gè)強(qiáng)大基礎(chǔ)模型,旨在通過基本的可提示分割任務(wù),利用提示工程來統(tǒng)一各種分割任務(wù)。該項(xiàng)目的一個(gè)顯著貢獻(xiàn)是 SA-1B 數(shù)據(jù)集,該數(shù)據(jù)集包含來自 1100 萬張經(jīng)過許可和隱私保護(hù)的圖像生成的超過 10 億個(gè)masks。在如此豐富和高質(zhì)量的數(shù)據(jù)上進(jìn)行訓(xùn)練,SAM 展現(xiàn)出強(qiáng)大的魯棒性和泛化能力。SAM 的巨大潛力迅速引起了研究人員對(duì)探索其在廣泛現(xiàn)實(shí)應(yīng)用中的能力以及改進(jìn)其架構(gòu)以實(shí)現(xiàn)更高效或更準(zhǔn)確分割的興趣。


最近,Segment Anything Model 2 (SAM 2) 被提出作為繼任者,專注于高效的可提示視覺分割 (PVS),適用于圖像和視頻。為了使 SAM 2 能夠在視頻中分割任何內(nèi)容,研究人員在 SAM 的原始架構(gòu)中引入了流式記憶機(jī)制。SAM 2 采用兩階段訓(xùn)練:

  • 在 SA-1B 數(shù)據(jù)集上進(jìn)行可提示分割任務(wù)的預(yù)訓(xùn)練;
  • 在混合數(shù)據(jù)上進(jìn)行可提示分割任務(wù)的訓(xùn)練,處理圖像和視頻。


與 SAM 類似,研究人員開發(fā)了一個(gè)數(shù)據(jù)引擎,以創(chuàng)建一個(gè)用于視頻分割的大規(guī)模數(shù)據(jù)集,命名為 SA-V 數(shù)據(jù)集。該數(shù)據(jù)集最終收集了 50,900 個(gè)視頻中的 642.6K 個(gè)mask(視頻中的對(duì)象分割)。在本次調(diào)查中,將 SAM 2 視為高效的 SAM 變體,并將其納入評(píng)估和比較中。

2.1.1 模型

SAM 由三個(gè)主要組成部分構(gòu)成:圖像編碼器、提示解碼器和mask解碼器,如下圖 1(a) 所示。圖像編碼器是一個(gè)經(jīng)過微小修改的 MAE預(yù)訓(xùn)練視覺Transformer (ViT)。它將預(yù)處理后的圖像作為輸入,并為每張圖像輸出一個(gè)圖像嵌入。提示解碼器用于嵌入提示:點(diǎn)、框、mask和文本。這兩個(gè)嵌入然后輸入到輕量級(jí)mask解碼器,該解碼器基于兩個(gè)修改過的Transformer解碼器塊和一些預(yù)測(cè)頭,生成有效的mask。

首篇!全面解讀高效Segment Anything模型變體:各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

基于 SAM 的架構(gòu),SAM 2 額外引入了流式記憶機(jī)制。具體來說,這個(gè)機(jī)制包括一個(gè)記憶編碼器、一個(gè)記憶庫(kù)和一個(gè)記憶注意模塊。SAM 2 的結(jié)構(gòu)如上圖 1(b) 所示。通過記憶機(jī)制,SAM 2 能夠逐幀處理視頻。記憶編碼器生成當(dāng)前幀的預(yù)測(cè)記憶并將其發(fā)送到記憶庫(kù)。記憶庫(kù)存儲(chǔ)最近的預(yù)測(cè)、提示幀的特征圖以及目標(biāo)對(duì)象的高級(jí)語(yǔ)義信息(即對(duì)象指針)。記憶注意機(jī)制使來自圖像編碼器的圖像嵌入與來自記憶庫(kù)的信息充分交互,從而得到精細(xì)化的嵌入。除了記憶機(jī)制,SAM 2 還采用 MAE 預(yù)訓(xùn)練的 Hiera作為圖像編碼器,這比 ViT-H 更高效,預(yù)期可以實(shí)現(xiàn)更快的速度。

2.1.2 任務(wù)

可提示分割任務(wù)被提出作為 SAM 的基本任務(wù),其目標(biāo)是根據(jù)任何給定的提示(例如一個(gè)點(diǎn)、一個(gè)框、一個(gè)mask或文本)返回有效的mask。這個(gè)任務(wù)不僅是 SAM 訓(xùn)練過程中的目標(biāo),也是使 SAM 能夠解決各種下游任務(wù)的基礎(chǔ)。另一個(gè)重要任務(wù)是全mask生成,它會(huì)對(duì)圖片中的所有對(duì)象進(jìn)行分割。通過使用點(diǎn)網(wǎng)格對(duì) SAM 進(jìn)行提示,并根據(jù)這些稠密的提示預(yù)測(cè)mask來實(shí)現(xiàn)。全mask生成也是數(shù)據(jù)引擎最后階段中的關(guān)鍵步驟,旨在增強(qiáng) SA-1B 中mask的多樣性。如下圖 2 所示,可提示分割任務(wù)稱為 Segment Anything (SegAny),而全mask生成任務(wù)則稱為 Segment Everything (SegEvery)。這兩個(gè)任務(wù)總結(jié)了 SAM 的分割能力,并為提升 SAM 效率指明了兩個(gè)研究方向。在本次調(diào)查中,我們遵循這兩個(gè)定義,探討基于 SAM 的高效變體在 SegAny 和 SegEvery 任務(wù)中的表現(xiàn)。

首篇!全面解讀高效Segment Anything模型變體:各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

2.1.3 應(yīng)用

由于 SAM 及其繼任者 SAM 2 在大量零樣本下游任務(wù)中展示了強(qiáng)大的泛化能力,研究界正深入探索它們?cè)诟鄨?chǎng)景中的應(yīng)用。


SAM 的一個(gè)主要應(yīng)用領(lǐng)域是醫(yī)學(xué)圖像分割 。根據(jù)[157]的說法,該領(lǐng)域的工作可以分為兩類。一類旨在測(cè)試 SAM 在 CT 圖像、MRI 圖像、病理圖像等中的分割性能。另一類則專注于通過微調(diào)、自動(dòng)提示或框架修改來提高 SAM 在這些任務(wù)中的適應(yīng)性。此外,像[35, 57]這樣的研究試圖提高醫(yī)學(xué) SAM 方法的效率。SAM 還被應(yīng)用于不同現(xiàn)實(shí)場(chǎng)景中的對(duì)象檢測(cè),包括土木基礎(chǔ)設(shè)施缺陷評(píng)估中的裂縫檢測(cè)和隕石坑檢測(cè),農(nóng)業(yè)中的作物病蟲害檢測(cè),異常檢測(cè)和遙感。此外,Segment Anything 已被改編為 Edit Everything、Inpaint Anything和 Caption Anything來處理圖像編輯任務(wù)。


除了圖像分割任務(wù),SAM 還廣泛應(yīng)用于各種視頻任務(wù)。大量研究集中于兩個(gè)基本任務(wù):視頻對(duì)象分割 (VOS)和視頻對(duì)象跟蹤 (VOT)。研究人員還探索了 SAM 在生成相關(guān)任務(wù)中的應(yīng)用,例如視頻超分辨率和視頻數(shù)據(jù)集標(biāo)注生成。除此之外,SAM 還作為視頻編輯任務(wù)中的一個(gè)中間工具被進(jìn)一步利用。除了 2D 任務(wù),SAM 還擴(kuò)展到 3D 視覺領(lǐng)域。研究[100]將 SAM 應(yīng)用于 3D 重建,而研究[28]則將其應(yīng)用于 3D 點(diǎn)云分割。最近的工作[134]旨在實(shí)現(xiàn)在線設(shè)置下的任何 3D 物體的實(shí)時(shí)分割。對(duì)于最近提出的 SAM 2,已經(jīng)有一些研究探索其在圖像和視頻任務(wù)中的應(yīng)用。一個(gè)流行的趨勢(shì)是將 SAM 2 應(yīng)用于醫(yī)學(xué)圖像和視頻任務(wù)。像[27, 99, 135]這樣的研究評(píng)估了 SAM 2 在 2D 和 3D 模態(tài)下醫(yī)學(xué)圖像中的表現(xiàn),而一些其他研究[75, 140]則測(cè)試了其在外科視頻分割任務(wù)中的表現(xiàn)。研究人員還在尋找更好地將 SAM 2 適應(yīng)醫(yī)學(xué)任務(wù)的策略。此外,SAM 2 還被應(yīng)用于一些特定的圖像分割任務(wù),如數(shù)字病理語(yǔ)義分割、網(wǎng)格部件分割和太陽(yáng)能電池板分割。此外,一些研究[70, 113]利用 SAM 2 在具有挑戰(zhàn)性的規(guī)?;曨l對(duì)象分割 (LSVOS) 任務(wù)中取得了良好的結(jié)果。

2.1.4 局限性

盡管 SAM 在各種任務(wù)中表現(xiàn)出色,但在實(shí)際應(yīng)用中仍面臨兩個(gè)關(guān)鍵挑戰(zhàn):

  • 它通常難以為精細(xì)結(jié)構(gòu)預(yù)測(cè)完整的mask,從而導(dǎo)致邊界不精確;
  • 它不是實(shí)時(shí)的,資源消耗仍然很高,特別是在使用像 ViT-H 這樣的重型圖像編碼器時(shí)。


為了解決這些問題,研究如[49, 54]旨在通過利用高分辨率圖像來改善mask質(zhì)量,而其他研究[131, 147, 161, 164]則專注于創(chuàng)建更高效的架構(gòu),以減少 SAM 的時(shí)間和資源消耗。之前的調(diào)查[78, 100, 158]已探討了提高 SAM 質(zhì)量結(jié)果的最新進(jìn)展。在本次調(diào)查中,我們專注于提高 SAM 效率的努力。

2.2 高效骨干網(wǎng)絡(luò)

SAM 的低效主要源于其重量級(jí)的圖像編碼器。SAM 圖像編碼器的尺寸詳見表 1,并在后面小節(jié)中提供了 SAM 總參數(shù)的進(jìn)一步估算,比如在 SAM-H 中,ViT-H 圖像編碼器包含大約 632M 個(gè)參數(shù),而模型的總大小為 641M,這意味著圖像編碼器占模型參數(shù)的大部分。

即使在最小的變體 SAM-B 中,圖像編碼器仍占總參數(shù)的 90% 以上。因此,快速有效地加速 SAM 的一種方法是用更高效的骨干網(wǎng)絡(luò)替換大型圖像編碼器。這些高效的骨干網(wǎng)絡(luò)可以包括純卷積神經(jīng)網(wǎng)絡(luò) (CNN)、高效視覺Transformer架構(gòu)以及最近的Transformer替代模型[87]。

首篇!全面解讀高效Segment Anything模型變體:各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

2.2.1 高效視覺Transformer

提高視覺Transformer效率的努力通??梢苑譃閮煞N方法:

  • 設(shè)計(jì)更高效的架構(gòu);
  • 重構(gòu)注意力機(jī)制。


從結(jié)構(gòu)角度減少計(jì)算成本,MobileViT是一種開創(chuàng)性的混合架構(gòu),創(chuàng)造性地將卷積神經(jīng)網(wǎng)絡(luò)(CNN)模塊(MobileNetV2 模塊)與Transformer模塊集成到一個(gè)模型中。隨后,像 [10, 62, 127] 這樣的后續(xù)工作基本上遵循這個(gè)思路,構(gòu)建高效的混合結(jié)構(gòu)視覺Transformer,這些Transformer已被廣泛用來替代 SAM 的重型圖像編碼器。在 [103, 161] 中,TinyViT 作為高效骨干網(wǎng)絡(luò),而在 [162] 和 [159] 中,EfficientFormerV2 和 EfficientViT分別替代了 SAM 的原始圖像編碼器。另一個(gè)具有影響力的視覺Transformer設(shè)計(jì),MetaFormer,將注意力機(jī)制抽象為一個(gè)更廣泛的概念,稱為 token mixer,可以使用各種 token mixer 實(shí)現(xiàn)與Transformer相媲美的性能。最簡(jiǎn)單的變種 PoolFormer,通過使用池化操作作為 token mixer,而不引入額外的可學(xué)習(xí)參數(shù),已被用作為 Lite-SAM開發(fā)輕量級(jí)圖像編碼器的基礎(chǔ)架構(gòu)。


研究人員在優(yōu)化注意力機(jī)制方面也取得了顯著進(jìn)展。觀察到注意力機(jī)制中的 softmax 操作顯著增加了整體計(jì)算成本。在 EfficientViT 中,提出了一種新穎的 ReLU 線性注意力機(jī)制,以更高效地實(shí)現(xiàn)全局感受場(chǎng)。這種高效的骨干網(wǎng)絡(luò)在中被進(jìn)一步采用以加速 SAM。注意力機(jī)制的改進(jìn)還在硬件層面上進(jìn)行。FlashAttention通過切片、內(nèi)核融合和重計(jì)算等技術(shù)顯著降低了計(jì)算成本,并被應(yīng)用于 SAM 加速工作,以減少內(nèi)存需求并提高計(jì)算效率。

2.2.2 替代Transformer模型

雖然Transformer目前在語(yǔ)言和視覺領(lǐng)域占據(jù)主導(dǎo)地位,但一些新提出的模型在效率和性能方面顯示出了超越Transformer的潛力。


接受權(quán)重關(guān)鍵值(RWKV)模型結(jié)合了遞歸神經(jīng)網(wǎng)絡(luò)(RNN)和Transformer的優(yōu)勢(shì),隨著序列長(zhǎng)度的增加,實(shí)現(xiàn)了線性時(shí)間復(fù)雜度。RWKV 非常適合處理長(zhǎng)序列處理的挑戰(zhàn)。

為了促進(jìn)全局信息交互,RWKV 用更高效的 WKV 操作符和輸出門控機(jī)制替代了傳統(tǒng)的具有二次復(fù)雜度的注意力機(jī)制。這些機(jī)制的公式如下:

首篇!全面解讀高效Segment Anything模型變體:各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

其中 r, k, v  分別表示接收的tokens、鍵和值的移位tokens,W表示權(quán)重。RWKV 也已擴(kuò)展到視覺任務(wù)。視覺 RWKV (VRWKV) 模型在效率上表現(xiàn)出與視覺Transformer (ViT) 相當(dāng)?shù)男阅?。為了?RWKV 從一維序列適應(yīng)到二維圖像,引入了 Q-shift tokens,以在四個(gè)方向上融合鄰域信息。在 [145] 中,一種基于 RWKV 的 SAM 變體通過采用混合 MobileNetV2 塊 和 VRWKV 塊的高效主干,取得了卓越的效率表現(xiàn)。

2.3 模型壓縮

模型壓縮涵蓋一系列旨在減少模型大小和計(jì)算復(fù)雜度的技術(shù),使其在計(jì)算資源有限的實(shí)際應(yīng)用中部署大型模型成為必要。模型壓縮和加速的四種主要方法是知識(shí)蒸餾、量化、剪枝和低秩分解。

2.3.1 知識(shí)蒸餾

知識(shí)蒸餾 (KD)最初被引入作為在資源受限環(huán)境中部署大型復(fù)雜神經(jīng)網(wǎng)絡(luò)的解決方案。其核心概念是將來自較大、訓(xùn)練良好的模型(教師模型)的知識(shí)和表征能力轉(zhuǎn)移到較小、更高效的模型(學(xué)生模型)。


在將 KD 應(yīng)用于加速 SAM 時(shí),目標(biāo)是從原始的較大 SAM 中提取知識(shí),并將其傳授給更高效的 SAM 類模型。鑒于 SAM 的編碼器-解碼器架構(gòu),KD 通常可以分為兩種方法:蒸餾整個(gè) SAM 模型或僅蒸餾圖像編碼器。大多數(shù)工作,如 [84, 103, 117, 147, 159],專注于僅蒸餾高效主干,同時(shí)保留原始 SAM 的提示編碼器和掩膜解碼器。然而,其他方法,如 [162, 164],旨在通過監(jiān)督編碼器和解碼器的輸出來蒸餾整個(gè)模型。

2.3.2 量化

量化是將模型的高精度權(quán)重/激活值 X(例如 32 位浮點(diǎn)數(shù))轉(zhuǎn)換為低精度格式(例如 16 位浮點(diǎn)數(shù)、8 位整數(shù))的過程。廣泛使用的一種量化函數(shù)是均勻?qū)ΨQ量化,其公式如下:

首篇!全面解讀高效Segment Anything模型變體:各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

首篇!全面解讀高效Segment Anything模型變體:各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

2.3.3 剪枝

模型剪枝通過消除冗余的權(quán)重或連接來減少模型的大小和復(fù)雜性,同時(shí)盡量保持精度。剪枝方法通常分為兩種類型:結(jié)構(gòu)化剪枝和非結(jié)構(gòu)化剪枝 。結(jié)構(gòu)化剪枝根據(jù)特定標(biāo)準(zhǔn)以組的方式刪除參數(shù),系統(tǒng)性地針對(duì)通道、層或塊等子結(jié)構(gòu)。相比之下,非結(jié)構(gòu)化剪枝則專注于單個(gè)權(quán)重,通常導(dǎo)致稀疏和碎片化的網(wǎng)絡(luò)。然而,由于剩余網(wǎng)絡(luò)結(jié)構(gòu)的不規(guī)則性,非結(jié)構(gòu)化剪枝可能在一般硬件上并未帶來有效的加速。在 [18] 中,應(yīng)用結(jié)構(gòu)化剪枝來減輕 SAM 的重量,通過移除大量冗余權(quán)重顯著減少了模型的大小,同時(shí)保留了大部分 SAM 的能力。

2.3.4 低秩分解

首篇!全面解讀高效Segment Anything模型變體:各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

首篇!全面解讀高效Segment Anything模型變體:各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

首篇!全面解讀高效Segment Anything模型變體:各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

3 SAM 的高效變體

本節(jié)回顧了自 SAM 受到關(guān)注以來,為開發(fā)輕量級(jí)高效的 SAM 類模型所做的努力。這些工作旨在降低模型的高計(jì)算成本并實(shí)現(xiàn)高效性能,同時(shí)保持 SAM 強(qiáng)大的分割能力和泛化能力。正如前面所述,SAM 解決了兩個(gè)主要任務(wù),包括 Segment Anything (SegAny) 和 Segment Everything (SegEvery)。因此,我們分別討論旨在改進(jìn)每個(gè)任務(wù)的研究:首先,關(guān)注加速 SegAny 任務(wù),然后涵蓋加速 SegEvery 任務(wù)的努力。值得注意的是,一些方法適用于這兩個(gè)任務(wù),將單獨(dú)討論這些貢獻(xiàn)。此外,根據(jù)所采用的技術(shù)將所有模型分類,并在下圖 3 中呈現(xiàn)方法論的分類。最后,概述了該領(lǐng)域未來研究的四個(gè)潛在方向。

首篇!全面解讀高效Segment Anything模型變體:各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

3.1 加速 SegAny 任務(wù)

正如前面所分析的,SegAny 任務(wù)的主要瓶頸在于 SAM 的龐大架構(gòu)。一種直接的解決方案是用更高效的主干替換編碼器。或者,采用保持與 SAM 相同分割能力的不同架構(gòu)也是一種方法。遵循這些策略的工作要么涉及完全從頭開始訓(xùn)練輕量級(jí)模型,要么使用合適的監(jiān)督進(jìn)行知識(shí)蒸餾訓(xùn)練模型。此外,一些研究探索量化、剪枝或局部?jī)?yōu)化等方法,以直接壓縮 SAM,而不替換編碼器或構(gòu)建新架構(gòu)。

3.1.1 從頭開始訓(xùn)練

本小節(jié)聚焦于完全從頭開始訓(xùn)練 SAM 變體的工作。根據(jù)它們的架構(gòu),這些模型可以分為兩種類型:與 SAM 架構(gòu)不同的架構(gòu)和類似 SAM 的架構(gòu)。我們將按照這種分類詳細(xì)探討每種類型。


FastSAM 是第一個(gè)不依賴于 SAM 原始編碼器-解碼器架構(gòu)的 SAM 變體之一。為了實(shí)現(xiàn)更快的分割,它將 SegAny 任務(wù)分為兩個(gè)子任務(wù):全實(shí)例分割和基于提示的選擇。由于實(shí)例分割已被許多基于 CNN 的方法有效解決,F(xiàn)astSAM 提供了比基于Transformer的 SAM 更高的效率。對(duì)于實(shí)例分割,F(xiàn)astSAM 采用 YOLOv8-Seg 模型,并使用 YOLACT 方法來提升性能。FastSAM 可以使用點(diǎn)、框或文本作為提示,可靠地預(yù)測(cè)感興趣的物體。除了加速 SegAny 任務(wù)外,F(xiàn)astSAM 還在 SegEvery 任務(wù)中表現(xiàn)出色,因?yàn)檫@可以與全實(shí)例分割高效地實(shí)現(xiàn)。然而,作為 SAM 的早期高效變體,F(xiàn)astSAM 仍然存在一些局限性,例如對(duì)較小物體生成低質(zhì)量mask和生成邊界不夠平滑的mask。盡管存在這些缺點(diǎn),F(xiàn)astSAM 通過在該領(lǐng)域引入基于 CNN 的架構(gòu)標(biāo)志著顯著的進(jìn)展。FastSAM 的架構(gòu)如下圖 4 所示。

首篇!全面解讀高效Segment Anything模型變體:各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

基于 FastSAM 中 CNN 成功應(yīng)用的基礎(chǔ),Varadarajan 等人引入了 SqueezeSAM,進(jìn)一步用 U-Net 結(jié)構(gòu)替換了 SAM 的基于Transformer的架構(gòu)。U-Net 由用于特征提取的編碼器和用于信息恢復(fù)的解碼器組成。SqueezeSAM 保留了一般的 U-Net 架構(gòu),但在 U-Net 的最低尺度處加入了兩個(gè)Transformer層,以在速度和準(zhǔn)確性之間取得平衡。此外,SqueezeSAM 還具有幾個(gè)微觀級(jí)別的優(yōu)化,例如將輸出通道限制在 256,使用 BatchNorm代替 LayerNorm以提高效率,并在編碼器和解碼器之間引入跳躍連接。

SqueezeSAM 的一個(gè)獨(dú)特挑戰(zhàn)在于處理提示。與 SAM 在解碼階段使用提示tokens不同,SqueezeSAM 采用了早期融合策略,將編碼的提示作為額外輸入通道,添加到輸入編碼器之前。該模型使用 SA-1B 數(shù)據(jù)集從頭開始訓(xùn)練,數(shù)據(jù)增強(qiáng)技術(shù)用于解決低質(zhì)量數(shù)據(jù)問題。SqueezeSAM 主要設(shè)計(jì)用于攝影應(yīng)用的部署,其中需要高效的交互式分割。如圖 5 所示,其工作流程包括生成顯著物體的初始mask,然后通過用戶點(diǎn)擊進(jìn)行精細(xì)分割。

首篇!全面解讀高效Segment Anything模型變體:各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

EfficientSAM并沒有引入全新的網(wǎng)絡(luò),而是保留了 SAM 的原始架構(gòu),但替換了圖像編碼器。他們使用 ViT-tiny 或 ViT-small 作為輕量級(jí)編碼器,并利用基于 SAM 的 Masked Image (SAMI) 預(yù)訓(xùn)練策略從頭開始重新訓(xùn)練。SAMI 是從 Masked AutoEncoder (MAE) 框架適配而來,該框架最初用于預(yù)訓(xùn)練 SAM 的原始圖像編碼器。SAMI 遵循編碼器-解碼器管道:編碼器從未遮罩的圖塊中生成潛在特征表示,而解碼器則重構(gòu)遮罩圖塊的缺失嵌入。這個(gè)過程由重構(gòu)損失監(jiān)督,比較 SAM 的 ViT-H 編碼器生成的嵌入與 SAMI 管道生成的嵌入。預(yù)訓(xùn)練完成后,輕量級(jí)編碼器從 SAMI 管道中提取并與 SAM 的其余組件集成,形成 EfficientSAM。最后一步是對(duì)整個(gè)模型在 SA-1B 數(shù)據(jù)集上進(jìn)行微調(diào),以進(jìn)一步對(duì)齊和細(xì)化。SAMI 是一種通用的預(yù)訓(xùn)練方法,可以應(yīng)用于訓(xùn)練任何用于 SAM 變體的主干。SAMI 和 EfficientSAM 的整體結(jié)構(gòu)如下圖 6 所示。

首篇!全面解讀高效Segment Anything模型變體:各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

Xu 等人提出了 RAP-SAM,該模型旨在實(shí)現(xiàn)實(shí)時(shí)的通用分割,包括全景分割 (PS)、視頻實(shí)例分割 (VIS) 和交互式分割(相當(dāng)于 SegAny 任務(wù))。RAP-SAM 保留了 SAM 的基本編碼器-解碼器架構(gòu),但結(jié)合了更高效的組件以增強(qiáng)性能。對(duì)于編碼器,RAP-SAM 結(jié)合了特征金字塔網(wǎng)絡(luò) (FPN) 和可變形卷積 來從圖像和視頻中提取特征,同時(shí)使用提示編碼器嵌入視覺提示。在解碼器中,RAP-SAM 采用三階段管道,利用新穎的基于池化的動(dòng)態(tài)卷積來細(xì)化masktokens。每個(gè)階段生成的tokens以及來自編碼器的特征圖作為輸入。首先,這些輸入通過動(dòng)態(tài)卷積處理,然后利用多頭自注意力 (MHSA) 和前饋網(wǎng)絡(luò) (FFN) 進(jìn)行細(xì)化。在解碼器之后,額外引入兩個(gè)提示適配器,以增強(qiáng)視覺提示和分割tokens之間的交互。最終mask是通過計(jì)算更新后的tokens和更新后的提示之間的內(nèi)積生成的。RAP-SAM 的架構(gòu)如下圖 7 所示。

首篇!全面解讀高效Segment Anything模型變體:各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

最近,Ravi 等人引入了 Segment Anything Model 2 (SAM 2),這是對(duì)原始 SAM 的擴(kuò)展。SAM 2 的目標(biāo)是在圖像和視頻中提供高質(zhì)量、實(shí)時(shí)的可提示分割。在圖像分割任務(wù)中,SAM 2 報(bào)告顯示其準(zhǔn)確性更高,并且效率比原始 SAM 提高了 6 倍。這一顯著進(jìn)展主要?dú)w功于其高效的圖像編碼器 Hiera,這是一種分層 ViT,通過去除冗余組件并利用 MAE 框架進(jìn)行訓(xùn)練,從 MViTv2 中簡(jiǎn)化而來。Hiera 是一種精簡(jiǎn)的、純Transformer基礎(chǔ)的架構(gòu),在圖像和視頻任務(wù)中運(yùn)行速度更快,準(zhǔn)確性更高。

3.1.2 基于知識(shí)蒸餾的方法

從前面圖 3 所示的分類法中,我們觀察到許多方法利用知識(shí)蒸餾,因?yàn)檫@種方法通常比完全模型訓(xùn)練需要更少的時(shí)間和資源。在本節(jié)中,我們回顧采用高效主干作為圖像編碼器,同時(shí)利用知識(shí)蒸餾進(jìn)行訓(xùn)練的 SAM 變體。我們根據(jù)編碼器類型將這些模型分為三類:具有 (i) 輕量級(jí) ViT 編碼器、(ii) 純 CNN 編碼器和 (iii) 修改過的注意力編碼器的模型。我們將依次介紹每個(gè)類別。


(i) 輕量級(jí) ViT 編碼器Zhang 等人首次嘗試用更高效的 TinyViT 替換 SAM 的重型 ViT 編碼器,形成名為 MobileSAM 的集成模型。如 [55] 所強(qiáng)調(diào),訓(xùn)練 SAM 從頭開始需要多天和 128 個(gè) GPU。MobileSAM 將這一復(fù)雜性歸因于同時(shí)優(yōu)化編碼器和解碼器的挑戰(zhàn)。為了解決這個(gè)問題,他們提出了一種僅編碼器蒸餾策略,如下圖 8 所示,旨在將 ViT-H 的視覺表示能力轉(zhuǎn)移到 TinyViT。所使用的損失函數(shù)是兩個(gè)編碼器的輸出圖像嵌入之間的簡(jiǎn)單均方誤差 (MSE)。進(jìn)一步微調(diào)提示編碼器或mask解碼器是可選的,并且可以提高準(zhǔn)確性。

首篇!全面解讀高效Segment Anything模型變體:各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

與 MobileSAM 類似,后來的 ESAM利用 EfficientFormerV2作為其主干,旨在在 CPU 環(huán)境中改善性能,特別是在資源有限的醫(yī)療設(shè)備上。鑒于專家模型在醫(yī)療應(yīng)用中通常優(yōu)于 SAM,ESAM 采用了一種新穎的知識(shí)蒸餾 (KD) 策略,稱為整體知識(shí)蒸餾 (HKD),以將知識(shí)從專家模型轉(zhuǎn)移到 ESAM。HKD 包括兩個(gè)組成部分:特征圖蒸餾和輸出mask蒸餾。對(duì)于特征圖蒸餾,結(jié)合了三種不同的聚焦方法 來指導(dǎo)學(xué)習(xí)過程。對(duì)于輸出mask蒸餾,ESAM 使用教師mask和學(xué)生mask之間的均方誤差 (MSE) 損失,輔以教師mask和真實(shí)mask之間的二元交叉熵 (BCE) 損失。為了進(jìn)一步對(duì)齊專家模型和 ESAM 之間的特征圖,提出了一種教師引導(dǎo)模塊 (TGM),如下圖 9 所示。

首篇!全面解讀高效Segment Anything模型變體:各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

Shu 等人對(duì) MobileSAM 進(jìn)行了分析,發(fā)現(xiàn)僅編碼器蒸餾可能導(dǎo)致顯著的性能下降。為了解決這個(gè)問題,他們提出了更有效的全階段知識(shí)蒸餾策略,稱為 Hard Mining Full-Stage Knowledge Distillation,如下圖 10 所示。

首篇!全面解讀高效Segment Anything模型變體:各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

TinySAM 是一個(gè)新的 SAM 變體,其結(jié)構(gòu)與 MobileSAM 相同,通過這種改進(jìn)的 KD 策略進(jìn)行訓(xùn)練。具體而言,該策略不僅監(jiān)督圖像嵌入,還監(jiān)督輸出tokens和輸出mask,均使用 L1 損失。為了進(jìn)一步增強(qiáng)蒸餾過程,他們引入了困難mask加權(quán)策略,該策略對(duì)更難預(yù)測(cè)的mask分配更大的權(quán)重,從而提高學(xué)習(xí)效率。因子 H 的計(jì)算如下:

首篇!全面解讀高效Segment Anything模型變體:各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

(ii) 基于 CNN 的編碼器

來自 NVIDIA 的研究人員基于 MobileSAM 引入了一種新的 SAM 變體,稱為 NanoSAM。它旨在在 NVIDIA Jetson Orin 平臺(tái)上實(shí)現(xiàn)實(shí)時(shí)性能,使用 NVIDIA TensorRT。NanoSAM 將基于 ViT 的編碼器替換為純卷積網(wǎng)絡(luò),具體為 ResNet18,同時(shí)保留了 MobileSAM 的其他組件。NanoSAM 從 MobileSAM 中進(jìn)行蒸餾,兩個(gè)模型都使用 TensorRT 進(jìn)行重新訓(xùn)練以優(yōu)化性能。MobileSAM 的圖像編碼器使用 FP32 精度進(jìn)行優(yōu)化,而 NanoSAM 的圖像編碼器則使用 FP16 精度以實(shí)現(xiàn)更快的執(zhí)行。在 Jetson Orin Nano 和 Jetson AGX Orin 上的推理延遲結(jié)果表明,NanoSAM 比 MobileSAM 快 5 倍,且準(zhǔn)確性損失最小。


Wang 等人 開發(fā)了一種高效的 SAM 變體 RepViT-SAM,使用他們新提出的基于 CNN 的主干 RepViT作為圖像編碼器。RepViT 背后的核心思想是將高效視覺Transformer (ViTs) 的有效設(shè)計(jì)原則集成到輕量級(jí) CNN 中。這些設(shè)計(jì)原則應(yīng)用于三個(gè)層次:塊級(jí)、宏觀和微觀。在塊級(jí),RepViT 分離了tokens混合器和通道混合器,減少了擴(kuò)展比,并增加了塊的寬度。在宏觀設(shè)計(jì)中,采用早期卷積作為輸入干,深化下采樣層 ,采用更簡(jiǎn)單的分類器,并調(diào)整各個(gè)階段的塊比例。在微觀層面,僅使用 3x3 卷積,并且僅在奇數(shù)塊中應(yīng)用擠壓與激勵(lì)層。RepViT-SAM 使用知識(shí)蒸餾進(jìn)行訓(xùn)練,遵循 [147] 中的相同流程,與 MobileSAM 相比,推理速度提高了 10 倍。


與 RepViT-SAM 的開發(fā)同時(shí),Zhou 等人觀察到,MobileSAM在邊緣設(shè)備(如手機(jī))上部署時(shí)仍難以實(shí)現(xiàn)實(shí)時(shí)性能。為了解決這個(gè)問題,他們引入了 EdgeSAM,該模型將基于 Transformer 的編碼器替換為更輕量高效的純 CNN 基礎(chǔ)的 RepViT,旨在提高在資源有限設(shè)備上的性能。與 [162] 中的方法類似,Zhou 等人認(rèn)為僅使用編碼器蒸餾是不夠的,因?yàn)樗c任務(wù)無關(guān),不能完全捕捉模型的任務(wù)特定需求。為了克服這一問題,他們提出了“循環(huán)中的提示蒸餾”方法,為輸出mask增加額外的監(jiān)督?!把h(huán)中的提示”是指一種動(dòng)態(tài)采樣策略,迭代地從教師和學(xué)生預(yù)測(cè)mask的非重疊區(qū)域中采樣新提示。經(jīng)過若干次迭代,累計(jì)損失被反向傳播以更新編碼器和解碼器。為了進(jìn)一步提高輸出質(zhì)量,EdgeSAM 提供了一個(gè)可選模塊,從特定數(shù)據(jù)集中嵌入粒度先驗(yàn)。EdgeSAM 的蒸餾整體框架如下圖 11 所示。

首篇!全面解讀高效Segment Anything模型變體:各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

(iii) 修改過的注意力編碼器

Zhang 等人引入了 EfficientViT-SAM,利用 EfficientViT作為圖像編碼器。EfficientViT 的主要優(yōu)點(diǎn)是使用了 ReLU 線性注意力機(jī)制,該機(jī)制促進(jìn)了全局信息交互,同時(shí)提高了硬件效率。通過消除不利于硬件的 softmax 操作并用 ReLU 替代,注意力計(jì)算重新公式化如下:

首篇!全面解讀高效Segment Anything模型變體:各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

首篇!全面解讀高效Segment Anything模型變體:各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

Shen 等人引入了 FastSAM3D,這是一個(gè)專門為 3D 體積醫(yī)學(xué)圖像設(shè)計(jì)的高效分割模型。該工作的關(guān)鍵貢獻(xiàn)是開發(fā)了 3D 稀疏閃存注意力機(jī)制。這種新穎的注意力方法結(jié)合了 3D 膨脹注意力 擴(kuò)展感受野)的優(yōu)點(diǎn)和 FlashAttention以加速計(jì)算。FastSAM3D 使用修改過的 ViT-Tiny 作為圖像編碼器,從 ViT-Base 編碼器蒸餾而來,確保在不妥協(xié)性能的情況下實(shí)現(xiàn)效率。作者實(shí)現(xiàn)了一種層級(jí)漸進(jìn)蒸餾策略,以迭代地對(duì)齊兩個(gè)編碼器之間的特征圖。

首篇!全面解讀高效Segment Anything模型變體:各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

Yuan 等人的最新研究 RWKV-SAM,在加速 SAM 方面代表了一個(gè)重要進(jìn)展,引入了流行的線性注意力模型作為高效主干。在他們的研究中,他們比較了基于 RWKV 和 Mamba 的架構(gòu),選擇基于 RWKV 的方法構(gòu)建 SAM 的輕量版本。該主干是混合設(shè)計(jì),前兩層由來自 [97] 的移動(dòng)卷積塊組成,最后一層使用視覺 RWKV 塊構(gòu)建。有關(guān) RWKV 的更多細(xì)節(jié)見第 2.2.2 節(jié)。此外,SAM 類架構(gòu)中還納入了一個(gè)細(xì)化模塊,通過融合每個(gè)階段生成的不同層次的特征來增強(qiáng)mask質(zhì)量。RWKV-SAM 的整體架構(gòu)如下圖 12 所示。該模型使用“蒸餾-微調(diào)”策略進(jìn)行訓(xùn)練,首先將 SAM-H 中的知識(shí)蒸餾到主干,然后對(duì)整個(gè)模型進(jìn)行微調(diào)。RWKV-SAM 顯示出顯著的效率提升,同時(shí)保持與 SAM 相當(dāng)?shù)姆指钚阅堋?/p>

首篇!全面解讀高效Segment Anything模型變體:各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

3.1.3 基于量化的方法

首篇!全面解讀高效Segment Anything模型變體:各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

首篇!全面解讀高效Segment Anything模型變體:各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

首篇!全面解讀高效Segment Anything模型變體:各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

3.1.4 基于剪枝的方法

Chen 等人首先開發(fā)了一種有效的剪枝策略,以減少 SAM 的規(guī)模和復(fù)雜度,得到的模型稱為 SlimSAM。如第 2.3.3 節(jié)所述,剪枝算法旨在以結(jié)構(gòu)化或個(gè)別的方式刪除冗余參數(shù)。在應(yīng)用于 SAM 的重型編碼器時(shí),初始步驟涉及估計(jì)權(quán)重和激活值的重要性,以確定哪些應(yīng)被剪枝。評(píng)估重要性的核心思想是評(píng)估給定參數(shù)有無的損失差異。SlimSAM 引入了擾動(dòng)泰勒重要性方法,該方法使用一階泰勒展開來近似參數(shù)的重要性,并引入高斯噪聲N以防止梯度變?yōu)榱?。這個(gè)過程被公式化如下:

首篇!全面解讀高效Segment Anything模型變體:各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

一旦參數(shù)的重要性被估計(jì),便采用一種稱為交替剪枝的策略來執(zhí)行結(jié)構(gòu)化剪枝和后對(duì)齊?;?ViT 的編碼器首先被分為兩個(gè)子結(jié)構(gòu):嵌入層和瓶頸層。該策略在修剪嵌入/瓶頸層以減小模型規(guī)模和對(duì)齊瓶頸/嵌入層以保持模型質(zhì)量之間交替進(jìn)行,確保效率與性能的平衡。該過程的工作流程如下圖 13 所示。

首篇!全面解讀高效Segment Anything模型變體:各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

3.1.5 代碼重構(gòu)

由 PyTorch 團(tuán)隊(duì)開發(fā)的 Segment Anything Fast 模型(SAMfast)是 SAM 的重寫版本,利用了純?cè)?PyTorch 的優(yōu)化。報(bào)告顯示,SAMfast 比原始實(shí)現(xiàn)快 8 倍,同時(shí)保持幾乎相同的準(zhǔn)確性。這一改進(jìn)是通過系統(tǒng)地識(shí)別瓶頸并應(yīng)用針對(duì)性的優(yōu)化實(shí)現(xiàn)的。最初,團(tuán)隊(duì)發(fā)現(xiàn)了導(dǎo)致同步阻塞的長(zhǎng)函數(shù)調(diào)用,從而重寫了相應(yīng)的代碼。另一個(gè)顯著的瓶頸是耗時(shí)的矩陣乘法,通過使用 bfloat16 精度來減輕這一問題。進(jìn)行這些調(diào)整后,團(tuán)隊(duì)利用 ??torch.compile?? 融合更小的操作,并采用 PyTorch 的縮放點(diǎn)積注意力(SDPA)來加速 GPU 上的注意力計(jì)算。此外,通過集成使用 Triton 構(gòu)建的新內(nèi)核,進(jìn)一步減少了 GPU 的內(nèi)存使用。當(dāng) SAM 使用批量預(yù)測(cè)方法時(shí),不同大小的輸入張量被統(tǒng)一為 NestedTensors,從而顯著提高了吞吐量。盡管進(jìn)行了這些優(yōu)化,矩陣乘法仍然是一個(gè)關(guān)鍵瓶頸。為了解決這個(gè)問題,團(tuán)隊(duì)實(shí)現(xiàn)了 int8 量化,并使用半結(jié)構(gòu)稀疏性來近似矩陣乘法。有關(guān)逐步優(yōu)化過程的更多細(xì)節(jié),建議查看官方博客以獲取更多信息。

3.2 加速 SegEvery 任務(wù)

如第 3.1 節(jié)所述,SegAny 任務(wù)的主要效率瓶頸在于重型圖像編碼器。任何具有更輕量架構(gòu)的 SAM 變體在本質(zhì)上都能比原始 SAM 更快地進(jìn)行分割。然而,正如 Zhang 等人分析的那樣,SegEvery 任務(wù)的主要挑戰(zhàn)源于密集網(wǎng)格采樣策略。該策略首先基于點(diǎn)網(wǎng)格預(yù)測(cè)大量mask,然后選擇有效mask,這在計(jì)算上是昂貴的。因此,設(shè)計(jì)一種更高效的采樣策略以減少預(yù)測(cè)mask的數(shù)量已成為加速 SegEvery 任務(wù)的核心方法。另一種潛在解決方案是將 SegEvery 任務(wù)轉(zhuǎn)換為另一個(gè)成熟的任務(wù),例如全實(shí)例分割,正如 FastSAM 所做的那樣。在這一部分中,我們將回顧專門提出優(yōu)化采樣策略以加速 SegEvery 任務(wù)的相關(guān)工作。


基于 SAM 的結(jié)構(gòu),Zhang 等人 提出了一個(gè)面向?qū)ο蟮奶崾静蓸硬呗?,以增?qiáng) SegEvery 任務(wù)的效率。這個(gè)項(xiàng)目名為 MobileSAMv2,獨(dú)立于他們之前的工作,后者專注于加速 SegAny 任務(wù)。在 MobileSAMv2 中,研究人員使用訓(xùn)練在 SA-1B 小子集上的 YOLOv8 模型進(jìn)行對(duì)象發(fā)現(xiàn)。該模型生成大量對(duì)應(yīng)于潛在對(duì)象的邊界框。通過非極大值抑制(NMS)過濾高度重疊的框,剩余的框作為框提示使用。通過使用這些過濾后的框作為提示,MobileSAMv2 消除了過濾預(yù)測(cè)mask的需要——這是一個(gè)耗時(shí)更長(zhǎng)的過程。最大提示數(shù)設(shè)置為 320,新策略被報(bào)告為比傳統(tǒng)的 32*32 網(wǎng)格采樣策略快 16 倍。此外,MobileSAMv2 可以與 MobileSAM 集成,以創(chuàng)建一個(gè)統(tǒng)一模型,在 SegAny 和 SegEvery 任務(wù)中實(shí)現(xiàn)高效率。


Shu 等人觀察到,使用密集點(diǎn)網(wǎng)格(例如,3232,6464)往往會(huì)生成大量冗余mask,這些mask在后處理過程中被過濾掉,這一操作會(huì)帶來顯著的時(shí)間成本。實(shí)際上,網(wǎng)格中只需少數(shù)點(diǎn)即可生成置信度高的mask。為了解決這一低效問題,他們提出了一種分層高效采樣策略,逐步選擇用于mask生成的最佳點(diǎn)。該策略涉及兩輪提示生成。在第一輪中,使用稀疏網(wǎng)格,只包括每邊默認(rèn)點(diǎn)的四分之一(約 1/4)?;谶@些點(diǎn)生成mask,經(jīng)過過濾后,僅保留高置信度mask作為最終預(yù)測(cè)。在第二輪中,應(yīng)用更密集的網(wǎng)格,遵循默認(rèn)配置。然而,位于已被高置信度mask覆蓋區(qū)域的點(diǎn)被排除,從而顯著減少點(diǎn)的數(shù)量。兩輪的預(yù)測(cè)結(jié)果隨后被融合以生成最終輸出。這一分層策略的流程如下圖 14 所示。通過采用這種兩輪方法,采樣過程變得更加節(jié)省時(shí)間和細(xì)致,從而在 SegEvery 任務(wù)中顯著加速,同時(shí)性能下降最小。

首篇!全面解讀高效Segment Anything模型變體:各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

與前述所有工作不同,F(xiàn)u et al.提出了一個(gè)專門為 SegEvery 任務(wù)設(shè)計(jì)的端到端訓(xùn)練管道,旨在開發(fā)一個(gè)能夠更高效地進(jìn)行全局分割的 SAM 變體。他們的模型名為 Lite-SAM,保留了原始 SAM 的整體架構(gòu),但用更輕量化的解決方案替換了重型圖像編碼器。Lite-SAM 的架構(gòu)概述如下圖 15 所示。

首篇!全面解讀高效Segment Anything模型變體:各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

Lite-SAM 采用了一種稱為 Lite-ViT 的 CNN-Transformer 混合結(jié)構(gòu),由 2、2、6 和 2 個(gè) Lite-ViT 模塊構(gòu)成。Lite-ViT 的關(guān)鍵創(chuàng)新在于多尺度池化模塊 (MSPM),該模塊作為傳統(tǒng)注意力機(jī)制的替代方案。MSPM 從 PoolFormer 模塊 適配而來,利用通道層歸一化并將池化操作擴(kuò)展到多個(gè)尺度。正如前面所討論的,SAM 的另一個(gè)主要瓶頸在于耗時(shí)的網(wǎng)格采樣策略。為了解決這個(gè)問題,Lite-SAM 引入了一種自動(dòng)提示提議網(wǎng)絡(luò)(AutoPPN)以提高采樣效率。AutoPPN 以編碼器生成的特征圖作為輸入,直接預(yù)測(cè)點(diǎn)和框提示。為了確保高質(zhì)量的提示,Lite-SAM 使用了比 CNN 更強(qiáng)大的基于 MSPM 的網(wǎng)絡(luò),并結(jié)合距離變換來估計(jì)點(diǎn)提示的置信度。雖然 Lite-SAM 主要設(shè)計(jì)用于加速 SegEvery 任務(wù),但由于其輕量化的圖像編碼器,它在 SegAny 任務(wù)中也顯示出更高的效率。

3.3 未來研究方向

通過對(duì)高效 SAM 變體的全面回顧,我們概述了加速 SAM 的當(dāng)前進(jìn)展。然而,仍然存在進(jìn)一步探索和創(chuàng)新的機(jī)會(huì)。以下是幾個(gè)潛在的未來研究方向,提供初步見解,希望能夠激勵(lì)讀者為該領(lǐng)域的持續(xù)發(fā)展做出貢獻(xiàn)。

3.3.1 探索先進(jìn)的架構(gòu)

盡管當(dāng)前的 SAM 變體通過采用高效架構(gòu)和模型壓縮技術(shù)展示了效率提升,但仍有很大的改進(jìn)潛力。探索 Transformer 替代模型,如 Mamba、RetNet、KAN和 TTT,為設(shè)計(jì)更輕量化和高效的結(jié)構(gòu)提供了令人興奮的機(jī)會(huì)。這些模型可能在計(jì)算效率方面具有優(yōu)勢(shì),同時(shí)不犧牲分割準(zhǔn)確性。除了替代模型外,進(jìn)一步提升圖像編碼器和mask解碼器中注意力機(jī)制的效率也是至關(guān)重要的。諸如線性注意力、低秩分解或結(jié)合卷積和基于注意力的設(shè)計(jì)的混合架構(gòu)等方法應(yīng)進(jìn)一步研究。解決計(jì)算和內(nèi)存使用中的瓶頸將增強(qiáng) SAM 在不同硬件環(huán)境中的部署能力。

3.3.2 利用稀疏性和加速技術(shù)

在深度神經(jīng)網(wǎng)絡(luò)中觀察到的固有稀疏性,即只有一部分參數(shù)對(duì)模型輸出產(chǎn)生顯著貢獻(xiàn),提供了提高 SAM 效率的有希望的途徑。剪枝、量化和結(jié)構(gòu)稀疏等技術(shù)可以進(jìn)一步降低 SAM 的計(jì)算需求。盡管在 [18] 中的初步稀疏化努力已顯示出成功,但未來的研究可以集中在理解 SAM 架構(gòu)中稀疏性的分布和動(dòng)態(tài)特性上。這包括研究可以在不影響性能的情況下被剪枝或稀疏化的 SAM 最優(yōu)層或組件。此外,稀疏注意力機(jī)制、推理過程中的動(dòng)態(tài)剪枝以及低精度訓(xùn)練等技術(shù)應(yīng)被探索,以在大型部署中平衡準(zhǔn)確性和效率。通過將這些與先進(jìn)的知識(shí)蒸餾技術(shù)結(jié)合,可能實(shí)現(xiàn)更緊湊、高效的 SAM 變體。

3.3.3 硬件特定優(yōu)化

對(duì) SAM 進(jìn)行針對(duì)特定硬件平臺(tái)的優(yōu)化,包括 GPU、TPU、專業(yè) AI 加速器(例如 NVIDIA 的 TensorRT 或 Google 的 Edge TPU)以及邊緣設(shè)備,可以顯著提升性能和效率。硬件感知模型優(yōu)化技術(shù),如操作符融合、量化感知訓(xùn)練和自定義 CUDA 內(nèi)核,可以在現(xiàn)代硬件平臺(tái)上最大化吞吐量并降低延遲。在邊緣設(shè)備的上下文中,由于面臨存儲(chǔ)、計(jì)算能力和能量供應(yīng)的極端限制,這些優(yōu)化對(duì)實(shí)時(shí)應(yīng)用(如無人機(jī)或物聯(lián)網(wǎng)設(shè)備上的分割)至關(guān)重要。未來的研究可以探索分層云-邊緣架構(gòu),將計(jì)算密集型任務(wù)卸載到云端,同時(shí)在邊緣設(shè)備上運(yùn)行輕量級(jí)模型。此外,利用專用 AI 硬件(如現(xiàn)場(chǎng)可編程門陣列 (FPGA))或使用硬件感知的神經(jīng)架構(gòu)搜索 (NAS) 和混合精度量化等技術(shù),可以進(jìn)一步優(yōu)化 SAM,以實(shí)現(xiàn)低延遲和資源受限環(huán)境中的有效運(yùn)行,確保模型在不同硬件平臺(tái)上高效運(yùn)作。

3.3.4 視頻和多模態(tài)數(shù)據(jù)的高效分割

視頻和多模態(tài)任務(wù)處理復(fù)雜、動(dòng)態(tài)的環(huán)境,正迅速在眾多實(shí)際應(yīng)用中獲得相關(guān)性。盡管一些初步努力,例如 SAM 2用于視頻分割和 MM-SAM用于多模態(tài)任務(wù),已經(jīng)擴(kuò)展了 SAM 的適用性,但效率仍然是一個(gè)迫切問題。視頻數(shù)據(jù)包含時(shí)間冗余,而多模態(tài)數(shù)據(jù)通常表現(xiàn)出模態(tài)之間的相關(guān)性。通過時(shí)間聚合和跨模態(tài)特征共享等技術(shù)利用這些固有的冗余,可能顯著降低計(jì)算成本。未來的工作可以集中在利用時(shí)空注意力、為時(shí)間數(shù)據(jù)設(shè)計(jì)高效的內(nèi)存機(jī)制和早期融合技術(shù),以減少模態(tài)特定計(jì)算的數(shù)量,從而優(yōu)化 SAM 的運(yùn)行復(fù)雜性。開發(fā)能夠動(dòng)態(tài)適應(yīng)不同幀或模態(tài)冗余水平的框架,可以進(jìn)一步推動(dòng)實(shí)際應(yīng)用中的計(jì)算效率。

4. 評(píng)估

在本節(jié)中,我們系統(tǒng)比較了前述 SAM 變體的效率和準(zhǔn)確性。參考這些工作的實(shí)驗(yàn),我們選擇大多數(shù)工作所執(zhí)行的任務(wù),并在其常用數(shù)據(jù)集上進(jìn)行評(píng)估,并使用相應(yīng)的度量標(biāo)準(zhǔn)。我們的評(píng)估在單個(gè) 24GB RTX 3090 GPU 和 14 個(gè) vCPU 的 Intel(R) Xeon(R) Gold 6330 處理器 @ 2.00GHz 上進(jìn)行。以下子節(jié)提供更多細(xì)節(jié):第 4.1 節(jié)介紹了用于評(píng)估的數(shù)據(jù)集和度量標(biāo)準(zhǔn);第 4.2 和 4.3 節(jié)分別報(bào)告了效率和準(zhǔn)確性的定量結(jié)果。

4.1 數(shù)據(jù)集和度量標(biāo)準(zhǔn)

研究者們選擇 COCO 2017和 LVIS v1作為評(píng)估數(shù)據(jù)集。COCO 是一個(gè)大規(guī)模數(shù)據(jù)集,旨在用于目標(biāo)檢測(cè)、分割和標(biāo)注,包含 330K 張圖像和 150 萬個(gè)目標(biāo)實(shí)例,覆蓋 80 個(gè)目標(biāo)類別。LVIS 針對(duì)大詞匯實(shí)例分割進(jìn)行了定制,特征超過 200 萬個(gè)高質(zhì)量的分割掩膜,涵蓋 1200 多個(gè)類別,在 164K 張圖像中。為了進(jìn)行評(píng)估,我們使用兩個(gè)數(shù)據(jù)集的驗(yàn)證集,COCO 包含 5000 張圖像中的 36,781 個(gè)實(shí)例,LVIS 包含 19,809 張圖像中的 244,707 個(gè)實(shí)例。為了評(píng)估效率,我們首先測(cè)試幾個(gè)軟指標(biāo),如參數(shù)數(shù)量 (#Params)、浮點(diǎn)運(yùn)算量 (FLOPs)、乘加運(yùn)算量 (MACs) 和內(nèi)存使用情況。我們進(jìn)一步計(jì)算有效錯(cuò)誤率 (EER),這是一種更全面的評(píng)估,如 [86] 中所述。EER 定義為:

首篇!全面解讀高效Segment Anything模型變體:各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

其中 N 是度量的數(shù)量, 和  分別表示被測(cè)試模型和參考模型的第 i 個(gè)度量。在我們的評(píng)估中,參考模型設(shè)定為 SAM-H。除了這些度量之外,還報(bào)告模型的運(yùn)行時(shí)間和吞吐量。為了評(píng)估準(zhǔn)確性,使用均值交并比(mIoU)來評(píng)估 SegAny 任務(wù),并使用均值平均精度(AP)來評(píng)估實(shí)例分割任務(wù)。

4.2 效率比較

首先報(bào)告 SAM 及其變體的效率結(jié)果。以 SAM 官方示例中的圖像 groceries.jpg 作為輸入,利用一個(gè)邊界框作為提示,使用工具 calflops 評(píng)估模型的參數(shù)數(shù)量、FLOPs 和 MACs。我們還計(jì)算了 ERR 以進(jìn)行全面比較。結(jié)果如表 2 所示。在高效變體中,我們觀察到 EdgeSAM 的參數(shù)數(shù)量、FLOPs、MACs 及其相應(yīng)的 EER 是最低的,而 EfficientViT-SAM-XL1 的這些數(shù)值是最高的,其 EER 比 SAM-B 高出 3%。與最重的 SAM-H 相比,所有變體在模型大小和計(jì)算量上都表現(xiàn)出明顯的降低。


還測(cè)量了模型在 SegAny 和 SegEvery 模式下的推理時(shí)間,使用來自 COCO 驗(yàn)證集的 100 張圖像作為評(píng)估數(shù)據(jù)。在 SegAny 任務(wù)中,每張圖像都提示 50 個(gè)固定的邊界框。

通過曲線圖(如下圖16所示)報(bào)告每10個(gè)邊界框的累計(jì)時(shí)間?;诖?,計(jì)算處理一個(gè)圖像并使用一個(gè)邊界框提示所需的平均時(shí)間,并將其作為 SegAny 任務(wù)的推理時(shí)間報(bào)告。評(píng)估在 CPU 和 GPU 環(huán)境下進(jìn)行,并同時(shí)記錄 GPU 內(nèi)存使用情況。此外,還測(cè)試了每個(gè)變體在 COCO 驗(yàn)證集上的吞吐量,使用真實(shí)的邊界框。

首篇!全面解讀高效Segment Anything模型變體:各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

結(jié)果總結(jié)在表3中。我們的研究發(fā)現(xiàn),EfficientViT-SAM-L0 在 SegAny 任務(wù)中實(shí)現(xiàn)了最短的推理時(shí)間,與最重的模型 SAM-H 相比,在 GPU 上加速接近 30 倍,而在 CPU 上幾乎加速 50 倍。EdgeSAM 也表現(xiàn)出令人印象深刻的性能,其 CPU 延遲為 259 毫秒,而 NanoSAM 在 GPU 上的延遲為 20 毫秒,均接近最佳結(jié)果。在 COCO 數(shù)據(jù)集的吞吐量測(cè)試中,NanoSAM 以每秒處理 27.9 張圖像領(lǐng)先。其他兩個(gè)變體,EfficientSAM-Ti 和 EfficientViT-SAM-L0,也展示了強(qiáng)大的吞吐量,各自超過每秒 20 張圖像。

首篇!全面解讀高效Segment Anything模型變體:各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

對(duì)于 SegEvery 任務(wù),報(bào)告使用不同點(diǎn)網(wǎng)格大小(1616、3232、6464)或?qū)S貌蓸硬呗陨蓤D像所有mask所需的平均時(shí)間。結(jié)果在表4中呈現(xiàn)。使用默認(rèn)的 3232 網(wǎng)格,SAMfast-H 展示了最高的效率,延遲為 848 毫秒——比 SAM-H 快兩倍以上。EfficientViT-SAM-L0 在 1616 和 6464 網(wǎng)格上表現(xiàn)最佳,分別實(shí)現(xiàn)了 258 毫秒和 3938 毫秒的延遲。有趣的是,我們觀察到在使用較低網(wǎng)格密度時(shí),EfficientSAM-S 比 SAM-H 更慢,16x16 網(wǎng)格的延遲為 1100 毫秒,32*32 網(wǎng)格的延遲為 2290 毫秒。采用替代采樣策略的模型在效率上顯示出顯著改善,特別是 FastSAM 記錄了 196 毫秒的延遲,而 MobileSAMv2 的延遲為 173 毫秒。

4.3. 精度比較

本小節(jié)報(bào)告了 SAM 及其變體在 SegAny 任務(wù)(使用點(diǎn)/框提示)和實(shí)例分割任務(wù)上的精度結(jié)果。我循了 [159] 中的評(píng)估框架,并通過引入其他評(píng)估模塊進(jìn)行了統(tǒng)一的變體評(píng)估。

為了評(píng)估 SegAny 任務(wù),采用兩種類型的點(diǎn)作為提示:

  • 1)真實(shí)邊界框的中心點(diǎn)
  • 2)從真實(shí)mask中均勻隨機(jī)采樣的點(diǎn),遵循 [131] 中的設(shè)置。


在 COCO 和 LVIS 上對(duì)變體進(jìn)行了評(píng)估,并在下表 5 中報(bào)告了平均交并比(mIoU)。當(dāng)使用中心點(diǎn)提示時(shí),SAM2-B+ 和 EfficientViT-SAM-XL1 在 COCO 上達(dá)到了 54.3% 的最高 mIoU,超過了 SAM-H 的 53.6% mIoU,而 SAMfast-H 也以 53.6% 的 mIoU 在 LVIS 上展示了變體中的最佳性能。在隨機(jī)點(diǎn)提示的設(shè)置下,EfficientViT-SAM-XL1 的表現(xiàn)優(yōu)于 SAM-H,特別是在使用 3 個(gè)點(diǎn)提示時(shí),分別增加了 2.7% 和 0.7%。從數(shù)據(jù)集的角度來看,我們觀察到 LVIS 的結(jié)果普遍低于 COCO,尤其是對(duì)于 FastSAM 和 EfficientSAM-Ti,其在 LVIS 上的準(zhǔn)確率降至 30% 以下。

首篇!全面解讀高效Segment Anything模型變體:各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

此外,還評(píng)估了使用兩種類型框提示的 SegAny 任務(wù)的精度:

  • 1)真實(shí)的邊界框
  • 2)對(duì)應(yīng)真實(shí)mask的最緊邊界框,靈感來自于 [131, 159] 中的實(shí)驗(yàn)。


在 COCO 和 LVIS 上報(bào)告了 mIoU 的結(jié)果,如表 6 所示。我們觀察到 EfficientViT-SAM-XL1 在每種設(shè)置中都展示了最高的準(zhǔn)確性,分別超過 SAM-H 1.5%、1.1%、1.9% 和 0.6%。SAMfast-H 和 EfficientViT-SAM-L0 在框提示的分割任務(wù)中也展現(xiàn)了接近 SAM-H 的性能。


對(duì)于實(shí)例分割任務(wù),采用了 ViTDet、YOLOv8、GrounddingDINO、Detic 和 H-Deformable-DETR 與 Swin-L 作為物體檢測(cè)器,幫助生成潛在物體的邊界框,參考文獻(xiàn) [117, 159, 164]。評(píng)估了所有物體的平均精度(AP),以及小型、中型和大型物體的 AP。結(jié)果報(bào)告在下面表 7、8 和 9 中。與之前的結(jié)果類似,我們發(fā)現(xiàn) EfficientViT-SAM-XL1 在 COCO 數(shù)據(jù)集上總是以最高的 AP 表現(xiàn)(除 H-Deformable-DETR 外)。在將 ViTDet 作為檢測(cè)器并在 LVIS 數(shù)據(jù)集上測(cè)試的設(shè)置下,SAMfast-H 以 44.5% 的 AP 超過了所有其他變體。

首篇!全面解讀高效Segment Anything模型變體:各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

首篇!全面解讀高效Segment Anything模型變體:各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

首篇!全面解讀高效Segment Anything模型變體:各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

根據(jù)第 4.2 節(jié)和第 4.3 節(jié)的結(jié)果,進(jìn)一步繪制了吞吐量-mIoU 散點(diǎn)圖,以觀察變體的效率-精度權(quán)衡。具體而言,選擇了在 COCO 數(shù)據(jù)集上使用真實(shí)邊界框作為提示進(jìn)行評(píng)估的吞吐量和 mIoU。結(jié)果如下圖 17 所示。

首篇!全面解讀高效Segment Anything模型變體:各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

5. 結(jié)論

在本次調(diào)查中,主要討論和評(píng)估了關(guān)注于高效分割任意物體和分割所有物體的顯著工作,這些方法旨在減少資源消耗和降低延遲。對(duì)于高效的 SegAny 任務(wù),大多數(shù)工作采用替換圖像編碼器或整個(gè)架構(gòu)為輕量級(jí)替代方案的方法,隨后進(jìn)行從頭訓(xùn)練或通過知識(shí)蒸餾的方式進(jìn)行訓(xùn)練。其他工作則旨在利用量化、剪枝或局部?jī)?yōu)化等技術(shù)壓縮原始模型。對(duì)于高效的 SegEvery 任務(wù),采用有效且高效的采樣策略生成提示是至關(guān)重要的。


在詳細(xì)回顧這些方法后,還概述了四個(gè)可能的未來研究方向,這些方向可能推動(dòng)該領(lǐng)域的新趨勢(shì)。此外,我們?cè)谝恢碌沫h(huán)境中評(píng)估了這些模型的效率、準(zhǔn)確性及其相應(yīng)的權(quán)衡,提供了公正而有價(jià)值的比較。我們的分析表明,一些變體在特定場(chǎng)景中已經(jīng)超過了原始的 SAM,我們相信它們的成功將激勵(lì)該領(lǐng)域的進(jìn)一步探索和創(chuàng)新。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:???https://mp.weixin.qq.com/s/ZFJ1f7YZZEKoEs5Ie1YAbA??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
社區(qū)精華內(nèi)容

目錄