自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<center id="pxnzj"></center>

^{<thead id="pxnzj"></thead>}

<sub id="pxnzj"></sub>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

首篇！全面解讀高效Segment Anything模型變體：各種圖像分割加速策略和核心技術(shù)展示精華

發(fā)布于 2024-10-29 12:50

瀏覽

0收藏

首篇！全面解讀高效Segment Anything模型變體：各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

文章鏈接：https://arxiv.org/pdf/2410.04960

亮點(diǎn)直擊

提供了一項(xiàng)系統(tǒng)的高效 SAM 變體全面回顧，旨在加速分割任務(wù)。介紹了一個(gè)結(jié)構(gòu)良好的分類法，將這些方法根據(jù)其采用的加速策略進(jìn)行分類。據(jù)我們所知，這是第一項(xiàng)專門關(guān)注該領(lǐng)域的調(diào)查。
對(duì)這些變體的效率和準(zhǔn)確性進(jìn)行了全面的評(píng)估和比較，旨在幫助研究人員選擇最能滿足其性能和應(yīng)用需求的模型。
提出了幾個(gè)未來研究的潛在方向，為讀者提供啟發(fā)，以推動(dòng)該領(lǐng)域的持續(xù)發(fā)展。

?

Segment Anything Model (SAM) 是一款基礎(chǔ)模型，專用于圖像分割任務(wù)，以其在多樣應(yīng)用中的強(qiáng)大泛化能力而聞名。然而，它的出色性能伴隨著顯著的計(jì)算和資源需求，這使得在資源有限的環(huán)境（如移動(dòng)設(shè)備）中進(jìn)行部署變得具有挑戰(zhàn)性。為了解決這個(gè)問題，已經(jīng)提出了多種 SAM 變體，以提高效率而不犧牲準(zhǔn)確性。

本綜述首次全面回顧了這些高效的 SAM 變體。我們首先探討推動(dòng)該研究的動(dòng)機(jī)，然后介紹 SAM 和模型加速中使用的核心技術(shù)。接下來，深入分析各種加速策略，并按方法進(jìn)行分類。最后，提供了對(duì)這些方法的統(tǒng)一和全面的評(píng)估，評(píng)估它們?cè)诖硇曰鶞?zhǔn)上的效率和準(zhǔn)確性，并對(duì)它們的整體性能進(jìn)行明確比較。

1 引言

基礎(chǔ)模型的出現(xiàn)已經(jīng)徹底改變了人工智能（AI）領(lǐng)域。基礎(chǔ)模型是大型神經(jīng)網(wǎng)絡(luò)，在海量數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練，具有強(qiáng)大的表示能力和出色的泛化能力，能夠在各種任務(wù)中表現(xiàn)出色。在自然語(yǔ)言處理（NLP）領(lǐng)域，最近流行的研究趨勢(shì)是大型語(yǔ)言模型（LLMs），如OpenAI的GPT系列、Google的PaLM系列和Meta的LLaMA系列等，這些模型取得了顯著的發(fā)展。同時(shí)，視覺轉(zhuǎn)換器（ViT）的成功首次將轉(zhuǎn)換器架構(gòu)引入計(jì)算機(jī)視覺（CV）領(lǐng)域，為視覺基礎(chǔ)模型（VFM）開辟了新紀(jì)元。像CLIP、LLaVA和Video-ChatGPT等視覺-語(yǔ)言基礎(chǔ)模型旨在對(duì)齊視覺和語(yǔ)言模態(tài)，在眾多下游視覺任務(wù)中表現(xiàn)出色。

最近，Meta提出了一種新型的基礎(chǔ)模型，用于通用圖像分割，即 Segment Anything Model (SAM) 。SAM 完全在他們提出的 SA-1B 數(shù)據(jù)集上進(jìn)行訓(xùn)練，該數(shù)據(jù)集包含超過十億個(gè)mask和一千一百萬張圖像，旨在通過任何提示（例如點(diǎn)、框、mask和文本）實(shí)現(xiàn)有效的分割。SAM 能夠很好地泛化到廣泛的下游任務(wù)（如邊緣檢測(cè)、目標(biāo)提議和實(shí)例分割），只需提供適當(dāng)?shù)奶崾?。SAM 的出現(xiàn)引起了研究界的廣泛關(guān)注，并催生了大量相關(guān)工作，探索 SAM 在各種場(chǎng)景中的泛化能力，包括不同的圖像分割任務(wù)、視頻分析任務(wù)和 3D 視覺任務(wù)。隨著 SAM 的巨大成功，升級(jí)版的 Segment Anything Model 2 (SAM 2)

盡管 SAM 在廣泛應(yīng)用中取得了成功，原始的 Segment Anything Model (SAM)，特別是 SAM-H，由于運(yùn)行速度慢和計(jì)算成本高面臨顯著的局限性。在資源受限或?qū)崟r(shí)環(huán)境（如邊緣設(shè)備和移動(dòng)應(yīng)用）中部署 SAM 時(shí)，這些挑戰(zhàn)尤為明顯。隨著對(duì)在實(shí)際資源受限場(chǎng)景中部署機(jī)器學(xué)習(xí)模型的需求不斷增加，SAM 當(dāng)前的設(shè)計(jì)在廣泛使用中顯得效率低下。這導(dǎo)致了對(duì)更輕量級(jí)、高效變體的迫切需求，這些變體可以在滿足模型強(qiáng)大分割能力的同時(shí)應(yīng)對(duì)這些限制。優(yōu)化 SAM 以提高效率的挑戰(zhàn)進(jìn)一步加劇，因?yàn)樵趯?shí)時(shí)應(yīng)用、移動(dòng)平臺(tái)和嵌入式系統(tǒng)中對(duì)計(jì)算資源的需求越來越高。隨著研究界努力克服這些障礙，全面了解在提高 SAM 效率方面的最新進(jìn)展變得至關(guān)重要。因此，開展一項(xiàng)詳細(xì)的調(diào)查，以研究提高 SAM 效率和擴(kuò)展其在多樣環(huán)境中的適用性的努力，是及時(shí)且必要的。

隨著與 SAM 相關(guān)的研究不斷增加，已有若干調(diào)查從不同角度提供了概述。然而，這些現(xiàn)有的調(diào)查主要集中在 SAM 的下游應(yīng)用上，并存在幾項(xiàng)局限性：

沒有一項(xiàng)調(diào)查關(guān)注到提高 SAM 效率的新興領(lǐng)域，而這一領(lǐng)域正在獲得重要關(guān)注，對(duì)實(shí)際應(yīng)用的部署至關(guān)重要。
除了一項(xiàng)外，這些調(diào)查缺乏結(jié)構(gòu)化的分類法，以便更清晰地組織和參考。
大多數(shù)先前的調(diào)查主要集中在收集和描述基于 SAM 的方法，但缺乏對(duì)這些方法的系統(tǒng)性評(píng)估或比較。

為了解決這些不足，本文開展了本次調(diào)查，旨在全面回顧高效 Segment Anything 模型的發(fā)展，并公平地評(píng)估和比較它們。

本調(diào)查的其余部分組織如下。在第2節(jié)中，我們首先介紹原始 SAM 的背景，然后回顧可以應(yīng)用于提高 SAM 效率的高效視覺表示骨干和模型壓縮技術(shù)。在第3節(jié)中，我們根據(jù)目標(biāo)和技術(shù)對(duì)現(xiàn)有方法進(jìn)行分類，詳細(xì)回顧每個(gè)類別。我們還討論了進(jìn)一步加速 SAM 的幾個(gè)潛在研究方向。在第4節(jié)中，我們對(duì)這些模型在效率、準(zhǔn)確性和相應(yīng)的權(quán)衡方面進(jìn)行公平評(píng)估。最后，在第5節(jié)中，我們簡(jiǎn)要總結(jié)了本次調(diào)查。

2 初步概述

2.1 Segment Anything Model

Segment Anything Model (SAM) 是圖像分割領(lǐng)域中的一個(gè)強(qiáng)大基礎(chǔ)模型，旨在通過基本的可提示分割任務(wù)，利用提示工程來統(tǒng)一各種分割任務(wù)。該項(xiàng)目的一個(gè)顯著貢獻(xiàn)是 SA-1B 數(shù)據(jù)集，該數(shù)據(jù)集包含來自 1100 萬張經(jīng)過許可和隱私保護(hù)的圖像生成的超過 10 億個(gè)masks。在如此豐富和高質(zhì)量的數(shù)據(jù)上進(jìn)行訓(xùn)練，SAM 展現(xiàn)出強(qiáng)大的魯棒性和泛化能力。SAM 的巨大潛力迅速引起了研究人員對(duì)探索其在廣泛現(xiàn)實(shí)應(yīng)用中的能力以及改進(jìn)其架構(gòu)以實(shí)現(xiàn)更高效或更準(zhǔn)確分割的興趣。

最近，Segment Anything Model 2 (SAM 2) 被提出作為繼任者，專注于高效的可提示視覺分割 (PVS)，適用于圖像和視頻。為了使 SAM 2 能夠在視頻中分割任何內(nèi)容，研究人員在 SAM 的原始架構(gòu)中引入了流式記憶機(jī)制。SAM 2 采用兩階段訓(xùn)練：

在 SA-1B 數(shù)據(jù)集上進(jìn)行可提示分割任務(wù)的預(yù)訓(xùn)練；
在混合數(shù)據(jù)上進(jìn)行可提示分割任務(wù)的訓(xùn)練，處理圖像和視頻。

與 SAM 類似，研究人員開發(fā)了一個(gè)數(shù)據(jù)引擎，以創(chuàng)建一個(gè)用于視頻分割的大規(guī)模數(shù)據(jù)集，命名為 SA-V 數(shù)據(jù)集。該數(shù)據(jù)集最終收集了 50,900 個(gè)視頻中的 642.6K 個(gè)mask（視頻中的對(duì)象分割）。在本次調(diào)查中，將 SAM 2 視為高效的 SAM 變體，并將其納入評(píng)估和比較中。

2.1.1 模型

SAM 由三個(gè)主要組成部分構(gòu)成：圖像編碼器、提示解碼器和mask解碼器，如下圖 1(a) 所示。圖像編碼器是一個(gè)經(jīng)過微小修改的 MAE預(yù)訓(xùn)練視覺Transformer (ViT)。它將預(yù)處理后的圖像作為輸入，并為每張圖像輸出一個(gè)圖像嵌入。提示解碼器用于嵌入提示：點(diǎn)、框、mask和文本。這兩個(gè)嵌入然后輸入到輕量級(jí)mask解碼器，該解碼器基于兩個(gè)修改過的Transformer解碼器塊和一些預(yù)測(cè)頭，生成有效的mask。

首篇！全面解讀高效Segment Anything模型變體：各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

基于 SAM 的架構(gòu)，SAM 2 額外引入了流式記憶機(jī)制。具體來說，這個(gè)機(jī)制包括一個(gè)記憶編碼器、一個(gè)記憶庫(kù)和一個(gè)記憶注意模塊。SAM 2 的結(jié)構(gòu)如上圖 1(b) 所示。通過記憶機(jī)制，SAM 2 能夠逐幀處理視頻。記憶編碼器生成當(dāng)前幀的預(yù)測(cè)記憶并將其發(fā)送到記憶庫(kù)。記憶庫(kù)存儲(chǔ)最近的預(yù)測(cè)、提示幀的特征圖以及目標(biāo)對(duì)象的高級(jí)語(yǔ)義信息（即對(duì)象指針）。記憶注意機(jī)制使來自圖像編碼器的圖像嵌入與來自記憶庫(kù)的信息充分交互，從而得到精細(xì)化的嵌入。除了記憶機(jī)制，SAM 2 還采用 MAE 預(yù)訓(xùn)練的 Hiera作為圖像編碼器，這比 ViT-H 更高效，預(yù)期可以實(shí)現(xiàn)更快的速度。

2.1.2 任務(wù)

可提示分割任務(wù)被提出作為 SAM 的基本任務(wù)，其目標(biāo)是根據(jù)任何給定的提示（例如一個(gè)點(diǎn)、一個(gè)框、一個(gè)mask或文本）返回有效的mask。這個(gè)任務(wù)不僅是 SAM 訓(xùn)練過程中的目標(biāo)，也是使 SAM 能夠解決各種下游任務(wù)的基礎(chǔ)。另一個(gè)重要任務(wù)是全mask生成，它會(huì)對(duì)圖片中的所有對(duì)象進(jìn)行分割。通過使用點(diǎn)網(wǎng)格對(duì) SAM 進(jìn)行提示，并根據(jù)這些稠密的提示預(yù)測(cè)mask來實(shí)現(xiàn)。全mask生成也是數(shù)據(jù)引擎最后階段中的關(guān)鍵步驟，旨在增強(qiáng) SA-1B 中mask的多樣性。如下圖 2 所示，可提示分割任務(wù)稱為 Segment Anything (SegAny)，而全mask生成任務(wù)則稱為 Segment Everything (SegEvery)。這兩個(gè)任務(wù)總結(jié)了 SAM 的分割能力，并為提升 SAM 效率指明了兩個(gè)研究方向。在本次調(diào)查中，我們遵循這兩個(gè)定義，探討基于 SAM 的高效變體在 SegAny 和 SegEvery 任務(wù)中的表現(xiàn)。

首篇！全面解讀高效Segment Anything模型變體：各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

2.1.3 應(yīng)用

由于 SAM 及其繼任者 SAM 2 在大量零樣本下游任務(wù)中展示了強(qiáng)大的泛化能力，研究界正深入探索它們?cè)诟鄨?chǎng)景中的應(yīng)用。

SAM 的一個(gè)主要應(yīng)用領(lǐng)域是醫(yī)學(xué)圖像分割 。根據(jù)[157]的說法，該領(lǐng)域的工作可以分為兩類。一類旨在測(cè)試 SAM 在 CT 圖像、MRI 圖像、病理圖像等中的分割性能。另一類則專注于通過微調(diào)、自動(dòng)提示或框架修改來提高 SAM 在這些任務(wù)中的適應(yīng)性。此外，像[35, 57]這樣的研究試圖提高醫(yī)學(xué) SAM 方法的效率。SAM 還被應(yīng)用于不同現(xiàn)實(shí)場(chǎng)景中的對(duì)象檢測(cè)，包括土木基礎(chǔ)設(shè)施缺陷評(píng)估中的裂縫檢測(cè)和隕石坑檢測(cè)，農(nóng)業(yè)中的作物病蟲害檢測(cè)，異常檢測(cè)和遙感。此外，Segment Anything 已被改編為 Edit Everything、Inpaint Anything和 Caption Anything來處理圖像編輯任務(wù)。

除了圖像分割任務(wù)，SAM 還廣泛應(yīng)用于各種視頻任務(wù)。大量研究集中于兩個(gè)基本任務(wù)：視頻對(duì)象分割 (VOS)和視頻對(duì)象跟蹤 (VOT)。研究人員還探索了 SAM 在生成相關(guān)任務(wù)中的應(yīng)用，例如視頻超分辨率和視頻數(shù)據(jù)集標(biāo)注生成。除此之外，SAM 還作為視頻編輯任務(wù)中的一個(gè)中間工具被進(jìn)一步利用。除了 2D 任務(wù)，SAM 還擴(kuò)展到 3D 視覺領(lǐng)域。研究[100]將 SAM 應(yīng)用于 3D 重建，而研究[28]則將其應(yīng)用于 3D 點(diǎn)云分割。最近的工作[134]旨在實(shí)現(xiàn)在線設(shè)置下的任何 3D 物體的實(shí)時(shí)分割。對(duì)于最近提出的 SAM 2，已經(jīng)有一些研究探索其在圖像和視頻任務(wù)中的應(yīng)用。一個(gè)流行的趨勢(shì)是將 SAM 2 應(yīng)用于醫(yī)學(xué)圖像和視頻任務(wù)。像[27, 99, 135]這樣的研究評(píng)估了 SAM 2 在 2D 和 3D 模態(tài)下醫(yī)學(xué)圖像中的表現(xiàn)，而一些其他研究[75, 140]則測(cè)試了其在外科視頻分割任務(wù)中的表現(xiàn)。研究人員還在尋找更好地將 SAM 2 適應(yīng)醫(yī)學(xué)任務(wù)的策略。此外，SAM 2 還被應(yīng)用于一些特定的圖像分割任務(wù)，如數(shù)字病理語(yǔ)義分割、網(wǎng)格部件分割和太陽(yáng)能電池板分割。此外，一些研究[70, 113]利用 SAM 2 在具有挑戰(zhàn)性的規(guī)?；曨l對(duì)象分割 (LSVOS) 任務(wù)中取得了良好的結(jié)果。

2.1.4 局限性

盡管 SAM 在各種任務(wù)中表現(xiàn)出色，但在實(shí)際應(yīng)用中仍面臨兩個(gè)關(guān)鍵挑戰(zhàn)：

它通常難以為精細(xì)結(jié)構(gòu)預(yù)測(cè)完整的mask，從而導(dǎo)致邊界不精確；
它不是實(shí)時(shí)的，資源消耗仍然很高，特別是在使用像 ViT-H 這樣的重型圖像編碼器時(shí)。

為了解決這些問題，研究如[49, 54]旨在通過利用高分辨率圖像來改善mask質(zhì)量，而其他研究[131, 147, 161, 164]則專注于創(chuàng)建更高效的架構(gòu)，以減少 SAM 的時(shí)間和資源消耗。之前的調(diào)查[78, 100, 158]已探討了提高 SAM 質(zhì)量結(jié)果的最新進(jìn)展。在本次調(diào)查中，我們專注于提高 SAM 效率的努力。

2.2 高效骨干網(wǎng)絡(luò)

SAM 的低效主要源于其重量級(jí)的圖像編碼器。SAM 圖像編碼器的尺寸詳見表 1，并在后面小節(jié)中提供了 SAM 總參數(shù)的進(jìn)一步估算，比如在 SAM-H 中，ViT-H 圖像編碼器包含大約 632M 個(gè)參數(shù)，而模型的總大小為 641M，這意味著圖像編碼器占模型參數(shù)的大部分。

即使在最小的變體 SAM-B 中，圖像編碼器仍占總參數(shù)的 90% 以上。因此，快速有效地加速 SAM 的一種方法是用更高效的骨干網(wǎng)絡(luò)替換大型圖像編碼器。這些高效的骨干網(wǎng)絡(luò)可以包括純卷積神經(jīng)網(wǎng)絡(luò) (CNN)、高效視覺Transformer架構(gòu)以及最近的Transformer替代模型[87]。

首篇！全面解讀高效Segment Anything模型變體：各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

2.2.1 高效視覺Transformer

提高視覺Transformer效率的努力通?？梢苑譃閮煞N方法：

設(shè)計(jì)更高效的架構(gòu)；
重構(gòu)注意力機(jī)制。

從結(jié)構(gòu)角度減少計(jì)算成本，MobileViT是一種開創(chuàng)性的混合架構(gòu)，創(chuàng)造性地將卷積神經(jīng)網(wǎng)絡(luò)（CNN）模塊（MobileNetV2 模塊）與Transformer模塊集成到一個(gè)模型中。隨后，像 [10, 62, 127] 這樣的后續(xù)工作基本上遵循這個(gè)思路，構(gòu)建高效的混合結(jié)構(gòu)視覺Transformer，這些Transformer已被廣泛用來替代 SAM 的重型圖像編碼器。在 [103, 161] 中，TinyViT 作為高效骨干網(wǎng)絡(luò)，而在 [162] 和 [159] 中，EfficientFormerV2 和 EfficientViT分別替代了 SAM 的原始圖像編碼器。另一個(gè)具有影響力的視覺Transformer設(shè)計(jì)，MetaFormer，將注意力機(jī)制抽象為一個(gè)更廣泛的概念，稱為 token mixer，可以使用各種 token mixer 實(shí)現(xiàn)與Transformer相媲美的性能。最簡(jiǎn)單的變種 PoolFormer，通過使用池化操作作為 token mixer，而不引入額外的可學(xué)習(xí)參數(shù)，已被用作為 Lite-SAM開發(fā)輕量級(jí)圖像編碼器的基礎(chǔ)架構(gòu)。

研究人員在優(yōu)化注意力機(jī)制方面也取得了顯著進(jìn)展。觀察到注意力機(jī)制中的 softmax 操作顯著增加了整體計(jì)算成本。在 EfficientViT 中，提出了一種新穎的 ReLU 線性注意力機(jī)制，以更高效地實(shí)現(xiàn)全局感受場(chǎng)。這種高效的骨干網(wǎng)絡(luò)在中被進(jìn)一步采用以加速 SAM。注意力機(jī)制的改進(jìn)還在硬件層面上進(jìn)行。FlashAttention通過切片、內(nèi)核融合和重計(jì)算等技術(shù)顯著降低了計(jì)算成本，并被應(yīng)用于 SAM 加速工作，以減少內(nèi)存需求并提高計(jì)算效率。

2.2.2 替代Transformer模型

雖然Transformer目前在語(yǔ)言和視覺領(lǐng)域占據(jù)主導(dǎo)地位，但一些新提出的模型在效率和性能方面顯示出了超越Transformer的潛力。

接受權(quán)重關(guān)鍵值（RWKV）模型結(jié)合了遞歸神經(jīng)網(wǎng)絡(luò)（RNN）和Transformer的優(yōu)勢(shì)，隨著序列長(zhǎng)度的增加，實(shí)現(xiàn)了線性時(shí)間復(fù)雜度。RWKV 非常適合處理長(zhǎng)序列處理的挑戰(zhàn)。

為了促進(jìn)全局信息交互，RWKV 用更高效的 WKV 操作符和輸出門控機(jī)制替代了傳統(tǒng)的具有二次復(fù)雜度的注意力機(jī)制。這些機(jī)制的公式如下：

首篇！全面解讀高效Segment Anything模型變體：各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

其中 r, k, v 分別表示接收的tokens、鍵和值的移位tokens，W表示權(quán)重。RWKV 也已擴(kuò)展到視覺任務(wù)。視覺 RWKV (VRWKV) 模型在效率上表現(xiàn)出與視覺Transformer (ViT) 相當(dāng)?shù)男阅?。為了?RWKV 從一維序列適應(yīng)到二維圖像，引入了 Q-shift tokens，以在四個(gè)方向上融合鄰域信息。在 [145] 中，一種基于 RWKV 的 SAM 變體通過采用混合 MobileNetV2 塊和 VRWKV 塊的高效主干，取得了卓越的效率表現(xiàn)。

2.3 模型壓縮

模型壓縮涵蓋一系列旨在減少模型大小和計(jì)算復(fù)雜度的技術(shù)，使其在計(jì)算資源有限的實(shí)際應(yīng)用中部署大型模型成為必要。模型壓縮和加速的四種主要方法是知識(shí)蒸餾、量化、剪枝和低秩分解。

2.3.1 知識(shí)蒸餾

知識(shí)蒸餾 (KD)最初被引入作為在資源受限環(huán)境中部署大型復(fù)雜神經(jīng)網(wǎng)絡(luò)的解決方案。其核心概念是將來自較大、訓(xùn)練良好的模型（教師模型）的知識(shí)和表征能力轉(zhuǎn)移到較小、更高效的模型（學(xué)生模型）。

在將 KD 應(yīng)用于加速 SAM 時(shí)，目標(biāo)是從原始的較大 SAM 中提取知識(shí)，并將其傳授給更高效的 SAM 類模型。鑒于 SAM 的編碼器-解碼器架構(gòu)，KD 通常可以分為兩種方法：蒸餾整個(gè) SAM 模型或僅蒸餾圖像編碼器。大多數(shù)工作，如 [84, 103, 117, 147, 159]，專注于僅蒸餾高效主干，同時(shí)保留原始 SAM 的提示編碼器和掩膜解碼器。然而，其他方法，如 [162, 164]，旨在通過監(jiān)督編碼器和解碼器的輸出來蒸餾整個(gè)模型。

2.3.2 量化

量化是將模型的高精度權(quán)重/激活值 X（例如 32 位浮點(diǎn)數(shù)）轉(zhuǎn)換為低精度格式（例如 16 位浮點(diǎn)數(shù)、8 位整數(shù)）的過程。廣泛使用的一種量化函數(shù)是均勻?qū)ΨQ量化，其公式如下：

首篇！全面解讀高效Segment Anything模型變體：各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

首篇！全面解讀高效Segment Anything模型變體：各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

2.3.3 剪枝

模型剪枝通過消除冗余的權(quán)重或連接來減少模型的大小和復(fù)雜性，同時(shí)盡量保持精度。剪枝方法通常分為兩種類型：結(jié)構(gòu)化剪枝和非結(jié)構(gòu)化剪枝。結(jié)構(gòu)化剪枝根據(jù)特定標(biāo)準(zhǔn)以組的方式刪除參數(shù)，系統(tǒng)性地針對(duì)通道、層或塊等子結(jié)構(gòu)。相比之下，非結(jié)構(gòu)化剪枝則專注于單個(gè)權(quán)重，通常導(dǎo)致稀疏和碎片化的網(wǎng)絡(luò)。然而，由于剩余網(wǎng)絡(luò)結(jié)構(gòu)的不規(guī)則性，非結(jié)構(gòu)化剪枝可能在一般硬件上并未帶來有效的加速。在 [18] 中，應(yīng)用結(jié)構(gòu)化剪枝來減輕 SAM 的重量，通過移除大量冗余權(quán)重顯著減少了模型的大小，同時(shí)保留了大部分 SAM 的能力。

2.3.4 低秩分解

首篇！全面解讀高效Segment Anything模型變體：各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

首篇！全面解讀高效Segment Anything模型變體：各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

首篇！全面解讀高效Segment Anything模型變體：各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

3 SAM 的高效變體

本節(jié)回顧了自 SAM 受到關(guān)注以來，為開發(fā)輕量級(jí)高效的 SAM 類模型所做的努力。這些工作旨在降低模型的高計(jì)算成本并實(shí)現(xiàn)高效性能，同時(shí)保持 SAM 強(qiáng)大的分割能力和泛化能力。正如前面所述，SAM 解決了兩個(gè)主要任務(wù)，包括 Segment Anything (SegAny) 和 Segment Everything (SegEvery)。因此，我們分別討論旨在改進(jìn)每個(gè)任務(wù)的研究：首先，關(guān)注加速 SegAny 任務(wù)，然后涵蓋加速 SegEvery 任務(wù)的努力。值得注意的是，一些方法適用于這兩個(gè)任務(wù)，將單獨(dú)討論這些貢獻(xiàn)。此外，根據(jù)所采用的技術(shù)將所有模型分類，并在下圖 3 中呈現(xiàn)方法論的分類。最后，概述了該領(lǐng)域未來研究的四個(gè)潛在方向。

首篇！全面解讀高效Segment Anything模型變體：各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

3.1 加速 SegAny 任務(wù)

正如前面所分析的，SegAny 任務(wù)的主要瓶頸在于 SAM 的龐大架構(gòu)。一種直接的解決方案是用更高效的主干替換編碼器。或者，采用保持與 SAM 相同分割能力的不同架構(gòu)也是一種方法。遵循這些策略的工作要么涉及完全從頭開始訓(xùn)練輕量級(jí)模型，要么使用合適的監(jiān)督進(jìn)行知識(shí)蒸餾訓(xùn)練模型。此外，一些研究探索量化、剪枝或局部?jī)?yōu)化等方法，以直接壓縮 SAM，而不替換編碼器或構(gòu)建新架構(gòu)。

3.1.1 從頭開始訓(xùn)練

本小節(jié)聚焦于完全從頭開始訓(xùn)練 SAM 變體的工作。根據(jù)它們的架構(gòu)，這些模型可以分為兩種類型：與 SAM 架構(gòu)不同的架構(gòu)和類似 SAM 的架構(gòu)。我們將按照這種分類詳細(xì)探討每種類型。

FastSAM 是第一個(gè)不依賴于 SAM 原始編碼器-解碼器架構(gòu)的 SAM 變體之一。為了實(shí)現(xiàn)更快的分割，它將 SegAny 任務(wù)分為兩個(gè)子任務(wù)：全實(shí)例分割和基于提示的選擇。由于實(shí)例分割已被許多基于 CNN 的方法有效解決，F(xiàn)astSAM 提供了比基于Transformer的 SAM 更高的效率。對(duì)于實(shí)例分割，F(xiàn)astSAM 采用 YOLOv8-Seg 模型，并使用 YOLACT 方法來提升性能。FastSAM 可以使用點(diǎn)、框或文本作為提示，可靠地預(yù)測(cè)感興趣的物體。除了加速 SegAny 任務(wù)外，F(xiàn)astSAM 還在 SegEvery 任務(wù)中表現(xiàn)出色，因?yàn)檫@可以與全實(shí)例分割高效地實(shí)現(xiàn)。然而，作為 SAM 的早期高效變體，F(xiàn)astSAM 仍然存在一些局限性，例如對(duì)較小物體生成低質(zhì)量mask和生成邊界不夠平滑的mask。盡管存在這些缺點(diǎn)，F(xiàn)astSAM 通過在該領(lǐng)域引入基于 CNN 的架構(gòu)標(biāo)志著顯著的進(jìn)展。FastSAM 的架構(gòu)如下圖 4 所示。

首篇！全面解讀高效Segment Anything模型變體：各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

基于 FastSAM 中 CNN 成功應(yīng)用的基礎(chǔ)，Varadarajan 等人引入了 SqueezeSAM，進(jìn)一步用 U-Net 結(jié)構(gòu)替換了 SAM 的基于Transformer的架構(gòu)。U-Net 由用于特征提取的編碼器和用于信息恢復(fù)的解碼器組成。SqueezeSAM 保留了一般的 U-Net 架構(gòu)，但在 U-Net 的最低尺度處加入了兩個(gè)Transformer層，以在速度和準(zhǔn)確性之間取得平衡。此外，SqueezeSAM 還具有幾個(gè)微觀級(jí)別的優(yōu)化，例如將輸出通道限制在 256，使用 BatchNorm代替 LayerNorm以提高效率，并在編碼器和解碼器之間引入跳躍連接。

SqueezeSAM 的一個(gè)獨(dú)特挑戰(zhàn)在于處理提示。與 SAM 在解碼階段使用提示tokens不同，SqueezeSAM 采用了早期融合策略，將編碼的提示作為額外輸入通道，添加到輸入編碼器之前。該模型使用 SA-1B 數(shù)據(jù)集從頭開始訓(xùn)練，數(shù)據(jù)增強(qiáng)技術(shù)用于解決低質(zhì)量數(shù)據(jù)問題。SqueezeSAM 主要設(shè)計(jì)用于攝影應(yīng)用的部署，其中需要高效的交互式分割。如圖 5 所示，其工作流程包括生成顯著物體的初始mask，然后通過用戶點(diǎn)擊進(jìn)行精細(xì)分割。

首篇！全面解讀高效Segment Anything模型變體：各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

EfficientSAM并沒有引入全新的網(wǎng)絡(luò)，而是保留了 SAM 的原始架構(gòu)，但替換了圖像編碼器。他們使用 ViT-tiny 或 ViT-small 作為輕量級(jí)編碼器，并利用基于 SAM 的 Masked Image (SAMI) 預(yù)訓(xùn)練策略從頭開始重新訓(xùn)練。SAMI 是從 Masked AutoEncoder (MAE) 框架適配而來，該框架最初用于預(yù)訓(xùn)練 SAM 的原始圖像編碼器。SAMI 遵循編碼器-解碼器管道：編碼器從未遮罩的圖塊中生成潛在特征表示，而解碼器則重構(gòu)遮罩圖塊的缺失嵌入。這個(gè)過程由重構(gòu)損失監(jiān)督，比較 SAM 的 ViT-H 編碼器生成的嵌入與 SAMI 管道生成的嵌入。預(yù)訓(xùn)練完成后，輕量級(jí)編碼器從 SAMI 管道中提取并與 SAM 的其余組件集成，形成 EfficientSAM。最后一步是對(duì)整個(gè)模型在 SA-1B 數(shù)據(jù)集上進(jìn)行微調(diào)，以進(jìn)一步對(duì)齊和細(xì)化。SAMI 是一種通用的預(yù)訓(xùn)練方法，可以應(yīng)用于訓(xùn)練任何用于 SAM 變體的主干。SAMI 和 EfficientSAM 的整體結(jié)構(gòu)如下圖 6 所示。

首篇！全面解讀高效Segment Anything模型變體：各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

Xu 等人提出了 RAP-SAM，該模型旨在實(shí)現(xiàn)實(shí)時(shí)的通用分割，包括全景分割 (PS)、視頻實(shí)例分割 (VIS) 和交互式分割（相當(dāng)于 SegAny 任務(wù)）。RAP-SAM 保留了 SAM 的基本編碼器-解碼器架構(gòu)，但結(jié)合了更高效的組件以增強(qiáng)性能。對(duì)于編碼器，RAP-SAM 結(jié)合了特征金字塔網(wǎng)絡(luò) (FPN) 和可變形卷積來從圖像和視頻中提取特征，同時(shí)使用提示編碼器嵌入視覺提示。在解碼器中，RAP-SAM 采用三階段管道，利用新穎的基于池化的動(dòng)態(tài)卷積來細(xì)化masktokens。每個(gè)階段生成的tokens以及來自編碼器的特征圖作為輸入。首先，這些輸入通過動(dòng)態(tài)卷積處理，然后利用多頭自注意力 (MHSA) 和前饋網(wǎng)絡(luò) (FFN) 進(jìn)行細(xì)化。在解碼器之后，額外引入兩個(gè)提示適配器，以增強(qiáng)視覺提示和分割tokens之間的交互。最終mask是通過計(jì)算更新后的tokens和更新后的提示之間的內(nèi)積生成的。RAP-SAM 的架構(gòu)如下圖 7 所示。

首篇！全面解讀高效Segment Anything模型變體：各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

最近，Ravi 等人引入了 Segment Anything Model 2 (SAM 2)，這是對(duì)原始 SAM 的擴(kuò)展。SAM 2 的目標(biāo)是在圖像和視頻中提供高質(zhì)量、實(shí)時(shí)的可提示分割。在圖像分割任務(wù)中，SAM 2 報(bào)告顯示其準(zhǔn)確性更高，并且效率比原始 SAM 提高了 6 倍。這一顯著進(jìn)展主要?dú)w功于其高效的圖像編碼器 Hiera，這是一種分層 ViT，通過去除冗余組件并利用 MAE 框架進(jìn)行訓(xùn)練，從 MViTv2 中簡(jiǎn)化而來。Hiera 是一種精簡(jiǎn)的、純Transformer基礎(chǔ)的架構(gòu)，在圖像和視頻任務(wù)中運(yùn)行速度更快，準(zhǔn)確性更高。

3.1.2 基于知識(shí)蒸餾的方法

從前面圖 3 所示的分類法中，我們觀察到許多方法利用知識(shí)蒸餾，因?yàn)檫@種方法通常比完全模型訓(xùn)練需要更少的時(shí)間和資源。在本節(jié)中，我們回顧采用高效主干作為圖像編碼器，同時(shí)利用知識(shí)蒸餾進(jìn)行訓(xùn)練的 SAM 變體。我們根據(jù)編碼器類型將這些模型分為三類：具有 (i) 輕量級(jí) ViT 編碼器、(ii) 純 CNN 編碼器和 (iii) 修改過的注意力編碼器的模型。我們將依次介紹每個(gè)類別。

(i) 輕量級(jí) ViT 編碼器Zhang 等人首次嘗試用更高效的 TinyViT 替換 SAM 的重型 ViT 編碼器，形成名為 MobileSAM 的集成模型。如 [55] 所強(qiáng)調(diào)，訓(xùn)練 SAM 從頭開始需要多天和 128 個(gè) GPU。MobileSAM 將這一復(fù)雜性歸因于同時(shí)優(yōu)化編碼器和解碼器的挑戰(zhàn)。為了解決這個(gè)問題，他們提出了一種僅編碼器蒸餾策略，如下圖 8 所示，旨在將 ViT-H 的視覺表示能力轉(zhuǎn)移到 TinyViT。所使用的損失函數(shù)是兩個(gè)編碼器的輸出圖像嵌入之間的簡(jiǎn)單均方誤差 (MSE)。進(jìn)一步微調(diào)提示編碼器或mask解碼器是可選的，并且可以提高準(zhǔn)確性。

首篇！全面解讀高效Segment Anything模型變體：各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

與 MobileSAM 類似，后來的 ESAM利用 EfficientFormerV2作為其主干，旨在在 CPU 環(huán)境中改善性能，特別是在資源有限的醫(yī)療設(shè)備上。鑒于專家模型在醫(yī)療應(yīng)用中通常優(yōu)于 SAM，ESAM 采用了一種新穎的知識(shí)蒸餾 (KD) 策略，稱為整體知識(shí)蒸餾 (HKD)，以將知識(shí)從專家模型轉(zhuǎn)移到 ESAM。HKD 包括兩個(gè)組成部分：特征圖蒸餾和輸出mask蒸餾。對(duì)于特征圖蒸餾，結(jié)合了三種不同的聚焦方法來指導(dǎo)學(xué)習(xí)過程。對(duì)于輸出mask蒸餾，ESAM 使用教師mask和學(xué)生mask之間的均方誤差 (MSE) 損失，輔以教師mask和真實(shí)mask之間的二元交叉熵 (BCE) 損失。為了進(jìn)一步對(duì)齊專家模型和 ESAM 之間的特征圖，提出了一種教師引導(dǎo)模塊 (TGM)，如下圖 9 所示。

首篇！全面解讀高效Segment Anything模型變體：各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

Shu 等人對(duì) MobileSAM 進(jìn)行了分析，發(fā)現(xiàn)僅編碼器蒸餾可能導(dǎo)致顯著的性能下降。為了解決這個(gè)問題，他們提出了更有效的全階段知識(shí)蒸餾策略，稱為 Hard Mining Full-Stage Knowledge Distillation，如下圖 10 所示。

首篇！全面解讀高效Segment Anything模型變體：各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

TinySAM 是一個(gè)新的 SAM 變體，其結(jié)構(gòu)與 MobileSAM 相同，通過這種改進(jìn)的 KD 策略進(jìn)行訓(xùn)練。具體而言，該策略不僅監(jiān)督圖像嵌入，還監(jiān)督輸出tokens和輸出mask，均使用 L1 損失。為了進(jìn)一步增強(qiáng)蒸餾過程，他們引入了困難mask加權(quán)策略，該策略對(duì)更難預(yù)測(cè)的mask分配更大的權(quán)重，從而提高學(xué)習(xí)效率。因子 H 的計(jì)算如下：

首篇！全面解讀高效Segment Anything模型變體：各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

(ii) 基于 CNN 的編碼器

來自 NVIDIA 的研究人員基于 MobileSAM 引入了一種新的 SAM 變體，稱為 NanoSAM。它旨在在 NVIDIA Jetson Orin 平臺(tái)上實(shí)現(xiàn)實(shí)時(shí)性能，使用 NVIDIA TensorRT。NanoSAM 將基于 ViT 的編碼器替換為純卷積網(wǎng)絡(luò)，具體為 ResNet18，同時(shí)保留了 MobileSAM 的其他組件。NanoSAM 從 MobileSAM 中進(jìn)行蒸餾，兩個(gè)模型都使用 TensorRT 進(jìn)行重新訓(xùn)練以優(yōu)化性能。MobileSAM 的圖像編碼器使用 FP32 精度進(jìn)行優(yōu)化，而 NanoSAM 的圖像編碼器則使用 FP16 精度以實(shí)現(xiàn)更快的執(zhí)行。在 Jetson Orin Nano 和 Jetson AGX Orin 上的推理延遲結(jié)果表明，NanoSAM 比 MobileSAM 快 5 倍，且準(zhǔn)確性損失最小。

Wang 等人開發(fā)了一種高效的 SAM 變體 RepViT-SAM，使用他們新提出的基于 CNN 的主干 RepViT作為圖像編碼器。RepViT 背后的核心思想是將高效視覺Transformer (ViTs) 的有效設(shè)計(jì)原則集成到輕量級(jí) CNN 中。這些設(shè)計(jì)原則應(yīng)用于三個(gè)層次：塊級(jí)、宏觀和微觀。在塊級(jí)，RepViT 分離了tokens混合器和通道混合器，減少了擴(kuò)展比，并增加了塊的寬度。在宏觀設(shè)計(jì)中，采用早期卷積作為輸入干，深化下采樣層，采用更簡(jiǎn)單的分類器，并調(diào)整各個(gè)階段的塊比例。在微觀層面，僅使用 3x3 卷積，并且僅在奇數(shù)塊中應(yīng)用擠壓與激勵(lì)層。RepViT-SAM 使用知識(shí)蒸餾進(jìn)行訓(xùn)練，遵循 [147] 中的相同流程，與 MobileSAM 相比，推理速度提高了 10 倍。

與 RepViT-SAM 的開發(fā)同時(shí)，Zhou 等人觀察到，MobileSAM在邊緣設(shè)備（如手機(jī)）上部署時(shí)仍難以實(shí)現(xiàn)實(shí)時(shí)性能。為了解決這個(gè)問題，他們引入了 EdgeSAM，該模型將基于 Transformer 的編碼器替換為更輕量高效的純 CNN 基礎(chǔ)的 RepViT，旨在提高在資源有限設(shè)備上的性能。與 [162] 中的方法類似，Zhou 等人認(rèn)為僅使用編碼器蒸餾是不夠的，因?yàn)樗c任務(wù)無關(guān)，不能完全捕捉模型的任務(wù)特定需求。為了克服這一問題，他們提出了“循環(huán)中的提示蒸餾”方法，為輸出mask增加額外的監(jiān)督?！把h(huán)中的提示”是指一種動(dòng)態(tài)采樣策略，迭代地從教師和學(xué)生預(yù)測(cè)mask的非重疊區(qū)域中采樣新提示。經(jīng)過若干次迭代，累計(jì)損失被反向傳播以更新編碼器和解碼器。為了進(jìn)一步提高輸出質(zhì)量，EdgeSAM 提供了一個(gè)可選模塊，從特定數(shù)據(jù)集中嵌入粒度先驗(yàn)。EdgeSAM 的蒸餾整體框架如下圖 11 所示。

首篇！全面解讀高效Segment Anything模型變體：各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

(iii) 修改過的注意力編碼器

Zhang 等人引入了 EfficientViT-SAM，利用 EfficientViT作為圖像編碼器。EfficientViT 的主要優(yōu)點(diǎn)是使用了 ReLU 線性注意力機(jī)制，該機(jī)制促進(jìn)了全局信息交互，同時(shí)提高了硬件效率。通過消除不利于硬件的 softmax 操作并用 ReLU 替代，注意力計(jì)算重新公式化如下：

首篇！全面解讀高效Segment Anything模型變體：各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

首篇！全面解讀高效Segment Anything模型變體：各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

Shen 等人引入了 FastSAM3D，這是一個(gè)專門為 3D 體積醫(yī)學(xué)圖像設(shè)計(jì)的高效分割模型。該工作的關(guān)鍵貢獻(xiàn)是開發(fā)了 3D 稀疏閃存注意力機(jī)制。這種新穎的注意力方法結(jié)合了 3D 膨脹注意力擴(kuò)展感受野）的優(yōu)點(diǎn)和 FlashAttention以加速計(jì)算。FastSAM3D 使用修改過的 ViT-Tiny 作為圖像編碼器，從 ViT-Base 編碼器蒸餾而來，確保在不妥協(xié)性能的情況下實(shí)現(xiàn)效率。作者實(shí)現(xiàn)了一種層級(jí)漸進(jìn)蒸餾策略，以迭代地對(duì)齊兩個(gè)編碼器之間的特征圖。

首篇！全面解讀高效Segment Anything模型變體：各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

Yuan 等人的最新研究 RWKV-SAM，在加速 SAM 方面代表了一個(gè)重要進(jìn)展，引入了流行的線性注意力模型作為高效主干。在他們的研究中，他們比較了基于 RWKV 和 Mamba 的架構(gòu)，選擇基于 RWKV 的方法構(gòu)建 SAM 的輕量版本。該主干是混合設(shè)計(jì)，前兩層由來自 [97] 的移動(dòng)卷積塊組成，最后一層使用視覺 RWKV 塊構(gòu)建。有關(guān) RWKV 的更多細(xì)節(jié)見第 2.2.2 節(jié)。此外，SAM 類架構(gòu)中還納入了一個(gè)細(xì)化模塊，通過融合每個(gè)階段生成的不同層次的特征來增強(qiáng)mask質(zhì)量。RWKV-SAM 的整體架構(gòu)如下圖 12 所示。該模型使用“蒸餾-微調(diào)”策略進(jìn)行訓(xùn)練，首先將 SAM-H 中的知識(shí)蒸餾到主干，然后對(duì)整個(gè)模型進(jìn)行微調(diào)。RWKV-SAM 顯示出顯著的效率提升，同時(shí)保持與 SAM 相當(dāng)?shù)姆指钚阅堋?/p>

首篇！全面解讀高效Segment Anything模型變體：各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

3.1.3 基于量化的方法

首篇！全面解讀高效Segment Anything模型變體：各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

首篇！全面解讀高效Segment Anything模型變體：各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

首篇！全面解讀高效Segment Anything模型變體：各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

3.1.4 基于剪枝的方法

Chen 等人首先開發(fā)了一種有效的剪枝策略，以減少 SAM 的規(guī)模和復(fù)雜度，得到的模型稱為 SlimSAM。如第 2.3.3 節(jié)所述，剪枝算法旨在以結(jié)構(gòu)化或個(gè)別的方式刪除冗余參數(shù)。在應(yīng)用于 SAM 的重型編碼器時(shí)，初始步驟涉及估計(jì)權(quán)重和激活值的重要性，以確定哪些應(yīng)被剪枝。評(píng)估重要性的核心思想是評(píng)估給定參數(shù)有無的損失差異。SlimSAM 引入了擾動(dòng)泰勒重要性方法，該方法使用一階泰勒展開來近似參數(shù)的重要性，并引入高斯噪聲N以防止梯度變?yōu)榱?。這個(gè)過程被公式化如下：

首篇！全面解讀高效Segment Anything模型變體：各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

一旦參數(shù)的重要性被估計(jì)，便采用一種稱為交替剪枝的策略來執(zhí)行結(jié)構(gòu)化剪枝和后對(duì)齊?；?ViT 的編碼器首先被分為兩個(gè)子結(jié)構(gòu)：嵌入層和瓶頸層。該策略在修剪嵌入/瓶頸層以減小模型規(guī)模和對(duì)齊瓶頸/嵌入層以保持模型質(zhì)量之間交替進(jìn)行，確保效率與性能的平衡。該過程的工作流程如下圖 13 所示。

首篇！全面解讀高效Segment Anything模型變體：各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

3.1.5 代碼重構(gòu)

由 PyTorch 團(tuán)隊(duì)開發(fā)的 Segment Anything Fast 模型（SAMfast）是 SAM 的重寫版本，利用了純?cè)?PyTorch 的優(yōu)化。報(bào)告顯示，SAMfast 比原始實(shí)現(xiàn)快 8 倍，同時(shí)保持幾乎相同的準(zhǔn)確性。這一改進(jìn)是通過系統(tǒng)地識(shí)別瓶頸并應(yīng)用針對(duì)性的優(yōu)化實(shí)現(xiàn)的。最初，團(tuán)隊(duì)發(fā)現(xiàn)了導(dǎo)致同步阻塞的長(zhǎng)函數(shù)調(diào)用，從而重寫了相應(yīng)的代碼。另一個(gè)顯著的瓶頸是耗時(shí)的矩陣乘法，通過使用 bfloat16 精度來減輕這一問題。進(jìn)行這些調(diào)整后，團(tuán)隊(duì)利用 ??torch.compile?? 融合更小的操作，并采用 PyTorch 的縮放點(diǎn)積注意力（SDPA）來加速 GPU 上的注意力計(jì)算。此外，通過集成使用 Triton 構(gòu)建的新內(nèi)核，進(jìn)一步減少了 GPU 的內(nèi)存使用。當(dāng) SAM 使用批量預(yù)測(cè)方法時(shí)，不同大小的輸入張量被統(tǒng)一為 NestedTensors，從而顯著提高了吞吐量。盡管進(jìn)行了這些優(yōu)化，矩陣乘法仍然是一個(gè)關(guān)鍵瓶頸。為了解決這個(gè)問題，團(tuán)隊(duì)實(shí)現(xiàn)了 int8 量化，并使用半結(jié)構(gòu)稀疏性來近似矩陣乘法。有關(guān)逐步優(yōu)化過程的更多細(xì)節(jié)，建議查看官方博客以獲取更多信息。

3.2 加速 SegEvery 任務(wù)

如第 3.1 節(jié)所述，SegAny 任務(wù)的主要效率瓶頸在于重型圖像編碼器。任何具有更輕量架構(gòu)的 SAM 變體在本質(zhì)上都能比原始 SAM 更快地進(jìn)行分割。然而，正如 Zhang 等人分析的那樣，SegEvery 任務(wù)的主要挑戰(zhàn)源于密集網(wǎng)格采樣策略。該策略首先基于點(diǎn)網(wǎng)格預(yù)測(cè)大量mask，然后選擇有效mask，這在計(jì)算上是昂貴的。因此，設(shè)計(jì)一種更高效的采樣策略以減少預(yù)測(cè)mask的數(shù)量已成為加速 SegEvery 任務(wù)的核心方法。另一種潛在解決方案是將 SegEvery 任務(wù)轉(zhuǎn)換為另一個(gè)成熟的任務(wù)，例如全實(shí)例分割，正如 FastSAM 所做的那樣。在這一部分中，我們將回顧專門提出優(yōu)化采樣策略以加速 SegEvery 任務(wù)的相關(guān)工作。

基于 SAM 的結(jié)構(gòu)，Zhang 等人提出了一個(gè)面向?qū)ο蟮奶崾静蓸硬呗?，以增?qiáng) SegEvery 任務(wù)的效率。這個(gè)項(xiàng)目名為 MobileSAMv2，獨(dú)立于他們之前的工作，后者專注于加速 SegAny 任務(wù)。在 MobileSAMv2 中，研究人員使用訓(xùn)練在 SA-1B 小子集上的 YOLOv8 模型進(jìn)行對(duì)象發(fā)現(xiàn)。該模型生成大量對(duì)應(yīng)于潛在對(duì)象的邊界框。通過非極大值抑制（NMS）過濾高度重疊的框，剩余的框作為框提示使用。通過使用這些過濾后的框作為提示，MobileSAMv2 消除了過濾預(yù)測(cè)mask的需要——這是一個(gè)耗時(shí)更長(zhǎng)的過程。最大提示數(shù)設(shè)置為 320，新策略被報(bào)告為比傳統(tǒng)的 32*32 網(wǎng)格采樣策略快 16 倍。此外，MobileSAMv2 可以與 MobileSAM 集成，以創(chuàng)建一個(gè)統(tǒng)一模型，在 SegAny 和 SegEvery 任務(wù)中實(shí)現(xiàn)高效率。

Shu 等人觀察到，使用密集點(diǎn)網(wǎng)格（例如，3232，6464）往往會(huì)生成大量冗余mask，這些mask在后處理過程中被過濾掉，這一操作會(huì)帶來顯著的時(shí)間成本。實(shí)際上，網(wǎng)格中只需少數(shù)點(diǎn)即可生成置信度高的mask。為了解決這一低效問題，他們提出了一種分層高效采樣策略，逐步選擇用于mask生成的最佳點(diǎn)。該策略涉及兩輪提示生成。在第一輪中，使用稀疏網(wǎng)格，只包括每邊默認(rèn)點(diǎn)的四分之一（約 1/4）?；谶@些點(diǎn)生成mask，經(jīng)過過濾后，僅保留高置信度mask作為最終預(yù)測(cè)。在第二輪中，應(yīng)用更密集的網(wǎng)格，遵循默認(rèn)配置。然而，位于已被高置信度mask覆蓋區(qū)域的點(diǎn)被排除，從而顯著減少點(diǎn)的數(shù)量。兩輪的預(yù)測(cè)結(jié)果隨后被融合以生成最終輸出。這一分層策略的流程如下圖 14 所示。通過采用這種兩輪方法，采樣過程變得更加節(jié)省時(shí)間和細(xì)致，從而在 SegEvery 任務(wù)中顯著加速，同時(shí)性能下降最小。

首篇！全面解讀高效Segment Anything模型變體：各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

與前述所有工作不同，F(xiàn)u et al.提出了一個(gè)專門為 SegEvery 任務(wù)設(shè)計(jì)的端到端訓(xùn)練管道，旨在開發(fā)一個(gè)能夠更高效地進(jìn)行全局分割的 SAM 變體。他們的模型名為 Lite-SAM，保留了原始 SAM 的整體架構(gòu)，但用更輕量化的解決方案替換了重型圖像編碼器。Lite-SAM 的架構(gòu)概述如下圖 15 所示。

首篇！全面解讀高效Segment Anything模型變體：各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

Lite-SAM 采用了一種稱為 Lite-ViT 的 CNN-Transformer 混合結(jié)構(gòu)，由 2、2、6 和 2 個(gè) Lite-ViT 模塊構(gòu)成。Lite-ViT 的關(guān)鍵創(chuàng)新在于多尺度池化模塊 (MSPM)，該模塊作為傳統(tǒng)注意力機(jī)制的替代方案。MSPM 從 PoolFormer 模塊適配而來，利用通道層歸一化并將池化操作擴(kuò)展到多個(gè)尺度。正如前面所討論的，SAM 的另一個(gè)主要瓶頸在于耗時(shí)的網(wǎng)格采樣策略。為了解決這個(gè)問題，Lite-SAM 引入了一種自動(dòng)提示提議網(wǎng)絡(luò)（AutoPPN）以提高采樣效率。AutoPPN 以編碼器生成的特征圖作為輸入，直接預(yù)測(cè)點(diǎn)和框提示。為了確保高質(zhì)量的提示，Lite-SAM 使用了比 CNN 更強(qiáng)大的基于 MSPM 的網(wǎng)絡(luò)，并結(jié)合距離變換來估計(jì)點(diǎn)提示的置信度。雖然 Lite-SAM 主要設(shè)計(jì)用于加速 SegEvery 任務(wù)，但由于其輕量化的圖像編碼器，它在 SegAny 任務(wù)中也顯示出更高的效率。

3.3 未來研究方向

通過對(duì)高效 SAM 變體的全面回顧，我們概述了加速 SAM 的當(dāng)前進(jìn)展。然而，仍然存在進(jìn)一步探索和創(chuàng)新的機(jī)會(huì)。以下是幾個(gè)潛在的未來研究方向，提供初步見解，希望能夠激勵(lì)讀者為該領(lǐng)域的持續(xù)發(fā)展做出貢獻(xiàn)。

3.3.1 探索先進(jìn)的架構(gòu)

盡管當(dāng)前的 SAM 變體通過采用高效架構(gòu)和模型壓縮技術(shù)展示了效率提升，但仍有很大的改進(jìn)潛力。探索 Transformer 替代模型，如 Mamba、RetNet、KAN和 TTT，為設(shè)計(jì)更輕量化和高效的結(jié)構(gòu)提供了令人興奮的機(jī)會(huì)。這些模型可能在計(jì)算效率方面具有優(yōu)勢(shì)，同時(shí)不犧牲分割準(zhǔn)確性。除了替代模型外，進(jìn)一步提升圖像編碼器和mask解碼器中注意力機(jī)制的效率也是至關(guān)重要的。諸如線性注意力、低秩分解或結(jié)合卷積和基于注意力的設(shè)計(jì)的混合架構(gòu)等方法應(yīng)進(jìn)一步研究。解決計(jì)算和內(nèi)存使用中的瓶頸將增強(qiáng) SAM 在不同硬件環(huán)境中的部署能力。

3.3.2 利用稀疏性和加速技術(shù)

在深度神經(jīng)網(wǎng)絡(luò)中觀察到的固有稀疏性，即只有一部分參數(shù)對(duì)模型輸出產(chǎn)生顯著貢獻(xiàn)，提供了提高 SAM 效率的有希望的途徑。剪枝、量化和結(jié)構(gòu)稀疏等技術(shù)可以進(jìn)一步降低 SAM 的計(jì)算需求。盡管在 [18] 中的初步稀疏化努力已顯示出成功，但未來的研究可以集中在理解 SAM 架構(gòu)中稀疏性的分布和動(dòng)態(tài)特性上。這包括研究可以在不影響性能的情況下被剪枝或稀疏化的 SAM 最優(yōu)層或組件。此外，稀疏注意力機(jī)制、推理過程中的動(dòng)態(tài)剪枝以及低精度訓(xùn)練等技術(shù)應(yīng)被探索，以在大型部署中平衡準(zhǔn)確性和效率。通過將這些與先進(jìn)的知識(shí)蒸餾技術(shù)結(jié)合，可能實(shí)現(xiàn)更緊湊、高效的 SAM 變體。

3.3.3 硬件特定優(yōu)化

對(duì) SAM 進(jìn)行針對(duì)特定硬件平臺(tái)的優(yōu)化，包括 GPU、TPU、專業(yè) AI 加速器（例如 NVIDIA 的 TensorRT 或 Google 的 Edge TPU）以及邊緣設(shè)備，可以顯著提升性能和效率。硬件感知模型優(yōu)化技術(shù)，如操作符融合、量化感知訓(xùn)練和自定義 CUDA 內(nèi)核，可以在現(xiàn)代硬件平臺(tái)上最大化吞吐量并降低延遲。在邊緣設(shè)備的上下文中，由于面臨存儲(chǔ)、計(jì)算能力和能量供應(yīng)的極端限制，這些優(yōu)化對(duì)實(shí)時(shí)應(yīng)用（如無人機(jī)或物聯(lián)網(wǎng)設(shè)備上的分割）至關(guān)重要。未來的研究可以探索分層云-邊緣架構(gòu)，將計(jì)算密集型任務(wù)卸載到云端，同時(shí)在邊緣設(shè)備上運(yùn)行輕量級(jí)模型。此外，利用專用 AI 硬件（如現(xiàn)場(chǎng)可編程門陣列 (FPGA)）或使用硬件感知的神經(jīng)架構(gòu)搜索 (NAS) 和混合精度量化等技術(shù)，可以進(jìn)一步優(yōu)化 SAM，以實(shí)現(xiàn)低延遲和資源受限環(huán)境中的有效運(yùn)行，確保模型在不同硬件平臺(tái)上高效運(yùn)作。

3.3.4 視頻和多模態(tài)數(shù)據(jù)的高效分割

視頻和多模態(tài)任務(wù)處理復(fù)雜、動(dòng)態(tài)的環(huán)境，正迅速在眾多實(shí)際應(yīng)用中獲得相關(guān)性。盡管一些初步努力，例如 SAM 2用于視頻分割和 MM-SAM用于多模態(tài)任務(wù)，已經(jīng)擴(kuò)展了 SAM 的適用性，但效率仍然是一個(gè)迫切問題。視頻數(shù)據(jù)包含時(shí)間冗余，而多模態(tài)數(shù)據(jù)通常表現(xiàn)出模態(tài)之間的相關(guān)性。通過時(shí)間聚合和跨模態(tài)特征共享等技術(shù)利用這些固有的冗余，可能顯著降低計(jì)算成本。未來的工作可以集中在利用時(shí)空注意力、為時(shí)間數(shù)據(jù)設(shè)計(jì)高效的內(nèi)存機(jī)制和早期融合技術(shù)，以減少模態(tài)特定計(jì)算的數(shù)量，從而優(yōu)化 SAM 的運(yùn)行復(fù)雜性。開發(fā)能夠動(dòng)態(tài)適應(yīng)不同幀或模態(tài)冗余水平的框架，可以進(jìn)一步推動(dòng)實(shí)際應(yīng)用中的計(jì)算效率。

4. 評(píng)估

在本節(jié)中，我們系統(tǒng)比較了前述 SAM 變體的效率和準(zhǔn)確性。參考這些工作的實(shí)驗(yàn)，我們選擇大多數(shù)工作所執(zhí)行的任務(wù)，并在其常用數(shù)據(jù)集上進(jìn)行評(píng)估，并使用相應(yīng)的度量標(biāo)準(zhǔn)。我們的評(píng)估在單個(gè) 24GB RTX 3090 GPU 和 14 個(gè) vCPU 的 Intel(R) Xeon(R) Gold 6330 處理器 @ 2.00GHz 上進(jìn)行。以下子節(jié)提供更多細(xì)節(jié)：第 4.1 節(jié)介紹了用于評(píng)估的數(shù)據(jù)集和度量標(biāo)準(zhǔn)；第 4.2 和 4.3 節(jié)分別報(bào)告了效率和準(zhǔn)確性的定量結(jié)果。

4.1 數(shù)據(jù)集和度量標(biāo)準(zhǔn)

研究者們選擇 COCO 2017和 LVIS v1作為評(píng)估數(shù)據(jù)集。COCO 是一個(gè)大規(guī)模數(shù)據(jù)集，旨在用于目標(biāo)檢測(cè)、分割和標(biāo)注，包含 330K 張圖像和 150 萬個(gè)目標(biāo)實(shí)例，覆蓋 80 個(gè)目標(biāo)類別。LVIS 針對(duì)大詞匯實(shí)例分割進(jìn)行了定制，特征超過 200 萬個(gè)高質(zhì)量的分割掩膜，涵蓋 1200 多個(gè)類別，在 164K 張圖像中。為了進(jìn)行評(píng)估，我們使用兩個(gè)數(shù)據(jù)集的驗(yàn)證集，COCO 包含 5000 張圖像中的 36,781 個(gè)實(shí)例，LVIS 包含 19,809 張圖像中的 244,707 個(gè)實(shí)例。為了評(píng)估效率，我們首先測(cè)試幾個(gè)軟指標(biāo)，如參數(shù)數(shù)量 (#Params)、浮點(diǎn)運(yùn)算量 (FLOPs)、乘加運(yùn)算量 (MACs) 和內(nèi)存使用情況。我們進(jìn)一步計(jì)算有效錯(cuò)誤率 (EER)，這是一種更全面的評(píng)估，如 [86] 中所述。EER 定義為：

首篇！全面解讀高效Segment Anything模型變體：各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

其中 N 是度量的數(shù)量，和分別表示被測(cè)試模型和參考模型的第 i 個(gè)度量。在我們的評(píng)估中，參考模型設(shè)定為 SAM-H。除了這些度量之外，還報(bào)告模型的運(yùn)行時(shí)間和吞吐量。為了評(píng)估準(zhǔn)確性，使用均值交并比（mIoU）來評(píng)估 SegAny 任務(wù)，并使用均值平均精度（AP）來評(píng)估實(shí)例分割任務(wù)。

4.2 效率比較

首先報(bào)告 SAM 及其變體的效率結(jié)果。以 SAM 官方示例中的圖像 groceries.jpg 作為輸入，利用一個(gè)邊界框作為提示，使用工具 calflops 評(píng)估模型的參數(shù)數(shù)量、FLOPs 和 MACs。我們還計(jì)算了 ERR 以進(jìn)行全面比較。結(jié)果如表 2 所示。在高效變體中，我們觀察到 EdgeSAM 的參數(shù)數(shù)量、FLOPs、MACs 及其相應(yīng)的 EER 是最低的，而 EfficientViT-SAM-XL1 的這些數(shù)值是最高的，其 EER 比 SAM-B 高出 3%。與最重的 SAM-H 相比，所有變體在模型大小和計(jì)算量上都表現(xiàn)出明顯的降低。

還測(cè)量了模型在 SegAny 和 SegEvery 模式下的推理時(shí)間，使用來自 COCO 驗(yàn)證集的 100 張圖像作為評(píng)估數(shù)據(jù)。在 SegAny 任務(wù)中，每張圖像都提示 50 個(gè)固定的邊界框。

通過曲線圖（如下圖16所示）報(bào)告每10個(gè)邊界框的累計(jì)時(shí)間?；诖?，計(jì)算處理一個(gè)圖像并使用一個(gè)邊界框提示所需的平均時(shí)間，并將其作為 SegAny 任務(wù)的推理時(shí)間報(bào)告。評(píng)估在 CPU 和 GPU 環(huán)境下進(jìn)行，并同時(shí)記錄 GPU 內(nèi)存使用情況。此外，還測(cè)試了每個(gè)變體在 COCO 驗(yàn)證集上的吞吐量，使用真實(shí)的邊界框。

首篇！全面解讀高效Segment Anything模型變體：各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

結(jié)果總結(jié)在表3中。我們的研究發(fā)現(xiàn)，EfficientViT-SAM-L0 在 SegAny 任務(wù)中實(shí)現(xiàn)了最短的推理時(shí)間，與最重的模型 SAM-H 相比，在 GPU 上加速接近 30 倍，而在 CPU 上幾乎加速 50 倍。EdgeSAM 也表現(xiàn)出令人印象深刻的性能，其 CPU 延遲為 259 毫秒，而 NanoSAM 在 GPU 上的延遲為 20 毫秒，均接近最佳結(jié)果。在 COCO 數(shù)據(jù)集的吞吐量測(cè)試中，NanoSAM 以每秒處理 27.9 張圖像領(lǐng)先。其他兩個(gè)變體，EfficientSAM-Ti 和 EfficientViT-SAM-L0，也展示了強(qiáng)大的吞吐量，各自超過每秒 20 張圖像。

首篇！全面解讀高效Segment Anything模型變體：各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

對(duì)于 SegEvery 任務(wù)，報(bào)告使用不同點(diǎn)網(wǎng)格大小（1616、3232、6464）或?qū)Ｓ貌蓸硬呗陨蓤D像所有mask所需的平均時(shí)間。結(jié)果在表4中呈現(xiàn)。使用默認(rèn)的 3232 網(wǎng)格，SAMfast-H 展示了最高的效率，延遲為 848 毫秒——比 SAM-H 快兩倍以上。EfficientViT-SAM-L0 在 1616 和 6464 網(wǎng)格上表現(xiàn)最佳，分別實(shí)現(xiàn)了 258 毫秒和 3938 毫秒的延遲。有趣的是，我們觀察到在使用較低網(wǎng)格密度時(shí)，EfficientSAM-S 比 SAM-H 更慢，16x16 網(wǎng)格的延遲為 1100 毫秒，32*32 網(wǎng)格的延遲為 2290 毫秒。采用替代采樣策略的模型在效率上顯示出顯著改善，特別是 FastSAM 記錄了 196 毫秒的延遲，而 MobileSAMv2 的延遲為 173 毫秒。

4.3. 精度比較

本小節(jié)報(bào)告了 SAM 及其變體在 SegAny 任務(wù)（使用點(diǎn)/框提示）和實(shí)例分割任務(wù)上的精度結(jié)果。我循了 [159] 中的評(píng)估框架，并通過引入其他評(píng)估模塊進(jìn)行了統(tǒng)一的變體評(píng)估。

為了評(píng)估 SegAny 任務(wù)，采用兩種類型的點(diǎn)作為提示：

1）真實(shí)邊界框的中心點(diǎn)
2）從真實(shí)mask中均勻隨機(jī)采樣的點(diǎn)，遵循 [131] 中的設(shè)置。

在 COCO 和 LVIS 上對(duì)變體進(jìn)行了評(píng)估，并在下表 5 中報(bào)告了平均交并比（mIoU）。當(dāng)使用中心點(diǎn)提示時(shí)，SAM2-B+ 和 EfficientViT-SAM-XL1 在 COCO 上達(dá)到了 54.3% 的最高 mIoU，超過了 SAM-H 的 53.6% mIoU，而 SAMfast-H 也以 53.6% 的 mIoU 在 LVIS 上展示了變體中的最佳性能。在隨機(jī)點(diǎn)提示的設(shè)置下，EfficientViT-SAM-XL1 的表現(xiàn)優(yōu)于 SAM-H，特別是在使用 3 個(gè)點(diǎn)提示時(shí)，分別增加了 2.7% 和 0.7%。從數(shù)據(jù)集的角度來看，我們觀察到 LVIS 的結(jié)果普遍低于 COCO，尤其是對(duì)于 FastSAM 和 EfficientSAM-Ti，其在 LVIS 上的準(zhǔn)確率降至 30% 以下。

首篇！全面解讀高效Segment Anything模型變體：各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

此外，還評(píng)估了使用兩種類型框提示的 SegAny 任務(wù)的精度：

1）真實(shí)的邊界框
2）對(duì)應(yīng)真實(shí)mask的最緊邊界框，靈感來自于 [131, 159] 中的實(shí)驗(yàn)。

在 COCO 和 LVIS 上報(bào)告了 mIoU 的結(jié)果，如表 6 所示。我們觀察到 EfficientViT-SAM-XL1 在每種設(shè)置中都展示了最高的準(zhǔn)確性，分別超過 SAM-H 1.5%、1.1%、1.9% 和 0.6%。SAMfast-H 和 EfficientViT-SAM-L0 在框提示的分割任務(wù)中也展現(xiàn)了接近 SAM-H 的性能。

對(duì)于實(shí)例分割任務(wù)，采用了 ViTDet、YOLOv8、GrounddingDINO、Detic 和 H-Deformable-DETR 與 Swin-L 作為物體檢測(cè)器，幫助生成潛在物體的邊界框，參考文獻(xiàn) [117, 159, 164]。評(píng)估了所有物體的平均精度（AP），以及小型、中型和大型物體的 AP。結(jié)果報(bào)告在下面表 7、8 和 9 中。與之前的結(jié)果類似，我們發(fā)現(xiàn) EfficientViT-SAM-XL1 在 COCO 數(shù)據(jù)集上總是以最高的 AP 表現(xiàn)（除 H-Deformable-DETR 外）。在將 ViTDet 作為檢測(cè)器并在 LVIS 數(shù)據(jù)集上測(cè)試的設(shè)置下，SAMfast-H 以 44.5% 的 AP 超過了所有其他變體。

首篇！全面解讀高效Segment Anything模型變體：各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

首篇！全面解讀高效Segment Anything模型變體：各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

首篇！全面解讀高效Segment Anything模型變體：各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

根據(jù)第 4.2 節(jié)和第 4.3 節(jié)的結(jié)果，進(jìn)一步繪制了吞吐量-mIoU 散點(diǎn)圖，以觀察變體的效率-精度權(quán)衡。具體而言，選擇了在 COCO 數(shù)據(jù)集上使用真實(shí)邊界框作為提示進(jìn)行評(píng)估的吞吐量和 mIoU。結(jié)果如下圖 17 所示。

首篇！全面解讀高效Segment Anything模型變體：各種圖像分割加速策略和核心技術(shù)展示-AI.x社區(qū)

5. 結(jié)論

在本次調(diào)查中，主要討論和評(píng)估了關(guān)注于高效分割任意物體和分割所有物體的顯著工作，這些方法旨在減少資源消耗和降低延遲。對(duì)于高效的 SegAny 任務(wù)，大多數(shù)工作采用替換圖像編碼器或整個(gè)架構(gòu)為輕量級(jí)替代方案的方法，隨后進(jìn)行從頭訓(xùn)練或通過知識(shí)蒸餾的方式進(jìn)行訓(xùn)練。其他工作則旨在利用量化、剪枝或局部?jī)?yōu)化等技術(shù)壓縮原始模型。對(duì)于高效的 SegEvery 任務(wù)，采用有效且高效的采樣策略生成提示是至關(guān)重要的。

在詳細(xì)回顧這些方法后，還概述了四個(gè)可能的未來研究方向，這些方向可能推動(dòng)該領(lǐng)域的新趨勢(shì)。此外，我們?cè)谝恢碌沫h(huán)境中評(píng)估了這些模型的效率、準(zhǔn)確性及其相應(yīng)的權(quán)衡，提供了公正而有價(jià)值的比較。我們的分析表明，一些變體在特定場(chǎng)景中已經(jīng)超過了原始的 SAM，我們相信它們的成功將激勵(lì)該領(lǐng)域的進(jìn)一步探索和創(chuàng)新。

本文轉(zhuǎn)自AI生成未來，作者：AI生成未來

原文鏈接:???https://mp.weixin.qq.com/s/ZFJ1f7YZZEKoEs5Ie1YAbA??

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

生物醫(yī)學(xué)圖像分割與目標(biāo)檢測(cè)：UOLO

mb61e52f0ac174a ? 4463瀏覽 ? 0回復(fù)
國(guó)內(nèi)首款A(yù)I音樂大模型一曲封神！核心技術(shù)業(yè)內(nèi)首公開，爆改霉霉周杰倫效果驚艷

duhorse ? 2979瀏覽 ? 0回復(fù)
Nemotron-4 340B 技術(shù)報(bào)告：全面解讀當(dāng)前最強(qiáng)大語(yǔ)言模型的誕生過程

大語(yǔ)言模型論文跟蹤 ? 4025瀏覽 ? 0回復(fù)
萬文長(zhǎng)文搞定檢索增強(qiáng)生成(RAG)技術(shù)——13篇熱門RAG文章解讀

angel ? 1.1w瀏覽 ? 0回復(fù)
大模型高效微調(diào)Prompt Tuning論文解讀

AIRoobt ? 4456瀏覽 ? 0回復(fù)
給 ?大模型初學(xué)者? 的 LLaMA 3 核心技術(shù)剖析

Baihai_IDP ? 2869瀏覽 ? 0回復(fù)
kotaemon核心GraphRAG、Agent、多模態(tài)代碼解讀！

PaperAgent ? 2988瀏覽 ? 0回復(fù)
RAG文檔解析器，核心技術(shù)剖析

小虎哦哦 ? 2969瀏覽 ? 0回復(fù)
醫(yī)療圖像分割中的深度學(xué)習(xí)方法

51CTO內(nèi)容精選 ? 1760瀏覽 ? 0回復(fù)
從秒級(jí)到小時(shí)級(jí)：TikTok等發(fā)布首篇面向長(zhǎng)視頻理解的多模態(tài)大語(yǔ)言模型全面綜述

angel ? 5330瀏覽 ? 0回復(fù)
首篇！全面系統(tǒng)解讀高效SAM變體：各種加速策略和核心技術(shù)展示

angel ? 4715瀏覽 ? 0回復(fù)
大模型技術(shù)全面解析，從大模型的概念，技術(shù)，應(yīng)用和挑戰(zhàn)多個(gè)方面介紹大模型

AI探索時(shí)代 ? 1.4w瀏覽 ? 0回復(fù)
一文搞懂AI大模型的四個(gè)核心技術(shù)

數(shù)字化助推器 ? 2575瀏覽 ? 0回復(fù)
NeurIPS 2024 | 像素級(jí)LLM實(shí)現(xiàn)圖像視頻理解、生成、分割和編輯大統(tǒng)一

angel ? 3450瀏覽 ? 0回復(fù)
突發(fā)，美國(guó)開始拉黑國(guó)產(chǎn)大模型公司！智譜官方回應(yīng)：手握全鏈路大模型核心技術(shù)，無實(shí)質(zhì)影響！

51CTO技術(shù)棧 ? 1871瀏覽 ? 0回復(fù)
DeepSeek簡(jiǎn)明解析，10分鐘速通DeepSeekV1~V3核心技術(shù)點(diǎn)！

海因斯DK ? 7188瀏覽 ? 0回復(fù)
一文帶你看懂開源大模型基石LLaMA核心技術(shù)點(diǎn)，DeepSeek/千問等LLM的模型結(jié)構(gòu)基礎(chǔ)

海因斯DK ? 2041瀏覽 ? 0回復(fù)
2025首篇關(guān)于多模態(tài)大模型在富文本圖像理解上的全面研究綜述

PaperAgent ? 2851瀏覽 ? 0回復(fù)
多模態(tài)大模型Ovis核心技術(shù)點(diǎn)、訓(xùn)練方法、數(shù)據(jù)細(xì)節(jié)

大模型自然語(yǔ)言處理 ? 1574瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

熱門推薦

Seedream 3.0技術(shù)細(xì)節(jié)重磅發(fā)布！中文圖文生成再進(jìn)化,2K高清+爆改文字渲染,遠(yuǎn)超Canva！ 0回復(fù)

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

上一篇：圖像編輯多任務(wù)一網(wǎng)打盡！PromptFix，新型擴(kuò)散模型&大規(guī)模視覺指令數(shù)據(jù)集（羅切斯特大學(xué)&微軟）

下一篇： ?顏水成團(tuán)隊(duì)新作:AI手機(jī)迎來重大技術(shù)進(jìn)展！Meissonic:讓移動(dòng)成像技術(shù)飛躍

社區(qū)精華內(nèi)容

目錄

<sub id="fhrt9"><p id="fhrt9"></p></sub>