自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<thead id="q6x3g"><samp id="q6x3g"><small id="q6x3g"></small></samp></thead>

<sub id="q6x3g"><s id="q6x3g"></s></sub>

<sup id="q6x3g"></sup>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠(chǎng)商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

Prompt一鍵摳圖！Meta發(fā)布史上首個(gè)圖像分割基礎(chǔ)模型，開(kāi)創(chuàng)CV新范式

作者：新智元 2023-04-06 13:44:41

人工智能新聞

今天，Meta發(fā)布史上首個(gè)圖像分割基礎(chǔ)模型SAM，將NLP領(lǐng)域的prompt范式引進(jìn)CV，讓模型可以通過(guò)prompt一鍵摳圖。網(wǎng)友直呼：CV不存在了!

就在剛剛，Meta AI發(fā)布了Segment Anything Model（SAM）——第一個(gè)圖像分割基礎(chǔ)模型。

SAM能從照片或視頻中對(duì)任意對(duì)象實(shí)現(xiàn)一鍵分割，并且能夠零樣本遷移到其他任務(wù)。

整體而言，SAM遵循了基礎(chǔ)模型的思路：

1. 一種非常簡(jiǎn)單但可擴(kuò)展的架構(gòu)，可以處理多模態(tài)提示：文本、關(guān)鍵點(diǎn)、邊界框。

2. 直觀(guān)的標(biāo)注流程，與模型設(shè)計(jì)緊密相連。

3. 一個(gè)數(shù)據(jù)飛輪，允許模型自舉到大量未標(biāo)記的圖像。

而且，毫不夸張地說(shuō)，SAM已經(jīng)學(xué)會(huì)了「物體」的一般概念，甚至對(duì)于未知物體、不熟悉的場(chǎng)景（例如水下和顯微鏡下）以及模糊的案例也是如此。

此外，SAM還能夠泛化到新任務(wù)和新領(lǐng)域，從業(yè)者并不需要自己微調(diào)模型了。

論文地址：https://ai.facebook.com/research/publications/segment-anything/

最強(qiáng)大的是，Meta實(shí)現(xiàn)了一個(gè)完全不同的CV范式，你可以在一個(gè)統(tǒng)一框架prompt encoder內(nèi)，指定一個(gè)點(diǎn)、一個(gè)邊界框、一句話(huà)，直接一鍵分割出物體。

對(duì)此，騰訊AI算法專(zhuān)家金天表示，「NLP領(lǐng)域的prompt范式，已經(jīng)開(kāi)始延展到CV領(lǐng)域了。而這一次，可能徹底改變CV傳統(tǒng)的預(yù)測(cè)思路。這一下你可以真的可以用一個(gè)模型，來(lái)分割任意物體，并且是動(dòng)態(tài)的！」

英偉達(dá)AI科學(xué)家Jim Fan對(duì)此更是贊嘆道：我們已經(jīng)來(lái)到了計(jì)算機(jī)視覺(jué)領(lǐng)域的「GPT-3時(shí)刻」！

所以，CV真的不存在了？

SAM：一鍵「切出」任何圖像中的所有對(duì)象

Segment Anything是致力于圖像分割的第一個(gè)基礎(chǔ)模型。

分割（Segmentation）是指識(shí)別哪些圖像像素屬于一個(gè)對(duì)象，一直是計(jì)算機(jī)視覺(jué)的核心任務(wù)。

但是，如果想為特定任務(wù)創(chuàng)建準(zhǔn)確的分割模型，通常需要專(zhuān)家進(jìn)行高度專(zhuān)業(yè)化的工作，這個(gè)過(guò)程需要訓(xùn)練AI的基礎(chǔ)設(shè)施，和大量仔細(xì)標(biāo)注的域內(nèi)數(shù)據(jù)，因此門(mén)檻極高。

為了解決這個(gè)問(wèn)題，Meta提出了一個(gè)圖像分割的基礎(chǔ)模型——SAM。這個(gè)接受了多樣化數(shù)據(jù)訓(xùn)練的可提示模型，不僅能適應(yīng)各種任務(wù)，而且操作起來(lái)也類(lèi)似于在NLP模型中使用提示的方式。

SAM模型掌握了「什么是對(duì)象」這個(gè)概念，可以為任何圖像或視頻中的任何對(duì)象生成掩碼，即使是它在訓(xùn)練中沒(méi)有見(jiàn)過(guò)的對(duì)象。

SAM具有如此廣泛的通用性，足以涵蓋各種用例，不需要額外訓(xùn)練，就可以開(kāi)箱即用地用于新的圖像領(lǐng)域，無(wú)論是水下照片，還是細(xì)胞顯微鏡。也即是說(shuō)，SAM已經(jīng)具有了零樣本遷移的能力。

Meta在博客中興奮地表示：可以預(yù)計(jì)，在未來(lái)，在任何需要在圖像中查找和分割對(duì)象的應(yīng)用中，都有SAM的用武之地。

SAM可以成為更大的AI系統(tǒng)的一部分，對(duì)世界進(jìn)行更通用的多模態(tài)理解，比如，理解網(wǎng)頁(yè)的視覺(jué)和文本內(nèi)容。

在A(yíng)R/VR領(lǐng)域，SAM可以根據(jù)用戶(hù)的視線(xiàn)選擇對(duì)象，然后把對(duì)象「提升」為 3D。

對(duì)于內(nèi)容創(chuàng)作者，SAM可以提取圖像區(qū)域進(jìn)行拼貼，或者視頻編輯。

SAM還可以在視頻中定位、跟蹤動(dòng)物或物體，有助于自然科學(xué)和天文學(xué)研究。

通用的分割方法

在以前，解決分割問(wèn)題有兩種方法。

一種是交互式分割，可以分割任何類(lèi)別的對(duì)象，但需要一個(gè)人通過(guò)迭代微調(diào)掩碼。

第二種是自動(dòng)分割，可以分割提前定義的特定對(duì)象，但訓(xùn)練過(guò)程需要大量的手動(dòng)標(biāo)注對(duì)象（比如要分割出貓，就需要成千上萬(wàn)個(gè)例子）。

總之，這兩種方式都無(wú)法提供通用、全自動(dòng)的分割方法。

而SAM可以看作這兩種方法的概括，它可以輕松地執(zhí)行交互式分割和自動(dòng)分割。

在模型的可提示界面上，只要為模型設(shè)計(jì)正確的提示（點(diǎn)擊、框、文本等），就可以完成廣泛的分割任務(wù)。

另外，SAM在包含超過(guò)10億個(gè)掩碼的多樣化、高質(zhì)量數(shù)據(jù)集上進(jìn)行訓(xùn)練，使得模型能夠泛化到新的對(duì)象和圖像，超出其在訓(xùn)練期間觀(guān)察到的內(nèi)容。因此，從業(yè)者不再需要收集自己的細(xì)分?jǐn)?shù)據(jù)，為用例微調(diào)模型了。

這種能夠泛化到新任務(wù)和新領(lǐng)域的靈活性，在圖像分割領(lǐng)域尚屬首次。

(1) SAM 允許用戶(hù)通過(guò)單擊一下，或交互式單擊許多點(diǎn)，來(lái)分割對(duì)象，還可以使用邊界框提示模型。

(2) 在面對(duì)被分割對(duì)象的歧義時(shí)，SAM可以輸出多個(gè)有效掩碼，這是解決現(xiàn)實(shí)世界中分割問(wèn)題的必備能力。

(3) SAM 可以自動(dòng)發(fā)現(xiàn)、屏蔽圖像中的所有對(duì)象。(4) 在預(yù)計(jì)算圖像嵌入后，SAM可以實(shí)時(shí)為任何提示生成分割掩碼，允許用戶(hù)與模型進(jìn)行實(shí)時(shí)交互。

工作原理

研究人員訓(xùn)練的SAM可以針對(duì)任何提示返回有效的分割掩碼。提示可以是前景/背景點(diǎn)、粗略的框或掩碼、自由形式的文本，或者總體上任何指示圖像中需要分割的信息。

有效掩碼的要求僅僅意味著即使在提示模糊且可能指代多個(gè)對(duì)象的情況下（例如，襯衫上的一個(gè)點(diǎn)可能表示襯衫或者穿襯衫的人) ，輸出應(yīng)該是其中一個(gè)對(duì)象的合理掩碼。

研究人員觀(guān)察到，預(yù)訓(xùn)練任務(wù)和交互式數(shù)據(jù)收集對(duì)模型設(shè)計(jì)施加了特定的約束。

特別是，該模型需要在網(wǎng)絡(luò)瀏覽器中CPU上實(shí)時(shí)運(yùn)行，以便讓標(biāo)準(zhǔn)人員能夠高效實(shí)時(shí)與SAM互動(dòng)進(jìn)行標(biāo)注。

雖然運(yùn)行時(shí)間的約束，意味著質(zhì)量與運(yùn)行時(shí)間之間需要權(quán)衡，但研究人員發(fā)現(xiàn)，在實(shí)踐中，簡(jiǎn)單的設(shè)計(jì)可以取得良好的效果。

SAM的圖像編碼器為圖像產(chǎn)生一次性嵌入，而輕量級(jí)解碼器將任何提示實(shí)時(shí)轉(zhuǎn)換為矢量嵌入。然后將這兩個(gè)信息源在一個(gè)預(yù)測(cè)分割掩碼的輕量級(jí)解碼器中結(jié)合起來(lái)。

在計(jì)算出圖像嵌入之后，SAM可以在短短50毫秒內(nèi)生成一段圖像，并在網(wǎng)絡(luò)瀏覽器中給出任何提示。

最新SAM模型在256張A100上訓(xùn)練了68小時(shí)（近5天）完成。

項(xiàng)目演示

多種輸入提示

在圖像中指定要分割的內(nèi)容的提示，可以實(shí)現(xiàn)各種分割任務(wù)，而無(wú)需額外的訓(xùn)練。

用互動(dòng)點(diǎn)和方框作為提示

自動(dòng)分割圖像中的所有元素

為模棱兩可的提示生成多個(gè)有效的掩碼

可提示的設(shè)計(jì)

SAM可以接受來(lái)自其他系統(tǒng)的輸入提示。

例如，根據(jù)AR/VR頭顯傳來(lái)的用戶(hù)視覺(jué)焦點(diǎn)信息，來(lái)選擇對(duì)應(yīng)的物體。Meta通過(guò)發(fā)展可以理解現(xiàn)實(shí)世界的AI，恰恰為它未來(lái)元宇宙之路鋪平道路。

或者，利用來(lái)自物體檢測(cè)器的邊界框提示，實(shí)現(xiàn)文本到物體的分割。

可擴(kuò)展的輸出

輸出掩碼可以作為其他AI系統(tǒng)的輸入。

例如，物體的mask可以在視頻中被跟蹤，通過(guò)成像編輯應(yīng)用程序，變成3D，或用于拼貼等創(chuàng)造性任務(wù)。

零樣本的泛化

SAM學(xué)會(huì)了關(guān)于物體是什么的一般概念——這種理解使其能夠?qū)Σ皇煜さ奈矬w和圖像進(jìn)行零樣本概括，而不需要額外訓(xùn)練。

各種評(píng)測(cè)

選擇Hover&Click，點(diǎn)Add Mask后就出現(xiàn)綠點(diǎn)，點(diǎn)Remove Area后出現(xiàn)紅點(diǎn)，吃蘋(píng)果的花花立刻就被圈出來(lái)了。

而在Box功能中，簡(jiǎn)單框選一下，就立馬完成識(shí)別。

點(diǎn)Everything后，所有系統(tǒng)識(shí)別出的對(duì)象立刻全部被提取出來(lái)。

選Cut-Outs后，秒得一個(gè)三角團(tuán)子。

SA-1B數(shù)據(jù)集：1100萬(wàn)張圖像，11億個(gè)掩碼

除了發(fā)布的新模型，Meta還發(fā)布了迄今為止最大的分割數(shù)據(jù)集SA-1B。

這個(gè)數(shù)據(jù)集由1100萬(wàn)張多樣化、高分辨率、保護(hù)隱私的圖像，以及11億個(gè)高質(zhì)量分割掩碼組成。

數(shù)據(jù)集的整體特性如下：

· 圖像總數(shù): 1100萬(wàn)

· 掩碼總數(shù): 11億

· 每張圖像的平均掩碼: 100

· 平均圖像分辨率: 1500 × 2250 pixels

注意：圖像或掩碼標(biāo)注沒(méi)有類(lèi)標(biāo)簽

Meta特別強(qiáng)調(diào)，這些數(shù)據(jù)是通過(guò)我們的數(shù)據(jù)引擎收集的，所有掩碼均由SAM完全自動(dòng)生成。

有了SAM模型，收集新的分割掩碼的速度比以往任何時(shí)候都快，交互式標(biāo)注一個(gè)掩碼只需要大約14秒。

每個(gè)掩碼標(biāo)注過(guò)程只比標(biāo)注邊界框慢2倍，使用最快的標(biāo)注界面，標(biāo)注邊界框大約需要7秒。

與以前的大規(guī)模分割數(shù)據(jù)收集工作相比，SAM模型COCO完全手動(dòng)的基于多邊形的掩碼標(biāo)注快6.5倍，比以前最大的數(shù)據(jù)標(biāo)注工作（也是模型輔助）快2倍。

然而，依賴(lài)于交互式標(biāo)注掩碼并不足以創(chuàng)建10億多個(gè)掩碼數(shù)據(jù)集。因此，Meta構(gòu)建了一個(gè)用于創(chuàng)建SA-1B數(shù)據(jù)集的數(shù)據(jù)引擎。

這個(gè)數(shù)據(jù)引擎有三個(gè)「齒輪」：

1. 模型輔助標(biāo)注

2. 全自動(dòng)標(biāo)注與輔助標(biāo)注的混合，有助于增加收集到的掩碼的多樣性

3. 全自動(dòng)掩碼創(chuàng)建，使數(shù)據(jù)集能夠擴(kuò)展

我們的最終數(shù)據(jù)集包括超過(guò)11億個(gè)分割掩碼，這些掩碼收集在大約1100萬(wàn)張授權(quán)和保護(hù)隱私的圖像上。

SA-1B比任何現(xiàn)有的分割數(shù)據(jù)集多出400倍的掩碼。并且通過(guò)人類(lèi)評(píng)估研究證實(shí)，掩碼具有高質(zhì)量和多樣性，在某些情況下，甚至在質(zhì)量上可與之前規(guī)模更小、完全手動(dòng)標(biāo)注數(shù)據(jù)集的掩碼相媲美。

SA-1B的圖片是通過(guò)來(lái)自多個(gè)國(guó)家/地區(qū)的照片提供商獲取的，這些國(guó)家/地區(qū)跨越不同的地理區(qū)域和收入水平。

雖然某些地理區(qū)域仍然代表性不足，但SA-1B比以前的分割數(shù)據(jù)集在所有地區(qū)都有更多的圖像和更好的整體代表性。

最后，Meta稱(chēng)希望這些數(shù)據(jù)可以成為新數(shù)據(jù)集的基礎(chǔ)，這些數(shù)據(jù)集包含額外的標(biāo)注，例如與每個(gè)掩模相關(guān)聯(lián)的文本描述。

RBG大神帶隊(duì)

Ross Girshick

Ross Girshick（常被稱(chēng)為RBG大神）是Facebook人工智能研究院（FAIR）的一名研究科學(xué)家，他致力于計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)的研究。

2012年，Ross Girshick在Pedro Felzenszwalb的指導(dǎo)下獲得了芝加哥大學(xué)的計(jì)算機(jī)科學(xué)博士學(xué)位。

在加入FAIR之前，Ross是微軟研究院的研究員，也是加州大學(xué)伯克利分校的博士后，在那里他的導(dǎo)師是Jitendra Malik和Trevor Darrell。

他獲得了2017年的PAMI青年研究員獎(jiǎng)，2017年和2021年的PAMI Mark Everingham獎(jiǎng)，以表彰他對(duì)開(kāi)源軟件的貢獻(xiàn)。

眾所周知，Ross和何愷明大神一起開(kāi)發(fā)了R-CNN方法的目標(biāo)檢測(cè)算法。2017年，Ross和何愷明大神的Mask R-CNN論文獲得了ICCV 2017最佳論文。

網(wǎng)友：CV真不存在了

Meta打造的這款CV領(lǐng)域的分割基礎(chǔ)模型，讓許多網(wǎng)友高呼「這下，CV是真不存在了?！?/span>

Meta科學(xué)家Justin Johnson表示：「對(duì)我來(lái)說(shuō)，Segment Anything的數(shù)據(jù)引擎和ChatGPT的RLHF代表了大規(guī)模人工智能的新時(shí)代。與其從嘈雜的網(wǎng)絡(luò)數(shù)據(jù)中學(xué)習(xí)一切，不如巧妙地應(yīng)用人類(lèi)標(biāo)注與大數(shù)據(jù)相結(jié)合，以釋放新的能力。監(jiān)督學(xué)習(xí)強(qiáng)勢(shì)回歸！」

唯一遺憾的是，SAM模型發(fā)布主要是由Ross Girshick帶隊(duì)，何愷明卻缺席了。

知友「matrix明仔」表示，這篇文章進(jìn)一步證明多模態(tài)才是CV的未來(lái)，純CV是沒(méi)有明天的。

責(zé)任編輯：張燕妮來(lái)源：新智元

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

^{<blockquote id="0upzk"></blockquote>}

<cite id="0upzk"></cite>