自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

一次性分割一切,比SAM更強(qiáng),華人團(tuán)隊(duì)的通用分割模型SEEM來了

人工智能 新聞
CV 領(lǐng)域已經(jīng)卷到了一個(gè)新的高度。

本月初,Meta 發(fā)布「分割一切」AI 模型 ——Segment Anything Model(SAM)。SAM 被認(rèn)為是一個(gè)通用的圖像分割基礎(chǔ)模型,它學(xué)會(huì)了關(guān)于物體的一般概念,可以為任何圖像或視頻中的任何物體生成 mask,包括在訓(xùn)練過程中沒有遇到過的物體和圖像類型。這種「零樣本遷移」的能力令人驚嘆,甚至有人稱 CV 領(lǐng)域迎來了「GPT-3 時(shí)刻」。

最近,一篇「一次性分割一切」的新論文《Segment Everything Everywhere All at Once》再次引起關(guān)注。在該論文中,來自威斯康星大學(xué)麥迪遜分校、微軟、香港科技大學(xué)的幾位華人研究者提出了一種基于 prompt 的新型交互模型 SEEM。SEEM 能夠根據(jù)用戶給出的各種模態(tài)的輸入(包括文本、圖像、涂鴉等等),一次性分割圖像或視頻中的所有內(nèi)容,并識(shí)別出物體類別。該項(xiàng)目已經(jīng)開源,并提供了試玩地址供大家體驗(yàn)。

圖片

論文鏈接:https://arxiv.org/pdf/2304.06718.pdf

項(xiàng)目鏈接:https://github.com/UX-Decoder/Segment-Everything-Everywhere-All-At-Once

試玩地址:https://huggingface.co/spaces/xdecoder/SEEM

該研究通過全面的實(shí)驗(yàn)驗(yàn)證了 SEEM 在各種分割任務(wù)上的有效性。即使 SEEM 不具有了解用戶意圖的能力,但它表現(xiàn)出強(qiáng)大的泛化能力,因?yàn)樗鼘W(xué)會(huì)了在統(tǒng)一的表征空間中編寫不同類型的 prompt。此外,SEEM 可以通過輕量級(jí)的 prompt 解碼器有效地處理多輪交互。

圖片

先來看一下分割效果:

在變形金剛的合影中把「擎天柱」分割出來:

圖片

還能對(duì)一類物體做分割,比如在一張景觀圖片中分割出所有建筑物:

圖片

SEEM 也能輕松分割出視頻中移動(dòng)的物體:

圖片

這個(gè)分割效果可以說是非常絲滑了。我們來看一下該研究提出的方法。

方法概述

該研究旨在提出一個(gè)通用接口,以借助多模態(tài) prompt 進(jìn)行圖像分割。為了實(shí)現(xiàn)這一目標(biāo),他們提出了一種包含 4 個(gè)屬性的新方案,包括多功能性(versatility)、組合性(compositionality)、交互性(interactivity)和語義感知能力(semantic-awareness),具體包括

1)多功能性該研究提出將點(diǎn)、掩碼、文本、檢測(cè)框(box)甚至是另一個(gè)圖像的參考區(qū)域(referred region)這些異構(gòu)的元素,編碼成同一個(gè)聯(lián)合視覺語義空間中的 prompt。

2)組合性通過學(xué)習(xí)視覺和文本 prompt 的聯(lián)合視覺語義空間來即時(shí)編寫查詢以進(jìn)行推理。SEEM 可以處理輸入 prompt 的任意組合。

3)交互性:該研究引入了通過結(jié)合可學(xué)習(xí)的記憶(memory) prompt,并通過掩碼指導(dǎo)的交叉注意力保留對(duì)話歷史信息。

4)語義感知能力:使用文本編碼器對(duì)文本查詢和掩碼標(biāo)簽進(jìn)行編碼,從而為所有輸出分割結(jié)果提供了開放集語義。

圖片

架構(gòu)方面,SEEM 遵循一個(gè)簡(jiǎn)單的 Transformer 編碼器 - 解碼器架構(gòu),并額外添加了一個(gè)文本編碼器。在 SEEM 中,解碼過程類似于生成式 LLM,但具有多模態(tài)輸入和多模態(tài)輸出。所有查詢都作為 prompt 反饋到解碼器,圖像和文本編碼器用作 prompt 編碼器來編碼所有類型的查詢。

圖片

具體來說,該研究將所有查詢(如點(diǎn)、框和掩碼)編碼為視覺 prompt,同時(shí)使用文本編碼器將文本查詢轉(zhuǎn)換為文本 prompt,這樣視覺和文本 prompt 就能保持對(duì)齊。5 種不同類型的 prompt 都能都映射到聯(lián)合視覺語義空間中,通過零樣本適應(yīng)來處理未見過的用戶 prompt。通過對(duì)不同的分割任務(wù)進(jìn)行訓(xùn)練,模型具有處理各種 prompt 的能力。此外,不同類型的 prompt 可以借助交叉注意力互相輔助。最終,SEEM 模型可以使用各種 prompt 來獲得卓越的分割結(jié)果。

除了強(qiáng)大的泛化能力,SEEM 在運(yùn)行方面也很高效。研究人員將 prompt 作為解碼器的輸入,因此在與人類進(jìn)行多輪交互時(shí),SEEM 只需要在最開始運(yùn)行一次特征提取器。在每次迭代中,只需要使用新的 prompt 再次運(yùn)行一個(gè)輕量級(jí)的解碼器。因此,在部署模型時(shí),參數(shù)量大運(yùn)行負(fù)擔(dān)重的特征提取器可以在服務(wù)器上運(yùn)行,而在用戶的機(jī)器上僅運(yùn)行相對(duì)輕量級(jí)的解碼器,以緩解多次遠(yuǎn)程調(diào)用中的網(wǎng)絡(luò)延遲問題。

如上圖 3(b)所示,在多輪交互中,每次交互包含一個(gè)人工循環(huán)和一個(gè)模型循環(huán)。在人工循環(huán)中,人接收上一次迭代的掩碼輸出,并通過視覺 prompt 給出下一輪解碼的正反饋或負(fù)反饋。在模型循環(huán)中,模型接收并更新記憶 prompt 供未來的預(yù)測(cè)。

實(shí)驗(yàn)結(jié)果

該研究將 SEEM 模型與 SOTA 交互式分割模型進(jìn)行了實(shí)驗(yàn)比較,結(jié)果如下表 1 所示。

圖片

作為一個(gè)通用模型,SEEM 實(shí)現(xiàn)了與 RITM,SimpleClick 等模型相當(dāng)?shù)男阅?,并且與 SAM 的性能非常接近,而 SAM 用于訓(xùn)練的分割數(shù)據(jù)是 SEEM 的 50 倍之多。

與現(xiàn)有的交互式模型不同,SEEM 是第一個(gè)不僅支持經(jīng)典分割任務(wù),還支持各種用戶輸入類型的通用接口,包括文本、點(diǎn)、涂鴉、框和圖像,提供強(qiáng)大的組合功能。如下表 2 所示,通過添加可組合的 prompt,SEEM 在 cIoU,mIoU 等指標(biāo)上有了顯著的分割性能提升。

圖片

我們?cè)賮砜匆幌陆换ナ綀D像分割的可視化結(jié)果。用戶只需要畫出一個(gè)點(diǎn)或簡(jiǎn)單涂鴉,SEEM 就能提供非常好的分割結(jié)果

圖片

也可以輸入文本,讓 SEEM 進(jìn)行圖像分割

圖片

還能直接輸入?yún)⒖紙D像并指出參考區(qū)域,對(duì)其他圖像進(jìn)行分割,找出與參考區(qū)域一致的物體:

圖片

該項(xiàng)目已經(jīng)可以線上試玩,感興趣的讀者快去試試吧。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-04-23 15:42:18

圖像視頻

2023-11-22 11:40:00

Meta模型

2023-07-17 13:14:45

模型分割

2023-12-07 07:16:57

Meta訓(xùn)練

2023-04-10 15:52:57

模型樣本

2024-07-30 10:51:51

2023-06-27 17:35:39

FastSAM模型SAM

2023-08-09 17:38:47

模型AI

2023-07-05 14:06:43

視頻AI

2023-05-04 12:19:47

模型AI

2023-04-27 09:27:44

視頻AI

2024-02-28 08:18:13

Java日志項(xiàng)目

2023-12-06 13:36:00

模型數(shù)據(jù)

2024-03-01 10:04:11

研究訓(xùn)練編碼器

2023-12-10 15:21:39

2013-04-17 09:16:37

2023-05-19 13:15:15

視頻分割

2014-08-04 14:38:25

LinuxToken

2023-05-19 13:24:20

模型AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)