一次性分割一切,比SAM更強(qiáng),華人團(tuán)隊(duì)的通用分割模型SEEM來了
本月初,Meta 發(fā)布「分割一切」AI 模型 ——Segment Anything Model(SAM)。SAM 被認(rèn)為是一個(gè)通用的圖像分割基礎(chǔ)模型,它學(xué)會(huì)了關(guān)于物體的一般概念,可以為任何圖像或視頻中的任何物體生成 mask,包括在訓(xùn)練過程中沒有遇到過的物體和圖像類型。這種「零樣本遷移」的能力令人驚嘆,甚至有人稱 CV 領(lǐng)域迎來了「GPT-3 時(shí)刻」。
最近,一篇「一次性分割一切」的新論文《Segment Everything Everywhere All at Once》再次引起關(guān)注。在該論文中,來自威斯康星大學(xué)麥迪遜分校、微軟、香港科技大學(xué)的幾位華人研究者提出了一種基于 prompt 的新型交互模型 SEEM。SEEM 能夠根據(jù)用戶給出的各種模態(tài)的輸入(包括文本、圖像、涂鴉等等),一次性分割圖像或視頻中的所有內(nèi)容,并識(shí)別出物體類別。該項(xiàng)目已經(jīng)開源,并提供了試玩地址供大家體驗(yàn)。
論文鏈接:https://arxiv.org/pdf/2304.06718.pdf
項(xiàng)目鏈接:https://github.com/UX-Decoder/Segment-Everything-Everywhere-All-At-Once
試玩地址:https://huggingface.co/spaces/xdecoder/SEEM
該研究通過全面的實(shí)驗(yàn)驗(yàn)證了 SEEM 在各種分割任務(wù)上的有效性。即使 SEEM 不具有了解用戶意圖的能力,但它表現(xiàn)出強(qiáng)大的泛化能力,因?yàn)樗鼘W(xué)會(huì)了在統(tǒng)一的表征空間中編寫不同類型的 prompt。此外,SEEM 可以通過輕量級(jí)的 prompt 解碼器有效地處理多輪交互。
先來看一下分割效果:
在變形金剛的合影中把「擎天柱」分割出來:
還能對(duì)一類物體做分割,比如在一張景觀圖片中分割出所有建筑物:
SEEM 也能輕松分割出視頻中移動(dòng)的物體:
這個(gè)分割效果可以說是非常絲滑了。我們來看一下該研究提出的方法。
方法概述
該研究旨在提出一個(gè)通用接口,以借助多模態(tài) prompt 進(jìn)行圖像分割。為了實(shí)現(xiàn)這一目標(biāo),他們提出了一種包含 4 個(gè)屬性的新方案,包括多功能性(versatility)、組合性(compositionality)、交互性(interactivity)和語義感知能力(semantic-awareness),具體包括
1)多功能性該研究提出將點(diǎn)、掩碼、文本、檢測(cè)框(box)甚至是另一個(gè)圖像的參考區(qū)域(referred region)這些異構(gòu)的元素,編碼成同一個(gè)聯(lián)合視覺語義空間中的 prompt。
2)組合性通過學(xué)習(xí)視覺和文本 prompt 的聯(lián)合視覺語義空間來即時(shí)編寫查詢以進(jìn)行推理。SEEM 可以處理輸入 prompt 的任意組合。
3)交互性:該研究引入了通過結(jié)合可學(xué)習(xí)的記憶(memory) prompt,并通過掩碼指導(dǎo)的交叉注意力保留對(duì)話歷史信息。
4)語義感知能力:使用文本編碼器對(duì)文本查詢和掩碼標(biāo)簽進(jìn)行編碼,從而為所有輸出分割結(jié)果提供了開放集語義。
架構(gòu)方面,SEEM 遵循一個(gè)簡(jiǎn)單的 Transformer 編碼器 - 解碼器架構(gòu),并額外添加了一個(gè)文本編碼器。在 SEEM 中,解碼過程類似于生成式 LLM,但具有多模態(tài)輸入和多模態(tài)輸出。所有查詢都作為 prompt 反饋到解碼器,圖像和文本編碼器用作 prompt 編碼器來編碼所有類型的查詢。
具體來說,該研究將所有查詢(如點(diǎn)、框和掩碼)編碼為視覺 prompt,同時(shí)使用文本編碼器將文本查詢轉(zhuǎn)換為文本 prompt,這樣視覺和文本 prompt 就能保持對(duì)齊。5 種不同類型的 prompt 都能都映射到聯(lián)合視覺語義空間中,通過零樣本適應(yīng)來處理未見過的用戶 prompt。通過對(duì)不同的分割任務(wù)進(jìn)行訓(xùn)練,模型具有處理各種 prompt 的能力。此外,不同類型的 prompt 可以借助交叉注意力互相輔助。最終,SEEM 模型可以使用各種 prompt 來獲得卓越的分割結(jié)果。
除了強(qiáng)大的泛化能力,SEEM 在運(yùn)行方面也很高效。研究人員將 prompt 作為解碼器的輸入,因此在與人類進(jìn)行多輪交互時(shí),SEEM 只需要在最開始運(yùn)行一次特征提取器。在每次迭代中,只需要使用新的 prompt 再次運(yùn)行一個(gè)輕量級(jí)的解碼器。因此,在部署模型時(shí),參數(shù)量大運(yùn)行負(fù)擔(dān)重的特征提取器可以在服務(wù)器上運(yùn)行,而在用戶的機(jī)器上僅運(yùn)行相對(duì)輕量級(jí)的解碼器,以緩解多次遠(yuǎn)程調(diào)用中的網(wǎng)絡(luò)延遲問題。
如上圖 3(b)所示,在多輪交互中,每次交互包含一個(gè)人工循環(huán)和一個(gè)模型循環(huán)。在人工循環(huán)中,人接收上一次迭代的掩碼輸出,并通過視覺 prompt 給出下一輪解碼的正反饋或負(fù)反饋。在模型循環(huán)中,模型接收并更新記憶 prompt 供未來的預(yù)測(cè)。
實(shí)驗(yàn)結(jié)果
該研究將 SEEM 模型與 SOTA 交互式分割模型進(jìn)行了實(shí)驗(yàn)比較,結(jié)果如下表 1 所示。
作為一個(gè)通用模型,SEEM 實(shí)現(xiàn)了與 RITM,SimpleClick 等模型相當(dāng)?shù)男阅?,并且與 SAM 的性能非常接近,而 SAM 用于訓(xùn)練的分割數(shù)據(jù)是 SEEM 的 50 倍之多。
與現(xiàn)有的交互式模型不同,SEEM 是第一個(gè)不僅支持經(jīng)典分割任務(wù),還支持各種用戶輸入類型的通用接口,包括文本、點(diǎn)、涂鴉、框和圖像,提供強(qiáng)大的組合功能。如下表 2 所示,通過添加可組合的 prompt,SEEM 在 cIoU,mIoU 等指標(biāo)上有了顯著的分割性能提升。
我們?cè)賮砜匆幌陆换ナ綀D像分割的可視化結(jié)果。用戶只需要畫出一個(gè)點(diǎn)或簡(jiǎn)單涂鴉,SEEM 就能提供非常好的分割結(jié)果
也可以輸入文本,讓 SEEM 進(jìn)行圖像分割
還能直接輸入?yún)⒖紙D像并指出參考區(qū)域,對(duì)其他圖像進(jìn)行分割,找出與參考區(qū)域一致的物體:
該項(xiàng)目已經(jīng)可以線上試玩,感興趣的讀者快去試試吧。