華人團(tuán)隊(duì)顛覆CV!SEEM完美分割一切爆火,一鍵分割「瞬息全宇宙」
Meta的「分割一切」的橫空出世,讓許多人驚呼CV不存在了。
基于這一模型,眾網(wǎng)友紛紛做了進(jìn)一步工作,比如Grounded SAM。
將Stable Diffusion、Whisper、ChatGPT結(jié)合使用,就能做到通過語音讓一只狗變成一只猴子。
而現(xiàn)在,不僅僅是語音,你可以通過多模態(tài)提示實(shí)現(xiàn)一次性分割所有地方的一切。
具體怎么做?
鼠標(biāo)點(diǎn)一下,直接選中分割內(nèi)容。
張口一句話。
隨手一涂,完整的表情包就來了。
甚至,還能分割視頻。
最新研究SEEM是由威斯康星大學(xué)麥迪遜分校、微軟研究院等機(jī)構(gòu)的學(xué)者共同完成。
通過SEEM使用不同種類的提示,視覺提示(點(diǎn)、標(biāo)記、框、涂鴉和圖像片段)、以及語言提示(文本和音頻)輕松分割圖像。
論文地址:https://arxiv.org/pdf/2304.06718.pdf
這個(gè)論文標(biāo)題有意思的地方在于,與2022年上映的一部美國(guó)科幻電影「瞬息全宇宙」(Everything Everywhere All at Once)的名字非常相似。
英偉達(dá)科學(xué)家Jim Fan表示,奧斯卡最佳論文標(biāo)題獎(jiǎng)?lì)C給「Segment Everything Everywhere All at Once」
擁有一個(gè)統(tǒng)一的、多功能的任務(wù)規(guī)范界面是擴(kuò)大大型基礎(chǔ)模型規(guī)模的關(guān)鍵。多模態(tài)提示是未來的方向。
看過論文后,網(wǎng)友表示,CV現(xiàn)在也要開始擁抱大模型了,研究生未來出路在哪?
奧斯卡最佳標(biāo)題論文
正是受到基于提示的LLMs通用接口發(fā)展的啟發(fā),研究人員提出了SEEM。
如圖所示,SEEM模型可以在沒有提示的開放集中執(zhí)行任何分割任務(wù),比如語義分割、實(shí)例分割和全景分割。
此外,它還支持任意組合的視覺,文本和引用區(qū)域提示,允許多功能和交互式的引用分割。
在模型架構(gòu)上,SEEM采用了常見的編碼器-解碼器架構(gòu)。其獨(dú)特的地方在于具有查詢和提示之間復(fù)雜的交互。
特征和提示被相應(yīng)的編碼器,或采樣器編碼到一個(gè)聯(lián)合的視覺語義空間。
可學(xué)習(xí)查詢是隨機(jī)初始化,SEEM解碼器接受可學(xué)習(xí)查詢、圖像特征和文本提示作為輸入和輸出,包括類和掩碼嵌入,用于掩碼和語義預(yù)測(cè)。
值得一提的是,SEEM模型有多輪交互。每一輪都包含一個(gè)人工循環(huán)和一個(gè)模型循環(huán)。
在人工循環(huán)中,人工接收上一次迭代的掩碼輸出,并通過視覺提示給出下一輪解碼的正反饋。在模型循環(huán)中,模型接收并更新未來預(yù)測(cè)的記憶提示。
通過SEEM,給一個(gè)擎天柱卡車的圖,就能分割任何目標(biāo)圖像上的擎天柱。
通過用戶輸入的文本生成掩模,進(jìn)行一鍵分割。
另外,SEEM通過對(duì)引用圖像的簡(jiǎn)單點(diǎn)擊,或涂鴉,就能夠?qū)δ繕?biāo)圖像上有相似語義的對(duì)象進(jìn)行分割。
此外,SEEM非常了解解空間關(guān)系。左上行斑馬被涂鴉后,也會(huì)分割出最左邊的斑馬。
SEEM還可以將圖像引用到視頻掩碼,不需要任何視頻數(shù)據(jù)訓(xùn)練,都能完美分割視頻。
數(shù)據(jù)集和設(shè)置上,SEEM在三種數(shù)據(jù)集接受了訓(xùn)練:全景分割,引用分割和交互式分割。
交互式分割
在交互式分割上,研究者將SEEM與最先進(jìn)的交互式分割模型進(jìn)行了比較。
作為一個(gè)通用模型,SEEM獲得了RITM,SimpleClick等相當(dāng)?shù)男阅?。而且與SAM取得非常相似的性能,SAM還多用了50個(gè)分割數(shù)據(jù)進(jìn)行訓(xùn)練。
值得注意的是,與現(xiàn)有的交互式模型不同,SEEM是第一個(gè)不僅支持經(jīng)典的分割任務(wù),而且還支持廣泛的多模態(tài)輸入,包括文本、點(diǎn)、涂鴉、邊界框和圖像,提供了強(qiáng)大的組合能力。
通用分割
通過對(duì)所有分割任務(wù)預(yù)先訓(xùn)練的一組參數(shù),研究者可以直接評(píng)估它在通用分割數(shù)據(jù)集上的性能。
SEEM實(shí)現(xiàn)了比較好的全景視圖,實(shí)例和語義分割性能。
研究人員對(duì)SEEM有四個(gè)期望目標(biāo):
1. 多功能性:通過引入多功能提示引擎處理不同類型的提示,包括點(diǎn)、框、涂鴉、遮罩、文本和另一圖像的引用區(qū)域;
2. 復(fù)合性:通過學(xué)習(xí)一個(gè)聯(lián)合視覺-語義空間,為視覺和文本提示組合即時(shí)查詢進(jìn)行推理;
3. 交互性:通過整合可學(xué)習(xí)的記憶提示,通過掩碼引導(dǎo)的交叉注意力保留對(duì)話歷史信息;
4. 語義感知:通過使用文本編碼器對(duì)文本查詢和遮罩標(biāo)簽進(jìn)行編碼,實(shí)現(xiàn)開放詞匯表的分割。
和SAM區(qū)別
Meta提出的SAM模型,可以在一個(gè)統(tǒng)一框架prompt encoder內(nèi),指定一個(gè)點(diǎn)、一個(gè)邊界框、一句話,一鍵分割出物體。
SAM具有廣泛的通用性,即具有了零樣本遷移的能力,足以涵蓋各種用例,不需要額外訓(xùn)練,就可以開箱即用地用于新的圖像領(lǐng)域,無論是水下照片,還是細(xì)胞顯微鏡。
研究者就三個(gè)分割任務(wù)(邊緣檢測(cè)、開放集和交互式分割)的交互和語義能力對(duì)SEEM和SAM進(jìn)行了比較。
在開放集分割上,同樣需要高水平的語義,并且不需要交互。
與SAM相比,SEEM涵蓋了更廣泛的交互和語義層次。
SAM只支持有限的交互類型,比如點(diǎn)和邊界框,而忽視了高語義任務(wù),因?yàn)樗旧聿惠敵稣Z義標(biāo)簽。
對(duì)于SEEM,研究者點(diǎn)出了兩個(gè)亮點(diǎn):
首先,SEEM有一個(gè)統(tǒng)一的提示編碼器,將所有的視覺和語言提示編碼到一個(gè)聯(lián)合表示空間中。因此,SEEM可以支持更通用的用法,它有可能擴(kuò)展到自定義提示。
其次,SEEM在文本掩碼和輸出語義感知預(yù)測(cè)方面做得很好。
作者介紹
論文一作Xueyan Zou
她目前是威斯康星大學(xué)麥迪遜分校的計(jì)算機(jī)科學(xué)系博士生,導(dǎo)師是Yong Jae Lee教授。
在此之前,Zou在加州大學(xué)戴維斯分校度過了三年時(shí)光,由同一位導(dǎo)師指導(dǎo),并與Fanyi Xiao博士密切合作。
她在香港浸會(huì)大學(xué)獲得了學(xué)士學(xué)位,由PC Yuen教授和褚曉文教授指導(dǎo)。
Jianwei Yang
Yang是Redmond微軟研究院深度學(xué)習(xí)組的高級(jí)研究員,由高劍峰博士指導(dǎo)。
Yang的研究主要集中在計(jì)算機(jī)視覺、視覺與語言和機(jī)器學(xué)習(xí)。他主要研究不同層次的結(jié)構(gòu)化視覺理解,以及如何進(jìn)一步利用它們通過語言和環(huán)境的體現(xiàn)與人類進(jìn)行智能交互。
在2020年3月加入微軟之前,Yang在佐治亞理工學(xué)互動(dòng)計(jì)算學(xué)院獲得了計(jì)算機(jī)科學(xué)博士學(xué)位,他的導(dǎo)師是Devi Parikh教授,他還與Dhruv Batra教授密切合作。
高劍峰
高劍峰是微軟研究院的杰出科學(xué)家和副總裁,IEEE會(huì)員,以及ACM杰出會(huì)員。
目前,高劍峰領(lǐng)導(dǎo)著深度學(xué)習(xí)小組。該小組的任務(wù)是推動(dòng)深度學(xué)習(xí)的最先進(jìn)技術(shù)及其在自然語言和圖像理解方面的應(yīng)用,并在對(duì)話模型和方法方面取得進(jìn)展。
研究主要包括,用于自然語言理解和生成的神經(jīng)語言模型、神經(jīng)符號(hào)計(jì)算、視覺語言的基礎(chǔ)和理解、對(duì)話式人工智能等等。
2014年到2018年,高劍峰在微軟人工智能與研究部和Redmond微軟研究院的深度學(xué)習(xí)技術(shù)中心(DLTC)擔(dān)任商業(yè)人工智能的合作伙伴研究經(jīng)理。
2006年到2014年,高劍峰在自然語言處理組擔(dān)任首席研究員。
Yong Jae Lee
Lee是華盛頓大學(xué)麥迪遜分校計(jì)算機(jī)科學(xué)系的副教授。
他在2021年秋季加入華盛頓大學(xué)麥迪遜分校之前,曾在Cruise擔(dān)任過一年的人工智能客座教師,在此之前,他在加州大學(xué)戴維斯分校擔(dān)任了6年的助理和副教授。
他還曾在卡內(nèi)基梅隆大學(xué)的機(jī)器人研究所做了一年的博士后研究員。
他于2012年5月在德克薩斯大學(xué)奧斯汀分校獲得博士學(xué)位,師從Kristen Grauman,并于2006年5月在伊利諾伊大學(xué)厄巴納-香檳分校獲得學(xué)士學(xué)位。
他還曾作為微軟研究院的暑期實(shí)習(xí)生與Larry Zitnick和Michael Cohen一起工作。
目前,Lee的研究集中在計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)。Lee對(duì)創(chuàng)建強(qiáng)大的視覺識(shí)別系統(tǒng)格外感興趣,該系統(tǒng)可以在最少的人類監(jiān)督下理解視覺數(shù)據(jù)。
目前,SEEM已經(jīng)開放了演示demo:
https://huggingface.co/spaces/xdecoder/SEEM
快上手試試吧。