自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

華人團(tuán)隊(duì)顛覆CV！SEEM完美分割一切爆火，一鍵分割「瞬息全宇宙」

作者：新智元 2023-04-23 15:42:18

人工智能新聞

繼SAM之后，威斯康辛麥迪遜、微軟、港科大等機(jī)構(gòu)的研究人員提出SEEM模型，通過不同的視覺提示和語言提示，一鍵分割圖像、視頻。

Meta的「分割一切」的橫空出世，讓許多人驚呼CV不存在了。

基于這一模型，眾網(wǎng)友紛紛做了進(jìn)一步工作，比如Grounded SAM。

將Stable Diffusion、Whisper、ChatGPT結(jié)合使用，就能做到通過語音讓一只狗變成一只猴子。

而現(xiàn)在，不僅僅是語音，你可以通過多模態(tài)提示實(shí)現(xiàn)一次性分割所有地方的一切。

具體怎么做？

鼠標(biāo)點(diǎn)一下，直接選中分割內(nèi)容。

張口一句話。

隨手一涂，完整的表情包就來了。

甚至，還能分割視頻。

最新研究SEEM是由威斯康星大學(xué)麥迪遜分校、微軟研究院等機(jī)構(gòu)的學(xué)者共同完成。

通過SEEM使用不同種類的提示，視覺提示（點(diǎn)、標(biāo)記、框、涂鴉和圖像片段）、以及語言提示（文本和音頻）輕松分割圖像。

論文地址：https://arxiv.org/pdf/2304.06718.pdf

這個(gè)論文標(biāo)題有意思的地方在于，與2022年上映的一部美國(guó)科幻電影「瞬息全宇宙」（Everything Everywhere All at Once）的名字非常相似。

英偉達(dá)科學(xué)家Jim Fan表示，奧斯卡最佳論文標(biāo)題獎(jiǎng)?lì)C給「Segment Everything Everywhere All at Once」

擁有一個(gè)統(tǒng)一的、多功能的任務(wù)規(guī)范界面是擴(kuò)大大型基礎(chǔ)模型規(guī)模的關(guān)鍵。多模態(tài)提示是未來的方向。

看過論文后，網(wǎng)友表示，CV現(xiàn)在也要開始擁抱大模型了，研究生未來出路在哪？

奧斯卡最佳標(biāo)題論文

正是受到基于提示的LLMs通用接口發(fā)展的啟發(fā)，研究人員提出了SEEM。

如圖所示，SEEM模型可以在沒有提示的開放集中執(zhí)行任何分割任務(wù)，比如語義分割、實(shí)例分割和全景分割。

此外，它還支持任意組合的視覺，文本和引用區(qū)域提示，允許多功能和交互式的引用分割。

在模型架構(gòu)上，SEEM采用了常見的編碼器-解碼器架構(gòu)。其獨(dú)特的地方在于具有查詢和提示之間復(fù)雜的交互。

特征和提示被相應(yīng)的編碼器，或采樣器編碼到一個(gè)聯(lián)合的視覺語義空間。

可學(xué)習(xí)查詢是隨機(jī)初始化，SEEM解碼器接受可學(xué)習(xí)查詢、圖像特征和文本提示作為輸入和輸出，包括類和掩碼嵌入，用于掩碼和語義預(yù)測(cè)。

值得一提的是，SEEM模型有多輪交互。每一輪都包含一個(gè)人工循環(huán)和一個(gè)模型循環(huán)。

在人工循環(huán)中，人工接收上一次迭代的掩碼輸出，并通過視覺提示給出下一輪解碼的正反饋。在模型循環(huán)中，模型接收并更新未來預(yù)測(cè)的記憶提示。

通過SEEM，給一個(gè)擎天柱卡車的圖，就能分割任何目標(biāo)圖像上的擎天柱。

通過用戶輸入的文本生成掩模，進(jìn)行一鍵分割。

另外，SEEM通過對(duì)引用圖像的簡(jiǎn)單點(diǎn)擊，或涂鴉，就能夠?qū)δ繕?biāo)圖像上有相似語義的對(duì)象進(jìn)行分割。

此外，SEEM非常了解解空間關(guān)系。左上行斑馬被涂鴉后，也會(huì)分割出最左邊的斑馬。

SEEM還可以將圖像引用到視頻掩碼，不需要任何視頻數(shù)據(jù)訓(xùn)練，都能完美分割視頻。

數(shù)據(jù)集和設(shè)置上，SEEM在三種數(shù)據(jù)集接受了訓(xùn)練：全景分割，引用分割和交互式分割。

交互式分割

在交互式分割上，研究者將SEEM與最先進(jìn)的交互式分割模型進(jìn)行了比較。

作為一個(gè)通用模型，SEEM獲得了RITM，SimpleClick等相當(dāng)?shù)男阅?。而且與SAM取得非常相似的性能，SAM還多用了50個(gè)分割數(shù)據(jù)進(jìn)行訓(xùn)練。

值得注意的是，與現(xiàn)有的交互式模型不同，SEEM是第一個(gè)不僅支持經(jīng)典的分割任務(wù)，而且還支持廣泛的多模態(tài)輸入，包括文本、點(diǎn)、涂鴉、邊界框和圖像，提供了強(qiáng)大的組合能力。

通用分割

通過對(duì)所有分割任務(wù)預(yù)先訓(xùn)練的一組參數(shù)，研究者可以直接評(píng)估它在通用分割數(shù)據(jù)集上的性能。

SEEM實(shí)現(xiàn)了比較好的全景視圖，實(shí)例和語義分割性能。

研究人員對(duì)SEEM有四個(gè)期望目標(biāo)：

1. 多功能性：通過引入多功能提示引擎處理不同類型的提示，包括點(diǎn)、框、涂鴉、遮罩、文本和另一圖像的引用區(qū)域；

2. 復(fù)合性：通過學(xué)習(xí)一個(gè)聯(lián)合視覺-語義空間，為視覺和文本提示組合即時(shí)查詢進(jìn)行推理；

3. 交互性：通過整合可學(xué)習(xí)的記憶提示，通過掩碼引導(dǎo)的交叉注意力保留對(duì)話歷史信息；

4. 語義感知：通過使用文本編碼器對(duì)文本查詢和遮罩標(biāo)簽進(jìn)行編碼，實(shí)現(xiàn)開放詞匯表的分割。

和SAM區(qū)別

Meta提出的SAM模型，可以在一個(gè)統(tǒng)一框架prompt encoder內(nèi)，指定一個(gè)點(diǎn)、一個(gè)邊界框、一句話，一鍵分割出物體。

SAM具有廣泛的通用性，即具有了零樣本遷移的能力，足以涵蓋各種用例，不需要額外訓(xùn)練，就可以開箱即用地用于新的圖像領(lǐng)域，無論是水下照片，還是細(xì)胞顯微鏡。

研究者就三個(gè)分割任務(wù)（邊緣檢測(cè)、開放集和交互式分割）的交互和語義能力對(duì)SEEM和SAM進(jìn)行了比較。

在開放集分割上，同樣需要高水平的語義，并且不需要交互。

與SAM相比，SEEM涵蓋了更廣泛的交互和語義層次。

SAM只支持有限的交互類型，比如點(diǎn)和邊界框，而忽視了高語義任務(wù)，因?yàn)樗旧聿惠敵稣Z義標(biāo)簽。

對(duì)于SEEM，研究者點(diǎn)出了兩個(gè)亮點(diǎn)：

首先，SEEM有一個(gè)統(tǒng)一的提示編碼器，將所有的視覺和語言提示編碼到一個(gè)聯(lián)合表示空間中。因此，SEEM可以支持更通用的用法，它有可能擴(kuò)展到自定義提示。

其次，SEEM在文本掩碼和輸出語義感知預(yù)測(cè)方面做得很好。

作者介紹

論文一作Xueyan Zou

她目前是威斯康星大學(xué)麥迪遜分校的計(jì)算機(jī)科學(xué)系博士生，導(dǎo)師是Yong Jae Lee教授。

在此之前，Zou在加州大學(xué)戴維斯分校度過了三年時(shí)光，由同一位導(dǎo)師指導(dǎo)，并與Fanyi Xiao博士密切合作。

她在香港浸會(huì)大學(xué)獲得了學(xué)士學(xué)位，由PC Yuen教授和褚曉文教授指導(dǎo)。

Jianwei Yang

Yang是Redmond微軟研究院深度學(xué)習(xí)組的高級(jí)研究員，由高劍峰博士指導(dǎo)。

Yang的研究主要集中在計(jì)算機(jī)視覺、視覺與語言和機(jī)器學(xué)習(xí)。他主要研究不同層次的結(jié)構(gòu)化視覺理解，以及如何進(jìn)一步利用它們通過語言和環(huán)境的體現(xiàn)與人類進(jìn)行智能交互。

在2020年3月加入微軟之前，Yang在佐治亞理工學(xué)互動(dòng)計(jì)算學(xué)院獲得了計(jì)算機(jī)科學(xué)博士學(xué)位，他的導(dǎo)師是Devi Parikh教授，他還與Dhruv Batra教授密切合作。

高劍峰

高劍峰是微軟研究院的杰出科學(xué)家和副總裁，IEEE會(huì)員，以及ACM杰出會(huì)員。

目前，高劍峰領(lǐng)導(dǎo)著深度學(xué)習(xí)小組。該小組的任務(wù)是推動(dòng)深度學(xué)習(xí)的最先進(jìn)技術(shù)及其在自然語言和圖像理解方面的應(yīng)用，并在對(duì)話模型和方法方面取得進(jìn)展。

研究主要包括，用于自然語言理解和生成的神經(jīng)語言模型、神經(jīng)符號(hào)計(jì)算、視覺語言的基礎(chǔ)和理解、對(duì)話式人工智能等等。

2014年到2018年，高劍峰在微軟人工智能與研究部和Redmond微軟研究院的深度學(xué)習(xí)技術(shù)中心（DLTC）擔(dān)任商業(yè)人工智能的合作伙伴研究經(jīng)理。

2006年到2014年，高劍峰在自然語言處理組擔(dān)任首席研究員。

Yong Jae Lee

Lee是華盛頓大學(xué)麥迪遜分校計(jì)算機(jī)科學(xué)系的副教授。

他在2021年秋季加入華盛頓大學(xué)麥迪遜分校之前，曾在Cruise擔(dān)任過一年的人工智能客座教師，在此之前，他在加州大學(xué)戴維斯分校擔(dān)任了6年的助理和副教授。

他還曾在卡內(nèi)基梅隆大學(xué)的機(jī)器人研究所做了一年的博士后研究員。

他于2012年5月在德克薩斯大學(xué)奧斯汀分校獲得博士學(xué)位，師從Kristen Grauman，并于2006年5月在伊利諾伊大學(xué)厄巴納-香檳分校獲得學(xué)士學(xué)位。

他還曾作為微軟研究院的暑期實(shí)習(xí)生與Larry Zitnick和Michael Cohen一起工作。

目前，Lee的研究集中在計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)。Lee對(duì)創(chuàng)建強(qiáng)大的視覺識(shí)別系統(tǒng)格外感興趣，該系統(tǒng)可以在最少的人類監(jiān)督下理解視覺數(shù)據(jù)。

目前，SEEM已經(jīng)開放了演示demo：

https://huggingface.co/spaces/xdecoder/SEEM

快上手試試吧。

責(zé)任編輯：張燕妮來源：新智元

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<nav id="gzmi5"><label id="gzmi5"></label></nav>

<center id="gzmi5"></center>