Meta「分割一切」超進化版來了!IDEA領銜國內頂尖團隊打造:檢測、分割、生成一切,狂攬2k星
Meta的「分割一切」模型橫空出世后,已經讓圈內人驚呼CV不存在了。
就在SAM發(fā)布后一天,國內團隊在此基礎上搞出了一個進化版本「Grounded-SAM」。
注:項目的logo是團隊用Midjourney花了一個小時做的
Grounded-SAM把SAM和BLIP、Stable Diffusion集成在一起,將圖片「分割」、「檢測」和「生成」三種能力合一,成為最強Zero-Shot視覺應用。
網(wǎng)友紛紛表示,太卷了!
谷歌大腦的研究科學家、滑鐵盧大學計算機科學助理教授Wenhu Chen表示「這也太快了」。
AI大佬沈向洋也向大家推薦了這一最新項目:
Grounded-Segment-Anything:自動檢測、分割和生成任何有圖像和文本輸入的東西。邊緣分割可以進一步改進。
截至目前,這個項目在GitHub上已經狂攬2k星。
檢測一切,分割一切,生成一切
上周,SAM的發(fā)布讓CV迎來了GPT-3時刻。甚至,Meta AI聲稱這是史上首個圖像分割基礎模型。
該模型可以在統(tǒng)一的框架prompt encoder內,指定一個點、一個邊界框、一句話,直接一鍵分割出任何物體。
SAM具有廣泛的通用性,即具有了零樣本遷移的能力,足以涵蓋各種用例,不需要額外訓練,就可以開箱即用地用于新的圖像領域,無論是水下照片,還是細胞顯微鏡。
由此可見,SAM可以說是強到發(fā)指。
而現(xiàn)在,國內研究者基于這個模型想到了新的點子,將強大的零樣本目標檢測器Grounding DINO與之結合,便能通過文本輸入,檢測和分割一切。
借助Grounding DINO強大的零樣本檢測能力,Grounded SAM可以通過文本描述就可以找到圖片中的任意物體,然后通過SAM強大的分割能力,細粒度的分割出mas。
最后,還可以利用Stable Diffusion對分割出來的區(qū)域做可控的文圖生成。
再Grounded-SAM具體實踐中,研究者將Segment-Anything與3個強大的零樣本模型相結合,構建了一個自動標注系統(tǒng)的流程,并展示出非常非常令人印象深刻的結果!
這一項目結合了以下模型:
· BLIP:強大的圖像標注模型
· Grounding DINO:最先進的零樣本檢測器
· Segment-Anything:強大的零樣本分割模型
· Stable-Diffusion:出色的生成模型?
所有的模型既可以組合使用,也可以獨立使用。組建出強大的視覺工作流模型。整個工作流擁有了檢測一切,分割一切,生成一切的能力。
該系統(tǒng)的功能包括:
BLIP+Grounded-SAM=自動標注器
使用BLIP模型生成標題,提取標簽,并使用Ground-SAM生成框和掩碼:
· 半自動標注系統(tǒng):檢測輸入的文本,并提供精確的框標注和掩碼標注。
· 全自動標注系統(tǒng):?
首先使用BLIP模型為輸入圖像生成可靠的標注,然后讓Grounding DINO檢測標注中的實體,接著使用SAM在其框提示上進行實例分割。
Stable Diffusion+Grounded-SAM=數(shù)據(jù)工廠
· 用作數(shù)據(jù)工廠生成新數(shù)據(jù):可以使用擴散修復模型根據(jù)掩碼生成新數(shù)據(jù)。?
Segment Anything+HumanEditing
在這個分支中,作者使用Segment Anything來編輯人的頭發(fā)/面部。
· SAM+頭發(fā)編輯?
· SAM+時尚編輯?
作者對于Grounded-SAM模型提出了一些未來可能的研究方向:
自動生成圖像以構建新的數(shù)據(jù)集;分割預訓練的更強大的基礎模型;與(Chat-)GPT模型的合作;一個完整的管道,用于自動標注圖像(包括邊界框和掩碼),并生成新圖像。
作者介紹
Grounded-SAM項目其中的一位研究者是清華大學計算機系的三年級博士生劉世隆。
他近日在GitHub上介紹了自己和團隊一起做出的最新項目,并稱目前還在完善中。
現(xiàn)在,劉世隆是粵港澳大灣區(qū)數(shù)字經濟研究院(IDEA研究院),計算機視覺與機器人研究中心的實習生,由張磊教授指導,主要研究方向為目標檢測,多模態(tài)學習。
在此之前,他于2020年獲得了清華大學工業(yè)工程系的學士學位,并于2019年在曠視實習過一段時間。
個人主頁:?http://www.lsl.zone/?
順便提一句,劉世隆也是今年3月份發(fā)布的目標檢測模型Grounding DINO的一作。
此外,他的4篇論文中了CVPR 2023,2篇論文被ICLR 2023接收,1篇論文被AAAI 2023接收。
論文地址:https://arxiv.org/pdf/2303.05499.pdf
而劉世隆提到的那位大佬——任天和,目前在IDEA研究院擔任計算機視覺算法工程師,也由張磊教授指導,主要研究方向為目標檢測和多模態(tài)。
此外,項目的合作者還有,中國科學院大學博士三年級學生黎昆昌,主要研究方向為視頻理解和多模態(tài)學習;IDEA研究院計算機視覺與機器人研究中心實習生曹赫,主要研究方向為生成模型;以及阿里云高級算法工程師陳佳禹。
任天和、劉世隆
安裝運行
項目需要安裝python 3.8及以上版本,pytorch 1.7及以上版本和torchvision 0.8及以上版本。此外,作者強烈建議安裝支持CUDA的PyTorch和TorchVision。
安裝Segment Anything:
安裝GroundingDINO:
安裝diffusers:
安裝掩碼后處理、以COCO格式保存掩碼、example notebook和以ONNX格式導出模型所需的可選依賴。同時,項目還需要jupyter來運行example notebook。
Grounding DINO演示
下載groundingdino檢查點:
運行demo:
模型預測可視化將保存在output_dir中,如下所示:
Grounded-Segment-Anything+BLIP演示
自動生成偽標簽很簡單:
1. 使用BLIP(或其他標注模型)來生成一個標注。
2. 從標注中提取標簽,并使用ChatGPT來處理潛在的復雜句子。
3. 使用Grounded-Segment-Anything來生成框和掩碼。
偽標簽和模型預測可視化將保存在output_dir中,如下所示:
Grounded-Segment-Anything+Inpainting演示
Grounded-Segment-Anything+Inpainting Gradio APP
作者在此提供了可視化網(wǎng)頁,可以更方便的嘗試各種例子。
網(wǎng)友評論
對于這個項目logo,還有個深層的含義:
一只坐在地上的馬賽克風格的熊。坐在地面上是因為ground有地面的含義,然后分割后的圖片可以認為是一種馬賽克風格,而且馬塞克諧音mask,之所以用熊作為logo主體,是因為作者主要示例的圖片是熊。
看到Grounded-SAM后,網(wǎng)友表示,知道要來,但沒想到來的這么快。
項目作者任天和稱,「我們用的Zero-Shot檢測器是目前來說最好的?!?/span>
未來,還會有web demo上線。
最后,作者表示,這個項目未來還可以基于生成模型做更多的拓展應用,例如多領域精細化編輯、高質量可信的數(shù)據(jù)工廠的構建等等。歡迎各個領域的人多多參與。