一統(tǒng)所有目標(biāo)感知任務(wù),華科&字節(jié)提出目標(biāo)感知基礎(chǔ)模型GLEE
近年來(lái),LLM 已經(jīng)一統(tǒng)所有文本任務(wù),展現(xiàn)了基礎(chǔ)模型的強(qiáng)大潛力。一些視覺(jué)基礎(chǔ)模型如 CLIP 在多模態(tài)理解任務(wù)上同樣展現(xiàn)出了強(qiáng)大的泛化能力,其統(tǒng)一的視覺(jué)語(yǔ)言空間帶動(dòng)了一系列多模態(tài)理解、生成、開(kāi)放詞表等任務(wù)的發(fā)展。然而針對(duì)更細(xì)粒度的目標(biāo)級(jí)別的感知任務(wù),目前依然缺乏一個(gè)強(qiáng)大的基礎(chǔ)模型。
為了解決這個(gè)問(wèn)題,來(lái)自華中科技大學(xué)和字節(jié)跳動(dòng)的研究團(tuán)隊(duì)提出了一個(gè)針對(duì)視覺(jué)目標(biāo)的基礎(chǔ)模型 GLEE,一次性解決圖像和視頻中的幾乎所有目標(biāo)感知任務(wù)。GLEE 支持根據(jù)任意開(kāi)放詞表、目標(biāo)的外觀位置描述、和多種交互方式進(jìn)行目標(biāo)檢測(cè)、分割、跟蹤,并在實(shí)現(xiàn)全能性的同時(shí)保持 SOTA 性能。
此外,GLEE 還構(gòu)建了統(tǒng)一優(yōu)化目標(biāo)的訓(xùn)練框架,從超過(guò)一千萬(wàn)的多源數(shù)據(jù)中汲取知識(shí),實(shí)現(xiàn)對(duì)新數(shù)據(jù)和任務(wù)的零樣本遷移。并驗(yàn)證了多種數(shù)據(jù)之間相互促進(jìn)的能力。模型和訓(xùn)練代碼已全部開(kāi)源。
- 論文標(biāo)題:GLEE: General Object Foundation Model for Images and Videos at Scale
- 論文地址:https://arxiv.org/abs/2312.09158
- 代碼地址:https://github.com/FoundationVision/GLEE
- Demo 地址:https://huggingface.co/spaces/Junfeng5/GLEE_demo
- 視頻地址:https://www.bilibili.com/video/BV16w4m1R7ne/
1. GLEE 可以解決哪些任務(wù)?
GLEE 可以同時(shí)接受語(yǔ)義和視覺(jué)上的 prompt 作為輸入,因此,任意長(zhǎng)度的開(kāi)放詞表、目標(biāo)屬性描述、目標(biāo)位置描述都、交互式的 point,box,mask 都可以被作為 prompt 來(lái)指引 GLEE 檢測(cè)分割出任意目標(biāo)。具體來(lái)說(shuō),開(kāi)放世界的目標(biāo)檢測(cè)、實(shí)例分割、文本描述的指代檢測(cè)與分割(referring expression comprehension and segmentation)以及交互式分割都可以被輕松實(shí)現(xiàn)。
此外,通過(guò)在超大規(guī)模的圖像數(shù)據(jù)上進(jìn)行訓(xùn)練,GLEE 學(xué)習(xí)到了更加有判別性的目標(biāo)特征,直接對(duì)這些特征進(jìn)行無(wú)參數(shù)的幀間匹配可以實(shí)現(xiàn)高質(zhì)量的跟蹤,從而將 GLEE 的能力完全擴(kuò)展到視頻任務(wù)上。在視頻任務(wù)中 GLEE 可以實(shí)現(xiàn)開(kāi)放世界的視頻實(shí)例分割(VIS),視頻目標(biāo)分割(VOS),參考視頻實(shí)例分割(RVOS)以及交互式的視頻目標(biāo)分割跟蹤。
2. GLEE 統(tǒng)一了哪些數(shù)據(jù)用來(lái)訓(xùn)練?
GLEE 使用了來(lái)自 16 個(gè)數(shù)據(jù)集的超過(guò)一千萬(wàn)圖片數(shù)據(jù)進(jìn)行訓(xùn)練,充分利用了現(xiàn)有的標(biāo)注數(shù)據(jù)和低成本的自動(dòng)標(biāo)注數(shù)據(jù)構(gòu)建了多樣化的訓(xùn)練集,是 GLEE 獲得強(qiáng)大泛化性的根本原因。
GLEE 使用的數(shù)據(jù)根據(jù)標(biāo)注類型可以分為四大類:1)基于詞表的目標(biāo)檢測(cè)數(shù)據(jù)集,如 COCO、Objects365。2)基于目標(biāo)描述的 grounding 數(shù)據(jù)集,如 RefCOCO 系列、VisualGenome。3)無(wú)類語(yǔ)義信息的 open-world 數(shù)據(jù)集,如 SA1B、UVO。4)視頻數(shù)據(jù),如 YouTubeVIS、OVIS。GLEE 所使用的圖片超過(guò) 1 千萬(wàn),其中標(biāo)注目標(biāo)數(shù)量超過(guò)一億五千萬(wàn)。
3. GLEE 如何構(gòu)成?
GLEE 包括圖像編碼器、文本編碼器、視覺(jué)提示器和目標(biāo)檢測(cè)器,如圖所示。文本編碼器處理與任務(wù)相關(guān)的任意描述,包括目標(biāo)類別詞表、目標(biāo)任何形式的名稱、關(guān)于目標(biāo)的標(biāo)題和指代表達(dá)。視覺(jué)提示器將用戶輸入(如交互式分割中的點(diǎn)、邊界框或涂鴉)編碼成目標(biāo)對(duì)象的相應(yīng)視覺(jué)表示。然后,這些信息被整合到一個(gè)檢測(cè)器中,根據(jù)文本和視覺(jué)輸入從圖像中提取對(duì)象。
4. 在目標(biāo)感知任務(wù)上的全能性和泛化能力
該研究展示了 GLEE 模型作為一個(gè)目標(biāo)感知基礎(chǔ)模型的普適性和有效性,它可以直接應(yīng)用于各種以目標(biāo)為中心的任務(wù),同時(shí)確保最先進(jìn)的性能,無(wú)需進(jìn)行微調(diào)。
此外,該研究在一些開(kāi)放詞匯表的視頻任務(wù)中驗(yàn)證了 GLEE 的零樣本泛化能力。在 TAO、BURST、LV-VIS 這三個(gè)開(kāi)放詞匯表的跟蹤數(shù)據(jù)集上,GLEE 在未經(jīng)過(guò)訓(xùn)練和微調(diào)的情況下,取得了令人驚嘆的最先進(jìn)(SOTA)性能,這證明了 GLEE 在大規(guī)模聯(lián)合訓(xùn)練中學(xué)習(xí)到的通用對(duì)象感知能力和強(qiáng)大的泛化能力。
5. 作為基礎(chǔ)模型的潛力
作為基礎(chǔ)模型,該研究用預(yù)訓(xùn)練且凍結(jié)的 GLEE-Plus 替換了 LISA 的中使用的 SAM backbone,并將 GLEE 的 Object Query 輸入到 LLAVA 中,移除了 LISA 的解碼器。該研究直接將輸出的 SEG 標(biāo)記與 GLEE 特征圖進(jìn)行點(diǎn)積運(yùn)算以生成 Mask。在進(jìn)行相同步數(shù)的訓(xùn)練后,修改后的 LISA-GLEE 取得了與原版 LISA 使用 SAM 相媲美的結(jié)果,這證明了 GLEE 的表示具有多功能性,并且在為其他模型服務(wù)時(shí)的有效性。