多模態(tài)大模型有了統(tǒng)一分割框架,華科PSALM多任務登頂,模型代碼全開源
最近,多模態(tài)大模型(LMM)取得了一系列引人注目的成就,特別是在視覺 - 語言任務上的表現(xiàn)令人矚目。它們的成功不僅展現(xiàn)了多模態(tài)大模型在各個領域的實用性和靈活性,也為更多視覺場景下的應用探索了新的道路。
盡管如此,在將 LMM 應用到計算機視覺任務上時,我們仍面臨一個關鍵挑戰(zhàn):大多數 LMM 目前只限于文本輸出,這限制了它們在處理更細粒度的視覺任務,如圖像分割方面的能力。
此外,圖像分割領域內部的需求多樣化,任務各異 —— 實例分割需為每個對象分配唯一 ID 并計算類別信賴度,指代分割(RES)則需要基于描述性語句來識別圖像中的特定區(qū)域,而交互式分割的輸入可能包括點、線、邊界框或掩碼。這些不同的輸入和輸出格式如何能夠被 LMM 高效地統(tǒng)一和處理,目前仍然是一個開放性問題。
華中科技大學的研究團隊針對多模態(tài)大模型(LMM)在視覺任務中的應用挑戰(zhàn),推出了針對性的解決方案:PSALM 模型。這一模型的設計理念是:通過一個統(tǒng)一的框架處理絕大多數類型的圖像分割任務,從而實現(xiàn)分割任務的全面覆蓋。
同時,得益于多模態(tài)大模型廣泛的預訓練,PSALM 不僅在已見分割任務上表現(xiàn)出色,更在諸多未曾訓練過的開放場景分割任務中,展現(xiàn)出強大的零樣本泛化能力。多模態(tài)大模型作為視覺任務統(tǒng)一框架的巨大潛力得到進一步挖掘。
PSALM 有如下的特點:
- 參數優(yōu)化:PSALM 采用了 Swin-Base 結合 Phi-1.5(1.3B 參數)的模型組合,這比傳統(tǒng)的 ViT-L 和 Vicuna-7B/Llama2-13B 模型要小巧得多,實現(xiàn)了效率與性能的兼?zhèn)洹?/span>
- 多任務統(tǒng)一:得益于 PSALM 靈活的結構設計,模型能夠將多種分割任務的輸入形式進行統(tǒng)一,并支持多任務的聯(lián)合訓練,最終取得相互促進的效果。
- 性能優(yōu)異:PSALM 不僅在全景分割、交互式分割、指代分割等多個已見分割任務上展現(xiàn)出比肩或超越專家模型的強大性能,還在開放詞表、視頻目標分割等未見開放場景任務中表現(xiàn)出令人矚目的零樣本泛化能力。
目前,模型和訓練代碼已全部開源。
- 論文標題:PSALM: Pixelwise SegmentAtion with Large Multi-Modal Model
- 論文地址:https://arxiv.org/abs/2403.14598
- 代碼地址:https://github.com/zamling/PSALM
- 模型地址:https://huggingface.co/EnmingZhang/PSALM
PSALM 如何實現(xiàn)的?
PSALM 包含圖像編碼器、大語言模型(LLM)和 mask 生成器,如上圖所示。為了使得模型可以處理各種分割任務,模型將 LLM 的輸入分為四個部分:圖片特征、任務指令提示、任務條件提示以及一組可學習的 mask tokens。
任務指令提示包含當前分割任務的一個簡單任務描述。例如,對于全景分割,任務指令提示可以是:「請分割出圖片中所有的目標,下面是可能的類別名稱」。任務條件提示指的是當前分割任務所需要的特有的信息。對于語義分割、全景分割等,所需要的即所有類別名稱。模型直接簡單地將類別使用逗號進行拼接,如「person, bicycle, car…」;對于指令分割,任務條件提示是當前所需分割的物體的一段描述;對于更為復雜的交互式分割,模型將點、線、框、掩碼等各種提示信息轉換為掩碼,并通過掩碼池化的操作提取所指定的區(qū)域的特征,作為交互式分割的任務條件提示。
隨后,得到 mask tokens 對應位置的輸出,送入 mask 生成其中,得到 mask 的特征。該特征與任務條件提示所對應的輸出特征計算相似度得到置信度,與圖像特征計算內積得到候選分割結果。
最終,將置信度和候選分割結果相結合,即可得到各種分割任務的結果。各種任務類型如何生成特定的條件提示和對應的條件特征可見下圖。
PSALM 的效果如何?
對于指代分割 (RES) 任務,也是目前已有的基于 LMM 的分割模型所關注的任務,PSALM 在 RefCOCO、RefCOCO + 和 RefCOCOg 上的許多基準測試集上取得了 SOTA 的性能,詳見下表。
在語義分割、實例分割、全景分割等任務上,PSALM 在 COCO-val 上比較了現(xiàn)有的 SOTA 模型。對于采用類似規(guī)模的圖像編碼器的方法,PSALM 取得了極具競爭力的結果,甚至不弱于該任務上的專家模型。
對于交互式分割任務,由于當前沒有開源的交互式分割數據集和測試基準。因此,在 COCO 的基礎上,對其中的所有目標隨機生成了各種交互提示,最終生成了 COCO-Interactive 數據集。具體結果如下表所示,PSALM 在使用點,曲線,掩碼作為提示下,取得了 SOTA 的效果。在使用框作為提示下,略弱于使用數據集 SA-1B 訓練的 SAM。
PSALM 對于沒有見過的任務,泛化能力如何?
PSALM 在開放詞表分割、通用指代分割、視頻目標分割以及多視角 Ego-Exo 匹配分割任務上的零樣本泛化能力同樣令人印象深刻,這些結果展示了它對未知任務的適應性。
下圖展示了 PSALM 在多個任務上的可視化結果包括全景分割、指令分割、交互式分割、開放詞表實例分割、通用指令分割、視頻目標檢測和 Ego-Exo 多視角匹配分割。
總結
PSALM 代表了多模態(tài)大模型在統(tǒng)一圖像分割領域的一次積極探索,其在參數優(yōu)化、性能展示以及泛化能力方面均取得了顯著成果。PSALM 的創(chuàng)新架構和條件提示機制,使其能夠靈活處理多樣化的輸入輸出需求,從而在各種基準任務中取得優(yōu)異的成績。