自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

多模態(tài)大模型有了統(tǒng)一分割框架,華科PSALM多任務(wù)登頂,模型代碼全開源

發(fā)布于 2024-4-8 12:36
瀏覽
0收藏

最近,多模態(tài)大模型(LMM)取得了一系列引人注目的成就,特別是在視覺 - 語言任務(wù)上的表現(xiàn)令人矚目。它們的成功不僅展現(xiàn)了多模態(tài)大模型在各個領(lǐng)域的實用性和靈活性,也為更多視覺場景下的應(yīng)用探索了新的道路。


盡管如此,在將 LMM 應(yīng)用到計算機(jī)視覺任務(wù)上時,我們?nèi)悦媾R一個關(guān)鍵挑戰(zhàn):大多數(shù) LMM 目前只限于文本輸出,這限制了它們在處理更細(xì)粒度的視覺任務(wù),如圖像分割方面的能力。


此外,圖像分割領(lǐng)域內(nèi)部的需求多樣化,任務(wù)各異 —— 實例分割需為每個對象分配唯一 ID 并計算類別信賴度,指代分割(RES)則需要基于描述性語句來識別圖像中的特定區(qū)域,而交互式分割的輸入可能包括點、線、邊界框或掩碼。這些不同的輸入和輸出格式如何能夠被 LMM 高效地統(tǒng)一和處理,目前仍然是一個開放性問題。


多模態(tài)大模型有了統(tǒng)一分割框架,華科PSALM多任務(wù)登頂,模型代碼全開源-AI.x社區(qū)


華中科技大學(xué)的研究團(tuán)隊針對多模態(tài)大模型(LMM)在視覺任務(wù)中的應(yīng)用挑戰(zhàn),推出了針對性的解決方案:PSALM 模型。這一模型的設(shè)計理念是:通過一個統(tǒng)一的框架處理絕大多數(shù)類型的圖像分割任務(wù),從而實現(xiàn)分割任務(wù)的全面覆蓋。


同時,得益于多模態(tài)大模型廣泛的預(yù)訓(xùn)練,PSALM 不僅在已見分割任務(wù)上表現(xiàn)出色,更在諸多未曾訓(xùn)練過的開放場景分割任務(wù)中,展現(xiàn)出強(qiáng)大的零樣本泛化能力。多模態(tài)大模型作為視覺任務(wù)統(tǒng)一框架的巨大潛力得到進(jìn)一步挖掘。


多模態(tài)大模型有了統(tǒng)一分割框架,華科PSALM多任務(wù)登頂,模型代碼全開源-AI.x社區(qū)


PSALM 有如下的特點:


  • 參數(shù)優(yōu)化:PSALM 采用了 Swin-Base 結(jié)合 Phi-1.5(1.3B 參數(shù))的模型組合,這比傳統(tǒng)的 ViT-L 和 Vicuna-7B/Llama2-13B 模型要小巧得多,實現(xiàn)了效率與性能的兼?zhèn)洹?/li>
  • 多任務(wù)統(tǒng)一:得益于 PSALM 靈活的結(jié)構(gòu)設(shè)計,模型能夠?qū)⒍喾N分割任務(wù)的輸入形式進(jìn)行統(tǒng)一,并支持多任務(wù)的聯(lián)合訓(xùn)練,最終取得相互促進(jìn)的效果。
  • 性能優(yōu)異:PSALM 不僅在全景分割、交互式分割、指代分割等多個已見分割任務(wù)上展現(xiàn)出比肩或超越專家模型的強(qiáng)大性能,還在開放詞表、視頻目標(biāo)分割等未見開放場景任務(wù)中表現(xiàn)出令人矚目的零樣本泛化能力。


目前,模型和訓(xùn)練代碼已全部開源。


多模態(tài)大模型有了統(tǒng)一分割框架,華科PSALM多任務(wù)登頂,模型代碼全開源-AI.x社區(qū)



  • 論文標(biāo)題:PSALM: Pixelwise SegmentAtion with Large Multi-Modal Model
  • 論文地址:https://arxiv.org/abs/2403.14598
  • 代碼地址:https://github.com/zamling/PSALM
  • 模型地址:https://huggingface.co/EnmingZhang/PSALM?


PSALM 如何實現(xiàn)的?


多模態(tài)大模型有了統(tǒng)一分割框架,華科PSALM多任務(wù)登頂,模型代碼全開源-AI.x社區(qū)


PSALM 包含圖像編碼器、大語言模型(LLM)和 mask 生成器,如上圖所示。為了使得模型可以處理各種分割任務(wù),模型將 LLM 的輸入分為四個部分:圖片特征、任務(wù)指令提示、任務(wù)條件提示以及一組可學(xué)習(xí)的 mask tokens


任務(wù)指令提示包含當(dāng)前分割任務(wù)的一個簡單任務(wù)描述。例如,對于全景分割,任務(wù)指令提示可以是:「請分割出圖片中所有的目標(biāo),下面是可能的類別名稱」。任務(wù)條件提示指的是當(dāng)前分割任務(wù)所需要的特有的信息。對于語義分割、全景分割等,所需要的即所有類別名稱。模型直接簡單地將類別使用逗號進(jìn)行拼接,如「person, bicycle, car…」;對于指令分割,任務(wù)條件提示是當(dāng)前所需分割的物體的一段描述;對于更為復(fù)雜的交互式分割,模型將點、線、框、掩碼等各種提示信息轉(zhuǎn)換為掩碼,并通過掩碼池化的操作提取所指定的區(qū)域的特征,作為交互式分割的任務(wù)條件提示。


隨后,得到 mask tokens 對應(yīng)位置的輸出,送入 mask 生成其中,得到 mask 的特征。該特征與任務(wù)條件提示所對應(yīng)的輸出特征計算相似度得到置信度,與圖像特征計算內(nèi)積得到候選分割結(jié)果。


最終,將置信度和候選分割結(jié)果相結(jié)合,即可得到各種分割任務(wù)的結(jié)果。各種任務(wù)類型如何生成特定的條件提示和對應(yīng)的條件特征可見下圖。


多模態(tài)大模型有了統(tǒng)一分割框架,華科PSALM多任務(wù)登頂,模型代碼全開源-AI.x社區(qū)

PSALM 的效果如何?


對于指代分割 (RES) 任務(wù),也是目前已有的基于 LMM 的分割模型所關(guān)注的任務(wù),PSALM 在 RefCOCO、RefCOCO + 和 RefCOCOg 上的許多基準(zhǔn)測試集上取得了 SOTA 的性能,詳見下表。


多模態(tài)大模型有了統(tǒng)一分割框架,華科PSALM多任務(wù)登頂,模型代碼全開源-AI.x社區(qū)

在語義分割、實例分割、全景分割等任務(wù)上,PSALM 在 COCO-val 上比較了現(xiàn)有的 SOTA 模型。對于采用類似規(guī)模的圖像編碼器的方法,PSALM 取得了極具競爭力的結(jié)果,甚至不弱于該任務(wù)上的專家模型。


多模態(tài)大模型有了統(tǒng)一分割框架,華科PSALM多任務(wù)登頂,模型代碼全開源-AI.x社區(qū)

對于交互式分割任務(wù),由于當(dāng)前沒有開源的交互式分割數(shù)據(jù)集和測試基準(zhǔn)。因此,在 COCO 的基礎(chǔ)上,對其中的所有目標(biāo)隨機(jī)生成了各種交互提示,最終生成了 COCO-Interactive 數(shù)據(jù)集。具體結(jié)果如下表所示,PSALM 在使用點,曲線,掩碼作為提示下,取得了 SOTA 的效果。在使用框作為提示下,略弱于使用數(shù)據(jù)集 SA-1B 訓(xùn)練的 SAM。


多模態(tài)大模型有了統(tǒng)一分割框架,華科PSALM多任務(wù)登頂,模型代碼全開源-AI.x社區(qū)

PSALM 對于沒有見過的任務(wù),泛化能力如何?


PSALM 在開放詞表分割、通用指代分割、視頻目標(biāo)分割以及多視角 Ego-Exo 匹配分割任務(wù)上的零樣本泛化能力同樣令人印象深刻,這些結(jié)果展示了它對未知任務(wù)的適應(yīng)性。


多模態(tài)大模型有了統(tǒng)一分割框架,華科PSALM多任務(wù)登頂,模型代碼全開源-AI.x社區(qū)


下圖展示了 PSALM 在多個任務(wù)上的可視化結(jié)果包括全景分割、指令分割、交互式分割、開放詞表實例分割、通用指令分割、視頻目標(biāo)檢測和 Ego-Exo 多視角匹配分割。


多模態(tài)大模型有了統(tǒng)一分割框架,華科PSALM多任務(wù)登頂,模型代碼全開源-AI.x社區(qū)


總結(jié)


PSALM 代表了多模態(tài)大模型在統(tǒng)一圖像分割領(lǐng)域的一次積極探索,其在參數(shù)優(yōu)化、性能展示以及泛化能力方面均取得了顯著成果。PSALM 的創(chuàng)新架構(gòu)和條件提示機(jī)制,使其能夠靈活處理多樣化的輸入輸出需求,從而在各種基準(zhǔn)任務(wù)中取得優(yōu)異的成績。


本文轉(zhuǎn)自 機(jī)器之心 ,作者:機(jī)器之心


原文鏈接:??https://mp.weixin.qq.com/s/LwaYUEom-PKkWbNWZ3RaGA??

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦