CVPR 2024 | 擅長處理復(fù)雜場景和語言表達(dá),清華&博世提出全新實(shí)例分割網(wǎng)絡(luò)架構(gòu)MagNet
指代分割 (Referring Image Segmentation,RIS) 是一項(xiàng)極具挑戰(zhàn)性的多模態(tài)任務(wù),要求算法能夠同時(shí)理解精細(xì)的人類語言和視覺圖像信息,并將圖像中句子所指代的物體進(jìn)行像素級(jí)別的分割。RIS 技術(shù)的突破有望在人機(jī)交互、圖像編輯、自動(dòng)駕駛等諸多領(lǐng)域帶來革命性變革。它能夠極大地提升人機(jī)協(xié)作的效率和體驗(yàn)。盡管目前最先進(jìn)的 RIS 算法已經(jīng)取得了顯著進(jìn)展,但仍然面臨著模態(tài)差異 (modality gap) 的問題,即圖像和文本特征的分布并未完全對(duì)齊。這一問題在處理復(fù)雜的指代語言表達(dá)和罕見語境時(shí)尤為突出。
圖 1:細(xì)粒度語言 - 圖像對(duì)齊能力對(duì) RIS 的重要性示意圖。紅色掩碼是目前最先進(jìn)的 RIS 算法之一 LAVT 的預(yù)測(cè)結(jié)果,而黃色虛線框則是正確的標(biāo)注。
目前的 RIS 研究主要集中在設(shè)計(jì)新穎的損失函數(shù)或引入創(chuàng)新的網(wǎng)絡(luò)架構(gòu) / 模塊,以增強(qiáng)語言 - 圖像的分布對(duì)齊。盡管取得了顯著進(jìn)展,但仍存在兩個(gè)根本性問題,導(dǎo)致它們?cè)诩?xì)粒度語言 - 圖像對(duì)齊(Fine-grained Visual Grounding)方面能力不足:
1. 這些方法主要依賴于句子級(jí)別的語言特征進(jìn)行語言 - 圖像對(duì)齊,導(dǎo)致它們?cè)谖淖旨?jí)別的語言 - 圖像對(duì)齊能力較為薄弱。
2. 這些方法在訓(xùn)練過程中往往缺乏顯式的監(jiān)督信號(hào),無法有效地教會(huì)模型進(jìn)行細(xì)粒度對(duì)齊,導(dǎo)致它們?cè)谔幚韽?fù)雜的指代語言時(shí)表現(xiàn)不佳。
圖 2:現(xiàn)有算法的缺陷
在近期一篇 CVPR 2024 工作中,來自清華大學(xué)自動(dòng)化系和博世中央研究院的聯(lián)合研究團(tuán)隊(duì)設(shè)計(jì)了一種新的輔助任務(wù) Mask Grounding。通過隨機(jī)掩碼部分文本詞匯,并讓算法學(xué)習(xí)預(yù)測(cè)其真實(shí)身份,這一任務(wù)旨在顯式地教會(huì)模型學(xué)習(xí)文本與視覺對(duì)象之間的細(xì)粒度對(duì)應(yīng)關(guān)系。除此之外,他們還提出了一個(gè)新穎的跨模態(tài)對(duì)齊模塊(Cross-modal Alignment Module)和一個(gè)新穎的跨模態(tài)對(duì)齊損失函數(shù) (Cross-modal Alignment Loss),來進(jìn)一步全面縮小語言和圖像之間的模態(tài)差距?;谶@些技術(shù),他們?cè)O(shè)計(jì)了一個(gè)全新的實(shí)例分割網(wǎng)絡(luò)架構(gòu) Mask-grounded Network (MagNet)。
- 論文標(biāo)題:Mask Grounding for Referring Image Segmentation
- 論文地址:https://arxiv.org/abs/2312.12198
在 RefCOCO、RefCOCO + 和 G-Ref 數(shù)據(jù)集上,MagNet 大幅超越了所有之前最優(yōu)的算法,在整體交并比 (oIoU) 這項(xiàng)核心指標(biāo)上顯著提升了 2.48 個(gè)百分點(diǎn)??梢暬Y(jié)果也證實(shí),MagNet 在處理復(fù)雜場景和語言表達(dá)時(shí)具有出色的表現(xiàn)。
方法
MagNet 由 3 個(gè)獨(dú)立互補(bǔ)的模塊組成,分別為 Mask Grounding,Cross-modal Alignment Module 和 Cross-modal Alignment Loss。
1.Mask Grounding
圖 3:Mask Grounding 流程圖
如圖 3 所示,在給定輸入圖像、對(duì)應(yīng)的指代表達(dá)以及分割掩碼的情況下,作者隨機(jī)選取句子中的某些詞匯,并將其替換為一個(gè)特殊的可學(xué)習(xí)掩碼 token。然后,訓(xùn)練模型來預(yù)測(cè)這些被替換詞匯的實(shí)際身份。通過成功預(yù)測(cè)被掩碼 token 的身份,模型能夠理解文本中的哪些詞匯對(duì)應(yīng)于圖像的哪些部分,從而在此過程中學(xué)習(xí)細(xì)粒度語言 - 圖像對(duì)齊能力。為了執(zhí)行這一輔助任務(wù),首先提取掩碼區(qū)域的中心坐標(biāo),并將其傳遞給一個(gè) 2 層 MLP,以編碼分割掩碼的特征。同時(shí),使用線性層將語言特征映射到與圖像特征相同的維度。然后,使用提出的掩碼 token 預(yù)測(cè)器聯(lián)合處理這些特征,并使用注意力機(jī)制模塊來進(jìn)行掩碼 token 預(yù)測(cè)。雖然 Mask Grounding 需要通過語言編碼器進(jìn)行額外的前向傳遞來處理被掩碼的表達(dá)式,但由于語言編碼器非常小,整體計(jì)算成本幾乎可以忽略不計(jì)。
2.Cross-modal Alignment Module (CAM)
圖 4:Cross-modal Alignment Module 結(jié)構(gòu)圖
如圖 4 所示,為了進(jìn)一步提升模型性能,作者還提出了跨模態(tài)對(duì)齊模塊(CAM),通過在執(zhí)行語言 - 圖像融合之前將全局上下文先驗(yàn)注入圖像特征來增強(qiáng)語言 - 圖像對(duì)齊效果。CAM 首先使用不同窗口大小的池化操作生成 K 個(gè)不同金字塔尺度的特征圖。然后,每個(gè)特征圖通過一個(gè) 3 層 MLP 以更好地提取全局信息,并與另一模態(tài)進(jìn)行交叉注意力操作。接下來,所有輸出特征通過雙線性插值上采樣到原始特征圖尺寸,并在通道維度上拼接。隨后,使用一個(gè) 2 層 MLP 將拼接后的特征通道數(shù)減少回原始維度。為了防止多模態(tài)信號(hào)淹沒原始信號(hào),使用一個(gè)帶有 Tanh 非線性的門控單元來調(diào)制最終輸出。最后,這個(gè)門控后的特征被加回到輸入特征中,然后傳遞給圖像或語言編碼器的下一階段。在作者的實(shí)現(xiàn)中,CAM 被加到圖像和語言編碼器的每個(gè)階段末尾。
3.Cross-modal Alignment Loss (CAL)
圖 5:Cross-modal Alignment Loss 公式
為了監(jiān)督模型對(duì)齊語言和圖像特征,作者提出了一種新穎的跨模態(tài)對(duì)齊損失函數(shù) (CAL)。圖五展示了該損失函數(shù)的數(shù)學(xué)公式。與之前工作不同,CAL 同時(shí)考慮了像素到像素 (Pixel-to-Pixel,P2P) 和像素到文本 (Pixel-to-Text,P2T) 之間的對(duì)齊。精確的像素到像素對(duì)齊能確保模型能分割輸出具有準(zhǔn)確形狀和邊界的分割掩碼,而精確的像素到文本對(duì)齊能使模型能夠正確地將文本描述與其匹配的圖像區(qū)域進(jìn)行合理的關(guān)聯(lián)。
實(shí)驗(yàn)
在表 1 中,作者使用 oIoU 指標(biāo)評(píng)估 MagNet,并與現(xiàn)有最先進(jìn)的算法做性能比較。測(cè)試數(shù)據(jù)為 RefCOCO、RefCOCO + 和 G-Ref。在單一和多個(gè) / 額外數(shù)據(jù)集的設(shè)置下,MagNet 的性能在這些數(shù)據(jù)集上全都是 SOTA。
表 1:實(shí)驗(yàn)結(jié)果
可視化結(jié)果
圖 6:MagNet 可視化結(jié)果
在圖 6 中,我們可以看到,MagNet 的可視化結(jié)果也非常突出,在許多困難的場景中都比對(duì)比基準(zhǔn) LAVT 強(qiáng)很多。
小結(jié)
這篇文章深入探討了指代分割(RIS)領(lǐng)域的挑戰(zhàn)和當(dāng)前存在的問題,特別是在細(xì)粒度語言 - 圖像對(duì)齊方面的不足。針對(duì)這些問題,清華大學(xué)和博世中央研究院的研究人員提出了一種新的方法,名為 MagNet,通過引入輔助任務(wù) Mask Grounding、跨模態(tài)對(duì)齊模塊和跨模態(tài)對(duì)齊損失函數(shù),全面提升了語言和圖像之間的對(duì)齊效果。實(shí)驗(yàn)證明,MagNet 在 RefCOCO、RefCOCO + 和 G-Ref 數(shù)據(jù)集上均取得了顯著優(yōu)異的性能,超越了之前最先進(jìn)的算法,表現(xiàn)出了強(qiáng)大的泛化能力??梢暬Y(jié)果也證實(shí)了 MagNet 在處理復(fù)雜場景和語言表達(dá)時(shí)的優(yōu)越性。這一研究為指代分割領(lǐng)域的進(jìn)一步發(fā)展提供了有益的啟示,有望推動(dòng)該領(lǐng)域取得更大的突破。
團(tuán)隊(duì)介紹
此論文來源于清華大學(xué)自動(dòng)化系(https://www.au.tsinghua.edu.cn)和博世中央研究院(https://www.bosch.com/research/)。其中論文一作莊榮賢為清華大學(xué)在讀博士生,并在博世中央研究院實(shí)習(xí);項(xiàng)目負(fù)責(zé)人為邱旭沖博士,任博世中央研究院資深研發(fā)科學(xué)家;通訊作者為清華大學(xué)自動(dòng)化系黃高教授。
本文轉(zhuǎn)自 機(jī)器之心 ,作者:機(jī)器之心
