用Meta「分割一切」搞定一切關(guān)系,唱跳偷襲效果拔群!NTU等提出全新RAM模型
本月初,Meta推出的「分割一切」模型可謂是震撼了整個(gè)CV圈。
這幾天,一款名為「Relate-Anything-Model(RAM)」的機(jī)器學(xué)習(xí)模型橫空出世。它賦予了Segment Anything Model(SAM)識(shí)別不同視覺(jué)概念之間的各種視覺(jué)關(guān)系的能力。
據(jù)了解,該模型由南洋理工大學(xué)MMLab團(tuán)隊(duì)和倫敦國(guó)王學(xué)院和同濟(jì)大學(xué)的VisCom實(shí)驗(yàn)室的同學(xué)利用閑暇時(shí)間合作開(kāi)發(fā)。
演示地址:https://huggingface.co/spaces/mmlab-ntu/relate-anything-model
代碼地址:https://github.com/Luodian/RelateAnything
數(shù)據(jù)集地址:https://github.com/Jingkang50/OpenPSG
效果演示
首先,讓我們來(lái)看一看「Relate-Anything-Model(RAM)」的應(yīng)用實(shí)例吧!
比如,下面這些關(guān)于踢足球、跳舞和交朋友的RAM模型實(shí)現(xiàn)的圖像分析結(jié)果,就讓人印象非常深刻,很好地展示了模型出色的性能和多樣化應(yīng)用的潛力。
預(yù)備知識(shí):全場(chǎng)景圖生成PSG任務(wù)
RAM模型基于ECCV'22 SenseHuman Workshop & 國(guó)際算法算例大賽「Panoptic Scene Graph Generation」賽道冠軍方案。
論文地址:https://arxiv.org/abs/2302.02651
該P(yáng)SG挑戰(zhàn)賽獎(jiǎng)金百萬(wàn),共收到來(lái)自全球100支團(tuán)隊(duì)提交的各種解決方案,其中包括了使用先進(jìn)的圖像分割方法以及解決長(zhǎng)尾問(wèn)題等。此外,競(jìng)賽還收到了一些創(chuàng)新性的方法,如場(chǎng)景圖專(zhuān)用的數(shù)據(jù)增強(qiáng)技術(shù)。
經(jīng)過(guò)評(píng)估,根據(jù)性能指標(biāo)、解決方案的新穎性和意義等方面的考慮,小紅書(shū)團(tuán)隊(duì)的GRNet脫穎而出,成為獲勝的方法。
比賽詳情:https://github.com/Jingkang50/OpenPSG
在介紹解決方案之前,我們首先來(lái)介紹兩個(gè)經(jīng)典的PSG基線(xiàn)方法,其中一個(gè)是雙階段方法,另一個(gè)是單階段方法。
對(duì)于雙階段基線(xiàn)方法,如圖a所示,在第一階段中,使用預(yù)訓(xùn)練的全景分割模型Panoptic FPN從圖像中提取特征、分割和分類(lèi)預(yù)測(cè)。然后,將每個(gè)個(gè)體對(duì)象的特征提供給經(jīng)典的場(chǎng)景圖生成器,如IMP,以便在第二階段進(jìn)行適應(yīng)PSG任務(wù)的場(chǎng)景圖生成。該雙階段方法允許經(jīng)典的SGG方法通過(guò)最小的修改適應(yīng)PSG任務(wù)。
如圖b所示,單階段基線(xiàn)方法PSGTR首先使用CNN提取圖像特征,然后使用類(lèi)似DETR的transformer編碼器-解碼器來(lái)直接學(xué)習(xí)三元組表示。匈牙利匹配器用于將預(yù)測(cè)的三元組與基本真實(shí)三元組進(jìn)行比較。然后,優(yōu)化目標(biāo)最大化匹配器計(jì)算的成本,并使用交叉熵進(jìn)行標(biāo)簽和分割的DICE/F-1損失計(jì)算總損失。
RAM模型架構(gòu)
在RAM模型的設(shè)計(jì)過(guò)程中,作者參考了PSG冠軍方案GRNet的雙階段結(jié)構(gòu)范式。盡管PSG原文的研究中表明,單階段模型目前的表現(xiàn)優(yōu)于雙階段模型,然而,單階段模型通常無(wú)法像雙階段模型那樣達(dá)到良好的分割性能。
經(jīng)對(duì)不同模型結(jié)構(gòu)的觀察推測(cè),單階段模型在關(guān)系三元組預(yù)測(cè)上的優(yōu)異表現(xiàn)可能是由于來(lái)自圖像特征圖的直接監(jiān)督信號(hào)有利于捕捉關(guān)系。
基于這一觀察,RAM的設(shè)計(jì)同GRNet一樣,旨在兩個(gè)模式之間找到一個(gè)權(quán)衡,通過(guò)重視雙階段范式并賦予其類(lèi)似于單階段范式中獲取全局上下文的能力來(lái)實(shí)現(xiàn)。
具體地,首先利用Segment Anything Model(SAM)作為特征提取器,識(shí)別和分割圖像中的物體對(duì)象,將來(lái)自SAM分割器的特定對(duì)象的中間特征映射與其對(duì)應(yīng)的分割融合,得到對(duì)象級(jí)別特征。
隨后,把Transformer作為一種全局上下文模塊,將獲得的對(duì)象級(jí)別特征經(jīng)過(guò)線(xiàn)性映射后輸入其中。通過(guò)Transformer編碼器中的交叉注意力機(jī)制,輸出的對(duì)象特征從其他對(duì)象中收集了更多的全局信息。
最后,對(duì)于Transformer輸出的每個(gè)對(duì)象級(jí)別特征,通過(guò)self-attention機(jī)制進(jìn)一步豐富上下文信息并使各個(gè)物體對(duì)象之間完成交互。
請(qǐng)注意,這里還添加了一個(gè)類(lèi)別嵌入以指示對(duì)象的類(lèi)別,并由此得到了成對(duì)的物體及它們之間關(guān)系的預(yù)測(cè)。
RAM關(guān)系分類(lèi)
在訓(xùn)練過(guò)程中,對(duì)于每個(gè)關(guān)系類(lèi)別,需要執(zhí)行關(guān)系二元分類(lèi)任務(wù)以確定對(duì)象對(duì)之間是否存在關(guān)系。
和GRNet相似的,對(duì)關(guān)系二元分類(lèi)任務(wù)還有一些特別的考慮。例如, PSG數(shù)據(jù)集通常包含兩個(gè)具有多個(gè)關(guān)系的對(duì)象,例如「人看著大象」和「人喂大象」同時(shí)存在。為了解決多標(biāo)簽問(wèn)題,作者將關(guān)系預(yù)測(cè)從單標(biāo)簽分類(lèi)問(wèn)題轉(zhuǎn)換為多標(biāo)簽分類(lèi)問(wèn)題。
此外,由于PSG數(shù)據(jù)集通過(guò)要求注釋者選擇特定和準(zhǔn)確的謂詞(如「停在」而不是更一般的「在」)來(lái)追求精度和相關(guān)性,可能不適合學(xué)習(xí)邊界關(guān)系(如「在」實(shí)際上與「停在」同時(shí)存在)。為了解決這個(gè)問(wèn)題,RAM采用了一種自我訓(xùn)練策略,使用自我蒸餾標(biāo)簽進(jìn)行關(guān)系分類(lèi),并使用指數(shù)移動(dòng)平均來(lái)動(dòng)態(tài)更新標(biāo)簽。
RAM的其他設(shè)計(jì)
在計(jì)算關(guān)系二元分類(lèi)損失時(shí),每個(gè)預(yù)測(cè)對(duì)象必須與其對(duì)應(yīng)的基礎(chǔ)真實(shí)對(duì)象配對(duì)。匈牙利匹配算法用于此目的。
然而,該算法容易出現(xiàn)不穩(wěn)定情況,特別是在網(wǎng)絡(luò)準(zhǔn)確度低的早期訓(xùn)練階段。這可能導(dǎo)致對(duì)于相同的輸入,匹配產(chǎn)生不同的匹配結(jié)果,導(dǎo)致網(wǎng)絡(luò)優(yōu)化方向不一致,使訓(xùn)練變得更加困難。
在RAM中,不同于之前方案,作者借助于強(qiáng)大的SAM模型,可以對(duì)幾乎任何圖片進(jìn)行完整且細(xì)致的分割,因此,在匹配預(yù)測(cè)和GT過(guò)程中, RAM自然地設(shè)計(jì)了新的GT匹配方法:使用PSG數(shù)據(jù)集來(lái)訓(xùn)練模型。
對(duì)于每個(gè)訓(xùn)練圖像,SAM會(huì)分割多個(gè)物體,但只有少數(shù)與PSG的ground truth(GT)mask相匹配。作者根據(jù)它們的交集-并集(IOU)分?jǐn)?shù)進(jìn)行簡(jiǎn)單的匹配,以便(幾乎)每個(gè)GT mask都被分配到一個(gè)SAM mask中。之后,作者根據(jù)SAM的mask重新生成關(guān)系圖,自然地匹配上了模型的預(yù)測(cè)。
RAM模型總結(jié)
在RAM模型中,作者利用Segment Anything Model(SAM)來(lái)識(shí)別和分割圖像中的物體,并提取每個(gè)分割物體的特征。隨后使用Transformer模塊來(lái)使分割物體之間產(chǎn)生交互作用,從而得到新的特征。最后將這些特征經(jīng)過(guò)類(lèi)別嵌入后,通過(guò)self-attention機(jī)制輸出預(yù)測(cè)結(jié)果。
在訓(xùn)練過(guò)程中,特別地,作者提出了新的GT匹配方法并基于該方法,計(jì)算預(yù)測(cè)和GT的配對(duì)關(guān)系并分類(lèi)它們的相互關(guān)系。在關(guān)系分類(lèi)的監(jiān)督學(xué)習(xí)過(guò)程中,作者視之為多標(biāo)簽分類(lèi)問(wèn)題并采用了一種自我訓(xùn)練策略學(xué)習(xí)標(biāo)簽的邊界關(guān)系。
最后,希望RAM模型能夠?yàn)槟銕?lái)更多的啟發(fā)和創(chuàng)新。如果你也想訓(xùn)練會(huì)找關(guān)系的機(jī)器學(xué)習(xí)模型,可以關(guān)注該團(tuán)隊(duì)的工作,并隨時(shí)提出反饋和建議。
項(xiàng)目地址:https://github.com/Jingkang50/OpenPSG