自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

用Meta「分割一切」搞定一切關(guān)系,唱跳偷襲效果拔群!NTU等提出全新RAM模型

人工智能 新聞
最近,來(lái)自NTU、KCL和同濟(jì)的團(tuán)隊(duì)基于Meta的「分割一切」,提出了全新的模型Relate Anything Model——聯(lián)系一切。

本月初,Meta推出的「分割一切」模型可謂是震撼了整個(gè)CV圈。

這幾天,一款名為「Relate-Anything-Model(RAM)」的機(jī)器學(xué)習(xí)模型橫空出世。它賦予了Segment Anything Model(SAM)識(shí)別不同視覺(jué)概念之間的各種視覺(jué)關(guān)系的能力。

據(jù)了解,該模型由南洋理工大學(xué)MMLab團(tuán)隊(duì)和倫敦國(guó)王學(xué)院和同濟(jì)大學(xué)的VisCom實(shí)驗(yàn)室的同學(xué)利用閑暇時(shí)間合作開(kāi)發(fā)。

圖片

演示地址:https://huggingface.co/spaces/mmlab-ntu/relate-anything-model

代碼地址:https://github.com/Luodian/RelateAnything

數(shù)據(jù)集地址:https://github.com/Jingkang50/OpenPSG

效果演示

首先,讓我們來(lái)看一看「Relate-Anything-Model(RAM)」的應(yīng)用實(shí)例吧!

比如,下面這些關(guān)于踢足球、跳舞和交朋友的RAM模型實(shí)現(xiàn)的圖像分析結(jié)果,就讓人印象非常深刻,很好地展示了模型出色的性能和多樣化應(yīng)用的潛力。

圖片

圖片

圖片

預(yù)備知識(shí):全場(chǎng)景圖生成PSG任務(wù)

RAM模型基于ECCV'22 SenseHuman Workshop & 國(guó)際算法算例大賽「Panoptic Scene Graph Generation」賽道冠軍方案。

圖片

論文地址:https://arxiv.org/abs/2302.02651

該P(yáng)SG挑戰(zhàn)賽獎(jiǎng)金百萬(wàn),共收到來(lái)自全球100支團(tuán)隊(duì)提交的各種解決方案,其中包括了使用先進(jìn)的圖像分割方法以及解決長(zhǎng)尾問(wèn)題等。此外,競(jìng)賽還收到了一些創(chuàng)新性的方法,如場(chǎng)景圖專(zhuān)用的數(shù)據(jù)增強(qiáng)技術(shù)。

經(jīng)過(guò)評(píng)估,根據(jù)性能指標(biāo)、解決方案的新穎性和意義等方面的考慮,小紅書(shū)團(tuán)隊(duì)的GRNet脫穎而出,成為獲勝的方法。

圖片

比賽詳情:https://github.com/Jingkang50/OpenPSG

在介紹解決方案之前,我們首先來(lái)介紹兩個(gè)經(jīng)典的PSG基線(xiàn)方法,其中一個(gè)是雙階段方法,另一個(gè)是單階段方法。

對(duì)于雙階段基線(xiàn)方法,如圖a所示,在第一階段中,使用預(yù)訓(xùn)練的全景分割模型Panoptic FPN從圖像中提取特征、分割和分類(lèi)預(yù)測(cè)。然后,將每個(gè)個(gè)體對(duì)象的特征提供給經(jīng)典的場(chǎng)景圖生成器,如IMP,以便在第二階段進(jìn)行適應(yīng)PSG任務(wù)的場(chǎng)景圖生成。該雙階段方法允許經(jīng)典的SGG方法通過(guò)最小的修改適應(yīng)PSG任務(wù)。

如圖b所示,單階段基線(xiàn)方法PSGTR首先使用CNN提取圖像特征,然后使用類(lèi)似DETR的transformer編碼器-解碼器來(lái)直接學(xué)習(xí)三元組表示。匈牙利匹配器用于將預(yù)測(cè)的三元組與基本真實(shí)三元組進(jìn)行比較。然后,優(yōu)化目標(biāo)最大化匹配器計(jì)算的成本,并使用交叉熵進(jìn)行標(biāo)簽和分割的DICE/F-1損失計(jì)算總損失。

圖片

RAM模型架構(gòu)

在RAM模型的設(shè)計(jì)過(guò)程中,作者參考了PSG冠軍方案GRNet的雙階段結(jié)構(gòu)范式。盡管PSG原文的研究中表明,單階段模型目前的表現(xiàn)優(yōu)于雙階段模型,然而,單階段模型通常無(wú)法像雙階段模型那樣達(dá)到良好的分割性能。

經(jīng)對(duì)不同模型結(jié)構(gòu)的觀察推測(cè),單階段模型在關(guān)系三元組預(yù)測(cè)上的優(yōu)異表現(xiàn)可能是由于來(lái)自圖像特征圖的直接監(jiān)督信號(hào)有利于捕捉關(guān)系。

基于這一觀察,RAM的設(shè)計(jì)同GRNet一樣,旨在兩個(gè)模式之間找到一個(gè)權(quán)衡,通過(guò)重視雙階段范式并賦予其類(lèi)似于單階段范式中獲取全局上下文的能力來(lái)實(shí)現(xiàn)。

具體地,首先利用Segment Anything Model(SAM)作為特征提取器,識(shí)別和分割圖像中的物體對(duì)象,將來(lái)自SAM分割器的特定對(duì)象的中間特征映射與其對(duì)應(yīng)的分割融合,得到對(duì)象級(jí)別特征。

隨后,把Transformer作為一種全局上下文模塊,將獲得的對(duì)象級(jí)別特征經(jīng)過(guò)線(xiàn)性映射后輸入其中。通過(guò)Transformer編碼器中的交叉注意力機(jī)制,輸出的對(duì)象特征從其他對(duì)象中收集了更多的全局信息。

最后,對(duì)于Transformer輸出的每個(gè)對(duì)象級(jí)別特征,通過(guò)self-attention機(jī)制進(jìn)一步豐富上下文信息并使各個(gè)物體對(duì)象之間完成交互。

請(qǐng)注意,這里還添加了一個(gè)類(lèi)別嵌入以指示對(duì)象的類(lèi)別,并由此得到了成對(duì)的物體及它們之間關(guān)系的預(yù)測(cè)。

RAM關(guān)系分類(lèi)

在訓(xùn)練過(guò)程中,對(duì)于每個(gè)關(guān)系類(lèi)別,需要執(zhí)行關(guān)系二元分類(lèi)任務(wù)以確定對(duì)象對(duì)之間是否存在關(guān)系。

和GRNet相似的,對(duì)關(guān)系二元分類(lèi)任務(wù)還有一些特別的考慮。例如, PSG數(shù)據(jù)集通常包含兩個(gè)具有多個(gè)關(guān)系的對(duì)象,例如「人看著大象」和「人喂大象」同時(shí)存在。為了解決多標(biāo)簽問(wèn)題,作者將關(guān)系預(yù)測(cè)從單標(biāo)簽分類(lèi)問(wèn)題轉(zhuǎn)換為多標(biāo)簽分類(lèi)問(wèn)題。

此外,由于PSG數(shù)據(jù)集通過(guò)要求注釋者選擇特定和準(zhǔn)確的謂詞(如「停在」而不是更一般的「在」)來(lái)追求精度和相關(guān)性,可能不適合學(xué)習(xí)邊界關(guān)系(如「在」實(shí)際上與「停在」同時(shí)存在)。為了解決這個(gè)問(wèn)題,RAM采用了一種自我訓(xùn)練策略,使用自我蒸餾標(biāo)簽進(jìn)行關(guān)系分類(lèi),并使用指數(shù)移動(dòng)平均來(lái)動(dòng)態(tài)更新標(biāo)簽。

RAM的其他設(shè)計(jì)

在計(jì)算關(guān)系二元分類(lèi)損失時(shí),每個(gè)預(yù)測(cè)對(duì)象必須與其對(duì)應(yīng)的基礎(chǔ)真實(shí)對(duì)象配對(duì)。匈牙利匹配算法用于此目的。

然而,該算法容易出現(xiàn)不穩(wěn)定情況,特別是在網(wǎng)絡(luò)準(zhǔn)確度低的早期訓(xùn)練階段。這可能導(dǎo)致對(duì)于相同的輸入,匹配產(chǎn)生不同的匹配結(jié)果,導(dǎo)致網(wǎng)絡(luò)優(yōu)化方向不一致,使訓(xùn)練變得更加困難。

在RAM中,不同于之前方案,作者借助于強(qiáng)大的SAM模型,可以對(duì)幾乎任何圖片進(jìn)行完整且細(xì)致的分割,因此,在匹配預(yù)測(cè)和GT過(guò)程中, RAM自然地設(shè)計(jì)了新的GT匹配方法:使用PSG數(shù)據(jù)集來(lái)訓(xùn)練模型。

對(duì)于每個(gè)訓(xùn)練圖像,SAM會(huì)分割多個(gè)物體,但只有少數(shù)與PSG的ground truth(GT)mask相匹配。作者根據(jù)它們的交集-并集(IOU)分?jǐn)?shù)進(jìn)行簡(jiǎn)單的匹配,以便(幾乎)每個(gè)GT mask都被分配到一個(gè)SAM mask中。之后,作者根據(jù)SAM的mask重新生成關(guān)系圖,自然地匹配上了模型的預(yù)測(cè)。

RAM模型總結(jié)

在RAM模型中,作者利用Segment Anything Model(SAM)來(lái)識(shí)別和分割圖像中的物體,并提取每個(gè)分割物體的特征。隨后使用Transformer模塊來(lái)使分割物體之間產(chǎn)生交互作用,從而得到新的特征。最后將這些特征經(jīng)過(guò)類(lèi)別嵌入后,通過(guò)self-attention機(jī)制輸出預(yù)測(cè)結(jié)果。

在訓(xùn)練過(guò)程中,特別地,作者提出了新的GT匹配方法并基于該方法,計(jì)算預(yù)測(cè)和GT的配對(duì)關(guān)系并分類(lèi)它們的相互關(guān)系。在關(guān)系分類(lèi)的監(jiān)督學(xué)習(xí)過(guò)程中,作者視之為多標(biāo)簽分類(lèi)問(wèn)題并采用了一種自我訓(xùn)練策略學(xué)習(xí)標(biāo)簽的邊界關(guān)系。

最后,希望RAM模型能夠?yàn)槟銕?lái)更多的啟發(fā)和創(chuàng)新。如果你也想訓(xùn)練會(huì)找關(guān)系的機(jī)器學(xué)習(xí)模型,可以關(guān)注該團(tuán)隊(duì)的工作,并隨時(shí)提出反饋和建議。

圖片

項(xiàng)目地址:https://github.com/Jingkang50/OpenPSG

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2024-03-01 10:04:11

研究訓(xùn)練編碼器

2024-07-30 10:51:51

2023-12-07 07:16:57

Meta訓(xùn)練

2016-08-31 17:24:05

大數(shù)據(jù)分析

2012-12-31 11:22:58

開(kāi)源開(kāi)放

2023-04-10 15:52:57

模型樣本

2015-03-02 14:48:07

2020-09-11 10:55:10

useState組件前端

2023-04-27 09:27:44

視頻AI

2021-02-28 09:47:54

軟件架構(gòu)軟件開(kāi)發(fā)軟件設(shè)計(jì)

2012-11-05 15:22:59

康普光纜DCD

2018-11-23 11:17:24

負(fù)載均衡分布式系統(tǒng)架構(gòu)

2021-02-19 23:08:27

軟件測(cè)試軟件開(kāi)發(fā)

2021-09-01 07:21:39

Exporter指標(biāo)監(jiān)控

2023-10-05 12:28:41

AI論文

2023-08-09 17:38:47

模型AI

2023-11-22 11:40:00

Meta模型

2025-03-27 09:47:23

訓(xùn)練模型AI

2025-03-10 13:11:00

2017-12-29 10:29:34

HTTP驅(qū)動(dòng)程序
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)