自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="8y6ei"></style>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

用Meta「分割一切」搞定一切關(guān)系，唱跳偷襲效果拔群！NTU等提出全新RAM模型

作者：新智元 2023-05-04 12:19:47

人工智能新聞

最近，來(lái)自NTU、KCL和同濟(jì)的團(tuán)隊(duì)基于Meta的「分割一切」，提出了全新的模型Relate Anything Model——聯(lián)系一切。

本月初，Meta推出的「分割一切」模型可謂是震撼了整個(gè)CV圈。

這幾天，一款名為「Relate-Anything-Model（RAM）」的機(jī)器學(xué)習(xí)模型橫空出世。它賦予了Segment Anything Model（SAM）識(shí)別不同視覺(jué)概念之間的各種視覺(jué)關(guān)系的能力。

據(jù)了解，該模型由南洋理工大學(xué)MMLab團(tuán)隊(duì)和倫敦國(guó)王學(xué)院和同濟(jì)大學(xué)的VisCom實(shí)驗(yàn)室的同學(xué)利用閑暇時(shí)間合作開(kāi)發(fā)。

演示地址：https://huggingface.co/spaces/mmlab-ntu/relate-anything-model

代碼地址：https://github.com/Luodian/RelateAnything

數(shù)據(jù)集地址：https://github.com/Jingkang50/OpenPSG

效果演示

首先，讓我們來(lái)看一看「Relate-Anything-Model（RAM）」的應(yīng)用實(shí)例吧！

比如，下面這些關(guān)于踢足球、跳舞和交朋友的RAM模型實(shí)現(xiàn)的圖像分析結(jié)果，就讓人印象非常深刻，很好地展示了模型出色的性能和多樣化應(yīng)用的潛力。

預(yù)備知識(shí)：全場(chǎng)景圖生成PSG任務(wù)

RAM模型基于ECCV'22 SenseHuman Workshop & 國(guó)際算法算例大賽「Panoptic Scene Graph Generation」賽道冠軍方案。

論文地址：https://arxiv.org/abs/2302.02651

該P(yáng)SG挑戰(zhàn)賽獎(jiǎng)金百萬(wàn)，共收到來(lái)自全球100支團(tuán)隊(duì)提交的各種解決方案，其中包括了使用先進(jìn)的圖像分割方法以及解決長(zhǎng)尾問(wèn)題等。此外，競(jìng)賽還收到了一些創(chuàng)新性的方法，如場(chǎng)景圖專(zhuān)用的數(shù)據(jù)增強(qiáng)技術(shù)。

經(jīng)過(guò)評(píng)估，根據(jù)性能指標(biāo)、解決方案的新穎性和意義等方面的考慮，小紅書(shū)團(tuán)隊(duì)的GRNet脫穎而出，成為獲勝的方法。

比賽詳情：https://github.com/Jingkang50/OpenPSG

在介紹解決方案之前，我們首先來(lái)介紹兩個(gè)經(jīng)典的PSG基線(xiàn)方法，其中一個(gè)是雙階段方法，另一個(gè)是單階段方法。

對(duì)于雙階段基線(xiàn)方法，如圖a所示，在第一階段中，使用預(yù)訓(xùn)練的全景分割模型Panoptic FPN從圖像中提取特征、分割和分類(lèi)預(yù)測(cè)。然后，將每個(gè)個(gè)體對(duì)象的特征提供給經(jīng)典的場(chǎng)景圖生成器，如IMP，以便在第二階段進(jìn)行適應(yīng)PSG任務(wù)的場(chǎng)景圖生成。該雙階段方法允許經(jīng)典的SGG方法通過(guò)最小的修改適應(yīng)PSG任務(wù)。

如圖b所示，單階段基線(xiàn)方法PSGTR首先使用CNN提取圖像特征，然后使用類(lèi)似DETR的transformer編碼器-解碼器來(lái)直接學(xué)習(xí)三元組表示。匈牙利匹配器用于將預(yù)測(cè)的三元組與基本真實(shí)三元組進(jìn)行比較。然后，優(yōu)化目標(biāo)最大化匹配器計(jì)算的成本，并使用交叉熵進(jìn)行標(biāo)簽和分割的DICE/F-1損失計(jì)算總損失。

RAM模型架構(gòu)

在RAM模型的設(shè)計(jì)過(guò)程中，作者參考了PSG冠軍方案GRNet的雙階段結(jié)構(gòu)范式。盡管PSG原文的研究中表明，單階段模型目前的表現(xiàn)優(yōu)于雙階段模型，然而，單階段模型通常無(wú)法像雙階段模型那樣達(dá)到良好的分割性能。

經(jīng)對(duì)不同模型結(jié)構(gòu)的觀察推測(cè)，單階段模型在關(guān)系三元組預(yù)測(cè)上的優(yōu)異表現(xiàn)可能是由于來(lái)自圖像特征圖的直接監(jiān)督信號(hào)有利于捕捉關(guān)系。

基于這一觀察，RAM的設(shè)計(jì)同GRNet一樣，旨在兩個(gè)模式之間找到一個(gè)權(quán)衡，通過(guò)重視雙階段范式并賦予其類(lèi)似于單階段范式中獲取全局上下文的能力來(lái)實(shí)現(xiàn)。

具體地，首先利用Segment Anything Model（SAM）作為特征提取器，識(shí)別和分割圖像中的物體對(duì)象，將來(lái)自SAM分割器的特定對(duì)象的中間特征映射與其對(duì)應(yīng)的分割融合，得到對(duì)象級(jí)別特征。

隨后，把Transformer作為一種全局上下文模塊，將獲得的對(duì)象級(jí)別特征經(jīng)過(guò)線(xiàn)性映射后輸入其中。通過(guò)Transformer編碼器中的交叉注意力機(jī)制，輸出的對(duì)象特征從其他對(duì)象中收集了更多的全局信息。

最后，對(duì)于Transformer輸出的每個(gè)對(duì)象級(jí)別特征，通過(guò)self-attention機(jī)制進(jìn)一步豐富上下文信息并使各個(gè)物體對(duì)象之間完成交互。

請(qǐng)注意，這里還添加了一個(gè)類(lèi)別嵌入以指示對(duì)象的類(lèi)別，并由此得到了成對(duì)的物體及它們之間關(guān)系的預(yù)測(cè)。

RAM關(guān)系分類(lèi)

在訓(xùn)練過(guò)程中，對(duì)于每個(gè)關(guān)系類(lèi)別，需要執(zhí)行關(guān)系二元分類(lèi)任務(wù)以確定對(duì)象對(duì)之間是否存在關(guān)系。

和GRNet相似的，對(duì)關(guān)系二元分類(lèi)任務(wù)還有一些特別的考慮。例如， PSG數(shù)據(jù)集通常包含兩個(gè)具有多個(gè)關(guān)系的對(duì)象，例如「人看著大象」和「人喂大象」同時(shí)存在。為了解決多標(biāo)簽問(wèn)題，作者將關(guān)系預(yù)測(cè)從單標(biāo)簽分類(lèi)問(wèn)題轉(zhuǎn)換為多標(biāo)簽分類(lèi)問(wèn)題。

此外，由于PSG數(shù)據(jù)集通過(guò)要求注釋者選擇特定和準(zhǔn)確的謂詞（如「停在」而不是更一般的「在」）來(lái)追求精度和相關(guān)性，可能不適合學(xué)習(xí)邊界關(guān)系（如「在」實(shí)際上與「停在」同時(shí)存在）。為了解決這個(gè)問(wèn)題，RAM采用了一種自我訓(xùn)練策略，使用自我蒸餾標(biāo)簽進(jìn)行關(guān)系分類(lèi)，并使用指數(shù)移動(dòng)平均來(lái)動(dòng)態(tài)更新標(biāo)簽。

RAM的其他設(shè)計(jì)

在計(jì)算關(guān)系二元分類(lèi)損失時(shí)，每個(gè)預(yù)測(cè)對(duì)象必須與其對(duì)應(yīng)的基礎(chǔ)真實(shí)對(duì)象配對(duì)。匈牙利匹配算法用于此目的。

然而，該算法容易出現(xiàn)不穩(wěn)定情況，特別是在網(wǎng)絡(luò)準(zhǔn)確度低的早期訓(xùn)練階段。這可能導(dǎo)致對(duì)于相同的輸入，匹配產(chǎn)生不同的匹配結(jié)果，導(dǎo)致網(wǎng)絡(luò)優(yōu)化方向不一致，使訓(xùn)練變得更加困難。

在RAM中，不同于之前方案，作者借助于強(qiáng)大的SAM模型，可以對(duì)幾乎任何圖片進(jìn)行完整且細(xì)致的分割，因此，在匹配預(yù)測(cè)和GT過(guò)程中， RAM自然地設(shè)計(jì)了新的GT匹配方法：使用PSG數(shù)據(jù)集來(lái)訓(xùn)練模型。

對(duì)于每個(gè)訓(xùn)練圖像，SAM會(huì)分割多個(gè)物體，但只有少數(shù)與PSG的ground truth（GT）mask相匹配。作者根據(jù)它們的交集-并集（IOU）分?jǐn)?shù)進(jìn)行簡(jiǎn)單的匹配，以便（幾乎）每個(gè)GT mask都被分配到一個(gè)SAM mask中。之后，作者根據(jù)SAM的mask重新生成關(guān)系圖，自然地匹配上了模型的預(yù)測(cè)。

RAM模型總結(jié)

在RAM模型中，作者利用Segment Anything Model（SAM）來(lái)識(shí)別和分割圖像中的物體，并提取每個(gè)分割物體的特征。隨后使用Transformer模塊來(lái)使分割物體之間產(chǎn)生交互作用，從而得到新的特征。最后將這些特征經(jīng)過(guò)類(lèi)別嵌入后，通過(guò)self-attention機(jī)制輸出預(yù)測(cè)結(jié)果。

在訓(xùn)練過(guò)程中，特別地，作者提出了新的GT匹配方法并基于該方法，計(jì)算預(yù)測(cè)和GT的配對(duì)關(guān)系并分類(lèi)它們的相互關(guān)系。在關(guān)系分類(lèi)的監(jiān)督學(xué)習(xí)過(guò)程中，作者視之為多標(biāo)簽分類(lèi)問(wèn)題并采用了一種自我訓(xùn)練策略學(xué)習(xí)標(biāo)簽的邊界關(guān)系。

最后，希望RAM模型能夠?yàn)槟銕?lái)更多的啟發(fā)和創(chuàng)新。如果你也想訓(xùn)練會(huì)找關(guān)系的機(jī)器學(xué)習(xí)模型，可以關(guān)注該團(tuán)隊(duì)的工作，并隨時(shí)提出反饋和建議。

項(xiàng)目地址：https://github.com/Jingkang50/OpenPSG

責(zé)任編輯：張燕妮來(lái)源：新智元

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<sup id="7njco"><rt id="7njco"></rt></sup>