自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

又一新框架來襲,關(guān)系網(wǎng)絡(luò)用于目標(biāo)檢測(cè)(文末附源碼)

開發(fā) 前端
目前大部分的目標(biāo)檢測(cè)算法都是獨(dú)立地檢測(cè)圖像中的目標(biāo),如果模型能學(xué)到目標(biāo)之間的關(guān)系顯然對(duì)于檢測(cè)效果提升會(huì)有很大的幫助。

 

目標(biāo)檢測(cè)

目前大部分的目標(biāo)檢測(cè)算法都是獨(dú)立地檢測(cè)圖像中的目標(biāo),如果模型能學(xué)到目標(biāo)之間的關(guān)系顯然對(duì)于檢測(cè)效果提升會(huì)有很大的幫助,因此作者希望在檢測(cè)過程中可以通過利用圖像中object之間的相互關(guān)系或圖像上下文來優(yōu)化檢測(cè)效果,這種關(guān)系既包括相對(duì)位置關(guān)系也包括圖像特征關(guān)系。 關(guān)于object的相對(duì)位置關(guān)系的利用是一個(gè)非常有意思的點(diǎn),尤其是能夠?qū)崿F(xiàn)相對(duì)位置關(guān)系的attention非常不錯(cuò)的點(diǎn)子。

具體的做法借鑒了attention機(jī)制(Attention is all you need)的啟發(fā),作者提出一個(gè)模塊: object relation module來描述目標(biāo)之間的關(guān)系,從而以attention的形式附加到原來的特征上,最后進(jìn)行回歸和分類,另外一個(gè)亮點(diǎn)是同時(shí)將這種attention機(jī)制引入NMS操作中,不僅實(shí)現(xiàn)了真正意義上的end-to-end訓(xùn)練,而且對(duì)于原本的檢測(cè)網(wǎng)絡(luò)也有提升。

值得注意的是:object relation module和網(wǎng)絡(luò)結(jié)構(gòu)的耦合度非常低,同時(shí)輸出的維度和輸入的維度相同,因此可以非常方便地插入到其他網(wǎng)絡(luò)結(jié)構(gòu)中,而且可以疊加插入。

作者主要放在兩個(gè)全連接層后面和NMS模塊,如下圖中的紅色虛線框所示。 在下圖中作者將目前目標(biāo)檢測(cè)算法分為4步:

  1. 特征提取主網(wǎng)絡(luò)
  2. 得 到ROI及特征
  3. 基于ROI做邊界框回歸和目標(biāo)分類
  4. NMS處理,去除重復(fù)框

從作者的分步情況和源碼可以清晰地看出,這篇文章主要是基于Faster RCNN系列算法引入object relation module。

基本框架

提出的Relation Module是對(duì)[“Attention Is All You Need”]中提出的“Scaled Dot-Product Attention”模塊的改造,其主要作用是建立目標(biāo)檢測(cè)任務(wù)中不同目標(biāo)之間的關(guān)系,以提高目標(biāo)檢測(cè)任務(wù)的準(zhǔn)確率。

本文使用的是Faster RCNN框架,如下圖所示,假設(shè)Faster RCNN的RPN模塊篩選出N個(gè)候選區(qū),在這里就默認(rèn)每個(gè)候選區(qū)為一個(gè)目標(biāo),對(duì)每個(gè)目標(biāo)提出其幾何特征和形狀特征。 其中幾何特征通過候選區(qū)的邊框的坐標(biāo)進(jìn)行計(jì)算,而形狀特征的來源為:Faster RCNN提取出候選框后,需要對(duì)每個(gè)候選框進(jìn)行ROI pool 然后經(jīng)過兩個(gè)全連接層生成最終的目標(biāo)類別預(yù)測(cè),而在這里形狀特征即為中間全連接層的輸出,為1維向量。 然后通過目標(biāo)關(guān)系模塊建立任意兩個(gè)目標(biāo)之間的關(guān)系。

在attention is all you need這篇文章中介紹了一個(gè)基本的attention模塊:scaled dot-product attention,如下所示:

假設(shè)輸入中有N個(gè)目標(biāo),那么N個(gè)目標(biāo)的兩種特征集合如下所示,f A 是常規(guī)的圖像特征,f G 是位置特征。

簡(jiǎn)單的來說公式2中的WV對(duì)應(yīng)上面公式中的V,公式2中的wmn對(duì)應(yīng)上面公式中的softmax()。

歸一化操作:

上面公式中的兩個(gè)變量wG和wA分別表示目標(biāo)的位置特征權(quán)重(geometric weight)和圖像特征權(quán)重(appearance weight),后面通過如下公式分別得到。

為了使其適應(yīng)于平移和尺度變換,使用了一個(gè)4維的相對(duì)幾何特征。

綜上,可以用下面的Algorithm 1來概括前面提到的公式算法,源碼中的實(shí)現(xiàn)基本上和Algorithm 1相同。

左圖是整體上的attention模塊和圖像特征fA的融合;右圖是attention模塊的詳細(xì)構(gòu)建過程。

接下來我們說說怎么應(yīng)用在目標(biāo)檢測(cè)算法中了。

上圖是object relation module插入目標(biāo)檢測(cè)算法的示意圖,左圖是插入兩個(gè)全連接層的情況,在全連接層之后會(huì)基于提取到的特征和roi的坐標(biāo)構(gòu)建attention,然后將attention加到特征中傳遞給下一個(gè)全連接層,再重復(fù)一次后就開始做框的坐標(biāo)回歸和分類。 右圖是插入NMS模塊的情況,圖像特征通過預(yù)測(cè)框得分的高低順序和預(yù)測(cè)框特征的融合得到,然后將該融合特征與預(yù)測(cè)框坐標(biāo)作為relation模塊的輸入得到attention結(jié)果,最后將NMS當(dāng)作是一個(gè)二分類過程,并基于relation模塊輸出特征計(jì)算分類概率。

實(shí)驗(yàn)

Table1主要做了3個(gè)驗(yàn)證:

  • 驗(yàn)證引入位置特征(geometric feature)的有效性
  • 驗(yàn)證關(guān)系特征數(shù)量的影響
  • 驗(yàn)證relation module在兩個(gè)全連接層中的數(shù)量的影響

表2主要是驗(yàn)證RM效果提升是否是因?yàn)閰?shù)量增加帶來的

關(guān)于在不同算法上引入RM的效果

論文地址: https://arxiv.org/pdf/1711.11575.pdf

源碼:h ttps://github.com/msracver/Relation-Networks-for-Object-Detection

 

 

責(zé)任編輯:張燕妮 來源: 計(jì)算機(jī)視覺研究院
相關(guān)推薦

2024-06-19 09:54:58

2016-01-06 18:18:04

全渠道視頻銀行STM

2015-09-23 11:22:49

2013-01-17 09:07:22

2021-11-17 21:52:39

數(shù)字化

2024-08-01 09:00:00

目標(biāo)檢測(cè)端到端

2023-11-09 23:45:01

Pytorch目標(biāo)檢測(cè)

2024-07-03 10:46:10

2017-10-02 16:13:47

深度學(xué)習(xí)目標(biāo)檢測(cè)計(jì)算機(jī)視覺

2024-10-12 08:35:32

2016-11-01 09:29:08

2024-09-03 09:14:25

2024-06-21 10:40:00

計(jì)算機(jī)視覺

2012-12-20 16:42:07

管理

2023-10-04 09:25:14

NewsFlash大升級(jí)

2022-05-11 09:35:19

安卓Android 13

2021-08-10 09:39:19

新游黑客網(wǎng)絡(luò)攻擊

2015-10-05 17:38:33

2017-04-21 11:51:52

互聯(lián)網(wǎng)

2021-02-20 09:45:02

RPC框架Java
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)