自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

CVPR 2017論文解讀:特征金字塔網(wǎng)絡(luò)FPN

移動(dòng)開發(fā) 深度學(xué)習(xí)
近日,CVPR 2017獲獎(jiǎng)?wù)撐墓迹鹆藰I(yè)內(nèi)極大的關(guān)注。但除了這些獲獎(jiǎng)?wù)撐?,還有眾多精彩的論文值得一讀。

論文:Feature Pyramid Networks for Object Detection

首圖

論文地址:https://arxiv.org/abs/1612.03144

這里介紹的文章是來(lái)自 Facebook 的特征金字塔網(wǎng)絡(luò) Feature Pyramid Networks(FPN)。FPN 主要解決的是物體檢測(cè)中的多尺度問(wèn)題,通過(guò)簡(jiǎn)單的網(wǎng)絡(luò)連接改變,在基本不增加原有模型計(jì)算量情況下,大幅度提升了小物體檢測(cè)的性能。我們將從論文背景,論文思想,結(jié)果與結(jié)論幾方面探討此論文。

在物體檢測(cè)里面,有限計(jì)算量情況下,網(wǎng)絡(luò)的深度(對(duì)應(yīng)到感受野)與 stride 通常是一對(duì)矛盾的東西,常用的網(wǎng)絡(luò)結(jié)構(gòu)對(duì)應(yīng)的 stride 一般會(huì)比較大(如 32),而圖像中的小物體甚至?xí)∮?stride 的大小,造成的結(jié)果就是小物體的檢測(cè)性能急劇下降。傳統(tǒng)解決這個(gè)問(wèn)題的思路包括:(1)多尺度訓(xùn)練和測(cè)試,又稱圖像金字塔,如圖 1(a) 所示。目前幾乎所有在 ImageNet 和 COCO 檢測(cè)任務(wù)上取得好成績(jī)的方法都使用了圖像金字塔方法。然而這樣的方法由于很高的時(shí)間及計(jì)算量消耗,難以在實(shí)際中應(yīng)用。(2)特征分層,即每層分別預(yù)測(cè)對(duì)應(yīng)的 scale 分辨率的檢測(cè)結(jié)果。如圖 1(c) 所示。SSD 檢測(cè)框架采用了類似的思想。這樣的方法問(wèn)題在于直接強(qiáng)行讓不同層學(xué)習(xí)同樣的語(yǔ)義信息。而對(duì)于卷積神經(jīng)網(wǎng)絡(luò)而言,不同深度對(duì)應(yīng)著不同層次的語(yǔ)義特征,淺層網(wǎng)絡(luò)分辨率高,學(xué)的更多是細(xì)節(jié)特征,深層網(wǎng)絡(luò)分辨率低,學(xué)的更多是語(yǔ)義特征。

圖1

因此,目前多尺度的物體檢測(cè)主要面臨的挑戰(zhàn)為:

  1. 如何學(xué)習(xí)具有強(qiáng)語(yǔ)義信息的多尺度特征表示?
  2. 如何設(shè)計(jì)通用的特征表示來(lái)解決物體檢測(cè)中的多個(gè)子問(wèn)題?如 object proposal, box localization, instance segmentation. 
  3. 如何高效計(jì)算多尺度的特征表示?

本文針對(duì)這些問(wèn)題,提出了特征金字塔網(wǎng)絡(luò) FPN,如圖 1(d) 所示,網(wǎng)絡(luò)直接在原來(lái)的單網(wǎng)絡(luò)上做修改,每個(gè)分辨率的 feature map 引入后一分辨率縮放兩倍的 feature map 做 element-wise 相加的操作。通過(guò)這樣的連接,每一層預(yù)測(cè)所用的 feature map 都融合了不同分辨率、不同語(yǔ)義強(qiáng)度的特征,融合的不同分辨率的 feature map 分別做對(duì)應(yīng)分辨率大小的物體檢測(cè)。這樣保證了每一層都有合適的分辨率以及強(qiáng)語(yǔ)義特征。同時(shí),由于此方法只是在原網(wǎng)絡(luò)基礎(chǔ)上加上了額外的跨層連接,在實(shí)際應(yīng)用中幾乎不增加額外的時(shí)間和計(jì)算量。作者接下來(lái)實(shí)驗(yàn)了將 FPN 應(yīng)用在 Faster RCNN 上的性能,在 COCO 上達(dá)到了 state-of-the-art 的單模型精度。

具體而言,F(xiàn)PN 分別在 RPN 和 Fast RCNN 兩步中起到作用。其中 RPN 和 Fast RCNN 分別關(guān)注的是召回率和正檢率,在這里對(duì)比的指標(biāo)分別為 Average Recall(AR) 和 Average Precision(AP)。分別對(duì)比了不同尺度物體檢測(cè)情況,小中大物體分別用 s,m,l 表示。

在 RPN 中,區(qū)別于原論文直接在***的 feature map 上設(shè)置不同尺度和比例的 anchor,本文的尺度信息對(duì)應(yīng)于相應(yīng)的 feature map(分別設(shè)置面積為 32^2, 64^2, 128^2, 256^2, 512^2),比例用類似于原來(lái)的方式設(shè)置 {1:2, 1:1,, 2:1} 三種。與 RPN 一樣,F(xiàn)PN 每層 feature map 加入 3*3 的卷積及兩個(gè)相鄰的 1*1 卷積分別做分類和回歸的預(yù)測(cè)。在 RPN 中,實(shí)驗(yàn)對(duì)比了 FPN 不同層 feature map 卷積參數(shù)共享與否,發(fā)現(xiàn)共享仍然能達(dá)到很好性能,說(shuō)明特征金字塔使得不同層學(xué)到了相同層次的語(yǔ)義特征。RPN 網(wǎng)絡(luò)的實(shí)驗(yàn)結(jié)果為:

這里 FPN 對(duì)比原來(lái)取自 conv4 和 conv5 的 RPN 網(wǎng)絡(luò) (a)(b),召回率得到了大幅度提升,尤其在中物體和小物體上 (c)。另外,作者做了變量對(duì)比實(shí)驗(yàn),比如只保留橫向連接 (d),即特征分層網(wǎng)絡(luò),性能僅與原 RPN 差不多,原因就在于不同層之間的語(yǔ)義特征差距較大。另外,試驗(yàn)了砍掉橫向連接,只保留自上而下放大 feature map 做預(yù)測(cè)結(jié)果 (e),以及只用最終得到的 feature map 層 (f),均比完整的 FPN 網(wǎng)絡(luò)小物體檢測(cè) AR 低 10 個(gè)點(diǎn)左右。說(shuō)明金字塔特征表示與橫向連接都起了很大作用。

實(shí)驗(yàn) Fast RCNN 時(shí),需要固定 FPN+RPN 提取的 proposal 結(jié)果。在 Fast RCNN 里,F(xiàn)PN 主要應(yīng)用于選擇提取哪一層的 feature map 來(lái)做 ROI pooling。假設(shè)特征金字塔結(jié)果對(duì)應(yīng)到圖像金字塔結(jié)果。定義不同 feature map 集合為 {P2, P3, P4, P5},對(duì)于輸入網(wǎng)絡(luò)的原圖上 w*h 的 ROI,選擇的 feature map 為 Pk,其中(224 為 ImageNet 輸入圖像大?。?/p>

類似于 RPN 的實(shí)驗(yàn),對(duì)比了原有網(wǎng)絡(luò),以及不同改變 FPN 結(jié)構(gòu)的 Fast RCNN 實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果為:

 

實(shí)驗(yàn)發(fā)現(xiàn) FPN 篩選 ROI 區(qū)域,同樣對(duì)于 Fast RCNN 的小物體檢測(cè)精度有大幅提升。同時(shí),F(xiàn)PN 的每一步都必不可少。

***,F(xiàn)PN 對(duì)比整個(gè) Faster RCNN 的實(shí)驗(yàn)結(jié)果如下: 

對(duì)比其他單模型方法結(jié)果為:

***是在 FPN 基礎(chǔ)上,將 RPN 和 Fast RCNN 的特征共享,與原 Faster CNN 一樣,精度得到了小幅提升。

FPN+Faster RCNN 的方法在 COCO 數(shù)據(jù)集上最終達(dá)到了***的單模型精度。

總結(jié)起來(lái),本文提出了一種巧妙的特征金字塔連接方法,實(shí)驗(yàn)驗(yàn)證對(duì)于物體檢測(cè)非常有效,極大提高了小物體檢測(cè)性能,同時(shí)由于相比于原來(lái)的圖像金字塔多尺度檢測(cè)算法速度也得到了很大提升。

CVPR 現(xiàn)場(chǎng) QA:

1. 不同深度的 feature map 為什么可以經(jīng)過(guò) upsample 后直接相加?

A:作者解釋說(shuō)這個(gè)原因在于我們做了 end-to-end 的 training,因?yàn)椴煌瑢拥膮?shù)不是固定的,不同層同時(shí)給監(jiān)督做 end-to-end training,所以相加訓(xùn)練出來(lái)的東西能夠更有效地融合淺層和深層的信息。

2. 為什么 FPN 相比去掉深層特征 upsample(bottom-up pyramid) 對(duì)于小物體檢測(cè)提升明顯?(RPN 步驟 AR 從 30.5 到 44.9,F(xiàn)ast RCNN 步驟 AP 從 24.9 到 33.9)

A:作者在 poster 里給出了這個(gè)問(wèn)題的答案

FPN

對(duì)于小物體,一方面我們需要高分辨率的 feature map 更多關(guān)注小區(qū)域信息,另一方面,如圖中的挎包一樣,需要更全局的信息更準(zhǔn)確判斷挎包的存在及位置。

3. 如果不考慮時(shí)間情況下,image pyramid 是否可能會(huì)比 feature pyramid 的性能更高?

A:作者覺得經(jīng)過(guò)精細(xì)調(diào)整訓(xùn)練是可能的,但是 image pyramid 主要的問(wèn)題在于時(shí)間和空間占用太大,而 feature pyramid 可以在幾乎不增加額外計(jì)算量情況下解決多尺度檢測(cè)問(wèn)題。

本文轉(zhuǎn)自機(jī)器之心,作者為 Momenta 高級(jí)研發(fā)工程師李俊。

責(zé)任編輯:張子龍 來(lái)源: 機(jī)器之心
相關(guān)推薦

2017-08-02 00:12:50

CVPR 2017論文FPN網(wǎng)絡(luò)

2025-01-16 12:30:00

2017-08-02 14:26:39

CVPR 2017論文卷積網(wǎng)絡(luò)模型

2018-10-11 15:05:56

測(cè)試軟件自動(dòng)化

2024-06-26 10:16:41

2020-04-27 13:45:08

數(shù)據(jù)流沙Filecoin

2021-01-25 06:37:06

Css前端CSS 特效

2017-08-04 08:06:15

CVPR 2017論文圖像語(yǔ)義分割

2018-01-26 08:54:29

存儲(chǔ)SSDHDD

2022-12-13 15:41:41

測(cè)試軟件開發(fā)

2009-11-04 10:51:19

程序員職業(yè)規(guī)劃

2013-03-14 09:46:05

移動(dòng)創(chuàng)業(yè)諾基亞NEIC大師論道

2022-12-29 16:09:25

2017-07-24 08:53:12

CVPR 2017論文單目圖像車輛

2011-11-09 12:47:03

SOC信息安全

2022-09-03 08:06:44

測(cè)試開發(fā)DevOps

2020-04-08 08:00:00

開發(fā)者金字塔模型

2009-10-29 11:21:11

IT運(yùn)維管理體系

2019-07-04 17:42:57

開發(fā)技能模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)