自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

CVPR 2017論文解讀:特征金字塔網(wǎng)絡(luò)FPN

開發(fā) 開發(fā)工具
這里介紹的文章是來自 Facebook 的特征金字塔網(wǎng)絡(luò) Feature Pyramid Networks(FPN)。FPN 主要解決的是物體檢測中的多尺度問題,通過簡單的網(wǎng)絡(luò)連接改變,在基本不增加原有模型計(jì)算量情況下,大幅度提升了小物體檢測的性能。

此系列專欄的***篇文章《CVPR 2017論文解讀:用于單目圖像車輛3D檢測的多任務(wù)網(wǎng)絡(luò)

近日,CVPR 2017獲獎(jiǎng)?wù)撐墓?,引起了業(yè)內(nèi)極大的關(guān)注。但除了這些獲獎(jiǎng)?wù)撐?,還有眾多精彩的論文值得一讀。因此在大會(huì)期間,國內(nèi)自動(dòng)駕駛創(chuàng)業(yè)公司 Momenta 聯(lián)合機(jī)器之心推出 CVPR 2017 精彩論文解讀專欄,本文是此系列專欄的第二篇,作者為 Momenta 高級(jí)研發(fā)工程師李俊。

論文:Feature Pyramid Networks for Object Detection

論文:Feature Pyramid Networks for Object Detection

論文地址:https://arxiv.org/abs/1612.03144

這里介紹的文章是來自 Facebook 的特征金字塔網(wǎng)絡(luò) Feature Pyramid Networks(FPN)。FPN 主要解決的是物體檢測中的多尺度問題,通過簡單的網(wǎng)絡(luò)連接改變,在基本不增加原有模型計(jì)算量情況下,大幅度提升了小物體檢測的性能。我們將從論文背景、論文思想、結(jié)果與結(jié)論幾方面探討此論文。

在物體檢測里面,有限計(jì)算量情況下,網(wǎng)絡(luò)的深度(對(duì)應(yīng)到感受野)與 stride 通常是一對(duì)矛盾的東西,常用的網(wǎng)絡(luò)結(jié)構(gòu)對(duì)應(yīng)的 stride 一般會(huì)比較大(如 32),而圖像中的小物體甚至?xí)∮?stride 的大小,造成的結(jié)果就是小物體的檢測性能急劇下降。傳統(tǒng)解決這個(gè)問題的思路包括:(1)多尺度訓(xùn)練和測試,又稱圖像金字塔,如圖 1(a) 所示。目前幾乎所有在 ImageNet 和 COCO 檢測任務(wù)上取得好成績的方法都使用了圖像金字塔方法。然而這樣的方法由于很高的時(shí)間及計(jì)算量消耗,難以在實(shí)際中應(yīng)用。(2)特征分層,即每層分別預(yù)測對(duì)應(yīng)的 scale 分辨率的檢測結(jié)果。如圖 1(c) 所示。SSD 檢測框架采用了類似的思想。這樣的方法問題在于直接強(qiáng)行讓不同層學(xué)習(xí)同樣的語義信息。而對(duì)于卷積神經(jīng)網(wǎng)絡(luò)而言,不同深度對(duì)應(yīng)著不同層次的語義特征,淺層網(wǎng)絡(luò)分辨率高,學(xué)的更多是細(xì)節(jié)特征,深層網(wǎng)絡(luò)分辨率低,學(xué)的更多是語義特征。

圖1

因而,目前多尺度的物體檢測主要面臨的挑戰(zhàn)為:

  1. 如何學(xué)習(xí)具有強(qiáng)語義信息的多尺度特征表示?
  2. 如何設(shè)計(jì)通用的特征表示來解決物體檢測中的多個(gè)子問題?如 object proposal, box localization, instance segmentation.
  3. 如何高效計(jì)算多尺度的特征表示?

本文針對(duì)這些問題,提出了特征金字塔網(wǎng)絡(luò) FPN,如圖 1(d) 所示,網(wǎng)絡(luò)直接在原來的單網(wǎng)絡(luò)上做修改,每個(gè)分辨率的 feature map 引入后一分辨率縮放兩倍的 feature map 做 element-wise 相加的操作。通過這樣的連接,每一層預(yù)測所用的 feature map 都融合了不同分辨率、不同語義強(qiáng)度的特征,融合的不同分辨率的 feature map 分別做對(duì)應(yīng)分辨率大小的物體檢測。這樣保證了每一層都有合適的分辨率以及強(qiáng)語義特征。同時(shí),由于此方法只是在原網(wǎng)絡(luò)基礎(chǔ)上加上了額外的跨層連接,在實(shí)際應(yīng)用中幾乎不增加額外的時(shí)間和計(jì)算量。作者接下來實(shí)驗(yàn)了將 FPN 應(yīng)用在 Faster RCNN 上的性能,在 COCO 上達(dá)到了 state-of-the-art 的單模型精度。

具體而言,F(xiàn)PN 分別在 RPN 和 Fast RCNN 兩步中起到作用。其中 RPN 和 Fast RCNN 分別關(guān)注的是召回率和正檢率,在這里對(duì)比的指標(biāo)分別為 Average Recall(AR) 和 Average Precision(AP)。分別對(duì)比了不同尺度物體檢測情況,小中大物體分別用 s,m,l 表示。

在 RPN 中,區(qū)別于原論文直接在***的 feature map 上設(shè)置不同尺度和比例的 anchor,本文的尺度信息對(duì)應(yīng)于相應(yīng)的 feature map(分別設(shè)置面積為 32^2, 64^2, 128^2, 256^2, 512^2),比例用類似于原來的方式設(shè)置 {1:2, 1:1,, 2:1} 三種。與 RPN 一樣,F(xiàn)PN 每層 feature map 加入 3*3 的卷積及兩個(gè)相鄰的 1*1 卷積分別做分類和回歸的預(yù)測。在 RPN 中,實(shí)驗(yàn)對(duì)比了 FPN 不同層 feature map 卷積參數(shù)共享與否,發(fā)現(xiàn)共享仍然能達(dá)到很好性能,說明特征金字塔使得不同層學(xué)到了相同層次的語義特征。RPN 網(wǎng)絡(luò)的實(shí)驗(yàn)結(jié)果為:

這里 FPN 對(duì)比原來取自 conv4 和 conv5 的 RPN 網(wǎng)絡(luò) (a)(b),召回率得到了大幅度提升,尤其在中物體和小物體上 (c)。另外,作者做了變量對(duì)比實(shí)驗(yàn),比如只保留橫向連接 (d),即特征分層網(wǎng)絡(luò),性能僅與原 RPN 差不多,原因就在于不同層之間的語義特征差距較大。另外,試驗(yàn)了砍掉橫向連接,只保留自上而下放大 feature map 做預(yù)測結(jié)果 (e),以及只用最終得到的 feature map 層 (f),均比完整的 FPN 網(wǎng)絡(luò)小物體檢測 AR 低 10 個(gè)點(diǎn)左右。說明金字塔特征表示與橫向連接都起了很大作用。

實(shí)驗(yàn) Fast RCNN 時(shí),需要固定 FPN+RPN 提取的 proposal 結(jié)果。在 Fast RCNN 里,F(xiàn)PN 主要應(yīng)用于選擇提取哪一層的 feature map 來做 ROI pooling。假設(shè)特征金字塔結(jié)果對(duì)應(yīng)到圖像金字塔結(jié)果。定義不同 feature map 集合為 {P2, P3, P4, P5},對(duì)于輸入網(wǎng)絡(luò)的原圖上 w*h 的 ROI,選擇的 feature map 為 Pk,其中(224 為 ImageNet 輸入圖像大小):

類似于 RPN 的實(shí)驗(yàn),對(duì)比了原有網(wǎng)絡(luò),以及不同改變 FPN 結(jié)構(gòu)的 Fast RCNN 實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果為:

實(shí)驗(yàn)發(fā)現(xiàn) FPN 篩選 ROI 區(qū)域,同樣對(duì)于 Fast RCNN 的小物體檢測精度有大幅提升。同時(shí),F(xiàn)PN 的每一步都必不可少。

***,F(xiàn)PN 對(duì)比整個(gè) Faster RCNN 的實(shí)驗(yàn)結(jié)果如下:

FPN 對(duì)比整個(gè) Faster RCNN 的實(shí)驗(yàn)結(jié)果

對(duì)比其他單模型方法結(jié)果為:

***是在 FPN 基礎(chǔ)上,將 RPN 和 Fast RCNN 的特征共享,與原 Faster CNN 一樣,精度得到了小幅提升。

FPN+Faster RCNN 的方法在 COCO 數(shù)據(jù)集上最終達(dá)到了***的單模型精度。

總結(jié)起來,本文提出了一種巧妙的特征金字塔連接方法,實(shí)驗(yàn)驗(yàn)證對(duì)于物體檢測非常有效,極大提高了小物體檢測性能,同時(shí)由于相比于原來的圖像金字塔多尺度檢測算法速度也得到了很大提升。

CVPR 現(xiàn)場 QA:

1. 不同深度的 feature map 為什么可以經(jīng)過 upsample 后直接相加?

A:作者解釋說這個(gè)原因在于我們做了 end-to-end 的 training,因?yàn)椴煌瑢拥膮?shù)不是固定的,不同層同時(shí)給監(jiān)督做 end-to-end training,所以相加訓(xùn)練出來的東西能夠更有效地融合淺層和深層的信息。

2. 為什么 FPN 相比去掉深層特征 upsample(bottom-up pyramid) 對(duì)于小物體檢測提升明顯?(RPN 步驟 AR 從 30.5 到 44.9,F(xiàn)ast RCNN 步驟 AP 從 24.9 到 33.9)

A:作者在 poster 里給出了這個(gè)問題的答案

對(duì)于小物體,一方面我們需要高分辨率的 feature map 更多關(guān)注小區(qū)域信息,另一方面,如圖中的挎包一樣,需要更全局的信息更準(zhǔn)確判斷挎包的存在及位置。

3. 如果不考慮時(shí)間情況下,image pyramid 是否可能會(huì)比 feature pyramid 的性能更高?

A:作者覺得經(jīng)過精細(xì)調(diào)整訓(xùn)練是可能的,但是 image pyramid 主要的問題在于時(shí)間和空間占用太大,而 feature pyramid 可以在幾乎不增加額外計(jì)算量情況下解決多尺度檢測問題。

【本文是51CTO專欄機(jī)構(gòu)“機(jī)器之心”的原創(chuàng)文章,微信公眾號(hào)“機(jī)器之心( id: almosthuman2014)”】

戳這里,看該作者更多好文

責(zé)任編輯:趙寧寧 來源: 51CTO專欄
相關(guān)推薦

2017-07-26 10:32:51

計(jì)算機(jī)視覺卷積神經(jīng)網(wǎng)絡(luò)FPN

2025-01-16 12:30:00

2018-10-11 15:05:56

測試軟件自動(dòng)化

2017-08-02 14:26:39

CVPR 2017論文卷積網(wǎng)絡(luò)模型

2024-06-26 10:16:41

2020-04-27 13:45:08

數(shù)據(jù)流沙Filecoin

2021-01-25 06:37:06

Css前端CSS 特效

2017-08-04 08:06:15

CVPR 2017論文圖像語義分割

2018-01-26 08:54:29

存儲(chǔ)SSDHDD

2009-11-04 10:51:19

程序員職業(yè)規(guī)劃

2013-03-14 09:46:05

移動(dòng)創(chuàng)業(yè)諾基亞NEIC大師論道

2022-12-13 15:41:41

測試軟件開發(fā)

2022-09-03 08:06:44

測試開發(fā)DevOps

2022-12-29 16:09:25

2017-07-24 08:53:12

CVPR 2017論文單目圖像車輛

2011-11-09 12:47:03

SOC信息安全

2020-04-08 08:00:00

開發(fā)者金字塔模型

2009-10-29 11:21:11

IT運(yùn)維管理體系

2019-07-04 17:42:57

開發(fā)技能模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)