整合全部頂尖目標(biāo)檢測(cè)算法:FAIR開(kāi)源Detectron
昨天,F(xiàn)acebook AI 研究院(FAIR)開(kāi)源了 Detectron,業(yè)內(nèi)***水平的目標(biāo)檢測(cè)平臺(tái)。據(jù)介紹,該項(xiàng)目自 2016 年 7 月啟動(dòng),構(gòu)建于 Caffe2 之上,目前支持大量機(jī)器學(xué)習(xí)算法,其中包括 Mask R-CNN(何愷明的研究,ICCV 2017 ***論文)和 Focal Loss for Dense Object Detection,(ICCV 2017 ***學(xué)生論文)。Facebook 稱,該工具包已被應(yīng)用與公司內(nèi)部很多團(tuán)隊(duì)?wèi)?yīng)用于各類應(yīng)用中,一旦訓(xùn)練完成,這些計(jì)算機(jī)視覺(jué)模型可被部署在云端或移動(dòng)設(shè)備上。
項(xiàng)目地址:https://github.com/facebookresearch/Detectron
Detectron
Detectron 是 Facebook AI Research 實(shí)現(xiàn)***目標(biāo)檢測(cè)算法(包括 Mask R-CNN)的軟件系統(tǒng)。該系統(tǒng)是基于 Python 和深度學(xué)習(xí)框架 Caffe 2 而構(gòu)建的。
在 FAIR 實(shí)驗(yàn)室,Detectron 目前已經(jīng)支持很多研究項(xiàng)目的實(shí)現(xiàn),包括:
Feature Pyramid Networks for Object Detection
(https://arxiv.org/abs/1612.03144)
Mask R-CNN
(https://arxiv.org/abs/1703.06870)
Detecting and Recognizing Human-Object Interactions
(https://arxiv.org/abs/1704.07333)
Focal Loss for Dense Object Detection
(https://arxiv.org/abs/1708.02002)
Non-local Neural Networks
(https://arxiv.org/abs/1711.07971)
Learning to Segment Every Thing
(https://arxiv.org/abs/1711.10370)
Data Distillation: Towards Omni-Supervised Learning
(https://arxiv.org/abs/1712.04440)
Mask R-CNN 輸出示例
簡(jiǎn)介
Detectron 的目標(biāo)是為目標(biāo)檢測(cè)研究提供高質(zhì)量、高性能的代碼庫(kù),它靈活的特性可以支持快速實(shí)現(xiàn)和驗(yàn)證新研究。Detectron 目前包含以下目標(biāo)檢測(cè)算法的實(shí)現(xiàn):
-
Mask R-CNN (https://arxiv.org/abs/1703.06870)—Marr Prize at ICCV 2017
-
RetinaNet (https://arxiv.org/abs/1708.02002)—Best Student Paper Award at ICCV 2017
-
Faster R-CNN (https://arxiv.org/abs/1506.01497)
-
RPN (https://arxiv.org/abs/1506.01497)
-
Fast R-CNN (https://arxiv.org/abs/1504.08083)
-
R-FCN (https://arxiv.org/abs/1605.06409)
這些目標(biāo)檢測(cè)算法主要使用以下卷積網(wǎng)絡(luò)架構(gòu):
-
ResNeXt{50,101,152} (https://arxiv.org/abs/1611.05431)
-
ResNet{50,101,152} (https://arxiv.org/abs/1512.03385)
-
Feature Pyramid Networks (https://arxiv.org/abs/1612.03144) (with ResNet/ResNeXt)
-
VGG16 (https://arxiv.org/abs/1409.1556)
在這些目標(biāo)檢測(cè)算法中,我們比較熟悉的就是 Mask R-CNN,它是在 Faster R-CNN 上的擴(kuò)展,即在用于邊界框識(shí)別的分支上添加了一個(gè)并行的分支以預(yù)測(cè)目標(biāo)掩碼。該方法能夠有效地檢測(cè)圖像中的目標(biāo),同時(shí)還能為每個(gè)實(shí)例生成一個(gè)高質(zhì)量的分割掩碼。而在 RetinaNet 中,研究者提出了全新的 Focal Loss 方法,并集中于稀疏、困難樣本中的訓(xùn)練,避免了訓(xùn)練過(guò)程中可能出現(xiàn)的大量負(fù)面因素。該論文的研究者表示,當(dāng)使用 Focal Loss 進(jìn)行訓(xùn)練時(shí),RetinaNet 可以達(dá)到此前一步檢測(cè)器的速度,同時(shí)準(zhǔn)確性高于業(yè)內(nèi)***的兩步檢測(cè)器。除了這兩個(gè)在 ICCV 2017 大為出彩的目標(biāo)檢測(cè)算法外,其它如 Fast R-CNN 和 R-FCN 等都是十分優(yōu)秀和經(jīng)典的目標(biāo)檢測(cè)方案。
在卷積網(wǎng)絡(luò)架構(gòu)中,值得注意的是特征金字塔型網(wǎng)絡(luò)(FPN),它主要融合了多層特征而改進(jìn)了 CNN 的特征提取方式。它利用了 CNN 固有的多尺度、多層級(jí)的金字塔結(jié)構(gòu)去構(gòu)建特征金字塔網(wǎng)絡(luò),并使用一種自上而下的 Skip Connector 在所有尺度上構(gòu)建高級(jí)語(yǔ)義特征圖。
上述的檢測(cè)算法和 CNN 架構(gòu)在目標(biāo)檢測(cè)任務(wù)上都有非常好的效果,他們基本上展現(xiàn)了該領(lǐng)域***的水平。而 Detectron 包含了這些算法和架構(gòu)的一大組基線結(jié)果和已訓(xùn)練模型,我們可以直接下載它們。例如下圖是 RetinaNet 的基線結(jié)果與對(duì)應(yīng)的模型下載地址,它同時(shí)還提供了訓(xùn)練和推斷過(guò)程中的有用數(shù)據(jù)。
我們粗略統(tǒng)計(jì)了一下,該項(xiàng)目有 70 多個(gè)不同設(shè)定的預(yù)訓(xùn)練模型。因此 Detectron 基本上已經(jīng)是最目前包含最全與最多目標(biāo)檢測(cè)算法的代碼庫(kù)了。此外,該項(xiàng)目也提供了安裝指南,包括 Caffe 2 和 COCO 數(shù)據(jù)集。值得注意的是,該代碼庫(kù)用的是 Python 2,它還需要 NVIDIA GPU、Linux 系統(tǒng)和其它一些標(biāo)準(zhǔn)的 Python 數(shù)值計(jì)算包。
-
模型庫(kù)與基線結(jié)果:
https://github.com/facebookresearch/Detectron/blob/master/MODEL_ZOO.md
-
安裝指導(dǎo):
https://github.com/facebookresearch/Detectron/blob/master/INSTALL.md
***,Detectron 還提供了一個(gè)文檔以展示如何使用該研究工具。例如我們?cè)趫D像文件目錄執(zhí)行推斷,我們可以直接使用 infer.simple.py 工具。在下面的案例中,我們使用了一個(gè)端到端已訓(xùn)練的 Mask R-CNN 模型(以 ResNet-101-FPN 為基本卷積架構(gòu))執(zhí)行推斷:
python2 tools/infer_simple.py --cfg configs/12_2017_baselines/e2e_mask_rcnn_R-101-FPN_2x.yaml --output-dir /tmp/detectron-visualizations --image-ext jpg --wts https://s3-us-west-2.amazonaws.com/detectron/35861858/12_2017_baselines/e2e_mask_rcnn_R-101-FPN_2x.yaml.02_32_51.SgT4y1cO/output/train/coco_2014_train:coco_2014_valminusminival/generalized_rcnn/model_final.pkl demo
更多詳細(xì)的使用文檔請(qǐng)查看:https://github.com/facebookresearch/Detectron/blob/master/GETTING_STARTED.md。
參考文獻(xiàn)
-
Data Distillation: Towards Omni-Supervised Learning. Ilija Radosavovic, Piotr Dollár, Ross Girshick, Georgia Gkioxari, and Kaiming He. Tech report, arXiv, Dec. 2017.
-
Learning to Segment Every Thing. Ronghang Hu, Piotr Dollár, Kaiming He, Trevor Darrell, and Ross Girshick. Tech report, arXiv, Nov. 2017.
-
Non-Local Neural Networks. Xiaolong Wang, Ross Girshick, Abhinav Gupta, and Kaiming He. Tech report, arXiv, Nov. 2017.
-
Mask R-CNN. Kaiming He, Georgia Gkioxari, Piotr Dollár, and Ross Girshick. IEEE International Conference on Computer Vision (ICCV), 2017.
-
Focal Loss for Dense Object Detection. Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, and Piotr Dollár. IEEE International Conference on Computer Vision (ICCV), 2017.
-
Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour. Priya Goyal, Piotr Dollár, Ross Girshick, Pieter Noordhuis, Lukasz Wesolowski, Aapo Kyrola, Andrew Tulloch, Yangqing Jia, and Kaiming He. Tech report, arXiv, June 2017.
-
Detecting and Recognizing Human-Object Interactions. Georgia Gkioxari, Ross Girshick, Piotr Dollár, and Kaiming He. Tech report, arXiv, Apr. 2017.
-
Feature Pyramid Networks for Object Detection. Tsung-Yi Lin, Piotr Dollár, Ross Girshick, Kaiming He, Bharath Hariharan, and Serge Belongie. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017.
-
Aggregated Residual Transformations for Deep Neural Networks. Saining Xie, Ross Girshick, Piotr Dollár, Zhuowen Tu, and Kaiming He. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017.
-
R-FCN: Object Detection via Region-based Fully Convolutional Networks. Jifeng Dai, Yi Li, Kaiming He, and Jian Sun. Conference on Neural Information Processing Systems (NIPS), 2016.
-
Deep Residual Learning for Image Recognition. Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016.
-
Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. Conference on Neural Information Processing Systems (NIPS), 2015.
-
Fast R-CNN. Ross Girshick. IEEE International Conference on Computer Vision (ICCV), 2015.