自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

CVPR 2017論文解讀：用于單目圖像車輛3D檢測的多任務網(wǎng)絡

作者：賈思博 2017-07-24 08:53:12

開發(fā) 開發(fā)工具

這篇文章主要處理單目圖像中的車輛檢測問題，作者在這篇文章中提出了一種基于單目圖像檢測車輛并預測3D信息的框架。

昨日，CVPR 2017獲獎論文公布，引起了業(yè)內(nèi)極大的關注。但除了這些獲獎論文，還有眾多精彩的論文值得一讀。因此在大會期間，國內(nèi)自動駕駛創(chuàng)業(yè)公司 Momenta 聯(lián)合機器之心推出CVPR 2017精彩論文解讀專欄，本文是此系列專欄的***篇，作者為 Momenta 高級研發(fā)工程師賈思博。

論文：

Deep MANTA: A Coarse-to-fine Many-Task Network for joint 2D and 3D vehicle analysis from monocular image

這篇文章主要處理單目圖像中的車輛檢測問題。車輛檢測是一個經(jīng)典的基于圖像的目標檢測問題，也是智能駕駛感知過程的核心問題之一。現(xiàn)有的多種目標檢測框架如 Faster RCNN、YOLO 等已經(jīng)可以較好地處理一般的目標檢測問題，但是在應用于車輛檢測時還有兩個主要的痛點：(1)現(xiàn)有目標檢測算法在平均準確率(AP)衡量下可以做到較高精度，但是目標包圍框的定位(Localization)精度不夠，后者對于車輛檢測進一步分析有重要作用;(2)目標檢測局限在圖像空間中，缺乏有效算法預測車輛在真實 3D 空間中的位置和姿態(tài)。

針對以上問題，作者在這篇文章中提出了一種基于單目圖像檢測車輛并預測 3D 信息的框架。在文章中，對于一個 3D 車輛目標的描述，包括：車輛包圍立方體的位置坐標，各個部件(如車輪、車燈等)的 3D 坐標、可見性、地平面方向上的旋轉角，以及車輛自身 3D 尺寸。下圖是車輛建模的示意圖。論文通過預測車輛自身 3D 尺寸，從標注的 3D 模型庫中找到最相近的 3D 模型，進一步根據(jù)預測出的部件的 2D 坐標與 3D 模型坐標進行 PnP 匹配得到車輛的 3D 位置與姿態(tài)。

論文使用的網(wǎng)絡結構基于 Faster RCNN 框架。新的訓練方式最突出的特點有以下幾點：(1)網(wǎng)絡不僅預測車輛包圍框，同時還預測車輛部件坐標、部件可見性、車輛自身尺寸等豐富的信息;(2)網(wǎng)絡使用了級聯(lián)的結構(cascade)預測以上信息，在共享底層特征(feature map)的同時提供足夠的擬合能力預測多種信息，并反復回歸包圍框，提高定位精度;(3)在網(wǎng)絡推測(inference)時使用上述預測的信息進行 2D/3D 匹配以得到車輛的 3D 姿態(tài)與位置信息。訓練/推測過程的流程圖如下圖。此外，論文還提出了適合這一訓練框架的標注方法，只需要標注 3D 空間下車輛的 3D 包圍框，程序可以自動從 3D 模型庫中找到尺寸最相近的模型，并根據(jù)姿態(tài)信息自動生成部件坐標、部件可見性。這一標注方案對于 KITTI 這類帶有 3D 信息的數(shù)據(jù)集來說是很方便的。

文章使用了 103 個標準車輛 3D 模型，每個模型包含 36 個部件坐標信息。網(wǎng)絡基礎結構使用了 GoogleNet 以及 VGG16，具體訓練參數(shù)詳見文章第 5 節(jié)。模型在 KITTI 的車輛檢測、角度回歸、3D 定位任務中均達到了領先水平，驗證了這一方法的有效性。

Q&A

1.在多任務網(wǎng)絡中是如何平衡各個任務的 loss，以及如何利用部件可見性這一任務的?

A：除了部件坐標外均使用經(jīng)驗值 loss weight = 1，對于部件坐標嘗試 loss weight = 3 時效果更佳。部件可見性主要用于輔助網(wǎng)絡學習部件坐標信息，在 inference 中并沒有用到這一信息。另外，在回歸部件坐標時，對于不可見的部件關鍵點沒有給 loss，對于可見的部件關鍵點給了 N_total/N_visible的 loss，即總的關鍵點個數(shù)比上可見的關鍵點個數(shù)，論文原文中沒有提到這一點。

2. 在分類不同車型時，為什么回歸 Template similarity 即車輛尺寸與每一個模型的尺寸比例，而不是直接回歸車輛尺寸?如果有不同車型具有同樣尺寸怎么辦?

A：使用 Template similarity 是一個簡便的提供歸一化的方法，如果直接回歸尺寸，對于不同的車型 scale 相差較大，效果不好。Caltech 模型庫中確實有可能出現(xiàn)同樣尺寸的情形，但從訓練結果看并沒有造成明顯的問題。

3. 關于作者提出的「弱標注方法」，是如何標注車輛的 3D 框的?

A：KITTI 數(shù)據(jù)集中有車輛的 3D groundtruth，所以可以直接生成 3D 框數(shù)據(jù)，不需要額外標注。對于真實環(huán)境下的數(shù)據(jù)，作者正在嘗試解決，現(xiàn)在還沒有一個比較有效的方案。

【本文是51CTO專欄機構“機器之心”的原創(chuàng)文章，微信公眾號“機器之心( id: almosthuman2014)”】

戳這里，看該作者更多好文

責任編輯：趙寧寧來源： 51CTO專欄

CVPR 2017論文單目圖像車輛智能

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<thead id="fj6h2"><rt id="fj6h2"></rt></thead>

<style id="fj6h2"></style>

<legend id="fj6h2"><track id="fj6h2"></track></legend>

<blockquote id="fj6h2"></blockquote>

<u id="fj6h2"></u>

<u id="fj6h2"><li id="fj6h2"></li></u>