自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

如何采用深度學(xué)習(xí)進(jìn)行對象檢測

譯文
人工智能 深度學(xué)習(xí)
深度神經(jīng)網(wǎng)絡(luò)因其具有的處理視覺信息的強(qiáng)大能力而聞名。在過去幾年中,它們已成為許多計(jì)算機(jī)視覺應(yīng)用程序的關(guān)鍵組成部分。

【51CTO.com快譯】深度神經(jīng)網(wǎng)絡(luò)因其具有的處理視覺信息的強(qiáng)大能力而聞名。在過去幾年中,它們已成為許多計(jì)算機(jī)視覺應(yīng)用程序的關(guān)鍵組成部分。

神經(jīng)網(wǎng)絡(luò)可以解決的關(guān)鍵問題之一是檢測和定位圖像中的對象。對象檢測用于許多不同的領(lǐng)域,其中包括自動(dòng)駕駛、視頻監(jiān)控、醫(yī)療保健等。

以下簡要回顧幫助計(jì)算機(jī)檢測對象的深度學(xué)習(xí)架構(gòu):

卷積神經(jīng)網(wǎng)絡(luò)(CNN)

卷積神經(jīng)網(wǎng)絡(luò)(CNN)是基于深度學(xué)習(xí)的計(jì)算機(jī)視覺應(yīng)用的一個(gè)關(guān)鍵組成部分。卷積神經(jīng)網(wǎng)絡(luò)(CNN) 是由深度學(xué)習(xí)技術(shù)先驅(qū)Yann LeCun在上世紀(jì)80年代開發(fā)的一種神經(jīng)網(wǎng)絡(luò),可以有效捕捉多維空間中的模式。這使得卷積神經(jīng)網(wǎng)絡(luò)(CNN)特別適用于檢測圖像,盡管它們也用于處理其他類型的數(shù)據(jù)。為了更簡單地?cái)⑹?,在本文中考慮的卷積神經(jīng)網(wǎng)絡(luò)是二維的。

每個(gè)卷積神經(jīng)網(wǎng)絡(luò)都由一個(gè)或多個(gè)卷積層組成,這是一個(gè)從輸入圖像中提取有意義值的軟件組件。每個(gè)卷積層都由多個(gè)過濾器和矩陣組成,這些過濾器和矩陣在圖像上滑動(dòng),并在不同位置注冊像素值的加權(quán)和。每個(gè)過濾器具有不同的值,并從輸入圖像中提取不同的特征。而卷積層的輸出是一組“特征圖”。

當(dāng)堆疊在一起時(shí),卷積層可以檢測視覺模式的層次結(jié)構(gòu)。例如,較低層將為垂直和水平邊、角和其他簡單模式生成特征圖。較高的層可以檢測復(fù)雜的圖案,例如網(wǎng)格和圓形。而最高層可以檢測更復(fù)雜的對象,例如汽車、房屋、樹木和人員。

神經(jīng)網(wǎng)絡(luò)的每一層都對輸入圖像中的特定特征進(jìn)行編碼。

大多數(shù)卷積神經(jīng)網(wǎng)絡(luò)使用池化層來逐漸減小其特征圖的大小,并保留最突出的部分。最大池化(Max-pooling)是目前卷積神經(jīng)網(wǎng)絡(luò)(CNN)中使用的主要池化層類型,它保持像素塊中的最大值。例如,如果使用大小為2像素的池化層,它將從前一層生成的特征圖中提取2×2像素的塊并保留最大值。這一操作將其特征圖的大小減半,并保留最相關(guān)的特征。池化層使卷積神經(jīng)網(wǎng)絡(luò)(CNN)能夠泛化其能力,并且對跨圖像的對象位移不那么敏感。

最后,卷積層的輸出被展平為一個(gè)一維矩陣,該矩陣是圖像中包含的特征的數(shù)值表示。然后將該矩陣輸入到一系列“完全連接”的人工神經(jīng)元層中,這些層將特征映射到網(wǎng)絡(luò)預(yù)期的輸出類型。

卷積神經(jīng)網(wǎng)絡(luò)(CNN)的架構(gòu)

卷積神經(jīng)網(wǎng)絡(luò)最基本的任務(wù)是圖像分類,其中網(wǎng)絡(luò)將圖像作為輸入并返回一系列值,這些值表示圖像屬于多個(gè)類別之一的概率。例如,假設(shè)你要訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)來檢測流行的開源數(shù)據(jù)集ImageNet中包含的所有1,000類對象。在這種情況下,輸出層將有1,000個(gè)數(shù)字輸出,每個(gè)輸出都包含圖像屬于這些類別之一的概率。

你可以從頭開始創(chuàng)建和測試自己的卷積神經(jīng)網(wǎng)絡(luò)。但大多數(shù)機(jī)器學(xué)習(xí)研究人員和開發(fā)人員使用幾種主流的卷積神經(jīng)網(wǎng)絡(luò),例如AlexNet、VGG16和ResNet-50。

對象檢測數(shù)據(jù)集

對象檢測網(wǎng)絡(luò)需要在精確標(biāo)注的圖像上進(jìn)行訓(xùn)練

雖然圖像分類網(wǎng)絡(luò)可以判斷圖像是否包含某個(gè)對象,但它不會說明對象在圖像中的位置。對象檢測網(wǎng)絡(luò)提供圖像中包含的對象類別,并提供該對象坐標(biāo)的邊界框。

對象檢測網(wǎng)絡(luò)與圖像分類網(wǎng)絡(luò)非常相似,并使用卷積層來檢測視覺特征。事實(shí)上,大多數(shù)對象檢測網(wǎng)絡(luò)使用圖像分類的卷積神經(jīng)網(wǎng)絡(luò)(CNN)并將其重新用于對象檢測。

對象檢測是一個(gè)有監(jiān)督的機(jī)器學(xué)習(xí)問題,這意味著必須在標(biāo)記的示例上訓(xùn)練模型。訓(xùn)練數(shù)據(jù)集中的每張圖像都必須附有一個(gè)文件,其中包含其包含的對象的邊界和類別。有幾個(gè)開源工具可以創(chuàng)建對象檢測注釋。

對象檢測訓(xùn)練數(shù)據(jù)的注釋文件示例

對象檢測網(wǎng)絡(luò)在注釋數(shù)據(jù)上進(jìn)行訓(xùn)練,直到它可以在圖像中找到與每種對象對應(yīng)的區(qū)域。

以下了解一些對象檢測神經(jīng)網(wǎng)絡(luò)架構(gòu)。

R-CNN深度學(xué)習(xí)模型

R-CNN架構(gòu)

基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)(R-CNN)由加州大學(xué)伯克利分校的人工智能研究人員于2014年提出。R-CNN由三個(gè)關(guān)鍵組件組成:

首先,區(qū)域選擇器使用“選擇性搜索”算法,在圖像中查找可能代表對象的像素區(qū)域,也稱為“感興趣區(qū)域”(RoI)。區(qū)域選擇器為每個(gè)圖像生成大約2,000個(gè)感興趣區(qū)域(RoI)。

其次,感興趣區(qū)域(RoI)被壓縮成預(yù)定義的大小,并傳遞給卷積神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)(CNN)對每個(gè)區(qū)域進(jìn)行處理,通過一系列卷積操作分別提取特征,卷積神經(jīng)網(wǎng)絡(luò)(CNN)使用全連接層將特征圖編碼為一維數(shù)值向量。

最后,分類器機(jī)器學(xué)習(xí)模型將從卷積神經(jīng)網(wǎng)絡(luò)(CNN)獲得的編碼特征映射到輸出類。分類器有一個(gè)單獨(dú)的“背景”輸出類,它對應(yīng)于任何不是對象的東西。

使用R-CNN進(jìn)行對象檢測

最初有關(guān)R-CNN的一篇論文建議研究人員使用AlexNet卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,并使用支持向量機(jī)(SVM)進(jìn)行分類。但在這篇論文發(fā)表后的幾年后,研究人員使用更新的網(wǎng)絡(luò)架構(gòu)和分類模型來提高R-CNN的性能。

R-CNN存在一些問題。首先,模型必須為每張圖像生成和裁剪2,000個(gè)單獨(dú)的區(qū)域,這可能需要很長時(shí)間。其次,模型必須分別計(jì)算2,000個(gè)區(qū)域的特征。這需要大量計(jì)算并減慢了過程,使得R-CNN不適合實(shí)時(shí)對象檢測。最后,該模型由三個(gè)獨(dú)立的組件組成,這使得集成計(jì)算和提高速度變得困難。

Fast R-CNN

Fast R-CNN架構(gòu)

2015年,這篇R-CNN論文的第一作者提出了一種名為Fast R-CNN的新架構(gòu),解決了其前身的一些問題。FastR-CNN將特征提取和區(qū)域選擇集成到單個(gè)機(jī)器學(xué)習(xí)模型中。

Fast R-CNN接收圖像和一組感興趣區(qū)域(RoI),并返回圖像中檢測到的對象的邊界框和類的列表。

Fast R-CNN的關(guān)鍵創(chuàng)新之一是“RoI池化層”,該操作采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)特征圖和圖像的感興趣區(qū)域,并為每個(gè)區(qū)域提供相應(yīng)的特征。這使得Fast R-CNN能夠在一次性提取圖像中所有感興趣區(qū)域的特征,而R-CNN則分別處理每個(gè)區(qū)域。這顯著提高了處理速度。

然而還有一個(gè)問題仍未解決。Fast R-CNN仍然需要提取圖像區(qū)域并將其作為輸入提供給模型。FastR-CNN還沒有準(zhǔn)備好進(jìn)行實(shí)時(shí)對象檢測。

Faster R-CNN

Faster R-CNN架構(gòu)

Faster R-CNN于2016年推出,通過將區(qū)域提取機(jī)制集成到對象檢測網(wǎng)絡(luò)中,解決了對象檢測最后的難題。

Faster R-CNN將圖像作為輸入,并返回對象類及其相應(yīng)邊界框的列表。

Faster R-CNN的架構(gòu)在很大程度上類似于FastR-CNN的架構(gòu)。它的主要?jiǎng)?chuàng)新是“區(qū)域提議網(wǎng)絡(luò)”(RPN),該組件采用卷積神經(jīng)網(wǎng)絡(luò)生成的特征圖,并提出一組可能定位對象的邊界框。然后將提議的區(qū)域傳遞給RoI池化層。其余的過程類似于Fast R-CNN。

通過將區(qū)域檢測集成到主要的神經(jīng)網(wǎng)絡(luò)架構(gòu)中,F(xiàn)aster R-CNN實(shí)現(xiàn)了接近實(shí)時(shí)的目標(biāo)檢測速度。

YOLO

YOLO架構(gòu)

2016年,華盛頓大學(xué)、艾倫人工智能研究所和Facebook人工智能研究所的研究人員推出了“YOLO”,這是一個(gè)神經(jīng)網(wǎng)絡(luò)家族,通過深度學(xué)習(xí)提高了對象檢測的速度和準(zhǔn)確性。

YOLO的主要改進(jìn)是將整個(gè)對象檢測和分類過程集成在一個(gè)網(wǎng)絡(luò)中。YOLO不是分別提取特征和區(qū)域,而是通過一個(gè)個(gè)網(wǎng)絡(luò)在一次傳遞中執(zhí)行所有操作,因此被稱之為“你只看一次” (YOLO)。

YOLO能夠以視頻流幀率執(zhí)行對象檢測,適用于需要實(shí)時(shí)推理的應(yīng)用程序。

在過去的幾年中,深度學(xué)習(xí)對象檢測取得了長足的進(jìn)步,從一個(gè)由不同組件拼湊而成的單一神經(jīng)網(wǎng)絡(luò)發(fā)展成為功能強(qiáng)大并且更加高效的神經(jīng)網(wǎng)絡(luò)。如今,許多應(yīng)用程序使用對象檢測網(wǎng)絡(luò)作為其主要組件,這一技術(shù)存在于人們的手機(jī)、計(jì)算機(jī)、相機(jī)、汽車等設(shè)備中。而人們?nèi)绻私飧酉冗M(jìn)的神經(jīng)網(wǎng)絡(luò)能夠?qū)崿F(xiàn)什么功能,這將是有趣的事情,可能也會令人毛骨悚然。

原文標(biāo)題:An introduction to object detection with deep learning,作者:Ben Dickson

【51CTO譯稿,合作站點(diǎn)轉(zhuǎn)載請注明原文譯者和出處為51CTO.com】

 

責(zé)任編輯:華軒 來源: 51CTO
相關(guān)推薦

2017-08-03 11:00:20

2019-05-24 10:30:38

2021-11-02 11:48:39

深度學(xué)習(xí)惡意軟件觀察

2024-07-02 10:28:59

2023-10-23 10:19:23

自動(dòng)駕駛深度學(xué)習(xí)

2025-02-11 08:30:00

2021-10-08 09:46:42

深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)人工智能

2022-10-26 15:41:38

深度學(xué)習(xí)Deepfake機(jī)器學(xué)習(xí)

2017-09-15 18:13:57

機(jī)器學(xué)習(xí)深度學(xué)習(xí)語音識別

2010-08-25 10:18:27

2020-10-15 12:00:01

Python 開發(fā)編程語言

2021-02-03 13:56:09

KerasAPI深度學(xué)習(xí)

2016-03-16 09:33:40

2019-06-25 10:09:42

Web攻擊機(jī)器學(xué)習(xí)網(wǎng)絡(luò)攻擊

2020-11-11 10:54:55

物聯(lián)網(wǎng)設(shè)計(jì)系統(tǒng)

2009-12-28 11:14:53

ADO 連接對象

2018-05-18 09:57:04

深度學(xué)習(xí)乳腺癌神經(jīng)網(wǎng)絡(luò)

2017-08-10 15:31:57

Apache Spar TensorFlow

2019-09-18 07:20:34

深度學(xué)習(xí)人臉識別人工智能

2024-09-13 15:24:20

深度學(xué)習(xí)自動(dòng)微分
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號