自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

深入了解目標(biāo)檢測深度學(xué)習(xí)算法的技術(shù)細(xì)節(jié)

作者：讀芯術(shù) 2020-09-21 05:58:40

人工智能深度學(xué)習(xí) 算法

本文將討論目標(biāo)檢測的基本方法(窮盡搜索、R-CNN、Fast R-CNN和Faster R-CNN)，并嘗試?yán)斫饷總€模型的技術(shù)細(xì)節(jié)。

本文轉(zhuǎn)載自公眾號“讀芯術(shù)”(ID：AI_Discovery)。

本文將討論目標(biāo)檢測的基本方法(窮盡搜索、R-CNN、Fast R-CNN和Faster R-CNN)，并嘗試?yán)斫饷總€模型的技術(shù)細(xì)節(jié)。為了讓經(jīng)驗水平各不相同的讀者都能夠理解，文章不會使用任何公式來進行講解。

深入了解目標(biāo)檢測深度學(xué)習(xí)算法的技術(shù)細(xì)節(jié)

檢測螺母和螺栓-克里斯·耶茨(Unsplash)

開啟目標(biāo)檢測的第一步

這是只鳥還是架飛機?—— 圖像分類

深入了解目標(biāo)檢測深度學(xué)習(xí)算法的技術(shù)細(xì)節(jié)

目標(biāo)檢測(或識別)基于圖像分類。圖像分類是通過上圖所示的像素網(wǎng)格，將圖像分類為一個類類別。目標(biāo)識別是對圖像中的對象進行識別和分類的過程，如下圖所示：

深入了解目標(biāo)檢測深度學(xué)習(xí)算法的技術(shù)細(xì)節(jié)

為了使模型能夠?qū)W習(xí)圖像中對象的類別和位置，目標(biāo)必須是一個五維標(biāo)簽(類別，x, y，寬度，長度)。

對象檢測方法的內(nèi)部工作

一種費機器(奢侈計算)的方法：窮舉搜索

最簡單的目標(biāo)檢測方法是對圖像的各個子部分使用圖像分類器，讓我們來逐個考慮：

首先，選擇想要執(zhí)行目標(biāo)檢測的圖像。

深入了解目標(biāo)檢測深度學(xué)習(xí)算法的技術(shù)細(xì)節(jié)

然后將該圖像分割成不同的部分，或者說“區(qū)域”，如下圖所示：

深入了解目標(biāo)檢測深度學(xué)習(xí)算法的技術(shù)細(xì)節(jié)

把每個區(qū)域看作一個單獨的圖像。
使用經(jīng)典的圖像分類器對每幅圖像進行分類。
最后，將檢測到目標(biāo)的區(qū)域的所有圖像與預(yù)測標(biāo)簽結(jié)合。

深入了解目標(biāo)檢測深度學(xué)習(xí)算法的技術(shù)細(xì)節(jié)

這種方法存在一個問題，對象可能具有的不同縱橫比和空間位置，這可能導(dǎo)致對大量區(qū)域進行不必要的昂貴計算。它在計算時間方面存在太大的瓶頸，從而無法用于解決實際問題。

1. 區(qū)域提議方法和選擇性搜索

最近有種方法是將問題分解為兩個任務(wù)：首先檢測感興趣的區(qū)域，然后進行圖像分類以確定每個對象的類別。

第一步通常是使用區(qū)域提議方法。這些方法輸出可能包含感興趣對象的邊界框。如果在一個區(qū)域提議中正確地檢測到目標(biāo)對象，那么分類器也應(yīng)該檢測到了它。這就是為什么對這些方法而言，快速和高回應(yīng)率非常重要。重要的是這兩個方法不僅要是快速的，還要有著很高的回應(yīng)率。

這兩個方法還使用了一種聰明的體系結(jié)構(gòu)，其中目標(biāo)檢測和分類任務(wù)的圖像預(yù)處理部分相同，從而使其比簡單地連接兩個算法更快。選擇性搜索是最常用的區(qū)域提議方法之一。

它的第一步是應(yīng)用圖像分割，如下所示：

深入了解目標(biāo)檢測深度學(xué)習(xí)算法的技術(shù)細(xì)節(jié)

從圖像分割輸出中，選擇性搜索將依次進行：

從分割部分創(chuàng)建邊界框，然后將其添加到區(qū)域建議列表中。
根據(jù)四種相似度：顏色，紋理，大小和形狀，將幾個相鄰的小片段合并為較大的片段。
返回到第一步，直到該部分覆蓋了整個圖像。

深入了解目標(biāo)檢測深度學(xué)習(xí)算法的技術(shù)細(xì)節(jié)

層次分組

在了解了選擇性搜索的工作原理后，接著看一些使用該法最常見的目標(biāo)檢測算法。

2. 第一目標(biāo)檢測算法：R-CNN

Ross Girshick等人提出了區(qū)域CNN(R-CNN)，允許選擇性搜索與CNN結(jié)合使用。實際上，對于每個區(qū)域方案(如本文中的2000)，一個正向傳播會通過CNN生成一個輸出向量。這個向量將被輸入到one-vs-all分類器中。每個類別一個分類器，例如一個分類器設(shè)置為如果圖像是狗，則標(biāo)簽=1，否則為0，另一個分類器設(shè)置為如果圖像是貓，標(biāo)簽= 1，否則為0，以此類推。R-CNN使用的分類算法是SVM。

但如何將該地區(qū)標(biāo)記為提議呢?當(dāng)然，如果該區(qū)域完全匹配真值，可以將其標(biāo)為1，如果給定的對象根本不存在，這個對象可以被標(biāo)為0。

如果圖像中存在對象的一部分怎么辦?應(yīng)該把這個區(qū)域標(biāo)記為0還是1?為了確保訓(xùn)練分類器的區(qū)域是在預(yù)測一幅圖像時可以實際獲得的區(qū)域(不僅僅是那些完美匹配的區(qū)域)，來看看選擇性搜索和真值預(yù)測的框的并集(IoU)。

IoU是一個度量，用預(yù)測的框和真值框的重疊面積除以它們的并集面積來表示。它獎勵成功的像素檢測，懲罰誤報，以防止算法選擇整個圖像。

深入了解目標(biāo)檢測深度學(xué)習(xí)算法的技術(shù)細(xì)節(jié)

回到R-CNN方法，如果IoU低于給定的閾值(0.3)，那么相對應(yīng)的標(biāo)簽將是0。

在對所有區(qū)域建議運行分類器后，R-CNN提出使用一個特定類的邊界框(bbox)回歸量來優(yōu)化邊界框。bbox回歸量可以微調(diào)邊界框的邊界位置。例如，如果選擇性搜索已經(jīng)檢測到一只狗，但只選擇了它的一半，而意識到狗有四條腿的bbox回歸量，將確保狗的整個身體被選中。

也多虧了新的bbox回歸預(yù)測，我們可以使用非最大抑制(NMS)舍棄重疊建議。這里的想法是識別并刪除相同對象的重疊框。NMS根據(jù)分類分?jǐn)?shù)對每個類的建議進行排序，并計算具有最高概率分?jǐn)?shù)的預(yù)測框與所有其他預(yù)測框(于同一類)的IoU。如果IoU高于給定的閾值(例如0.5)，它就會放棄這些建議。然后對下一個最佳概率重復(fù)這一步。

深入了解目標(biāo)檢測深度學(xué)習(xí)算法的技術(shù)細(xì)節(jié)

綜上所述，R-CNN遵循以下步驟：

根據(jù)選擇性搜索創(chuàng)建區(qū)域建議(即,對圖像中可能包含對象的部分進行預(yù)測)。
將這些地區(qū)帶入到pre-trained模型，然后運用支持向量機分類子圖像。通過預(yù)先訓(xùn)練的模型運行這些區(qū)域，然后通過SVM(支持向量機)對子圖像進行分類。
通過邊界框預(yù)測來運行正向預(yù)測，從而獲得更好的邊界框精度。
在預(yù)測過程中使用NMS去除重疊的建議。

深入了解目標(biāo)檢測深度學(xué)習(xí)算法的技術(shù)細(xì)節(jié)

R-CNN 網(wǎng)絡(luò)

不過，R-CNN也有一些問題：

該方法仍然需要分類所有地區(qū)建議，可能導(dǎo)致達到計算瓶頸——不可能將其用于實時用例。
在選擇性搜索階段不會學(xué)習(xí),可能導(dǎo)致針對某些類型的數(shù)據(jù)集會提出糟糕的區(qū)域建議。

3. 小小的改進：Fast R-CNN(快速R-CNN)

Fast R-CNN，顧名思義，比R-CNN快。它基于R-CNN，但有兩點不同：

不再向CNN提供對每個地區(qū)的提議,通過對CNN提供整幅圖像來生成一個卷積特性映射(使用一個過濾器將矢量的像素轉(zhuǎn)換成另一個矢量,能得到一個卷積特性映射)。接下來，建議區(qū)域被識別與選擇性搜索，然后利用區(qū)域興趣池(RoI pooling)層將它們重塑成固定大小，從而能夠作為全連接層的輸入。
Fast-RCNN使用更快,精度更高的softmax層而不是SVM來進行區(qū)域建議分類。

以下是該網(wǎng)絡(luò)的架構(gòu)：

深入了解目標(biāo)檢測深度學(xué)習(xí)算法的技術(shù)細(xì)節(jié)

如下所示，F(xiàn)ast R-CNN在訓(xùn)練和測試方面比R-CNN要快得多。但是，受選擇性搜索方法的影響，該方法仍然存在瓶頸。

深入了解目標(biāo)檢測深度學(xué)習(xí)算法的技術(shù)細(xì)節(jié)

4. R-CNN能有多快?——Faster R-CNN(更快的R-CNN)

雖然Fast R-CNN比R-CNN快得多，但其瓶頸仍然是選擇性搜索，因為它非常耗時。因此，任少卿等人設(shè)計了更快R-CNN來解決這個問題，并提出用一個非常小的卷積網(wǎng)絡(luò)區(qū)域提議網(wǎng)Region Proposal network(RPN)代替選擇性搜索來尋找感興趣的區(qū)域。

深入了解目標(biāo)檢測深度學(xué)習(xí)算法的技術(shù)細(xì)節(jié)

簡而言之，RPN是一個直接尋找區(qū)域建議的小型網(wǎng)絡(luò)。一種簡單的方法是創(chuàng)建一個深度學(xué)習(xí)模型，輸出x_min、y_min、x_max和x_max來獲得一個區(qū)域建議的邊界框(如果我們想要2000個區(qū)域，那么就需要8000個輸出)。然而，有兩個基本問題：

圖像的大小和比例可能各不相同,所以很難創(chuàng)建一個能正確地預(yù)測原始坐標(biāo)的模型。
在預(yù)測中有一些坐標(biāo)排序約束(x_min < x_max, y_min < y_max)。

為了克服這個問題，我們將使用錨：錨是在圖像上預(yù)設(shè)好不同比例和比例的框。(錨點是預(yù)定義的框，它們具有不同的比例，并在整個圖像上縮放。)

例如，對于給定的中心點，通常從三組大小(例如，64px, 128px, 256px)和三種不同的寬高比(1/1,1/2,2/1)開始。在本例中，對于圖像的給定像素(方框的中心)，最終會有9個不同的方框。

深入了解目標(biāo)檢測深度學(xué)習(xí)算法的技術(shù)細(xì)節(jié)

錨-比例和縮放

那么一張圖片總共有多少個錨點呢?

我們不打算在原始圖像上創(chuàng)建錨點，而是在最后一個卷積層的輸出特征圖上創(chuàng)建錨點，這一點非常重要。例如，對于一個1000*600的輸入圖像，由于每個像素有一個錨點，所以有1000 *600*9=5400000個錨點，這是錯誤的。確實，因為要在特征圖譜上創(chuàng)建它們，所以需要考慮子采樣比率，即由于卷積層的大步移動，輸入和輸出維度之間的因子減少。

在示例中，如果我們將這個比率設(shè)為16(像在VGG16中那樣)，那么特征圖譜的每個空間位置將有9個錨，因此“只有”大約20000個錨(5400000/ 16^2)。這意味著輸出特征中的兩個連續(xù)像素對應(yīng)于輸入圖像中相距16像素的兩個點。注意，這個下降采樣比率是Faster R-CNN的一個可調(diào)參數(shù)。

深入了解目標(biāo)檢測深度學(xué)習(xí)算法的技術(shù)細(xì)節(jié)

錨點中心

現(xiàn)在剩下的問題是如何從那20000個錨到2000個區(qū)域建議(與之前的區(qū)域建議數(shù)量相同)，這是RPN的目標(biāo)。

5. 如何訓(xùn)練區(qū)域建議網(wǎng)絡(luò)

要實現(xiàn)這一點，需要RPN告知框包含的是對象還是背景，以及對象的精確坐標(biāo)。輸出預(yù)測有作為背景的概率，作為前景的概率，以及增量 Dx, Dy, Dw, Dh，它們是錨點和最終建議之間的差異。

(1) 第一,我們將刪除跨邊界錨(即因為圖像邊界而被減去的錨點),這給我們留下了約6000張圖像。

(2) 如果存在以下兩個條件中的任一，我們需要標(biāo)簽錨為正：

在所有錨中，該錨具有最高的IoU，并帶有真值框。
錨點至少有0.7的IoU，并帶有真值框。

(3) 如果錨的IoU在所有真值框中小于0.3，需要標(biāo)簽其為負(fù)。

(4) 舍棄所有剩下的錨。

(5) 訓(xùn)練二進制分類和邊界框回歸調(diào)整。

最后，關(guān)于實施的幾點說明：

希望正錨和負(fù)錨的數(shù)量在小批處理中能夠平衡。
因為想盡量減少損失而使用了多任務(wù)損失，這是有意義的——損失有錯誤預(yù)測前景或背景的錯誤，以及方框的準(zhǔn)確性的錯誤。
使用預(yù)先訓(xùn)練好的模型中的權(quán)值來初始化卷積層。

6. 如何使用區(qū)域建議網(wǎng)絡(luò)

所有錨(20000)計入后得到新的邊界框和成為所有邊界框的前景(即成為對象)的概率。
使用non-maximum抑制。
建議選擇：最后,僅保留按分?jǐn)?shù)排序的前N個建議(當(dāng)N=2000，回到2000個區(qū)域建議)。

像之前的方法一樣，最終獲得了2000個方案。盡管看起來更復(fù)雜，這個預(yù)測步驟比以前的方法更快更準(zhǔn)確。

下一步是使用RPN代替選擇性搜索，創(chuàng)建一個與Fast R-CNN相似的模型(即RoI pooling和一個分類器+bbox回歸器)。然而，不像之前那樣，把這2000個建議進行裁剪，然后通過一個預(yù)先訓(xùn)練好的基礎(chǔ)網(wǎng)絡(luò)進行傳遞。而是重用現(xiàn)有的卷積特征圖。實際上，使用RPN作為提案生成器的一個好處是在RPN和主檢測器網(wǎng)絡(luò)之間共享權(quán)值和CNN。

使用預(yù)先訓(xùn)練好的網(wǎng)絡(luò)對RPN進行訓(xùn)練，然后進行微調(diào)。
使用預(yù)先訓(xùn)練好的網(wǎng)絡(luò)對檢測器網(wǎng)絡(luò)進行訓(xùn)練，然后進行微調(diào)。使用來自RPN的建議區(qū)域。
使用來自第二個模型的權(quán)重對RPN進行初始化，然后進行微調(diào)——這將是最終的RPN模型)。
最后，對檢測器網(wǎng)絡(luò)進行微調(diào)(RPN權(quán)值固定)。CNN的特色圖將在兩個網(wǎng)絡(luò)之間共享，請參見下圖。

深入了解目標(biāo)檢測深度學(xué)習(xí)算法的技術(shù)細(xì)節(jié)

Faster R-CNN網(wǎng)絡(luò)

綜上所述，F(xiàn)aster R-CNN比之前的方法更準(zhǔn)確，比Fast-R-CNN快10倍左右，這是一個很大的進步，也是實時評分的開始。

深入了解目標(biāo)檢測深度學(xué)習(xí)算法的技術(shù)細(xì)節(jié)

即便如此，區(qū)域建議檢測模型對于嵌入式系統(tǒng)來說還是不夠，因為這些模型太笨重，而且對于大多數(shù)實時評分案例來說速度也不夠快——最后一例是大約每秒檢測5張圖像。

責(zé)任編輯：趙寧寧來源：今日頭條

深度學(xué)習(xí)算法目標(biāo)檢測

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營