計(jì)算機(jī)視覺(jué)項(xiàng)目對(duì)象檢測(cè)的初學(xué)者指南
譯文【51CTO.com快譯】近年來(lái),隨著人工智能技術(shù)的發(fā)展和進(jìn)步,計(jì)算機(jī)視覺(jué)和深度學(xué)習(xí)受到了業(yè)界廣泛的關(guān)注。值得稱道的是,以前被認(rèn)為極具挑戰(zhàn)性的對(duì)象檢測(cè)應(yīng)用程序現(xiàn)在變得更容易創(chuàng)建。
對(duì)象檢測(cè)可以定義為一種計(jì)算機(jī)視覺(jué)技術(shù),旨在識(shí)別和定位圖像或視頻中的對(duì)象。雖然計(jì)算機(jī)通常能夠比人類更快地處理信息,但是計(jì)算機(jī)仍然很難檢測(cè)到圖像或視頻上的各種對(duì)象。這是因?yàn)橛?jì)算機(jī)只能以二進(jìn)制語(yǔ)言解釋大部分輸出。
本文旨在簡(jiǎn)要討論:
- 對(duì)象檢測(cè)的基礎(chǔ)知識(shí)
- 對(duì)象檢測(cè)模型
- 對(duì)象檢測(cè)的好處
- 挑戰(zhàn)和解決方案
在討論這幾點(diǎn)之前,需要了解圖像分類和對(duì)象檢測(cè)之間的區(qū)別。初學(xué)者容易混淆。
對(duì)象檢測(cè)和圖像分類的區(qū)別
先對(duì)對(duì)象檢測(cè)和圖像分類進(jìn)行一下分析以了解它們之間的區(qū)別。當(dāng)人工智能系統(tǒng)查看狗的圖片時(shí),可以立即指出是動(dòng)物的圖像,也就是說(shuō)出圖像的內(nèi)容。這就是圖像分類的全部?jī)?nèi)容。
而只要有一個(gè)對(duì)象,就可以使用圖像分類技術(shù)。但是如果有多個(gè)對(duì)象,那就是對(duì)象檢測(cè)技術(shù)發(fā)揮作用的時(shí)候。通過(guò)圍繞感興趣的對(duì)象構(gòu)建矩形框,可以幫助人工智能系統(tǒng)識(shí)別每個(gè)框包含的對(duì)象。還可以使用這一方法指示對(duì)象的確切位置。而一張圖片可能包含多個(gè)對(duì)象,因此可能會(huì)顯示多個(gè)邊界框。
對(duì)象檢測(cè)的應(yīng)用是無(wú)限的,但它們通常識(shí)別和檢測(cè)真實(shí)物體,例如人類、建筑物、汽車等等。此外,人工智能系統(tǒng)需要大量不同類型對(duì)象的標(biāo)記數(shù)據(jù),以便將來(lái)識(shí)別這些對(duì)象。這意味著在標(biāo)記數(shù)據(jù)集上訓(xùn)練的機(jī)器學(xué)習(xí)模型將有更多的機(jī)會(huì)做出準(zhǔn)確的預(yù)測(cè)。
有一些行業(yè)廠商提供了數(shù)據(jù)注釋服務(wù),用戶只需要根據(jù)其要求選擇合適的服務(wù)。這種技術(shù)廣泛應(yīng)用于人物/物體跟蹤和視頻監(jiān)控?cái)z像頭的應(yīng)用中,以下將進(jìn)一步詳細(xì)說(shuō)明。
對(duì)象檢測(cè)模型
現(xiàn)在大家已經(jīng)清楚了對(duì)象檢測(cè)的定義,那么來(lái)看看一些流行的對(duì)象檢測(cè)模型。
(1)R-CNN、Faster R-CNN、Mask R-CNN
最流行的對(duì)象檢測(cè)模型屬于基于區(qū)域的CNN模型系列。該模型徹底改變了對(duì)象檢測(cè)領(lǐng)域過(guò)去的工作方式。在過(guò)去的幾年,它們不僅變得更加準(zhǔn)確,而且更加高效。
(2)SSD和YOLO
2016年發(fā)布的單發(fā)探測(cè)器系列有很多模型。雖然單次多盒檢測(cè)(SSD)模型的檢測(cè)速度比CNN模型快,但它們的準(zhǔn)確率遠(yuǎn)低于CNN。
YOLO模型與基于區(qū)域的算法有很大不同。就像SDD模型一樣,YOLO模型比R-CNN模型更快,但由于精度低而有些落后。對(duì)于移動(dòng)或嵌入式設(shè)備,SDD模型是很好的選擇。
(3)CenterNet
近年來(lái),這些對(duì)象檢測(cè)模型越來(lái)越受歡迎。CentreNet遵循基于關(guān)鍵點(diǎn)的對(duì)象檢測(cè)方法。
與SSD模型或R-CNN模型相比,該模型被證明更高效、更準(zhǔn)確。這種方法的唯一缺點(diǎn)是訓(xùn)練過(guò)程緩慢。
對(duì)象檢測(cè)對(duì)現(xiàn)實(shí)世界的好處
對(duì)象檢測(cè)與其他類似的計(jì)算機(jī)視覺(jué)技術(shù)(例如圖像分割和圖像識(shí)別)完全相互關(guān)聯(lián),可幫助人們理解和分析視頻和圖像中的場(chǎng)景。如今,在對(duì)象檢測(cè)市場(chǎng)中有一些實(shí)際用例,對(duì)不同行業(yè)領(lǐng)域產(chǎn)生了巨大影響。
(1)自動(dòng)駕駛汽車
自動(dòng)駕駛汽車成功背后的主要原因是基于實(shí)時(shí)對(duì)象檢測(cè)人工智能的模型。這些系統(tǒng)使人們能夠定位、識(shí)別和跟蹤周圍的物體,以確保安全和效率。
(2)視頻監(jiān)控
實(shí)時(shí)對(duì)象檢測(cè)和跟蹤物體運(yùn)動(dòng)使視頻監(jiān)控?cái)z像頭能夠跟蹤特定位置(例如機(jī)場(chǎng))的場(chǎng)景記錄。這種最先進(jìn)的技術(shù)可以準(zhǔn)確識(shí)別和定位視頻中給定對(duì)象的多個(gè)實(shí)例。當(dāng)對(duì)象實(shí)時(shí)地穿過(guò)給定場(chǎng)景或穿過(guò)特定幀時(shí),視頻監(jiān)控系統(tǒng)會(huì)存儲(chǔ)帶有實(shí)時(shí)跟蹤源的信息。
(3)人群計(jì)數(shù)
對(duì)于購(gòu)物中心、機(jī)場(chǎng)、城市廣場(chǎng)和主題公園等人口稠密地區(qū),這一應(yīng)用程序的優(yōu)異表現(xiàn)令人難以置信。事實(shí)證明,這個(gè)對(duì)象檢測(cè)應(yīng)用程序有助于大型企業(yè)和市政當(dāng)局跟蹤特定時(shí)間范圍內(nèi)的道路交通、違法行為和車輛數(shù)量。
(4)異常檢測(cè)
有多種異常檢測(cè)應(yīng)用程序可用于使用對(duì)象檢測(cè)的不同行業(yè)。例如在農(nóng)業(yè)領(lǐng)域,對(duì)象檢測(cè)模型可以準(zhǔn)確識(shí)別和發(fā)現(xiàn)植物病害的潛在實(shí)例。在這些技術(shù)的幫助下,農(nóng)民將會(huì)得到通知,能夠防止他們的農(nóng)作物受到病害威脅。
作為另一個(gè)例子,該模型已被用于識(shí)別皮膚感染和有癥狀的病變。一些應(yīng)用程序已經(jīng)將對(duì)象檢測(cè)模型用于皮膚護(hù)理和痤瘡治療。
需要記住的是,在創(chuàng)建任何類型的對(duì)象檢測(cè)模型時(shí)都會(huì)遇到一些問(wèn)題。但是可以使用一些解決方案來(lái)解決這些挑戰(zhàn)。
對(duì)象檢測(cè)建模的挑戰(zhàn)和解決方案
(1)對(duì)象定位
對(duì)象檢測(cè)的第一個(gè)挑戰(zhàn)是對(duì)物體的圖像和位置進(jìn)行分類,這稱為對(duì)象定位。為了解決這個(gè)問(wèn)題,大多數(shù)開(kāi)發(fā)人員經(jīng)常使用多任務(wù)損失函數(shù)來(lái)懲罰定位和分類錯(cuò)誤。
解決方案:基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)顯示一類對(duì)象檢測(cè)框架,其中包含對(duì)象可能位于的區(qū)域生成方案,然后是CNN模型處理以對(duì)對(duì)象位置進(jìn)行分類和糾正。Fast-RCNN模型可以改善R-CNN的初始結(jié)果。顧名思義, FastR-CNN模型提供了驚人的速度,并且準(zhǔn)確度也提高了,因?yàn)槎ㄎ缓蛯?duì)象分類任務(wù)使用多任務(wù)損失函數(shù)進(jìn)行了優(yōu)化。
(2)實(shí)時(shí)檢測(cè)速度
快速的對(duì)象檢測(cè)算法一直是同時(shí)準(zhǔn)確地對(duì)關(guān)鍵目標(biāo)進(jìn)行分類和定位以滿足實(shí)時(shí)視頻處理的主要問(wèn)題。多年來(lái),一些算法已經(jīng)將測(cè)試時(shí)間從每秒0.02幀提高到每秒155幀。
解決方案:Faster R-CNN和Fast R-CNN模型旨在加快R-CNN方法的原始速度。由于R-CNN使用選擇性搜索來(lái)生成2000個(gè)候選感興趣區(qū)域并單獨(dú)通過(guò)每個(gè)基于CNN的模型,因此這可能會(huì)導(dǎo)致模型處理失敗后的嚴(yán)重瓶頸。而Fast R-CNN模型通過(guò)CNN base傳輸一次圖像,然后將通過(guò)選擇性搜索創(chuàng)建的ROI匹配到特征圖,同時(shí)將處理時(shí)間減少20倍。
(3)多縱橫比和大小
對(duì)于多個(gè)對(duì)象檢測(cè)應(yīng)用程序,人們感興趣的項(xiàng)目可能會(huì)出現(xiàn)在多個(gè)縱橫比和不同的大小。研究人員證明了多種方法可以確保檢測(cè)算法能夠識(shí)別不同視角和大小的不同對(duì)象。
解決方案:不是采用選擇性搜索,而是使用區(qū)域提議網(wǎng)絡(luò)更新Faster R-CNN,該網(wǎng)絡(luò)在圖片的卷積特征圖上使用一個(gè)小的滑動(dòng)窗口來(lái)生成感興趣的候選區(qū)域。可以在不同位置預(yù)測(cè)多個(gè)興趣區(qū)域,并相對(duì)于參考錨框進(jìn)行描述。選擇這些錨框的大小和形狀以跨越一系列的縱橫比和不同的大小。它允許多種類型的對(duì)象進(jìn)行識(shí)別,希望在定位任務(wù)期間不需要調(diào)整邊界框坐標(biāo)。
(4)帶注釋的數(shù)據(jù)數(shù)量有限
需要考慮的不可否認(rèn)的事實(shí)之一是帶注釋的數(shù)據(jù)數(shù)量有限,這成為構(gòu)建應(yīng)用程序的障礙。這些數(shù)據(jù)集專門包含數(shù)十到數(shù)百個(gè)對(duì)象的真實(shí)示例,而圖像分類數(shù)據(jù)集包含大約10萬(wàn)個(gè)不同的類。
解決方案:市場(chǎng)上現(xiàn)在提供了一些圖像數(shù)據(jù)集,例如由微軟公司提供的COCO Dataset,它目前采用一些對(duì)象檢測(cè)注釋數(shù)據(jù)。該數(shù)據(jù)集包含30萬(wàn)張根據(jù)精確位置標(biāo)簽具有80個(gè)不同對(duì)象類別的分割圖片。每個(gè)圖像平均包含7個(gè)對(duì)象和項(xiàng)目,它們以非常大的比例出現(xiàn)。減少數(shù)據(jù)稀缺的最主要的方法之一是YOLO9000(YOLO的第二個(gè)版本)。YOLO9000處理了YOLO的許多關(guān)鍵更新,但它也旨在縮小圖像分類和對(duì)象檢測(cè)之間的數(shù)據(jù)集差距。此外,它同時(shí)訓(xùn)練ImageNet和COCO,這是一個(gè)具有數(shù)萬(wàn)個(gè)對(duì)象類的圖像分類數(shù)據(jù)集。 結(jié)語(yǔ)
根據(jù)來(lái)源,對(duì)象檢測(cè)被認(rèn)為比圖像分類困難得多,特別是為了解決上述問(wèn)題。研究人員繼續(xù)努力減少這些障礙,有時(shí)會(huì)產(chǎn)生驚人的成果,然而仍然存在重大問(wèn)題。當(dāng)然,所有的對(duì)象檢測(cè)模型都在努力處理更小的對(duì)象,尤其是那些被部分遮擋在一起收集的對(duì)象。具有對(duì)象分類和定位精度的實(shí)時(shí)檢測(cè)仍然是一個(gè)值得注意的問(wèn)題,研究人員在做出設(shè)計(jì)決策時(shí)通常會(huì)優(yōu)先考慮其中一件事。從樂(lè)觀的角度來(lái)看,視頻跟蹤技術(shù)可能會(huì)在未來(lái)在其他應(yīng)用場(chǎng)景中會(huì)看到一些進(jìn)展。
原文標(biāo)題:Beginner’s Guide to Object Detection for Computer Vision Project,作者:Analytics Insight
【51CTO譯稿,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文譯者和出處為51CTO.com】