自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

YOLO 詳解:基于深度學習的物體檢測

人工智能 深度學習
與依賴基于分類方法的傳統(tǒng)物體檢測模型不同,YOLO 通過基于回歸的方法直接推斷邊界框來預測物體位置。

引言

本文介紹了YOLO(You Only Look Once),一種基于卷積神經(jīng)網(wǎng)絡(CNN)的物體檢測模型。與依賴基于分類方法的傳統(tǒng)物體檢測模型不同,YOLO通過基于回歸的方法直接推斷邊界框來預測物體位置。這種端到端的CNN模型以其卓越的處理速度和高預測精度脫穎而出,在這兩方面都優(yōu)于許多現(xiàn)有的物體檢測架構。

圖1. YOLO檢測圖

背景

近年來,物體檢測的進展主要依賴于基于CNN的架構,包括R-CNN和DPM等著名模型。然而,大多數(shù)傳統(tǒng)模型涉及多階段流程,導致推理時間較長且復雜性增加。此外,它們復雜的結(jié)構使得優(yōu)化和參數(shù)調(diào)整變得困難。相比之下,YOLO引入了一種基于回歸的端到端CNN架構,提供了幾個關鍵優(yōu)勢:

  • 實時推理:YOLO實現(xiàn)了每秒45幀的驚人處理速度,當使用Titan X GPU時,其變體甚至可以達到每秒150幀。這使得模型能夠以極低的25毫秒延遲實時處理視頻流。
  • 全局推理:在訓練階段,YOLO一次性處理整個圖像,捕捉物體外觀和上下文信息。這種整體方法有助于減少背景錯誤,這是滑動窗口或基于區(qū)域提議方法的常見問題。
  • 學習可泛化的表示:作者通過在自然圖像上訓練的模型對藝術作品圖像進行測試,展示了YOLO的強大泛化能力。這一表現(xiàn)顯著優(yōu)于傳統(tǒng)物體檢測模型。

方法

統(tǒng)一檢測

圖2. YOLO流程:該模型通過以下過程推斷物體的邊界框

如圖2所示,YOLO模型通過邊界框回歸對給定圖像進行分割并檢測物體。所有這些過程都在單個CNN模型中完成。

首先,模型將輸入圖像劃分為S × S的網(wǎng)格。每個網(wǎng)格單元預測B個邊界框并返回相應的置信度分數(shù)。置信度分數(shù)是模型準確預測目標物體的信心度量。作者將置信度分數(shù)定義為以下公式。

圖3. 計算不同邊界框IOU的示例:綠色框是真實值,紅色框是預測值

注意,IOU表示“交并比”,如圖3所示。它通過以下方程獲得:

重疊區(qū)域表示預測值和真實值重疊的區(qū)域,而并集區(qū)域是預測值和真實值區(qū)域的并集。

預測的邊界框有5個值。這些值是x、y、w、h和置信度。x和y值表示框的中心坐標相對于網(wǎng)格單元邊界的位置。w和h值表示預測邊界框的長度和高度相對于整個圖像的比例。最后,置信度表示置信度分數(shù)。

在圖2中,底部的彩色框表示每個網(wǎng)格單元的類別預測。這些預測表示為條件概率P(Class∣Object),表示在邊界框中存在物體的情況下,特定類別出現(xiàn)的可能性。

每個網(wǎng)格單元獨立于邊界框數(shù)量預測這些概率值。然后,通過將條件概率P(Class∣Object)與置信度分數(shù)P(Object) × IOU相乘,計算出類別特定的置信度分數(shù)。這個最終分數(shù)既包含了特定類別出現(xiàn)在邊界框中的概率,也包含了預測框與目標物體匹配的準確性。

網(wǎng)絡設計

圖4. YOLO模型結(jié)構

如前文所述,作者將YOLO設計為CNN結(jié)構。該網(wǎng)絡是一個簡單的結(jié)構,通過CNN層提取圖像特征,并通過最后的全連接層(FC層)輸出預測邊界框值的概率。

該模型是通過模擬GoogleNet構建的。網(wǎng)絡有24個CNN層和兩個FC層。所提出的模型與GoogLeNet的區(qū)別在于inception模塊。YOLO模型使用1 × 1的降維層,后接3 × 3的卷積層,而不是inception模塊。

作者還介紹了Fast YOLO,這是YOLO的更快版本。該模型使用9個卷積層,濾波器數(shù)量比YOLO少。除了模型大小外,YOLO和Fast YOLO的所有超參數(shù)都相同。

模型中的最后一個張量的形狀為S × S × (5B + C),其中C是類別概率。由于作者設置B = 2,C = 20,S = 7,最終張量的形狀為7 × 7 × 30。

模型訓練

(1) 預訓練

設計模型的前20個CNN層使用ImageNet數(shù)據(jù)集進行預訓練。該訓練一直進行到模型的分類性能達到88%的top-5準確率。然后,這個預訓練模型用于物體檢測任務,并添加了4個CNN層和2個FC層。這里,添加的層是隨機初始化的。為了提高物體檢測性能,作者將輸入圖像分辨率從224 × 224增加到448 × 448。

(2) 模型輸出

YOLO的最后一層返回類別概率和邊界框坐標。注意,邊界框的坐標、寬度和高度通過歸一化限制在0到1之間。

(3) 損失函數(shù)

損失函數(shù)考慮了所有預測邊界框的估計類別、坐標、高度和寬度。損失函數(shù)表達式如下。

在這種情況下,1?表示單元格i中是否存在物體,而1??表示單元格i中的第j個邊界框預測器負責進行預測。

作者優(yōu)先考慮坐標預測的損失,而不是沒有物體的單元格的損失。為此,引入了兩個加權因子:一個用于坐標預測(λcoord),另一個用于非物體預測(λnoobj)。在本研究中,λcoord設置為5,λnoobj設置為0.5。

推理

YOLO模型預測多個邊界框,本文中具體為98個框。作者提到,所提出的模型可以快速推理,因為它只需要一次網(wǎng)絡評估。

網(wǎng)格設計強制了邊界框預測的空間多樣性。大多數(shù)目標物體落入一個單元格,模型只為每個物體預測一個框。此外,相對較大的目標可以通過多個單元格很好地定位。作者使用非極大值抑制來處理這些問題。這種抑制方法使mAP提高了23%。

與其他檢測系統(tǒng)的比較

本文簡要介紹了所提出的模型與其他現(xiàn)有方法的區(qū)別。

(1) 可變形部件模型

雖然可變形部件模型(DPM)通過分離的步驟檢測目標物體,但所提出的YOLO通過CNN模塊整合了這些單獨的過程。

(2) R-CNN

現(xiàn)有的R-CNN通過評估候選邊界框的分數(shù)來預測目標物體的位置。YOLO的不同之處在于它使用較少的候選邊界框,并且提取物體特征的過程完全通過CNN完成。

(3) 其他快速檢測器

這項工作提到了基于DPM的其他方法,如Fast R-CNN和Faster R-CNN。所提到的研究側(cè)重于提高幀處理速度,而作者則更注重在保持實時處理速度(每秒30幀)的同時提高預測準確性。

(4) Deep MultiBox

所提到的方法SSD(Deep Multibox)無法執(zhí)行通用物體檢測,需要進一步的圖像塊分類,而所提出的YOLO是端到端的檢測框架。

(5) OverFeat

Overfeat和YOLO在目的上相似。然而,所提到的模型側(cè)重于定位,而YOLO則專注于優(yōu)化檢測性能。

(6) MultiGrasp

MultiGrasp和YOLO的檢測過程相似,但所提到的方法是用于抓取檢測的模型,而所提出的網(wǎng)絡則設計用于更具挑戰(zhàn)性的任務——物體檢測。

實驗

數(shù)據(jù)集

圖5. VOC 2007數(shù)據(jù)中的物體檢測示例

使用了物體檢測領域的公共數(shù)據(jù)集PASCAL VOC 2007。該數(shù)據(jù)集包含許多圖像,其中有各種類型的物體,如汽車、狗、人、自行車等。作者還包含了VOC 2012數(shù)據(jù)集進行額外實驗。圖5展示了使用VOC數(shù)據(jù)集的示例結(jié)果。

模型設置

(1) 超參數(shù)

  • 訓練輪數(shù):135
  • 批量大?。?4
  • 優(yōu)化器:隨機梯度下降(SGD)
  • 動量:0.9
  • 衰減:0.0005
  • 學習率:0.001(第一輪),0.01(第2 ~ 75輪),0.001(第76 ~ 105輪),0.0001(最后30輪)
  • Dropout:0.5

(2) 數(shù)據(jù)增強

在這項工作中,應用了數(shù)據(jù)增強以防止訓練模型的過擬合。作者隨機調(diào)整原始圖像的大小或平移,最多調(diào)整其原始大小的20%。此外,圖像的顏色曝光和飽和度在HSV顏色空間中隨機調(diào)整,最多調(diào)整1.5倍。

(3) 評估指標

作者采用了兩個測量指標,mAP(平均精度)和FPS(每秒幀數(shù))。前者代表模型的檢測準確性,后者是實時處理能力的度量。

結(jié)果

圖6. PASCAL VOC 2007數(shù)據(jù)集上的比較結(jié)果。一些模型同時使用VOC 2007和VOC 2012進行訓練

作者將YOLO與其他現(xiàn)有的物體檢測方法(包括Faster R-CNN)進行了比較。這里,F(xiàn)PS達到30或更高的系統(tǒng)被歸類為實時檢測器。mAP和FPS的比較結(jié)果如圖6所示。其他現(xiàn)有方法的準確性略高于YOLO,但處理速度非常慢。另一方面,所提出的模型在實時能力和準確性之間取得了適當?shù)钠胶狻?/p>

圖7. Fast R-CNN和YOLO檢測結(jié)果的錯誤分析圖

與當時最先進的Fast R-CNN模型進行了深入比較。作者根據(jù)交并比(IOU)指標描述了檢測結(jié)果如下。

  • 正確:類別正確且IOU > 0.5。
  • 定位:類別正確且0.1 < IOU < 0.5。
  • 相似:類別相似,IOU > 0.1。
  • 其他:類別錯誤,IOU > 0.1。
  • 背景:任何物體的IOU < 0.1

兩個模型的檢測結(jié)果圖如圖7所示。Fast R-CNN在準確性上略優(yōu)于YOLO,但它也占據(jù)了相當大比例的完全錯誤情況(背景)。而YOLO模型正確推斷物體類別的比率高于對比模型。

與Fast R-CNN的結(jié)合

圖8. 結(jié)合模型的mAP結(jié)果。測試使用VOC 2007數(shù)據(jù)集進行

作者設計了以Fast R-CNN為骨干網(wǎng)絡的YOLO模型,并觀察了檢測性能的變化。與原始骨干網(wǎng)絡的結(jié)果比較如圖8所示。圖8中不同F(xiàn)ast R-CNN變體的括號中的文本指的是模型訓練方法。將Fast R-CNN插入YOLO架構中,結(jié)果優(yōu)于不同的學習方法。此外,YOLO也受到骨干網(wǎng)絡的影響。

圖9. VOC 2012數(shù)據(jù)集上的mAP結(jié)果。這里,一些是實時模型,一些不是

作者還通過使用VOC 2012數(shù)據(jù)集進行測試,參考了比較結(jié)果。一些實時技術和不考慮處理速度的簡單檢測方法。實驗結(jié)果列在圖9中。圖9中的陰影行表示所提出的方法YOLO。作者提到,所提出的網(wǎng)絡在相對較小的準確性犧牲下確保了實時性。

泛化能力

本文還介紹了使用其他數(shù)據(jù)集的額外實驗。作者使用VOC 2007數(shù)據(jù)集訓練YOLO模型,并在未見過的數(shù)據(jù)集上進行測試。有趣的是,繪畫數(shù)據(jù)集(Picasso、People-art)也包括在內(nèi)。

圖10. 使用Picasso數(shù)據(jù)集測試的幾個模型的精確率-召回率曲線

圖11. 幾個數(shù)據(jù)集上的定量結(jié)果

作者通過跨數(shù)據(jù)集實驗驗證了模型的泛化性能。圖10和圖11分別展示了精確率-召回率曲線、AP和F1的結(jié)果。與其他現(xiàn)有的物體檢測模型相比,YOLO表現(xiàn)出更好的泛化性能。特別是在訓練數(shù)據(jù)(VOC 2007)和未見數(shù)據(jù)集上的實驗結(jié)果差異相對較小,這意味著YOLO模型對圖像外觀具有魯棒性。

圖12. 使用各種圖像估計的邊界框

圖12展示了YOLO模型的定性結(jié)果。有一些錯誤的預測,如左下角第二個(一個飛行的人被估計為飛機)。然而,如其他結(jié)果所示,所提出的YOLO模型即使在單一類型的訓練數(shù)據(jù)集下,也能準確識別各種類型圖像中的物體。

結(jié)論

本文介紹了YOLO(You Only Look Once),這是一種非??焖偾乙子趯崿F(xiàn)的物體檢測模型。與基于分類模型的傳統(tǒng)物體檢測方法不同,YOLO采用基于回歸的設計,實現(xiàn)了更直接和高效的物體檢測。通過比較分析和泛化實驗,作者展示了YOLO在實現(xiàn)高精度和卓越處理速度的同時,也證明了其對各種物體檢測任務的適應性。

回顧

YOLO(You Only Look Once)代表了物體檢測技術發(fā)展的一個重要里程碑,為后續(xù)眾多版本和改進奠定了基礎。其創(chuàng)新的損失函數(shù)和簡化的檢測方法相比早期方法帶來了顯著的性能提升。然而,正如作者在論文中承認的那樣,YOLO也存在一些局限性。這些局限性包括處理同一物體不同長寬比的挑戰(zhàn),以及準確檢測非常小物體的困難。盡管存在這些限制,YOLO對實時物體檢測的貢獻及其對后續(xù)模型的影響是不可否認的。

參考文獻

(1) GoogleNet:https://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Szegedy_Going_Deeper_With_2015_CVPR_paper.pdf

(2) ImageNet:https://www.image-net.org/

(3) Deformable Parts Models(DPM):https://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Girshick_Deformable_Part_Models_2015_CVPR_paper.pdf

(4) Fast R-CNN:https://openaccess.thecvf.com/content_iccv_2015/papers/Girshick_Fast_R-CNN_ICCV_2015_paper.pdf

(5) You Only Look Once: Unified, Real-Time Object Detection:https://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Redmon_You_Only_Look_CVPR_2016_paper.pdf

責任編輯:趙寧寧 來源: 小白玩轉(zhuǎn)Python
相關推薦

2024-06-24 05:00:00

YOLO模型人工智能

2022-10-26 15:41:38

深度學習Deepfake機器學習

2024-08-27 10:20:00

2022-02-14 11:37:59

自動駕駛算法技術

2025-01-06 12:20:00

YOLO物體識別開發(fā)

2024-01-04 08:00:00

人工智能深度學習

2024-02-16 08:00:00

機器學習ML-data預訓練模型

2021-07-09 10:45:23

BBAugPyTorch神經(jīng)網(wǎng)絡

2024-10-28 16:12:26

2017-11-06 14:00:46

深度學習神經(jīng)科學夢境

2019-05-24 10:30:38

2023-05-22 08:00:00

深度學習機器學習人工智能

2025-03-13 11:11:04

2017-02-16 08:25:35

2023-10-10 19:00:57

云網(wǎng)關報文檢測

2017-08-03 11:00:20

2024-07-10 10:19:26

2019-06-25 10:09:42

Web攻擊機器學習網(wǎng)絡攻擊

2024-10-05 13:00:00

模型優(yōu)化訓練

2024-11-04 08:14:48

點贊
收藏

51CTO技術棧公眾號