自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

YOLO 詳解：基于深度學習的物體檢測

作者：二旺 2025-01-13 10:00:00

人工智能深度學習

與依賴基于分類方法的傳統(tǒng)物體檢測模型不同，YOLO 通過基于回歸的方法直接推斷邊界框來預測物體位置。

引言

本文介紹了YOLO（You Only Look Once），一種基于卷積神經(jīng)網(wǎng)絡（CNN）的物體檢測模型。與依賴基于分類方法的傳統(tǒng)物體檢測模型不同，YOLO通過基于回歸的方法直接推斷邊界框來預測物體位置。這種端到端的CNN模型以其卓越的處理速度和高預測精度脫穎而出，在這兩方面都優(yōu)于許多現(xiàn)有的物體檢測架構。

圖1. YOLO檢測圖

背景

近年來，物體檢測的進展主要依賴于基于CNN的架構，包括R-CNN和DPM等著名模型。然而，大多數(shù)傳統(tǒng)模型涉及多階段流程，導致推理時間較長且復雜性增加。此外，它們復雜的結(jié)構使得優(yōu)化和參數(shù)調(diào)整變得困難。相比之下，YOLO引入了一種基于回歸的端到端CNN架構，提供了幾個關鍵優(yōu)勢：

實時推理：YOLO實現(xiàn)了每秒45幀的驚人處理速度，當使用Titan X GPU時，其變體甚至可以達到每秒150幀。這使得模型能夠以極低的25毫秒延遲實時處理視頻流。
全局推理：在訓練階段，YOLO一次性處理整個圖像，捕捉物體外觀和上下文信息。這種整體方法有助于減少背景錯誤，這是滑動窗口或基于區(qū)域提議方法的常見問題。
學習可泛化的表示：作者通過在自然圖像上訓練的模型對藝術作品圖像進行測試，展示了YOLO的強大泛化能力。這一表現(xiàn)顯著優(yōu)于傳統(tǒng)物體檢測模型。

方法

統(tǒng)一檢測

圖2. YOLO流程：該模型通過以下過程推斷物體的邊界框

如圖2所示，YOLO模型通過邊界框回歸對給定圖像進行分割并檢測物體。所有這些過程都在單個CNN模型中完成。

首先，模型將輸入圖像劃分為S × S的網(wǎng)格。每個網(wǎng)格單元預測B個邊界框并返回相應的置信度分數(shù)。置信度分數(shù)是模型準確預測目標物體的信心度量。作者將置信度分數(shù)定義為以下公式。

圖3. 計算不同邊界框IOU的示例：綠色框是真實值，紅色框是預測值

注意，IOU表示“交并比”，如圖3所示。它通過以下方程獲得：

重疊區(qū)域表示預測值和真實值重疊的區(qū)域，而并集區(qū)域是預測值和真實值區(qū)域的并集。

預測的邊界框有5個值。這些值是x、y、w、h和置信度。x和y值表示框的中心坐標相對于網(wǎng)格單元邊界的位置。w和h值表示預測邊界框的長度和高度相對于整個圖像的比例。最后，置信度表示置信度分數(shù)。

在圖2中，底部的彩色框表示每個網(wǎng)格單元的類別預測。這些預測表示為條件概率P(Class∣Object)，表示在邊界框中存在物體的情況下，特定類別出現(xiàn)的可能性。

每個網(wǎng)格單元獨立于邊界框數(shù)量預測這些概率值。然后，通過將條件概率P(Class∣Object)與置信度分數(shù)P(Object) × IOU相乘，計算出類別特定的置信度分數(shù)。這個最終分數(shù)既包含了特定類別出現(xiàn)在邊界框中的概率，也包含了預測框與目標物體匹配的準確性。

網(wǎng)絡設計

圖4. YOLO模型結(jié)構

如前文所述，作者將YOLO設計為CNN結(jié)構。該網(wǎng)絡是一個簡單的結(jié)構，通過CNN層提取圖像特征，并通過最后的全連接層（FC層）輸出預測邊界框值的概率。

該模型是通過模擬GoogleNet構建的。網(wǎng)絡有24個CNN層和兩個FC層。所提出的模型與GoogLeNet的區(qū)別在于inception模塊。YOLO模型使用1 × 1的降維層，后接3 × 3的卷積層，而不是inception模塊。

作者還介紹了Fast YOLO，這是YOLO的更快版本。該模型使用9個卷積層，濾波器數(shù)量比YOLO少。除了模型大小外，YOLO和Fast YOLO的所有超參數(shù)都相同。

模型中的最后一個張量的形狀為S × S × (5B + C)，其中C是類別概率。由于作者設置B = 2，C = 20，S = 7，最終張量的形狀為7 × 7 × 30。

模型訓練

(1) 預訓練

設計模型的前20個CNN層使用ImageNet數(shù)據(jù)集進行預訓練。該訓練一直進行到模型的分類性能達到88%的top-5準確率。然后，這個預訓練模型用于物體檢測任務，并添加了4個CNN層和2個FC層。這里，添加的層是隨機初始化的。為了提高物體檢測性能，作者將輸入圖像分辨率從224 × 224增加到448 × 448。

(2) 模型輸出

YOLO的最后一層返回類別概率和邊界框坐標。注意，邊界框的坐標、寬度和高度通過歸一化限制在0到1之間。

(3) 損失函數(shù)

損失函數(shù)考慮了所有預測邊界框的估計類別、坐標、高度和寬度。損失函數(shù)表達式如下。

在這種情況下，1?表示單元格i中是否存在物體，而1??表示單元格i中的第j個邊界框預測器負責進行預測。

作者優(yōu)先考慮坐標預測的損失，而不是沒有物體的單元格的損失。為此，引入了兩個加權因子：一個用于坐標預測（λcoord），另一個用于非物體預測（λnoobj）。在本研究中，λcoord設置為5，λnoobj設置為0.5。

推理

YOLO模型預測多個邊界框，本文中具體為98個框。作者提到，所提出的模型可以快速推理，因為它只需要一次網(wǎng)絡評估。

網(wǎng)格設計強制了邊界框預測的空間多樣性。大多數(shù)目標物體落入一個單元格，模型只為每個物體預測一個框。此外，相對較大的目標可以通過多個單元格很好地定位。作者使用非極大值抑制來處理這些問題。這種抑制方法使mAP提高了23%。

與其他檢測系統(tǒng)的比較

本文簡要介紹了所提出的模型與其他現(xiàn)有方法的區(qū)別。

(1) 可變形部件模型

雖然可變形部件模型（DPM）通過分離的步驟檢測目標物體，但所提出的YOLO通過CNN模塊整合了這些單獨的過程。

(2) R-CNN

現(xiàn)有的R-CNN通過評估候選邊界框的分數(shù)來預測目標物體的位置。YOLO的不同之處在于它使用較少的候選邊界框，并且提取物體特征的過程完全通過CNN完成。

(3) 其他快速檢測器

這項工作提到了基于DPM的其他方法，如Fast R-CNN和Faster R-CNN。所提到的研究側(cè)重于提高幀處理速度，而作者則更注重在保持實時處理速度（每秒30幀）的同時提高預測準確性。

(4) Deep MultiBox

所提到的方法SSD（Deep Multibox）無法執(zhí)行通用物體檢測，需要進一步的圖像塊分類，而所提出的YOLO是端到端的檢測框架。

(5) OverFeat

Overfeat和YOLO在目的上相似。然而，所提到的模型側(cè)重于定位，而YOLO則專注于優(yōu)化檢測性能。

(6) MultiGrasp

MultiGrasp和YOLO的檢測過程相似，但所提到的方法是用于抓取檢測的模型，而所提出的網(wǎng)絡則設計用于更具挑戰(zhàn)性的任務——物體檢測。

實驗

數(shù)據(jù)集

圖5. VOC 2007數(shù)據(jù)中的物體檢測示例

使用了物體檢測領域的公共數(shù)據(jù)集PASCAL VOC 2007。該數(shù)據(jù)集包含許多圖像，其中有各種類型的物體，如汽車、狗、人、自行車等。作者還包含了VOC 2012數(shù)據(jù)集進行額外實驗。圖5展示了使用VOC數(shù)據(jù)集的示例結(jié)果。

模型設置

(1) 超參數(shù)

訓練輪數(shù)：135
批量大?。?4
優(yōu)化器：隨機梯度下降（SGD）
動量：0.9
衰減：0.0005
學習率：0.001（第一輪），0.01（第2 ~ 75輪），0.001（第76 ~ 105輪），0.0001（最后30輪）
Dropout：0.5

(2) 數(shù)據(jù)增強

在這項工作中，應用了數(shù)據(jù)增強以防止訓練模型的過擬合。作者隨機調(diào)整原始圖像的大小或平移，最多調(diào)整其原始大小的20%。此外，圖像的顏色曝光和飽和度在HSV顏色空間中隨機調(diào)整，最多調(diào)整1.5倍。

(3) 評估指標

作者采用了兩個測量指標，mAP（平均精度）和FPS（每秒幀數(shù)）。前者代表模型的檢測準確性，后者是實時處理能力的度量。

結(jié)果

圖6. PASCAL VOC 2007數(shù)據(jù)集上的比較結(jié)果。一些模型同時使用VOC 2007和VOC 2012進行訓練

作者將YOLO與其他現(xiàn)有的物體檢測方法（包括Faster R-CNN）進行了比較。這里，F(xiàn)PS達到30或更高的系統(tǒng)被歸類為實時檢測器。mAP和FPS的比較結(jié)果如圖6所示。其他現(xiàn)有方法的準確性略高于YOLO，但處理速度非常慢。另一方面，所提出的模型在實時能力和準確性之間取得了適當?shù)钠胶狻?/p>

圖7. Fast R-CNN和YOLO檢測結(jié)果的錯誤分析圖

與當時最先進的Fast R-CNN模型進行了深入比較。作者根據(jù)交并比（IOU）指標描述了檢測結(jié)果如下。

正確：類別正確且IOU > 0.5。
定位：類別正確且0.1 < IOU < 0.5。
相似：類別相似，IOU > 0.1。
其他：類別錯誤，IOU > 0.1。
背景：任何物體的IOU < 0.1

兩個模型的檢測結(jié)果圖如圖7所示。Fast R-CNN在準確性上略優(yōu)于YOLO，但它也占據(jù)了相當大比例的完全錯誤情況（背景）。而YOLO模型正確推斷物體類別的比率高于對比模型。

與Fast R-CNN的結(jié)合

圖8. 結(jié)合模型的mAP結(jié)果。測試使用VOC 2007數(shù)據(jù)集進行

作者設計了以Fast R-CNN為骨干網(wǎng)絡的YOLO模型，并觀察了檢測性能的變化。與原始骨干網(wǎng)絡的結(jié)果比較如圖8所示。圖8中不同F(xiàn)ast R-CNN變體的括號中的文本指的是模型訓練方法。將Fast R-CNN插入YOLO架構中，結(jié)果優(yōu)于不同的學習方法。此外，YOLO也受到骨干網(wǎng)絡的影響。

圖9. VOC 2012數(shù)據(jù)集上的mAP結(jié)果。這里，一些是實時模型，一些不是

作者還通過使用VOC 2012數(shù)據(jù)集進行測試，參考了比較結(jié)果。一些實時技術和不考慮處理速度的簡單檢測方法。實驗結(jié)果列在圖9中。圖9中的陰影行表示所提出的方法YOLO。作者提到，所提出的網(wǎng)絡在相對較小的準確性犧牲下確保了實時性。

泛化能力

本文還介紹了使用其他數(shù)據(jù)集的額外實驗。作者使用VOC 2007數(shù)據(jù)集訓練YOLO模型，并在未見過的數(shù)據(jù)集上進行測試。有趣的是，繪畫數(shù)據(jù)集（Picasso、People-art）也包括在內(nèi)。

圖10. 使用Picasso數(shù)據(jù)集測試的幾個模型的精確率-召回率曲線

圖11. 幾個數(shù)據(jù)集上的定量結(jié)果

作者通過跨數(shù)據(jù)集實驗驗證了模型的泛化性能。圖10和圖11分別展示了精確率-召回率曲線、AP和F1的結(jié)果。與其他現(xiàn)有的物體檢測模型相比，YOLO表現(xiàn)出更好的泛化性能。特別是在訓練數(shù)據(jù)（VOC 2007）和未見數(shù)據(jù)集上的實驗結(jié)果差異相對較小，這意味著YOLO模型對圖像外觀具有魯棒性。

圖12. 使用各種圖像估計的邊界框

圖12展示了YOLO模型的定性結(jié)果。有一些錯誤的預測，如左下角第二個（一個飛行的人被估計為飛機）。然而，如其他結(jié)果所示，所提出的YOLO模型即使在單一類型的訓練數(shù)據(jù)集下，也能準確識別各種類型圖像中的物體。

結(jié)論

本文介紹了YOLO（You Only Look Once），這是一種非?？焖偾乙子趯崿F(xiàn)的物體檢測模型。與基于分類模型的傳統(tǒng)物體檢測方法不同，YOLO采用基于回歸的設計，實現(xiàn)了更直接和高效的物體檢測。通過比較分析和泛化實驗，作者展示了YOLO在實現(xiàn)高精度和卓越處理速度的同時，也證明了其對各種物體檢測任務的適應性。

回顧

YOLO（You Only Look Once）代表了物體檢測技術發(fā)展的一個重要里程碑，為后續(xù)眾多版本和改進奠定了基礎。其創(chuàng)新的損失函數(shù)和簡化的檢測方法相比早期方法帶來了顯著的性能提升。然而，正如作者在論文中承認的那樣，YOLO也存在一些局限性。這些局限性包括處理同一物體不同長寬比的挑戰(zhàn)，以及準確檢測非常小物體的困難。盡管存在這些限制，YOLO對實時物體檢測的貢獻及其對后續(xù)模型的影響是不可否認的。

參考文獻

(1) GoogleNet：https://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Szegedy_Going_Deeper_With_2015_CVPR_paper.pdf

(2) ImageNet：https://www.image-net.org/

(3) Deformable Parts Models（DPM）：https://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Girshick_Deformable_Part_Models_2015_CVPR_paper.pdf

(4) Fast R-CNN：https://openaccess.thecvf.com/content_iccv_2015/papers/Girshick_Fast_R-CNN_ICCV_2015_paper.pdf

(5) You Only Look Once: Unified, Real-Time Object Detection：https://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Redmon_You_Only_Look_CVPR_2016_paper.pdf

責任編輯：趙寧寧來源：小白玩轉(zhuǎn)Python

YOLO 深度學習物體檢測

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<s id="n9o8q"></s>