YOLOv8 詳解：從零開(kāi)始理解目標(biāo)檢測(cè)

作者：二旺 2024-11-18 17:31:27

在本文中，我們將分解驅(qū)動(dòng)YOLOv8的關(guān)鍵組件，從卷積神經(jīng)網(wǎng)絡(luò)和殘差塊等基本概念開(kāi)始，逐步過(guò)渡到特征金字塔網(wǎng)絡(luò)和CSPDarknet53等高級(jí)結(jié)構(gòu)。

YOLOv8，即廣泛使用的目標(biāo)檢測(cè)算法You Only Look Once（YOLO）的第八次迭代，以其速度、準(zhǔn)確性和效率而聞名。然而，理解其架構(gòu)可能具有挑戰(zhàn)性，尤其是對(duì)于初學(xué)者。

在本文中，我們將分解驅(qū)動(dòng)YOLOv8的關(guān)鍵組件，從卷積神經(jīng)網(wǎng)絡(luò)和殘差塊等基本概念開(kāi)始，逐步過(guò)渡到特征金字塔網(wǎng)絡(luò)和CSPDarknet53等高級(jí)結(jié)構(gòu)。最后，你將清楚地理解這些元素如何結(jié)合在一起，創(chuàng)造出當(dāng)今最強(qiáng)大的目標(biāo)檢測(cè)模型之一。

1. 卷積架構(gòu)

卷積神經(jīng)網(wǎng)絡(luò)（CNN）基于一系列處理層，最基礎(chǔ)的是卷積層和池化層。卷積層使用卷積原理，這是一種圖像處理技術(shù)，涉及兩個(gè)矩陣之間的乘法操作。一個(gè)矩陣代表輸入圖像，另一個(gè)稱為核（或卷積濾波器），生成一個(gè)新矩陣，即過(guò)濾后的圖像。這個(gè)過(guò)程計(jì)算效率高，并有助于突出圖像特征，如邊緣。

使用濾波器進(jìn)行邊緣檢測(cè)的卷積過(guò)程

每次卷積后，通常應(yīng)用池化層以通過(guò)在較小窗口內(nèi)對(duì)信息進(jìn)行分組來(lái)減小過(guò)濾圖像的大小，允許在保留基本特征的同時(shí)進(jìn)行壓縮。一種常見(jiàn)的池化是最大池化，它取窗口中的最大值。

最大池化過(guò)程的示意圖

在CNN架構(gòu)中，這種卷積和池化的循環(huán)多次重復(fù)，允許從圖像中逐步提取重要特征。輸出數(shù)據(jù)隨后被展平并通過(guò)全連接層的神經(jīng)元。傳統(tǒng)上，這一層的輸出使用softmax函數(shù)處理以產(chǎn)生分類概率。

簡(jiǎn)化的CNN架構(gòu)圖

2. 特征金字塔網(wǎng)絡(luò)（FPN）

特征金字塔網(wǎng)絡(luò)（FPN）是一種旨在增強(qiáng)目標(biāo)檢測(cè)和圖像分割性能的架構(gòu)。它利用來(lái)自不同卷積層的輸出來(lái)創(chuàng)建特征的金字塔表示，允許更好地檢測(cè)不同尺度的物體。

展示多尺度目標(biāo)檢測(cè)的特征金字塔網(wǎng)絡(luò)（FPN）架構(gòu)圖

當(dāng)我們通過(guò)卷積網(wǎng)絡(luò)的層進(jìn)行時(shí)，更深層的層傾向于捕捉細(xì)節(jié)，如小物體，而早期層關(guān)注更大物體的模式、形狀和邊緣。FPN的目標(biāo)不僅是使用最終卷積層的輸出，還使用幾個(gè)中間層的輸出來(lái)檢測(cè)多個(gè)尺度的物體。這種多尺度檢測(cè)能力是FPN有效性的關(guān)鍵。

3. 路徑聚合網(wǎng)絡(luò)（PANet）

路徑聚合網(wǎng)絡(luò)（PANet）是對(duì)特征金字塔網(wǎng)絡(luò)（FPN）架構(gòu)的改進(jìn)。PANet加強(qiáng)了不同特征尺度之間的連接，并引入了額外的機(jī)制以更好地聚合信息。

為了更好地理解FPN和PANet之間的區(qū)別，想象一棟有好幾層的建筑。每層樓代表圖像中的不同細(xì)節(jié)層次：在底部，你看到細(xì)節(jié)（小物體），而在頂部，你得到一個(gè)更廣闊的視角（更大的物體）。

FPN就像一部從底層（小細(xì)節(jié)）開(kāi)始向上到頂層（全局視圖）的電梯。在每一層，它收集信息，允許模型在多個(gè)尺度上理解圖像。
PANet增加了另一部從頂層返回底層的電梯，在下降過(guò)程中合并每一層的信息。簡(jiǎn)而言之，PANet確保所有信息（來(lái)自頂部和底部）都被徹底聚合。

PANet結(jié)構(gòu)

4. 殘差塊

殘差塊由ResNet（殘差網(wǎng)絡(luò)）架構(gòu)引入。它們旨在解決訓(xùn)練非常深的網(wǎng)絡(luò)時(shí)的挑戰(zhàn)，例如梯度退化和信息丟失。

殘差塊通常由兩個(gè)或三個(gè)卷積層組成，但其定義特征是包含一個(gè)直接連接（也稱為跳過(guò)連接），該連接繞過(guò)這些層并將塊的輸入直接鏈接到其輸出。這在下面的圖中有說(shuō)明。輸入信息被加到卷積層的輸出上，然后傳遞到下一個(gè)階段。

簡(jiǎn)單來(lái)說(shuō)，如果塊的輸入由x表示，F(xiàn)(x)表示卷積層的變換函數(shù)，那么塊的輸出是F(x)+x。

帶有跳過(guò)連接的殘差塊

5. CSPNet（跨階段部分網(wǎng)絡(luò)）

CSPNet（跨階段部分網(wǎng)絡(luò)）是一種用于神經(jīng)網(wǎng)絡(luò)的技術(shù)，以提高計(jì)算機(jī)視覺(jué)模型的效率和性能。它通過(guò)在通過(guò)網(wǎng)絡(luò)塊處理之前將特征圖分成兩部分來(lái)工作。一部分像往常一樣通過(guò)網(wǎng)絡(luò)流動(dòng)，而另一部分稍后添加。這種方法減少了網(wǎng)絡(luò)的計(jì)算負(fù)載，使其更輕巧，而不會(huì)犧牲其處理能力。CSPNet有助于平衡準(zhǔn)確性和速度之間的權(quán)衡，確保模型保持強(qiáng)大而高效。

6. Darknet53和CSPDarknet53

Darknet53（下圖，部分a）是一種卷積神經(jīng)網(wǎng)絡(luò)（CNN），主要用作目標(biāo)檢測(cè)模型中的主干（主干的概念將在下一節(jié)中解釋）。它最初是為YOLOv3開(kāi)發(fā)的。Darknet53旨在快速準(zhǔn)確，能夠從圖像中提取相關(guān)特征。

CSPDarknet53（下圖，部分b）是為YOLOv4開(kāi)發(fā)的Darknet53的增強(qiáng)版本。它結(jié)合了CSPNet概念以優(yōu)化特征學(xué)習(xí)和減少計(jì)算冗余。

Darknet53（部分a）和CSPDarknet53（部分b）的架構(gòu)

7. YOLOv8中的一切如何整合

一旦我們理解了這些方法，我們就能更好地理解YOLOv8中的每一層是如何工作的。

事實(shí)上，與前身相比，YOLOv8并沒(méi)有引入重大的技術(shù)革新。然而，其架構(gòu)已經(jīng)被簡(jiǎn)化和簡(jiǎn)化成塊。它由23個(gè)主要層組成，每個(gè)層都包含子層，子層又包含更多的子層。本質(zhì)上，YOLOv8就像一個(gè)俄羅斯套娃層。

YOLOv8模型架構(gòu)的詳細(xì)圖示。主干、頸部和頭部是我們模型的三個(gè)部分，C2f、ConvModule、DarknetBottleneck和SPPF是模塊

在線上的YOLOv8圖表有時(shí)乍一看可能過(guò)于復(fù)雜。為了更好地觀察這些層，模型層字典的分解可以揭示其完整的架構(gòu)，并澄清它們是如何堆疊的。YOLOv8由七個(gè)“ConvModule”層、八個(gè)“C2f”層、一個(gè)“SPPF”層、兩個(gè)“Unsample”層、四個(gè)“Concat”層和一個(gè)最終檢測(cè)層組成。

import torch
model_path = "my_model.pt"
model_dict = torch.load(model_path, map_location=torch.device('cpu'))
model = model_dict['model']
print(model)

通過(guò)可視化每層的組件，我們可以看到它們?nèi)绾芜m應(yīng)更廣泛的架構(gòu)。YOLOv8可以分為三個(gè)關(guān)鍵部分：

主干：這部分負(fù)責(zé)從輸入圖像中提取特征。它使用CSPDarknet53的修改版本，旨在在早期層捕獲簡(jiǎn)單的模式，如邊緣和紋理。當(dāng)我們深入網(wǎng)絡(luò)時(shí)，它捕獲圖像的更詳細(xì)特征。
頸部：這部分負(fù)責(zé)融合主干提取的特征。它使用PANet（路徑聚合網(wǎng)絡(luò)）結(jié)合不同尺度的特征。卷積層P3、P4和P5被傳輸?shù)浇鹱炙母鱾€(gè)部分（層11、14和20），以確保模型可以檢測(cè)各種大小的物體。
頭部：這由三個(gè)檢測(cè)頭組成，它們連接到PANet的三個(gè)輸出。這些檢測(cè)頭生成邊界框，分配置信度分?jǐn)?shù)，并根據(jù)其類別對(duì)框進(jìn)行分類。它們還消除了對(duì)同一物體的冗余檢測(cè)，這些檢測(cè)可能出現(xiàn)在不同的尺度上。

Backbone:
    ConvModule (Layer 0) - P1
    ConvModule (Layer 1) - P2
    ConvModule (Layer 2)
    C2f (Layer 3)
    ConvModule (Layer 4) - P3
    C2f (Layer 5)
    ConvModule (Layer 6) - P4
    C2f (Layer 7)
    SPPF (Layer 9)

Neck:
    Upsample (Layer 10)
    Concat (Layer 11)
    C2f (Layer 12)
    Upsample (Layer 13)
    Concat (Layer 14)
    C2f (Layer 15)
    ConvModule (Layer 16)
    Concat (Layer 17)
    C2f (Layer 18)

Head:
    ConvModule (Layer 19)
    Concat (Layer 20)
    C2f (Layer 21)
    Detection Layer (Layer 22)

盡管Ultralytics（YOLOv8的開(kāi)發(fā)者）在其官方模型表示中沒(méi)有明確標(biāo)記這三個(gè)部分，但這種劃分被社區(qū)普遍接受，因?yàn)樗从沉艘郧癥OLO版本的結(jié)構(gòu)，并有助于簡(jiǎn)化模型的理解。

責(zé)任編輯：趙寧寧來(lái)源：小白玩轉(zhuǎn)Python