微調(diào)YOLOv11：實(shí)用指南【詳細(xì)過(guò)程與代碼】

作者：二旺 2025-01-03 16:17:08

開發(fā)

本指南旨在引導(dǎo)您為自身任務(wù)微調(diào)YOLOv11。我將分享我個(gè)人認(rèn)為有效的步驟，附帶詳細(xì)代碼、真實(shí)案例及實(shí)用建議。

一、引言

本指南旨在引導(dǎo)您為自身任務(wù)微調(diào)YOLOv11。我將分享我個(gè)人認(rèn)為有效的步驟，附帶詳細(xì)代碼、真實(shí)案例及實(shí)用建議。內(nèi)容包括：

如何專業(yè)地設(shè)置您的環(huán)境。
準(zhǔn)備數(shù)據(jù)集的確切步驟（因?yàn)楦袷街陵P(guān)重要）。
關(guān)鍵配置與訓(xùn)練策略，以實(shí)現(xiàn)最佳性能。
通過(guò)試錯(cuò)積累的故障排除技巧。

二、前提條件與設(shè)置

要讓YOLOv11運(yùn)行起來(lái)，您需要以下內(nèi)容：

Ultralytics YOLOv11：我們將使用的框架。相信我，它的簡(jiǎn)潔與靈活性使其成為游戲規(guī)則改變者。
Python 3.8+：雖然YOLOv11支持更新的版本，但為了兼容性，我建議使用Python 3.8或3.9。
PyTorch（1.7.0或更高版本）：YOLOv11依賴PyTorch，因此擁有正確的版本至關(guān)重要。
GPU支持：您需要一個(gè)支持CUDA的GPU。我個(gè)人使用NVIDIA GPU與CUDA 11.x，它們?cè)谟?xùn)練中表現(xiàn)出色。

安裝依賴項(xiàng) - 安裝Ultralytics包：

pip install ultralytics

三、準(zhǔn)備數(shù)據(jù)集

數(shù)據(jù)集格式應(yīng)如下所示：

/dataset
├── images
│   ├── train
│   ├── val
├── labels
│   ├── train
│   ├── val

images文件夾中的每個(gè)圖像必須在labels文件夾中有一個(gè)對(duì)應(yīng)的.txt文件。這些.txt文件應(yīng)包含YOLO格式的注釋：class_id x_center y_center width height，其中值已歸一化（0到1）。以下是將注釋從COCO格式轉(zhuǎn)換為YOLO格式的Python代碼片段：

import json
import os

def convert_coco_to_yolo(coco_file, output_dir):
    with open(coco_file) as f:
        data = json.load(f)
    
    for image in data['images']:
        annotations = [ann for ann in data['annotations'] if ann['image_id'] == image['id']]
        label_file = os.path.join(output_dir, f"{image['file_name'].split('.')[0]}.txt")
        with open(label_file, 'w') as f:
            for ann in annotations:
                category_id = ann['category_id'] - 1  # YOLO classes are 0-indexed
                bbox = ann['bbox']
                x_center = (bbox[0] + bbox[2] / 2) / image['width']
                y_center = (bbox[1] + bbox[3] / 2) / image['height']
                width = bbox[2] / image['width']
                height = bbox[3] / image['height']
                f.write(f"{category_id} {x_center} {y_center} {width} {height}\n")

我在多個(gè)項(xiàng)目中使用過(guò)這個(gè)腳本，效果非常好。只需更新coco_file和output_dir路徑以匹配您的數(shù)據(jù)集。

1. 數(shù)據(jù)增強(qiáng)技術(shù)

數(shù)據(jù)增強(qiáng)有時(shí)比收集更多數(shù)據(jù)更能提升模型性能。多年來(lái)，我發(fā)現(xiàn)像Mosaic和CutMix這樣的高級(jí)技術(shù)是游戲規(guī)則改變者，尤其是對(duì)于較小的數(shù)據(jù)集。對(duì)于YOLOv11，我喜歡使用Albumentations。以下是我個(gè)人使用的增強(qiáng)管道示例：

import albumentations as A
from albumentations.pytorch import ToTensorV2

transform = A.Compose([
    A.RandomCrop(width=640, height=640),
    A.HorizontalFlip(p=0.5),
    A.RandomBrightnessContrast(p=0.2),
    A.HueSaturationValue(p=0.2),
    ToTensorV2()
])

通過(guò)這種方式，您不僅翻轉(zhuǎn)或裁剪圖像，還在教模型處理現(xiàn)實(shí)世界中可能遇到的變化。

2. 分割數(shù)據(jù)集

許多人在處理不平衡數(shù)據(jù)時(shí)，尤其是在訓(xùn)練-驗(yàn)證-測(cè)試分割方面遇到困難。我個(gè)人使用sklearn自動(dòng)化此步驟，以確保可重復(fù)性。以下是我通常使用的Python代碼：

from sklearn.model_selection import train_test_split
import os
import shutil

def split_dataset(images_dir, labels_dir, output_dir, test_size=0.2, val_size=0.2):
    images = [f for f in os.listdir(images_dir) if f.endswith('.jpg')]
    train_images, test_images = train_test_split(images, test_size=test_size, random_state=42)
    train_images, val_images = train_test_split(train_images, test_size=val_size, random_state=42)

    for subset, subset_images in [('train', train_images), ('val', val_images), ('test', test_images)]:
        os.makedirs(f"{output_dir}/images/{subset}", exist_ok=True)
        os.makedirs(f"{output_dir}/labels/{subset}", exist_ok=True)
        for image in subset_images:
            shutil.copy(f"{images_dir}/{image}", f"{output_dir}/images/{subset}/{image}")
            label_file = image.replace('.jpg', '.txt')
            shutil.copy(f"{labels_dir}/{label_file}", f"{output_dir}/labels/{subset}/{label_file}")

運(yùn)行此腳本，您的數(shù)據(jù)集將被整齊地分割為訓(xùn)練集、驗(yàn)證集和測(cè)試集。我一直使用這種方法，它非?？煽?。

專業(yè)提示：在格式化和增強(qiáng)數(shù)據(jù)集后，始終可視化一些樣本。標(biāo)簽或增強(qiáng)中的簡(jiǎn)單錯(cuò)誤可能導(dǎo)致模型性能不佳。像cv2.imshow或matplotlib這樣的工具可以快速輕松地完成此操作。

四、配置YOLOv11進(jìn)行微調(diào)

微調(diào)YOLOv11需要精確性，這就是配置文件的作用。我了解到理解這些文件中的參數(shù)至關(guān)重要——一個(gè)被忽視的設(shè)置可能會(huì)嚴(yán)重影響性能。讓我們來(lái)看看在為您項(xiàng)目配置YOLOv11時(shí)真正重要的內(nèi)容。

關(guān)鍵配置參數(shù)

YOLOv11使用YAML配置文件來(lái)定義數(shù)據(jù)集路徑、類別和其他關(guān)鍵設(shè)置。以下是一個(gè)簡(jiǎn)單但有效的示例：

path: ../datasets  # Path to dataset root directory
train: images/train  # Path to training images
val: images/val  # Path to validation images
nc: 3  # Number of classes
names: ['class1', 'class2', 'class3']  # Class names

path：確保此路徑指向數(shù)據(jù)集的根文件夾。一次數(shù)據(jù)集放錯(cuò)位置讓我花費(fèi)了數(shù)小時(shí)調(diào)試！
nc和names：仔細(xì)檢查這些。類別數(shù)量與標(biāo)簽不匹配會(huì)導(dǎo)致訓(xùn)練失敗。
其他參數(shù)：在訓(xùn)練腳本中試驗(yàn)img_size、epochs和batch size等設(shè)置，因?yàn)檫@些不能直接在YAML文件中定義。

以下是一個(gè)額外的YAML參數(shù)，如果您使用自定義數(shù)據(jù)集，可能需要它：

test: images/test  # Optional: Test dataset path

五、訓(xùn)練YOLOv11模型

訓(xùn)練YOLOv11是樂(lè)趣的開始。我仍然記得第一次加載預(yù)訓(xùn)練模型時(shí)，看到它僅通過(guò)幾次調(diào)整就能很好地泛化。以下是您可以開始的確切方法：

1. 加載預(yù)訓(xùn)練權(quán)重

YOLOv11模型在COCO上預(yù)訓(xùn)練，使其成為極好的起點(diǎn)。加載模型非常簡(jiǎn)單：

from ultralytics import YOLO

model = YOLO('yolov8n.pt')  # Load YOLOv8 Nano pretrained weights

我建議從yolov11n.pt或yolov11s.pt開始進(jìn)行快速實(shí)驗(yàn)，尤其是如果您使用像RTX 3060這樣的標(biāo)準(zhǔn)GPU。

2. 訓(xùn)練模型

一旦您的數(shù)據(jù)集和配置文件準(zhǔn)備就緒，就可以開始訓(xùn)練了。以下是一個(gè)簡(jiǎn)單的訓(xùn)練腳本：

model.train(data='custom_dataset.yaml',  # Path to YAML config
            epochs=50,                  # Number of epochs
            imgsz=640,                  # Image size
            batch=16,                   # Batch size
            device=0)                   # GPU device index

專業(yè)提示：從較少的epoch開始，并盡早評(píng)估結(jié)果。根據(jù)我的經(jīng)驗(yàn)，迭代比盲目進(jìn)行長(zhǎng)時(shí)間訓(xùn)練更好。

3. 高級(jí)訓(xùn)練參數(shù)

微調(diào)以下參數(shù)可以顯著提升性能：

學(xué)習(xí)率：YOLOv11默認(rèn)使用OneCycleLR調(diào)度，但您可以通過(guò)lr0調(diào)整最大學(xué)習(xí)率。
優(yōu)化器：堅(jiān)持使用默認(rèn)的SGD，或嘗試AdamW以獲得更平滑的收斂。
增強(qiáng)：YOLOv11默認(rèn)應(yīng)用基本增強(qiáng)，但您可以通過(guò)augment=True啟用高級(jí)技術(shù)。

示例：

model.train(data='custom_dataset.yaml',
            epochs=50,
            imgsz=640,
            lr0=0.01,  # Starting learning rate
            optimizer='AdamW',
            augment=True)

4. 監(jiān)控訓(xùn)練

以下是您可以實(shí)時(shí)監(jiān)控訓(xùn)練的方法：

TensorBoard：它內(nèi)置于YOLOv11。只需添加project和name參數(shù)：

model.train(data='custom_dataset.yaml',
            project='YOLOv8-Experiments',
            name='run1',
            exist_ok=True)

運(yùn)行tensorboard --logdir YOLOv11-Experiments以可視化損失曲線、指標(biāo)等。

Weights and Biases (wandb)：如果您像我一樣喜歡詳細(xì)的實(shí)驗(yàn)跟蹤，將YOLOv11連接到wandb：

pip install wandb

然后，登錄wandb并啟用跟蹤：

model.train(data='custom_dataset.yaml', 
            project='YOLOv8-Wandb', 
            name='run1',
            wandb=True)

提示：密切關(guān)注您的mAP（平均平均精度）值。訓(xùn)練期間突然下降通常表明過(guò)擬合或增強(qiáng)問(wèn)題。通過(guò)這種方法，您將為順利的訓(xùn)練體驗(yàn)做好準(zhǔn)備。我個(gè)人發(fā)現(xiàn)，花時(shí)間調(diào)整參數(shù)和監(jiān)控進(jìn)度在最終結(jié)果中會(huì)帶來(lái)巨大的回報(bào)。

六、評(píng)估模型

1. 驗(yàn)證模型

一旦訓(xùn)練完成，評(píng)估您的微調(diào)模型就像運(yùn)行.val()函數(shù)一樣簡(jiǎn)單：

results = model.val()
print(results)

YOLOv11提供了多個(gè)指標(biāo)，但您需要關(guān)注的兩個(gè)是：

mAP@0.5：IoU閾值為0.5時(shí)的平均平均精度。
mAP@0.5:0.95：跨多個(gè)IoU閾值的平均精度。

根據(jù)我的經(jīng)驗(yàn)，強(qiáng)大的mAP@0.5:0.95分?jǐn)?shù)表明您的模型泛化良好。例如，在最近的一個(gè)項(xiàng)目中，調(diào)整增強(qiáng)管道使該分?jǐn)?shù)提高了7%——這是一個(gè)巨大的勝利！

2. 可視化性能

數(shù)字很好，但視覺(jué)效果講述真實(shí)的故事。YOLOv11在驗(yàn)證期間生成預(yù)測(cè)，使您能夠輕松發(fā)現(xiàn)模型表現(xiàn)出色（或掙扎）的地方。使用這些可視化來(lái)識(shí)別：

錯(cuò)誤分類的對(duì)象。
重疊的邊界框。

生成混淆矩陣：

model.val(conf=True)

我個(gè)人總是先檢查混淆矩陣。這是快速識(shí)別模型是否混淆相似類別的簡(jiǎn)單方法——在像COCO這樣的數(shù)據(jù)集中，對(duì)象可能在上下文上相似（例如，叉子和勺子），這是一個(gè)常見(jiàn)問(wèn)題。

七、模型優(yōu)化部署

您已經(jīng)訓(xùn)練了一個(gè)出色的模型，但真正的考驗(yàn)在于部署。無(wú)論是減少邊緣設(shè)備的延遲還是優(yōu)化移動(dòng)設(shè)備，YOLOv11都有工具可以幫助。讓我分享對(duì)我有效的方法。

1. 量化

量化可以大幅減少推理時(shí)間，而不會(huì)顯著降低準(zhǔn)確性。我曾用它將模型部署在像Raspberry Pi這樣的資源受限設(shè)備上，效果非常好。以下是如何量化您的YOLOv11模型：

model.export(format='torchscript', optimize=True)

通過(guò)optimize=True，YOLOv11在導(dǎo)出期間自動(dòng)處理量化。

2. 剪枝

有時(shí)一個(gè)更精簡(jiǎn)的模型就是您所需要的。我曾通過(guò)剪枝將模型大小減少50%，同時(shí)保持準(zhǔn)確性。YOLOv11使這變得簡(jiǎn)單：

model.prune(amount=0.5)  # Prune 50% of parameters

過(guò)于激進(jìn)的剪枝可能會(huì)損害準(zhǔn)確性。我建議從較小的百分比（例如20%）開始，并測(cè)試性能。

3. ONNX/TorchScript轉(zhuǎn)換

將模型導(dǎo)出為ONNX或TorchScript是部署到實(shí)際應(yīng)用中的必備步驟。我曾無(wú)數(shù)次這樣做，將YOLOv11模型集成到API、移動(dòng)應(yīng)用，甚至NVIDIA TensorRT以用于邊緣設(shè)備。以下是將模型導(dǎo)出為ONNX的示例：

model.export(format='onnx')

如果您在TensorRT上部署，此ONNX導(dǎo)出可以是第一步。我發(fā)現(xiàn)它在交通監(jiān)控等實(shí)時(shí)應(yīng)用中非常有用。

提示：優(yōu)化后始終對(duì)模型進(jìn)行基準(zhǔn)測(cè)試。像Python中的timeit或NVIDIA的TensorRT分析器這樣的工具可以幫助確保您的模型滿足部署要求。通過(guò)專注于這些步驟，您將能夠高效地部署YOLOv11模型，無(wú)論是在云平臺(tái)、移動(dòng)設(shè)備還是邊緣硬件上。我個(gè)人發(fā)現(xiàn)，這些優(yōu)化在實(shí)現(xiàn)低延遲、高精度的應(yīng)用中起到了至關(guān)重要的作用。

責(zé)任編輯：趙寧寧來(lái)源：小白玩轉(zhuǎn)Python