探索 YOLO11:更快、更智能、更高效
在人工智能這個(gè)不斷進(jìn)化的世界中,有一件事我們可以肯定:模型不斷變得更好、更快、更智能。就在你以為 YOLO 系列已經(jīng)達(dá)到頂峰時(shí),Ultralytics 推出了最新升級(jí)——YOLO11。沒錯(cuò),不是 YOLOv11——他們通過去掉“v”變得簡(jiǎn)約了。這就像 YOLO 同時(shí)理了個(gè)發(fā)并得到了晉升。
但在這個(gè)名字簡(jiǎn)化的背后,是性能的顯著飛躍。YOLO11 通過顯著減少參數(shù),帶來了更快的處理速度和提高的效率。它擁有比 YOLOv10 快 2% 的推理時(shí)間,使其成為實(shí)時(shí)應(yīng)用的絕佳選擇。
更值得一提的是,YOLO11m 在 COCO 數(shù)據(jù)集上實(shí)現(xiàn)了更高的平均精度均值(mAP)得分,同時(shí)比 YOLOv8m 少用了 22% 的參數(shù),使其在不犧牲性能的情況下計(jì)算更輕量。這種速度和精度的結(jié)合,使 YOLO11 成為任何計(jì)算機(jī)視覺任務(wù)的強(qiáng)大工具。
那么,YOLO11 與它的前輩們有何不同呢?讓我們探索它的架構(gòu),看看這個(gè)模型是如何從僅僅快速變?yōu)槌咝?,使其成為?shí)時(shí)目標(biāo)檢測(cè)的超級(jí)英雄。
YOLO11 架構(gòu)
() 骨干網(wǎng)絡(luò):YOLO11 的大腦
YOLO11 的骨干就像模型的大腦。它使用先進(jìn)的神經(jīng)網(wǎng)絡(luò),如 EfficientNet 或 CSPNet,來捕捉圖像中的重要細(xì)節(jié)。想象一下,這就像一個(gè)人掃描一個(gè)場(chǎng)景并捕捉重要線索——無論是物體的紋理還是形狀——幫助模型更清晰地“看”圖像。這種改進(jìn)增強(qiáng)了 YOLO11 識(shí)別物體的能力,即使是在棘手或雜亂的環(huán)境中。
(2) 頸部:視覺與行動(dòng)之間的橋梁
YOLO11 的頸部將大腦(骨干)與系統(tǒng)的其余部分連接起來,收集和組合來自圖像不同部分的信息。類似于我們?nèi)绾尉劢褂诮幒瓦h(yuǎn)處的物體,頸部幫助模型檢測(cè)不同大小的物體,無論是像路標(biāo)這樣的小物體,還是像公共汽車這樣的大物體。
(3) 檢測(cè)頭:YOLO11 的眼睛
檢測(cè)頭是 YOLO11 理解圖像的地方,識(shí)別出圖像中存在哪些物體、它們的位置,甚至它們的具體細(xì)節(jié)(如身體關(guān)節(jié)或物體邊緣)。這一步驟過程使 YOLO11 非??焖?。這個(gè)版本中的特別改進(jìn)還使其更擅長(zhǎng)發(fā)現(xiàn)小物體,這些是以前版本可能會(huì)錯(cuò)過的。
(4) 錨框:塑造目標(biāo)檢測(cè)
錨框就像模板,幫助模型識(shí)別不同大小和形狀的物體。YOLO11 改進(jìn)了這些模板,使其更好地適應(yīng)它檢測(cè)的物體,提高了識(shí)別常見和不尋常形狀的準(zhǔn)確性。
(5) 損失函數(shù):YOLO11 的學(xué)習(xí)教練
損失函數(shù)就像 YOLO11 的教練,幫助它從錯(cuò)誤中學(xué)習(xí)。這些函數(shù)指導(dǎo)模型專注于它掙扎的領(lǐng)域——比如檢測(cè)稀有物體或找到物品的精確位置。隨著 YOLO11 繼續(xù)在圖像上進(jìn)行“訓(xùn)練”,它在識(shí)別困難物體方面變得越來越好。
YOLO11 的新特性
以下是 YOLO11 帶來的一些突出特性:
(1) 增強(qiáng)的特征提取:在挑戰(zhàn)性情況下更好的檢測(cè)
YOLO11 的設(shè)計(jì)使其能夠捕捉圖像中的復(fù)雜模式,使其在困難環(huán)境中識(shí)別物體的能力更強(qiáng)——無論是光線不足還是雜亂的場(chǎng)景。
(2) 更少參數(shù)的更高 mAP
YOLO11 實(shí)現(xiàn)了更高的平均精度均值(mAP)——這是衡量它檢測(cè)物體能力的關(guān)鍵指標(biāo)——同時(shí)比 YOLOv8 少用了 22% 的參數(shù)。簡(jiǎn)單來說,它更快、更高效,同時(shí)不犧牲準(zhǔn)確性。
(3) 更快的處理速度
YOLO11 提供了比 YOLOv10 快 2% 的處理速度,使其成為自動(dòng)駕駛、機(jī)器人或?qū)崟r(shí)視頻分析等實(shí)時(shí)應(yīng)用的理想選擇。
(4) 資源效率:用更少的資源做更多的事情
盡管處理更復(fù)雜的任務(wù),YOLO11 旨在使用更少的計(jì)算資源,使其適合大規(guī)模項(xiàng)目和處理能力有限的系統(tǒng)。
(5) 改進(jìn)的訓(xùn)練過程
YOLO11 中的訓(xùn)練過程更加流暢,使其能夠更有效地適應(yīng)各種任務(wù)。無論您是在小數(shù)據(jù)集上工作還是在大型項(xiàng)目上,YOLO11 都能適應(yīng)問題的規(guī)模。
(6) 部署的靈活性
YOLO11 旨在在云服務(wù)器和智能手機(jī)或物聯(lián)網(wǎng)設(shè)備等邊緣設(shè)備上高效運(yùn)行。這種靈活性使其非常適合需要在不同環(huán)境中工作的應(yīng)用。
(7) 適用于多樣化應(yīng)用的多功能性
從自動(dòng)駕駛和醫(yī)療成像到智能零售和工業(yè)自動(dòng)化,YOLO11 的多功能性意味著它可以應(yīng)用于廣泛的領(lǐng)域,成為計(jì)算機(jī)視覺挑戰(zhàn)的解決方案。
實(shí)現(xiàn)
(1) 檢測(cè):
%pip install ultralytics
from ultralytics import YOLO
from PIL import Image
import requests
model=YOLO('yolo11n.pt')
image = Image.open("/content/DOG.png")
result = model.predict(image, conf=0.25)[0]
CLI 命令:
!yolo task = detect mode=predict model=yolo11n.pt conf=0.25 source="/content/DOG.png" save=True
自定義訓(xùn)練
無論是使用自定義圖像還是從 Roboflow 下載:
from roboflow import Roboflow
rf = Roboflow(api_key="ROBOFLOW_API_KEY")
project = rf.workspace("project-fish-eqo9c").project("fish-species-identification")
version = project.version(3)
dataset = version.download("yolov11")
使用 CLI 進(jìn)行訓(xùn)練:
!yolo task=detect mode=train model=yolo11s.pt data="/content/Fish-Species-Identification--3/data.yaml" epochs=10 imgsz=640 plots=True
(2) 分割:
from ultralytics import YOLO
model = YOLO("yolo11n-seg.pt")
seg_results = model("/content/yogapose.jpg")
seg_results[0].show()
(3) 姿態(tài):
from ultralytics import YOLO
model = YOLO("yolo11n-pose.pt")
pose_results = model("/content/yogapose.jpg")
pose_results[0].show()
(4) 分類:
from ultralytics import YOLO
model = YOLO("yolo11n-cls.pt")
classi_results = model("/content/cocoimage1.jpg")
classi_results[0].show()
(5) 定向目標(biāo)檢測(cè):
from ultralytics import YOLO
model = YOLO("yolo11n-obb.pt")
obb_results = model("/content/vecteezy_busy-traffic-on-the-highway_6434705.mp4", save=True)
進(jìn)一步改進(jìn)
雖然 YOLO11 帶來了顯著的進(jìn)步,但重要的是要認(rèn)識(shí)到可能需要進(jìn)一步增強(qiáng)或針對(duì)特定任務(wù)的微調(diào)的領(lǐng)域:
(1) 通過微調(diào)改進(jìn)目標(biāo)分類
盡管 YOLO11 在許多一般任務(wù)中表現(xiàn)出色,但其目標(biāo)分類能力在針對(duì)特定任務(wù)進(jìn)行微調(diào)時(shí)可以進(jìn)一步提高。例如,在醫(yī)學(xué)成像或工業(yè)檢查等專業(yè)領(lǐng)域,調(diào)整模型以專注于利基數(shù)據(jù)集可以顯著提高其準(zhǔn)確性和精度。
示例:在醫(yī)療保健中,對(duì) YOLO11 進(jìn)行微調(diào)以識(shí)別醫(yī)學(xué)掃描中特定的異常,如疾病的早期跡象,可以產(chǎn)生更適合該領(lǐng)域的更準(zhǔn)確分類。
(2) 定向目標(biāo)檢測(cè):空中或網(wǎng)格視圖
YOLO11 在空中或網(wǎng)格視圖等場(chǎng)景中表現(xiàn)出色,這些場(chǎng)景中的物體通常以特定方式定向,如衛(wèi)星圖像或無人機(jī)鏡頭。然而,在更傳統(tǒng)的日常視頻源中——如監(jiān)控或交通攝像頭——由于其針對(duì)特定角度和方向的優(yōu)化,它可能表現(xiàn)出降低的效率。這意味著雖然它在某些專業(yè)應(yīng)用中非常有能力,但在處理典型真實(shí)世界視頻中物體的多樣化方向時(shí)可能不夠有效。
示例:在標(biāo)準(zhǔn)安全攝像頭的零售環(huán)境中,YOLO11 可能需要額外的調(diào)整來處理各種物體視角。
結(jié)論
YOLO11 代表了實(shí)時(shí)目標(biāo)檢測(cè)的重大飛躍,通過更快的處理速度、更少的參數(shù)和提高的準(zhǔn)確性,推動(dòng)了界限。它的多功能性使其能夠在從自動(dòng)駕駛到工業(yè)自動(dòng)化的廣泛計(jì)算機(jī)視覺任務(wù)中表現(xiàn)出色。然而,與任何尖端技術(shù)一樣,針對(duì)特定任務(wù)的微調(diào)對(duì)于在專業(yè)應(yīng)用中解鎖其全部潛力至關(guān)重要。雖然它在像空中目標(biāo)檢測(cè)這樣的場(chǎng)景中蓬勃發(fā)展,但其在傳統(tǒng)視頻中的表現(xiàn)可能需要額外的優(yōu)化。
最終,YOLO11 的輕量級(jí)架構(gòu)、增強(qiáng)的速度和靈活性使其成為跨各行各業(yè)的開發(fā)者和研究人員的強(qiáng)大工具。隨著計(jì)算機(jī)視覺的不斷發(fā)展,YOLO11 為實(shí)時(shí)檢測(cè)和分類的可能性設(shè)定了新的基準(zhǔn)。
參考資料:
- Github 代碼:https://github.com/NandiniLReddy/yolo11Review
- Ultralytics 博客文章:https://www.ultralytics.com/blog/ultralytics-yolo11-has-arrived-redefine-whats-possible-in-ai
- Roboflow 博客姿態(tài):https://blog.roboflow.com/yolov11-how-to-train-custom-data/
- Ultralytics Github:https://github.com/ultralytics/ultralytics