自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

YOLO v10 是目前最好的嗎?

人工智能
雖然 YOLO v10 在準確性、延遲和效率方面都有所提高 - 但一切都取決于你正在處理的用例,因為對于每個用例,可能都有一個最適合的模型!

YOLO(You Only Look Once,你只看一眼)因其快速的對象檢測算法而聞名。它的速度和效率使其成為計算機視覺(CV)領(lǐng)域中對象檢測的標準方法。YOLO 可以實時處理圖像,使其非常適合自動駕駛、安全監(jiān)控和零售分析等應用。

YOLO 是如何工作的?

考慮圖像分類的場景,目標是確定圖像是否包含狗或人。當涉及到圖像分類,我們應該確定它是否是狗還是人 - 如果是狗,就是1,如果是人,就是0,就像上面的圖像 - 只有狗存在!但在對象檢測算法中 - 我們考慮一種叫做對象定位的東西。除了上述解釋的圖像分類數(shù)據(jù),我們還傳遞了邊界框。

邊界框

{Pc, Bx, By, Bw, Bh, C1, C2}
{1 , 50, 70, 60, 70, 1 , 0}
  • Pc — 類別的概率,如果兩種類別都不出現(xiàn),它將是0,否則是1。
  • Bx 和 By — 注釋框的中心坐標 - 它將覆蓋正好只有類別 - 在這個例子中是狗。
  • Bw 和 Bh — 注釋框的寬度和高度。
  • C1 — 狗類別 - 因為狗存在 - 它是1。
  • C2 — 人類別 - 因為人不存在 - 它是0。

顯然,如果沒有對象 - Pc 將是0,其余的將沒有值!

如果我們在圖像中有多個對象怎么辦?當圖像中存在多個對象時,YOLO 將圖像劃分為網(wǎng)格,然后預測每個網(wǎng)格單元的邊界框和類別概率。允許模型同時檢測和定位多個對象。例如,如果網(wǎng)格大小是 4x4,每個單元將產(chǎn)生一個預測向量。假設每個預測向量由 7 個單元組成(Pc, Bx, By, Bw, Bh, C1, C2),整體預測張量的大小將是 4x4x7。

如果圖像包含重疊對象,如一個人抱著一只狗,也會使用相同的方法。

訓練神經(jīng)網(wǎng)絡由于圖像及其相應的向量都已獲得 - 我們可以將圖像樣本視為輸入數(shù)據(jù) - 其相應的向量樣本作為輸出數(shù)據(jù)傳遞給神經(jīng)網(wǎng)絡。現(xiàn)在這些數(shù)據(jù)樣本及其相應的輸入和輸出矩陣可以輸入到神經(jīng)網(wǎng)絡中 - 當涉及到隱藏狀態(tài)中的節(jié)點數(shù)量、激活函數(shù)等時,可以調(diào)整和調(diào)整神經(jīng)網(wǎng)絡!獲得最佳組合以獲得最佳準確率。

輸出將是模型所做的網(wǎng)格單元分隔的大小。如果是 4x4,輸出將是 16 個向量。

它之所以被稱為 YOLO - You Only Look Once  - 是因為模型在單次前向傳播中完成所有預測。這有效地允許模型快速檢測模式和對象,無論網(wǎng)格單元的數(shù)量如何。

對象檢測模型的問題盡管 YOLO 可以被認為是用于對象檢測的最佳模型之一 - 但所有模型都不完美。當涉及到 YOLO 時,可能會有重疊邊界框的問題。

考慮上面有兩個人的圖像:一個人和一只狗。YOLO 最初可能會為這些對象檢測到多個邊界框,在上述背景下 - 結(jié)果是五個邊界框,而理想情況下應該只有兩個(每個對象一個)。

邊界框重疊

當多個預測覆蓋同一個對象時,就會發(fā)生重疊的邊界框。這種冗余需要解決,以確保模型輸出最準確和最小的邊界框集。

交集比并集(IoU)

為了解決重疊的邊界框問題,YOLO 使用了一種稱為交集比并集(IoU)的技術(shù)。IoU 是一種度量兩個邊界框之間重疊的指標。

IoU = Intersect Area / Union Area 
  • 交集面積:兩個邊界框重疊的區(qū)域。
  • 并集面積:兩個邊界框合并覆蓋的總面積。

如果兩個邊界框完全重疊,IoU 值是 1。如果它們根本不重疊,IoU 值是 0。

非最大抑制(NMS)

為了消除冗余的邊界框,YOLO 應用了非最大抑制(NMS):

  • 計算置信度分數(shù):每個邊界框都被分配一個置信度分數(shù),代表對象存在的可能性。
  • 選擇最高置信度框:選擇置信度分數(shù)最高的邊界框。
  • 抑制重疊框:任何與選定框的 IoU 超過某個閾值(例如,0.5)的邊界框都被抑制(即,移除)。

重復:這個過程對剩余的框重復進行,直到只剩下最自信、不重疊的框為止。

但 YOLO v10 消除了 NMS 的需求 - 簡化了預測過程,提高了效率,而不影響模型的準確性!

YOLO v10:性能和比較

最新版本的 YOLO,YOLO v10,由于幾個引人注目的原因,被認為是最佳和最改進的版本 - 這里是為什么:

  • 更高的準確性 - 考慮到開篇的第一張圖表 - 我們可以注意到,與以前的版本甚至其他模型相比,該模型產(chǎn)生了更高的 COCO AP 水平!清楚地表明 - YOLOX 模型(特別是 YOLOX-L) - 總體上表現(xiàn)最佳。
  • 改進的延遲 - (延遲是模型對輸入的響應時間)即使準確性更高 - YOLO v10 保持低延遲 - 使其靈活且有益于實時應用!
  • 更好的對象定位 - 對象檢測的主要挑戰(zhàn)是處理重疊的邊界框。幸運的是,YOLO v10 模型結(jié)合了高級技術(shù),如 IoU 和 NMS,有效地處理重疊框,以獲得更準確的邊界框預測。導致更準確的對象檢測模型!
  • 更低的參數(shù)計數(shù) - 在開篇的第二張圖表中 - 我們可以得出結(jié)論,YOLO v10 模型可以用更少的參數(shù)準確預測。使其適合在資源受限的環(huán)境中部署。盡管我們可以指定一個 YOLO v10 模型是最好的 - 這都取決于用例。

以下是 YOLO v10 模型的所有變體列表 - 每個都有其自己的優(yōu)勢:

結(jié)論

雖然 YOLO v10 在準確性、延遲和效率方面都有所提高 - 但一切都取決于你正在處理的用例,因為對于每個用例,可能都有一個最適合的模型!盡管如此,根據(jù)提供的證據(jù) - YOLO v10 作為領(lǐng)先的對象檢測模型脫穎而出!

官方 GitHub :https://github.com/THU-MIG/yolov10?tab=readme-ov-file

論文:https://arxiv.org/abs/2405.14458

責任編輯:趙寧寧 來源: 小白玩轉(zhuǎn)Python
相關(guān)推薦

2024-07-30 14:18:12

2015-10-28 14:40:44

LG

2012-05-14 13:25:43

風河公司Android

2015-10-28 15:15:29

LG

2017-01-10 09:48:58

PHP語言Perl

2013-10-10 11:03:26

Windows 7Windows 8

2015-10-29 11:39:47

LG

2015-10-27 14:53:14

LG

2024-04-17 08:31:29

Docker銀河麒麟 V10服務器

2015-10-28 15:01:45

LG

2022-04-06 22:26:14

Python工具PyCharm

2013-09-16 15:15:44

Linux操作系統(tǒng)

2015-11-18 14:14:26

LG

2023-02-15 08:20:03

2022-05-13 07:31:58

數(shù)據(jù)庫連接池druid

2012-12-25 10:44:06

IBMdW

2015-11-10 17:02:04

LG

2015-10-29 11:58:45

LG

2020-08-21 18:05:50

國產(chǎn)操作系統(tǒng)銀河麒麟操作系統(tǒng)

2015-10-26 19:02:18

LG
點贊
收藏

51CTO技術(shù)棧公眾號