自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<thead id="rcwrq"></thead>}

<p id="rcwrq"><li id="rcwrq"></li></p>

<em id="rcwrq"><rt id="rcwrq"><form id="rcwrq"></form></rt></em>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

YOLOe問世，實時觀察一切，統(tǒng)一開放物體檢測和分割

作者：機器之心 2025-03-13 11:11:04

人工智能新聞

傳統(tǒng)的 YOLO 系列如同我們人工效準的精密儀器，其識別能力被嚴格框定在預定義的類別目錄之中，每個檢測框的背后，都需要工程師手動輸入認知詞典。

它能像人眼一樣，在文本、視覺輸入和無提示范式等不同機制下進行檢測和分割。

自 2015 年由華盛頓大學的 Joseph Redmon 研究團隊提出 YOLO（You Only Look Once）以來，這項突破性的目標檢測技術就像為機器裝上了「閃電之眼」，憑借單次推理的實時性能刷新了計算機視覺的認知邊界。

傳統(tǒng)的 YOLO 系列如同我們人工效準的精密儀器，其識別能力被嚴格框定在預定義的類別目錄之中，每個檢測框的背后，都需要工程師手動輸入認知詞典。這種預設規(guī)則在開放場景中限制了視覺模型的靈活性。

但是在萬物互聯(lián)的時代，行業(yè)迫切需要更接近人類視覺的認知范式 —— 不需要預先設定先驗知識，卻能通過多模態(tài)提示理解大千世界。那么如何通過視覺模型來實現(xiàn)這一目標呢？

近來，研究者們積極探索讓模型泛化至開放提示的方法，力圖讓模型擁有如同人眼般的強大能力。不管是面對文本提示、視覺提示，甚至在無提示的情況下，模型都能借助區(qū)域級視覺語言預訓練，實現(xiàn)對任意類別的精準識別。

論文標題：YOLOE:Real-Time Seeing Anything
論文地址：https://arxiv.org/abs/2503.07465
技術展示頁：https://github.com/THU-MIG/yoloe?tab=readme-ov-file#demo

YOLOE 的設計思路

在 YOLO 的基礎之上，YOLOE 通過 RepRTA 支持文本提示、通過 SAVPE 支持視覺提示以及使用 LRPC 支持無提示場景。

圖 1.YOLOE 的架構

如圖 1 所示，YOLOE 采用了典型的 YOLO 架構，包括骨干、PAN、回歸頭、分割頭和對象嵌入頭。骨干和 PAN 為圖像提取多尺度特征。對于每個錨點，回歸頭預測用于檢測的邊界框，分割頭生成用于分割的原型和掩碼系數(shù)。對象嵌入頭遵循 YOLO 中分類頭的結構，只是最后一個 1× 卷積層的輸出通道數(shù)從閉集場景中的類數(shù)更改為嵌入維度。同時，給定文本和視覺提示，YOLOE 分別使用 RepRTA 和 SAVPE 將它們編碼為規(guī)范化的提示嵌入 P。

在開放集場景中，文本和對象嵌入之間的對齊決定了識別類別的準確性。先前的研究通常引入復雜的跨模態(tài)融合來改進視覺文本表示以實現(xiàn)更好的對齊。然而，這些方法會產生大量的計算開銷。鑒于此，作者提出了可重新參數(shù)化的區(qū)域文本對齊 (RepRTA) 策略，通過可重新參數(shù)化的輕量級輔助網絡在訓練過程中改進預訓練的文本嵌入。文本和錨點對象嵌入之間的對齊可以在零推理和傳輸成本的情況下得到增強。

接下來是語義激活的視覺提示編碼器。為了生成視覺提示嵌入，先前的工作通常采用 Transformer 設計，例如可變形注意或附加 CLIP 視覺編碼器。然而，由于運算符復雜或計算要求高，這些方法在部署和效率方面帶來了挑戰(zhàn)。

考慮到這一點，研究人員引入了語義激活的視覺提示編碼器（SAVPE）來高效處理視覺提示。它具有兩個解耦的輕量級分支：(1) 語義分支在 D 通道中輸出與提示無關的語義特征，而無需融合視覺提示的開銷；(2) 激活分支通過在低成本下在更少的通道中將視覺提示與圖像特征交互來產生分組的提示感知權重。然后，它們的聚合會在最小復雜度下產生信息豐富的提示嵌入。

在沒有明確指導的無提示場景中，模型需要識別圖像中所有有名稱的物體。先前的研究通常將這種設置表述為生成問題，使用語言模型為密集的發(fā)現(xiàn)物體生成類別。然而，其中語言模型遠不能滿足高效率要求。YOLOE 將這種設置表述為檢索問題并提出惰性區(qū)域提示對比（Lazy Region-Prompt Contrast，LRPC）策略。它以高效的方式從內置的大型詞匯表中惰性檢索帶有物體的錨點的類別名稱。這種范例對語言模型的依賴為零，同時具有良好的效率和性能。

實驗結果

那么在實驗測試中，YOLOE 的效果如何呢？

作者將 YOLOE 基于 YOLOv8 和 YOLOv11 架構開展了實驗，并提供了不同的模型尺度。如下表所示，對于 LVIS 上的檢測，YOLOE 在不同模型尺度上表現(xiàn)出效率和零樣本性能之間的良好平衡。

表 1. LVIS 上的零樣本檢測評估

實驗結果表明 YOLOE 的訓練時間少于其他對比模型，比 YOLO-Worldv2 快了近 3 倍。同時 YOLOE-v8-S/M/L 的性能比 YOLOv8-Worldv2-S /M/L 分別高出 3.5/0.2/0.4AP，在 T4 和 iPhone 12 上的推理速度分別提高 1.4 倍 / 1.3 倍 / 1.3 倍和 1.3 倍 / 1.2 倍 / 1.2 倍。

不過在 Ap 指標上，與 YOLO - Worldv2 相比，YOLOE-v8-M/L 稍顯遜色。進一步分析發(fā)現(xiàn)，這種性能差距主要是由于 YOLOE 創(chuàng)新性地在一個模型中集成了檢測和分割功能。

作者還通過以下角度驗證了模型和方法的有效性：

分割評估

表 2. LVIS 上的分割評估

無提示詞評估

表 3. LVIS 上的無提示詞評估

可遷移性評估

表 4. 在 COCO 上的可遷移性測試，測試了兩種微調策略，線性探測和完全調整

這些結果充分證明，YOLOE 擁有強大的功能和高效率，適用于各種提示方式，可以實時看到任何東西。

此外，研究人員對 YOLOE 開展了四種場景的可視化分析：

圖 (a)：在 LVIS 上進行零樣本推理，以類別名稱作為文本提示
圖 (b)：可輸入任意文本作為提示
圖 (c)：能繪制視覺線索作為提示
圖 (d)：無明確提示，模型自動識別所有對象

結果顯示，YOLOE 在這些不同場景下均表現(xiàn)出色，能準確檢測和分割各類物體，進一步體現(xiàn)了其在多種應用中的有效性與實用性。

責任編輯：張燕妮來源：機器之心

YOLO 模型檢測

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營