自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<xmp id="s2gzj"><p id="s2gzj"></p></xmp>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

NeurIPS 2022 | 開(kāi)放域檢測(cè)新方法DetCLIP，推理效率提升20倍

作者：機(jī)器之心 2022-10-28 15:16:52

人工智能新聞

本文中，來(lái)自華為諾亞方舟實(shí)驗(yàn)室、中山大學(xué)、香港科技大學(xué)的研究者對(duì)開(kāi)放域檢測(cè)問(wèn)題進(jìn)行了研究，他們提出了一種針對(duì)多數(shù)據(jù)源聯(lián)合高效的并行訓(xùn)練框架，同時(shí)構(gòu)建了額外的知識(shí)庫(kù)來(lái)提供類(lèi)別間的隱式關(guān)系。

開(kāi)放域檢測(cè)問(wèn)題，指的是在上游利用大量網(wǎng)上爬取的圖文對(duì)或一定類(lèi)別的人工標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練，如何在下游場(chǎng)景上實(shí)現(xiàn)任意類(lèi)別檢測(cè)的問(wèn)題。開(kāi)放域檢測(cè)方法在產(chǎn)業(yè)界的應(yīng)用主要包括自動(dòng)駕駛系統(tǒng)路面物體檢測(cè)，云端全場(chǎng)景檢測(cè)等。

論文地址：https://arxiv.org/abs/2209.09407

本篇分享的是 NeurIPS 2022 入選論文《DetCLIP: Dictionary-Enriched Visual-Concept Paralleled Pre-training for Open-world Detection》，該論文對(duì)開(kāi)放域檢測(cè)問(wèn)題提出了一種針對(duì)多數(shù)據(jù)源聯(lián)合高效的并行訓(xùn)練框架，同時(shí)構(gòu)建了額外的知識(shí)庫(kù)來(lái)提供類(lèi)別間的隱式關(guān)系。同時(shí) DetCLIP 在微軟舉辦的 ECCV2022 OdinW (Object Detection in the Wild[1]) 比賽上以 24.9% 的平均檢測(cè)指標(biāo)取得了 zero-shot 檢測(cè)賽道第一名。

問(wèn)題介紹

隨著使用基于網(wǎng)上爬取的圖片文本對(duì)訓(xùn)練的多模態(tài)預(yù)訓(xùn)練模型 (如 CLIP) 的流行，以及其在 zero-shot 分類(lèi)領(lǐng)域體現(xiàn)出的卓越性能，越來(lái)越多的方法嘗試將這種能力遷移至開(kāi)放域的 dense 預(yù)測(cè) (如任意類(lèi)別檢測(cè)、分割等)?，F(xiàn)有方法往往使用預(yù)訓(xùn)練好的分類(lèi)大模型進(jìn)行特征層面的蒸餾[1] 或通過(guò)對(duì) caption 打偽標(biāo)簽加自訓(xùn)練的方式進(jìn)行學(xué)習(xí)[2]，但這樣往往會(huì)受限制于分類(lèi)大模型的性能以及 caption 標(biāo)注不完全的問(wèn)題。

現(xiàn)有 SOTA 開(kāi)放域檢測(cè)模型 GLIP[3]通過(guò)將檢測(cè)數(shù)據(jù)的格式轉(zhuǎn)化為 Grounding 數(shù)據(jù)的格式進(jìn)行多數(shù)據(jù)源的聯(lián)合訓(xùn)練，充分利用不同數(shù)據(jù)源的優(yōu)勢(shì)(檢測(cè)數(shù)據(jù)集對(duì)常見(jiàn)類(lèi)別有較為完全的標(biāo)注，而 Grounding 數(shù)據(jù)集對(duì)類(lèi)別 cover 區(qū)間的范圍更大)。然而，我們發(fā)現(xiàn)將類(lèi)別名詞簡(jiǎn)拼接的方式導(dǎo)致模型整體的學(xué)習(xí)效率降低，同時(shí)直接使用類(lèi)別單詞作為文本輸入無(wú)法提供細(xì)粒度的類(lèi)別之間的先驗(yàn)關(guān)系。

圖 1：多數(shù)據(jù)源聯(lián)合預(yù)訓(xùn)練開(kāi)放域檢測(cè)模型 pipeline

模型框架

如下圖所示，基于 ATSS[4]單階段檢測(cè)模型搭建，DetCLIP 包含了一個(gè)圖像編碼器?來(lái)獲得檢測(cè)框的圖像特征?，以及一個(gè)文本編碼器?來(lái)獲得類(lèi)別的文本特征?。然后基于上述圖像特征及文本特征來(lái)計(jì)算對(duì)應(yīng)的分類(lèi)對(duì)齊損失?、中心點(diǎn)損失?以及回歸損失?。

圖 2：DetCLIP 模型框架

如圖 2 右上及左上所示，本文的主要?jiǎng)?chuàng)新點(diǎn)是 1）提出以并行輸入處理多數(shù)據(jù)源物體 - 文本聯(lián)合訓(xùn)練的框架，優(yōu)化訓(xùn)練效率；2）構(gòu)建一個(gè)額外的物體知識(shí)庫(kù)輔助開(kāi)放域檢測(cè)訓(xùn)練。

多數(shù)據(jù)源并行輸入預(yù)訓(xùn)練框架

相對(duì)于 GLIP 中將 detection 數(shù)據(jù)通過(guò)拼接類(lèi)別名詞的方式轉(zhuǎn)化為 grounding 形式(串行)，我們通過(guò)將 grounding 數(shù)據(jù)中的對(duì)應(yīng)名詞詞組抽取出來(lái)和 detection 中的類(lèi)別作為獨(dú)立的輸入，輸入到 text encoder 中(并行)，避免不必要的 attention 計(jì)算，實(shí)現(xiàn)更高的訓(xùn)練效率。

圖 3：DetCLIP 并行輸入預(yù)訓(xùn)練框架與 GLIP 對(duì)比

物體知識(shí)庫(kù)

為了解決不同數(shù)據(jù)源的類(lèi)別空間不統(tǒng)一問(wèn)題 (同樣類(lèi)別名稱(chēng)不同，或類(lèi)別包含等) 以及為類(lèi)別之間的關(guān)系提供先驗(yàn)信息，我們構(gòu)建了物體知識(shí)庫(kù)來(lái)實(shí)現(xiàn)更高效的訓(xùn)練。

構(gòu)建：我們同時(shí)綜合檢測(cè)數(shù)據(jù)中的類(lèi)別、image-text pair 中的名詞詞組以及對(duì)應(yīng)定義來(lái)構(gòu)建物體知識(shí)庫(kù)。

使用：1. 我們使用物體知識(shí)庫(kù)的定義對(duì)現(xiàn)有的檢測(cè)數(shù)據(jù)中的類(lèi)別單詞進(jìn)行擴(kuò)充，以提供類(lèi)別之間關(guān)系的先驗(yàn)信息(Concept Enrichment)。

圖 4：使用物體知識(shí)庫(kù)對(duì)類(lèi)別單詞釋義擴(kuò)充示例

2. 由于 grounding 數(shù)據(jù)以及 image-caption 中數(shù)據(jù)存在 caption 標(biāo)注不完全的問(wèn)題(圖片上出現(xiàn)的類(lèi)別在 caption 中并沒(méi)有出現(xiàn))，導(dǎo)致訓(xùn)練這些圖片的時(shí)候可以作為負(fù)樣本的類(lèi)別數(shù)目極少，進(jìn)而使得模型對(duì)于一些不常見(jiàn)類(lèi)別的區(qū)分度較少。因此我們從物體知識(shí)庫(kù)中隨機(jī)選取物體名詞作為負(fù)樣本類(lèi)別，提升模型對(duì)稀少類(lèi)別特征的區(qū)分度（+Negative Samples）。

圖 5：引入物體知識(shí)庫(kù)中的類(lèi)別作為負(fù)樣本類(lèi)別

3. 對(duì)于無(wú)框標(biāo)注的 image-text pair 數(shù)據(jù)，我們通過(guò)華為諾亞自研大模型 FILIP[5]和預(yù)訓(xùn)練好的 RPN 對(duì)其進(jìn)行標(biāo)注，使其可以轉(zhuǎn)化為正常的 grounding 數(shù)據(jù)進(jìn)行訓(xùn)練。同時(shí)為了緩解 caption 中對(duì)圖片上物體不完全標(biāo)注的問(wèn)題，我們使用了物體知識(shí)庫(kù)的所有類(lèi)別詞組作為打偽標(biāo)簽的候選類(lèi)別 (第二行)，與僅僅使用 caption 中的類(lèi)別標(biāo)注效果(第一行) 對(duì)比如下：

圖 6：引入物體知識(shí)庫(kù)中的類(lèi)別作為打偽標(biāo)簽候選類(lèi)別

實(shí)驗(yàn)結(jié)果

我們?cè)谙掠?LVIS 檢測(cè)數(shù)據(jù)集 (1203 類(lèi)) 上驗(yàn)證了所提方法的開(kāi)放域檢測(cè)性能，可以看出在基于 swin-t backbone 的架構(gòu)上，DetCLIP 相對(duì)于現(xiàn)有 SOTA 模型 GLIP 取得了 9.9% AP 提升，在 Rare 類(lèi)別上更是提升了 12.4% AP，盡管相對(duì)于 GLIP 我們只使用了少于其一半的數(shù)據(jù)量，注意訓(xùn)練集中未包含 LVIS 中任何圖片。

表 1：LVIS 上不同方法 Zero-shot transfer performance 比較

在訓(xùn)練效率上，基于相同 32 張 V100 的硬件條件，GLIP-T 的訓(xùn)練時(shí)間是 DetCLIP-T 的 5 倍（10.7K GPU hrs vs. 2.0K GPU hrs）。在測(cè)試效率上，基于單張 V100，DetCLIP-T 的推理效率 2.3 FPS (0.4 秒每張圖)是 GLIP-T 的 0.12 FPS (8.6 秒每張圖)的 20 倍。我們同時(shí)單獨(dú)研究了 DetCLIP 的關(guān)鍵創(chuàng)新 (并行框架和物體知識(shí)庫(kù)) 對(duì)精度的影響。

表 3：DetCLIP 在 LVIS 數(shù)據(jù)集上的消融研究結(jié)果

可視化結(jié)果

如下圖所示，基于相同的 swin-t backbone，在 LVIS 數(shù)據(jù)集上的可視化效果相對(duì)于 GLIP 來(lái)說(shuō)有了明顯的提升，尤其是在稀有類(lèi)別的標(biāo)注以及標(biāo)注的完整程度。

?

圖 7：DetCLIP 與 GLIP 在 LVIS 數(shù)據(jù)集上預(yù)測(cè)結(jié)果的可視化對(duì)比

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

檢測(cè)數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)