自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

NeurIPS 2022 | 開(kāi)放域檢測(cè)新方法DetCLIP,推理效率提升20倍

人工智能 新聞
本文中,來(lái)自華為諾亞方舟實(shí)驗(yàn)室、中山大學(xué)、香港科技大學(xué)的研究者對(duì)開(kāi)放域檢測(cè)問(wèn)題進(jìn)行了研究,他們提出了一種針對(duì)多數(shù)據(jù)源聯(lián)合高效的并行訓(xùn)練框架,同時(shí)構(gòu)建了額外的知識(shí)庫(kù)來(lái)提供類(lèi)別間的隱式關(guān)系。

開(kāi)放域檢測(cè)問(wèn)題,指的是在上游利用大量網(wǎng)上爬取的圖文對(duì)或一定類(lèi)別的人工標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,如何在下游場(chǎng)景上實(shí)現(xiàn)任意類(lèi)別檢測(cè)的問(wèn)題。開(kāi)放域檢測(cè)方法在產(chǎn)業(yè)界的應(yīng)用主要包括自動(dòng)駕駛系統(tǒng)路面物體檢測(cè),云端全場(chǎng)景檢測(cè)等。

圖片

論文地址:https://arxiv.org/abs/2209.09407

本篇分享的是 NeurIPS 2022 入選論文《DetCLIP: Dictionary-Enriched Visual-Concept Paralleled Pre-training for Open-world Detection》,該論文對(duì)開(kāi)放域檢測(cè)問(wèn)題提出了一種針對(duì)多數(shù)據(jù)源聯(lián)合高效的并行訓(xùn)練框架,同時(shí)構(gòu)建了額外的知識(shí)庫(kù)來(lái)提供類(lèi)別間的隱式關(guān)系。同時(shí) DetCLIP 在微軟舉辦的 ECCV2022 OdinW (Object Detection in the Wild[1]) 比賽上以 24.9% 的平均檢測(cè)指標(biāo)取得了 zero-shot 檢測(cè)賽道第一名。

問(wèn)題介紹

隨著使用基于網(wǎng)上爬取的圖片文本對(duì)訓(xùn)練的多模態(tài)預(yù)訓(xùn)練模型 (如 CLIP) 的流行,以及其在 zero-shot 分類(lèi)領(lǐng)域體現(xiàn)出的卓越性能,越來(lái)越多的方法嘗試將這種能力遷移至開(kāi)放域的 dense 預(yù)測(cè) (如任意類(lèi)別檢測(cè)、分割等)?,F(xiàn)有方法往往使用預(yù)訓(xùn)練好的分類(lèi)大模型進(jìn)行特征層面的蒸餾[1] 或通過(guò)對(duì) caption 打偽標(biāo)簽加自訓(xùn)練的方式進(jìn)行學(xué)習(xí)[2],但這樣往往會(huì)受限制于分類(lèi)大模型的性能以及 caption 標(biāo)注不完全的問(wèn)題。

現(xiàn)有 SOTA 開(kāi)放域檢測(cè)模型 GLIP[3]通過(guò)將檢測(cè)數(shù)據(jù)的格式轉(zhuǎn)化為 Grounding 數(shù)據(jù)的格式進(jìn)行多數(shù)據(jù)源的聯(lián)合訓(xùn)練,充分利用不同數(shù)據(jù)源的優(yōu)勢(shì)(檢測(cè)數(shù)據(jù)集對(duì)常見(jiàn)類(lèi)別有較為完全的標(biāo)注,而 Grounding 數(shù)據(jù)集對(duì)類(lèi)別 cover 區(qū)間的范圍更大)。然而,我們發(fā)現(xiàn)將類(lèi)別名詞簡(jiǎn)拼接的方式導(dǎo)致模型整體的學(xué)習(xí)效率降低,同時(shí)直接使用類(lèi)別單詞作為文本輸入無(wú)法提供細(xì)粒度的類(lèi)別之間的先驗(yàn)關(guān)系。

圖片

圖 1:多數(shù)據(jù)源聯(lián)合預(yù)訓(xùn)練開(kāi)放域檢測(cè)模型 pipeline

模型框架

如下圖所示,基于 ATSS[4]單階段檢測(cè)模型搭建,DetCLIP 包含了一個(gè)圖像編碼器?來(lái)獲得檢測(cè)框的圖像特征?,以及一個(gè)文本編碼器?來(lái)獲得類(lèi)別的文本特征?。然后基于上述圖像特征及文本特征來(lái)計(jì)算對(duì)應(yīng)的分類(lèi)對(duì)齊損失?、中心點(diǎn)損失?以及回歸損失?。

圖片

圖 2:DetCLIP 模型框架

如圖 2 右上及左上所示,本文的主要?jiǎng)?chuàng)新點(diǎn)是 1)提出以并行輸入處理多數(shù)據(jù)源物體 - 文本聯(lián)合訓(xùn)練的框架,優(yōu)化訓(xùn)練效率;2)構(gòu)建一個(gè)額外的物體知識(shí)庫(kù)輔助開(kāi)放域檢測(cè)訓(xùn)練。

多數(shù)據(jù)源并行輸入預(yù)訓(xùn)練框架

相對(duì)于 GLIP 中將 detection 數(shù)據(jù)通過(guò)拼接類(lèi)別名詞的方式轉(zhuǎn)化為 grounding 形式(串行),我們通過(guò)將 grounding 數(shù)據(jù)中的對(duì)應(yīng)名詞詞組抽取出來(lái)和 detection 中的類(lèi)別作為獨(dú)立的輸入,輸入到 text encoder 中(并行),避免不必要的 attention 計(jì)算,實(shí)現(xiàn)更高的訓(xùn)練效率。

圖片

圖 3:DetCLIP 并行輸入預(yù)訓(xùn)練框架與 GLIP 對(duì)比

物體知識(shí)庫(kù)

為了解決不同數(shù)據(jù)源的類(lèi)別空間不統(tǒng)一問(wèn)題 (同樣類(lèi)別名稱(chēng)不同,或類(lèi)別包含等) 以及為類(lèi)別之間的關(guān)系提供先驗(yàn)信息,我們構(gòu)建了物體知識(shí)庫(kù)來(lái)實(shí)現(xiàn)更高效的訓(xùn)練。

構(gòu)建:我們同時(shí)綜合檢測(cè)數(shù)據(jù)中的類(lèi)別、image-text pair 中的名詞詞組以及對(duì)應(yīng)定義來(lái)構(gòu)建物體知識(shí)庫(kù)。

使用:1. 我們使用物體知識(shí)庫(kù)的定義對(duì)現(xiàn)有的檢測(cè)數(shù)據(jù)中的類(lèi)別單詞進(jìn)行擴(kuò)充,以提供類(lèi)別之間關(guān)系的先驗(yàn)信息(Concept Enrichment)。

圖片

圖 4:使用物體知識(shí)庫(kù)對(duì)類(lèi)別單詞釋義擴(kuò)充示例

2. 由于 grounding 數(shù)據(jù)以及 image-caption 中數(shù)據(jù)存在 caption 標(biāo)注不完全的問(wèn)題(圖片上出現(xiàn)的類(lèi)別在 caption 中并沒(méi)有出現(xiàn)),導(dǎo)致訓(xùn)練這些圖片的時(shí)候可以作為負(fù)樣本的類(lèi)別數(shù)目極少,進(jìn)而使得模型對(duì)于一些不常見(jiàn)類(lèi)別的區(qū)分度較少。因此我們從物體知識(shí)庫(kù)中隨機(jī)選取物體名詞作為負(fù)樣本類(lèi)別,提升模型對(duì)稀少類(lèi)別特征的區(qū)分度(+Negative Samples)。

圖片

圖 5:引入物體知識(shí)庫(kù)中的類(lèi)別作為負(fù)樣本類(lèi)別

3. 對(duì)于無(wú)框標(biāo)注的 image-text pair 數(shù)據(jù),我們通過(guò)華為諾亞自研大模型 FILIP[5]和預(yù)訓(xùn)練好的 RPN 對(duì)其進(jìn)行標(biāo)注,使其可以轉(zhuǎn)化為正常的 grounding 數(shù)據(jù)進(jìn)行訓(xùn)練。同時(shí)為了緩解 caption 中對(duì)圖片上物體不完全標(biāo)注的問(wèn)題,我們使用了物體知識(shí)庫(kù)的所有類(lèi)別詞組作為打偽標(biāo)簽的候選類(lèi)別 (第二行),與僅僅使用 caption 中的類(lèi)別標(biāo)注效果(第一行) 對(duì)比如下:

圖片

圖 6:引入物體知識(shí)庫(kù)中的類(lèi)別作為打偽標(biāo)簽候選類(lèi)別

實(shí)驗(yàn)結(jié)果

我們?cè)谙掠?LVIS 檢測(cè)數(shù)據(jù)集 (1203 類(lèi)) 上驗(yàn)證了所提方法的開(kāi)放域檢測(cè)性能,可以看出在基于 swin-t backbone 的架構(gòu)上,DetCLIP 相對(duì)于現(xiàn)有 SOTA 模型 GLIP 取得了 9.9% AP 提升,在 Rare 類(lèi)別上更是提升了 12.4% AP,盡管相對(duì)于 GLIP 我們只使用了少于其一半的數(shù)據(jù)量,注意訓(xùn)練集中未包含 LVIS 中任何圖片。

圖片

表 1:LVIS 上不同方法 Zero-shot transfer performance 比較

在訓(xùn)練效率上,基于相同 32 張 V100 的硬件條件,GLIP-T 的訓(xùn)練時(shí)間是 DetCLIP-T 的 5 倍(10.7K GPU hrs vs. 2.0K GPU hrs)。在測(cè)試效率上,基于單張 V100,DetCLIP-T 的推理效率 2.3 FPS (0.4 秒每張圖)是 GLIP-T 的 0.12 FPS (8.6 秒每張圖)的 20 倍。我們同時(shí)單獨(dú)研究了 DetCLIP 的關(guān)鍵創(chuàng)新 (并行框架和物體知識(shí)庫(kù)) 對(duì)精度的影響。

圖片

表 3:DetCLIP 在 LVIS 數(shù)據(jù)集上的消融研究結(jié)果

可視化結(jié)果

如下圖所示,基于相同的 swin-t backbone,在 LVIS 數(shù)據(jù)集上的可視化效果相對(duì)于 GLIP 來(lái)說(shuō)有了明顯的提升,尤其是在稀有類(lèi)別的標(biāo)注以及標(biāo)注的完整程度。

圖片?

圖 7:DetCLIP 與 GLIP 在 LVIS 數(shù)據(jù)集上預(yù)測(cè)結(jié)果的可視化對(duì)比

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2019-12-30 09:41:59

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2021-02-19 18:10:06

微軟WindowsWindows 10

2015-06-05 09:27:13

無(wú)線WiFi

2021-09-27 10:12:42

欺騙防御rMTD網(wǎng)絡(luò)攻擊

2024-07-10 12:42:53

2025-01-10 14:00:00

2010-04-01 09:30:57

2015-08-21 09:14:40

大數(shù)據(jù)

2022-08-03 13:18:25

編程代碼

2021-02-01 09:00:00

微服務(wù)身份驗(yàn)證授權(quán)

2025-02-08 13:30:00

2019-07-12 13:50:36

物聯(lián)網(wǎng)大數(shù)據(jù)安全

2022-07-07 10:47:16

IngressKubernetes

2023-03-09 07:51:23

性能提升數(shù)據(jù)庫(kù)

2018-10-07 07:00:59

2023-07-06 15:29:52

數(shù)據(jù)中心能源回收

2024-01-23 17:33:36

2024-10-23 19:47:54

2009-07-31 08:56:59

ASP.NET頁(yè)面刷新

2010-06-18 09:48:22

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)