NeurIPS 2022 | 開(kāi)放域檢測(cè)新方法DetCLIP,推理效率提升20倍
開(kāi)放域檢測(cè)問(wèn)題,指的是在上游利用大量網(wǎng)上爬取的圖文對(duì)或一定類(lèi)別的人工標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,如何在下游場(chǎng)景上實(shí)現(xiàn)任意類(lèi)別檢測(cè)的問(wèn)題。開(kāi)放域檢測(cè)方法在產(chǎn)業(yè)界的應(yīng)用主要包括自動(dòng)駕駛系統(tǒng)路面物體檢測(cè),云端全場(chǎng)景檢測(cè)等。
論文地址:https://arxiv.org/abs/2209.09407
本篇分享的是 NeurIPS 2022 入選論文《DetCLIP: Dictionary-Enriched Visual-Concept Paralleled Pre-training for Open-world Detection》,該論文對(duì)開(kāi)放域檢測(cè)問(wèn)題提出了一種針對(duì)多數(shù)據(jù)源聯(lián)合高效的并行訓(xùn)練框架,同時(shí)構(gòu)建了額外的知識(shí)庫(kù)來(lái)提供類(lèi)別間的隱式關(guān)系。同時(shí) DetCLIP 在微軟舉辦的 ECCV2022 OdinW (Object Detection in the Wild[1]) 比賽上以 24.9% 的平均檢測(cè)指標(biāo)取得了 zero-shot 檢測(cè)賽道第一名。
問(wèn)題介紹
隨著使用基于網(wǎng)上爬取的圖片文本對(duì)訓(xùn)練的多模態(tài)預(yù)訓(xùn)練模型 (如 CLIP) 的流行,以及其在 zero-shot 分類(lèi)領(lǐng)域體現(xiàn)出的卓越性能,越來(lái)越多的方法嘗試將這種能力遷移至開(kāi)放域的 dense 預(yù)測(cè) (如任意類(lèi)別檢測(cè)、分割等)?,F(xiàn)有方法往往使用預(yù)訓(xùn)練好的分類(lèi)大模型進(jìn)行特征層面的蒸餾[1] 或通過(guò)對(duì) caption 打偽標(biāo)簽加自訓(xùn)練的方式進(jìn)行學(xué)習(xí)[2],但這樣往往會(huì)受限制于分類(lèi)大模型的性能以及 caption 標(biāo)注不完全的問(wèn)題。
現(xiàn)有 SOTA 開(kāi)放域檢測(cè)模型 GLIP[3]通過(guò)將檢測(cè)數(shù)據(jù)的格式轉(zhuǎn)化為 Grounding 數(shù)據(jù)的格式進(jìn)行多數(shù)據(jù)源的聯(lián)合訓(xùn)練,充分利用不同數(shù)據(jù)源的優(yōu)勢(shì)(檢測(cè)數(shù)據(jù)集對(duì)常見(jiàn)類(lèi)別有較為完全的標(biāo)注,而 Grounding 數(shù)據(jù)集對(duì)類(lèi)別 cover 區(qū)間的范圍更大)。然而,我們發(fā)現(xiàn)將類(lèi)別名詞簡(jiǎn)拼接的方式導(dǎo)致模型整體的學(xué)習(xí)效率降低,同時(shí)直接使用類(lèi)別單詞作為文本輸入無(wú)法提供細(xì)粒度的類(lèi)別之間的先驗(yàn)關(guān)系。
圖 1:多數(shù)據(jù)源聯(lián)合預(yù)訓(xùn)練開(kāi)放域檢測(cè)模型 pipeline
模型框架
如下圖所示,基于 ATSS[4]單階段檢測(cè)模型搭建,DetCLIP 包含了一個(gè)圖像編碼器?來(lái)獲得檢測(cè)框的圖像特征?,以及一個(gè)文本編碼器?來(lái)獲得類(lèi)別的文本特征?。然后基于上述圖像特征及文本特征來(lái)計(jì)算對(duì)應(yīng)的分類(lèi)對(duì)齊損失?、中心點(diǎn)損失?以及回歸損失?。
圖 2:DetCLIP 模型框架
如圖 2 右上及左上所示,本文的主要?jiǎng)?chuàng)新點(diǎn)是 1)提出以并行輸入處理多數(shù)據(jù)源物體 - 文本聯(lián)合訓(xùn)練的框架,優(yōu)化訓(xùn)練效率;2)構(gòu)建一個(gè)額外的物體知識(shí)庫(kù)輔助開(kāi)放域檢測(cè)訓(xùn)練。
多數(shù)據(jù)源并行輸入預(yù)訓(xùn)練框架
相對(duì)于 GLIP 中將 detection 數(shù)據(jù)通過(guò)拼接類(lèi)別名詞的方式轉(zhuǎn)化為 grounding 形式(串行),我們通過(guò)將 grounding 數(shù)據(jù)中的對(duì)應(yīng)名詞詞組抽取出來(lái)和 detection 中的類(lèi)別作為獨(dú)立的輸入,輸入到 text encoder 中(并行),避免不必要的 attention 計(jì)算,實(shí)現(xiàn)更高的訓(xùn)練效率。
圖 3:DetCLIP 并行輸入預(yù)訓(xùn)練框架與 GLIP 對(duì)比
物體知識(shí)庫(kù)
為了解決不同數(shù)據(jù)源的類(lèi)別空間不統(tǒng)一問(wèn)題 (同樣類(lèi)別名稱(chēng)不同,或類(lèi)別包含等) 以及為類(lèi)別之間的關(guān)系提供先驗(yàn)信息,我們構(gòu)建了物體知識(shí)庫(kù)來(lái)實(shí)現(xiàn)更高效的訓(xùn)練。
構(gòu)建:我們同時(shí)綜合檢測(cè)數(shù)據(jù)中的類(lèi)別、image-text pair 中的名詞詞組以及對(duì)應(yīng)定義來(lái)構(gòu)建物體知識(shí)庫(kù)。
使用:1. 我們使用物體知識(shí)庫(kù)的定義對(duì)現(xiàn)有的檢測(cè)數(shù)據(jù)中的類(lèi)別單詞進(jìn)行擴(kuò)充,以提供類(lèi)別之間關(guān)系的先驗(yàn)信息(Concept Enrichment)。
圖 4:使用物體知識(shí)庫(kù)對(duì)類(lèi)別單詞釋義擴(kuò)充示例
2. 由于 grounding 數(shù)據(jù)以及 image-caption 中數(shù)據(jù)存在 caption 標(biāo)注不完全的問(wèn)題(圖片上出現(xiàn)的類(lèi)別在 caption 中并沒(méi)有出現(xiàn)),導(dǎo)致訓(xùn)練這些圖片的時(shí)候可以作為負(fù)樣本的類(lèi)別數(shù)目極少,進(jìn)而使得模型對(duì)于一些不常見(jiàn)類(lèi)別的區(qū)分度較少。因此我們從物體知識(shí)庫(kù)中隨機(jī)選取物體名詞作為負(fù)樣本類(lèi)別,提升模型對(duì)稀少類(lèi)別特征的區(qū)分度(+Negative Samples)。
圖 5:引入物體知識(shí)庫(kù)中的類(lèi)別作為負(fù)樣本類(lèi)別
3. 對(duì)于無(wú)框標(biāo)注的 image-text pair 數(shù)據(jù),我們通過(guò)華為諾亞自研大模型 FILIP[5]和預(yù)訓(xùn)練好的 RPN 對(duì)其進(jìn)行標(biāo)注,使其可以轉(zhuǎn)化為正常的 grounding 數(shù)據(jù)進(jìn)行訓(xùn)練。同時(shí)為了緩解 caption 中對(duì)圖片上物體不完全標(biāo)注的問(wèn)題,我們使用了物體知識(shí)庫(kù)的所有類(lèi)別詞組作為打偽標(biāo)簽的候選類(lèi)別 (第二行),與僅僅使用 caption 中的類(lèi)別標(biāo)注效果(第一行) 對(duì)比如下:
圖 6:引入物體知識(shí)庫(kù)中的類(lèi)別作為打偽標(biāo)簽候選類(lèi)別
實(shí)驗(yàn)結(jié)果
我們?cè)谙掠?LVIS 檢測(cè)數(shù)據(jù)集 (1203 類(lèi)) 上驗(yàn)證了所提方法的開(kāi)放域檢測(cè)性能,可以看出在基于 swin-t backbone 的架構(gòu)上,DetCLIP 相對(duì)于現(xiàn)有 SOTA 模型 GLIP 取得了 9.9% AP 提升,在 Rare 類(lèi)別上更是提升了 12.4% AP,盡管相對(duì)于 GLIP 我們只使用了少于其一半的數(shù)據(jù)量,注意訓(xùn)練集中未包含 LVIS 中任何圖片。
表 1:LVIS 上不同方法 Zero-shot transfer performance 比較
在訓(xùn)練效率上,基于相同 32 張 V100 的硬件條件,GLIP-T 的訓(xùn)練時(shí)間是 DetCLIP-T 的 5 倍(10.7K GPU hrs vs. 2.0K GPU hrs)。在測(cè)試效率上,基于單張 V100,DetCLIP-T 的推理效率 2.3 FPS (0.4 秒每張圖)是 GLIP-T 的 0.12 FPS (8.6 秒每張圖)的 20 倍。我們同時(shí)單獨(dú)研究了 DetCLIP 的關(guān)鍵創(chuàng)新 (并行框架和物體知識(shí)庫(kù)) 對(duì)精度的影響。
表 3:DetCLIP 在 LVIS 數(shù)據(jù)集上的消融研究結(jié)果
可視化結(jié)果
如下圖所示,基于相同的 swin-t backbone,在 LVIS 數(shù)據(jù)集上的可視化效果相對(duì)于 GLIP 來(lái)說(shuō)有了明顯的提升,尤其是在稀有類(lèi)別的標(biāo)注以及標(biāo)注的完整程度。
?
圖 7:DetCLIP 與 GLIP 在 LVIS 數(shù)據(jù)集上預(yù)測(cè)結(jié)果的可視化對(duì)比