自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

還在YOLO-World?DetCLIPv3出手!性能大幅度超出一眾SOTA!

人工智能 新聞
本文介紹了DetCLIPv3,這是一種高性能檢測(cè)器,不僅在開(kāi)詞匯目標(biāo)檢測(cè)方面表現(xiàn)出色,同時(shí)還能為檢測(cè)到的目標(biāo)生成分層標(biāo)簽。

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

圖片

現(xiàn)有的開(kāi)詞匯目標(biāo)檢測(cè)器通常需要用戶(hù)預(yù)設(shè)一組類(lèi)別,這大大限制了它們的應(yīng)用場(chǎng)景。在本文中,作者介紹了DetCLIPv3,這是一種高性能檢測(cè)器,不僅在開(kāi)詞匯目標(biāo)檢測(cè)方面表現(xiàn)出色,同時(shí)還能為檢測(cè)到的目標(biāo)生成分層標(biāo)簽。

DetCLIPv3的特點(diǎn)有三個(gè)核心設(shè)計(jì):

  1. 多功能的模型架構(gòu):作者導(dǎo)出一個(gè)健壯的開(kāi)集檢測(cè)框架,并通過(guò)集成字幕 Head 進(jìn)一步賦予其生成能力。
  2. 高信息密度數(shù)據(jù):作者開(kāi)發(fā)了一個(gè)自動(dòng)標(biāo)注 Pipeline ,利用視覺(jué)大型語(yǔ)言模型來(lái)細(xì)化大規(guī)模圖像-文本對(duì)中的字幕,為訓(xùn)練提供豐富、多粒度的目標(biāo)標(biāo)簽以增強(qiáng)訓(xùn)練。
  3. 高效的訓(xùn)練策略:作者采用了一個(gè)預(yù)訓(xùn)練階段,使用低分辨率輸入,使目標(biāo)字幕生成器能夠從廣泛的圖像-文本配對(duì)數(shù)據(jù)中高效學(xué)習(xí)廣泛的視覺(jué)概念。

在預(yù)訓(xùn)練之后是一個(gè)微調(diào)階段,利用少量高分辨率樣本進(jìn)一步提高檢測(cè)性能。借助這些有效的設(shè)計(jì),DetCLIPv3展示了卓越的開(kāi)詞匯檢測(cè)性能,例如,作者的Swin-T Backbone 模型在LVIS minival基準(zhǔn)上取得了顯著的47.0零樣本固定AP,分別優(yōu)于GLIPv2、GroundingDINO和DetCLIPv2 18.0/19.6/6.6 AP。DetCLIPv3在VG數(shù)據(jù)集上的密集字幕任務(wù)也取得了先進(jìn)的19.7 AP,展示了其強(qiáng)大的生成能力。

1 Introduction

在開(kāi)放詞匯目標(biāo)檢測(cè)(OVD)領(lǐng)域的近期進(jìn)展已經(jīng)實(shí)現(xiàn)了識(shí)別和定位多種不同目標(biāo)的能力。然而,這些模型在推理過(guò)程中依賴(lài)于預(yù)定義的目標(biāo)類(lèi)別列表,這限制了它們?cè)趯?shí)際場(chǎng)景中的應(yīng)用。

與目前僅基于類(lèi)別名稱(chēng)識(shí)別物體的開(kāi)放詞匯目標(biāo)檢測(cè)(OVD)方法相比,人類(lèi)認(rèn)知展現(xiàn)出了更多的靈活性。如圖2所示,人類(lèi)能夠以層次化的方式,從不同的粒度理解物體。這種多級(jí)識(shí)別能力展示了人類(lèi)豐富的視覺(jué)理解能力,這是現(xiàn)代OVD系統(tǒng)尚未達(dá)到的。

為了解決上述限制,作者引入了DetCLIPv3,這是一種新型的目標(biāo)檢測(cè)器,它擴(kuò)展了開(kāi)放詞匯目標(biāo)檢測(cè)的范圍。DetCLIPv3不僅能夠根據(jù)提供的類(lèi)別名稱(chēng)識(shí)別物體,還能夠?yàn)槊總€(gè)檢測(cè)到的物體生成層次化的標(biāo)簽。這一特性具有兩個(gè)優(yōu)點(diǎn):1) 由于其卓越的生成能力,即使在沒(méi)有適當(dāng)?shù)妮斎胛矬w類(lèi)別的情況下,檢測(cè)器仍然適用;2) 模型能夠提供關(guān)于物體的全面且分層的描述,而不僅僅是基于給定類(lèi)別進(jìn)行識(shí)別。具體來(lái)說(shuō),DetCLIPv3具有三個(gè)核心設(shè)計(jì)特點(diǎn):

多功能的模型架構(gòu): DetCLIPv3基于一個(gè)健壯的開(kāi)詞匯(OV)檢測(cè)器,并且進(jìn)一步通過(guò)一個(gè)物體描述器增強(qiáng)了其生成能力。具體來(lái)說(shuō),物體描述器利用OV檢測(cè)器提供的foreground proposals(前景 Proposal ),并通過(guò)語(yǔ)言建模訓(xùn)練目標(biāo)來(lái)訓(xùn)練生成每個(gè)檢測(cè)到的物體的分層標(biāo)簽。這種設(shè)計(jì)不僅允許精確的定位,還能提供視覺(jué)概念的詳細(xì)描述,從而為視覺(jué)內(nèi)容提供更豐富的解釋。

高信息密度數(shù)據(jù): 發(fā)展強(qiáng)大的生成能力需要豐富的訓(xùn)練數(shù)據(jù),這些數(shù)據(jù)需充實(shí)了詳細(xì)的物體 Level 描述。這樣全面的數(shù)據(jù)庫(kù)稀缺(例如,Visual Genome [25])成為了訓(xùn)練有效物體描述生成器的重大障礙。另一方面,盡管大規(guī)模的圖像-文本配對(duì)數(shù)據(jù)很豐富,但它們?nèi)狈?duì)每個(gè)物體的細(xì)粒度標(biāo)注。為了利用這些數(shù)據(jù),作者設(shè)計(jì)了一個(gè)自動(dòng)標(biāo)注管線,利用最先進(jìn)的視覺(jué)大型語(yǔ)言模型[7, 35],該模型能夠提供包含豐富層次化物體標(biāo)簽的精細(xì)圖像描述。通過(guò)這個(gè)管線,作者得到了一個(gè)大規(guī)模的數(shù)據(jù)集(稱(chēng)為GranuCap50M),以增強(qiáng)DetCLIPv3在檢測(cè)和生成方面的能力。

高效的多階段訓(xùn)練: 與高分辨率輸入相關(guān)的目標(biāo)檢測(cè)訓(xùn)練成本高昂,這對(duì)從大量的圖像-文本對(duì)中學(xué)習(xí)構(gòu)成了重大障礙。為了解決這個(gè)問(wèn)題,作者提出了一種高效的多階段對(duì)齊訓(xùn)練策略。這種方法首先利用大規(guī)模、低分辨率的圖像-文本數(shù)據(jù)集的知識(shí),然后在高質(zhì)量、細(xì)粒度、高分辨率的 數(shù)據(jù)上進(jìn)行微調(diào)。這種方法確保了全面的視覺(jué)概念學(xué)習(xí),同時(shí)保持了可管理的訓(xùn)練需求。

通過(guò)有效的設(shè)計(jì),DetCLIPv3在檢測(cè)和目標(biāo) Level 的生成能力上表現(xiàn)出色,例如,采用Swin-T Backbone 網(wǎng)絡(luò),在LVIS minival基準(zhǔn)測(cè)試中取得了顯著的47.0零樣本固定AP[9],明顯優(yōu)于先前的模型如GLIPv2[65],DetCLIPv2[60]和GroundingDINO[36]。此外,它在密集字幕任務(wù)上達(dá)到18.4 mAP,比先前的SOTA方法GRiT[56]高出2.9 mAP。廣泛的實(shí)驗(yàn)進(jìn)一步證明了DetCLIPv3在領(lǐng)域泛化及下游遷移能力方面的優(yōu)越性。

2 Related works

開(kāi)放詞匯目標(biāo)檢測(cè)。 近期在開(kāi)放詞匯目標(biāo)檢測(cè)(OVD)方面的進(jìn)展使得可以識(shí)別無(wú)限范圍類(lèi)別的目標(biāo),如文獻(xiàn)[16, 17, 57, 63, 69]所示。這些方法通過(guò)將預(yù)訓(xùn)練的視覺(jué)-語(yǔ)言模型,例如CLIP [46],整合到檢測(cè)器中來(lái)實(shí)現(xiàn)OVD。另外,擴(kuò)大檢測(cè)訓(xùn)練數(shù)據(jù)集也顯示出潛力[24, 29, 31, 36, 58, 60, 65, 70],這些方法結(jié)合了來(lái)自各種任務(wù)(如分類(lèi)和視覺(jué)定位)的數(shù)據(jù)集。此外,偽標(biāo)簽已經(jīng)作為增強(qiáng)訓(xùn)練數(shù)據(jù)集的另一種有效策略出現(xiàn),如文獻(xiàn)[15, 29, 43, 58, 68, 69]所示。然而,先前的OVD方法仍然需要一個(gè)預(yù)定義的目標(biāo)類(lèi)別進(jìn)行檢測(cè),這限制了它們?cè)诙鄻踊瘓?chǎng)景中的適用性。相比之下,作者的DetCLIPv3即使在沒(méi)有類(lèi)別名稱(chēng)的情況下也能夠生成豐富的分層目標(biāo)標(biāo)簽。

密集字幕生成。 密集字幕生成旨在為特定圖像區(qū)域生成描述[23, 28, 30, 51, 61]。最近,CapDet [38] 和 GRiT [56] 都通過(guò)引入一個(gè)字幕生成器,為目標(biāo)檢測(cè)器配備了生成能力。然而,由于訓(xùn)練數(shù)據(jù)稀缺,例如 Visual Genome [25] 中包含的數(shù)據(jù),它們只能為有限的視覺(jué)概念生成描述。相比之下,作者利用大規(guī)模圖像-文本對(duì)中的豐富知識(shí),使模型能夠?yàn)楦鼜V泛的概念譜生成分層標(biāo)簽信息。

圖像-文本對(duì)的重新描述。 近期研究 [5, 26, 44, 62] 強(qiáng)調(diào)了當(dāng)前圖像-文本對(duì)數(shù)據(jù)中存在的問(wèn)題,并已表明重新描述的高質(zhì)量圖像-文本對(duì)可以顯著提高各種視覺(jué)任務(wù)的學(xué)習(xí)效率,例如文本到圖像生成 [5, 44],圖像-文本檢索 [26, 27] 和圖像標(biāo)注 [26, 62]。作者將這一想法擴(kuò)展到開(kāi)放詞匯目標(biāo)檢測(cè),并探索如何有效地利用圖像-文本對(duì)中包含的目標(biāo)實(shí)體信息。

3 Method

在本節(jié)中,作者介紹了DetCLIPv3的核心設(shè)計(jì),包括:(1)模型架構(gòu)(第3.1節(jié))—闡述作者的模型如何實(shí)現(xiàn)開(kāi)詞匯目標(biāo)檢測(cè)及生成目標(biāo)描述;(2)自動(dòng)標(biāo)注數(shù)據(jù)流程(第3.2節(jié))—詳細(xì)說(shuō)明作者策劃大規(guī)模、高質(zhì)量的圖像-文本對(duì)的方法,涵蓋不同粒度層面的目標(biāo)信息;(3)訓(xùn)練策略(第3.3節(jié))—概述作者如何有效地利用大規(guī)模圖像-文本數(shù)據(jù)集來(lái)促進(jìn)目標(biāo)概念的生成,進(jìn)而提升開(kāi)詞匯檢測(cè)的能力。

Model Design

圖3展示了DetCLIPv3的整體框架。本質(zhì)上,該模型基于一個(gè)強(qiáng)大的開(kāi)放詞匯目標(biāo)檢測(cè)器,并配備了一個(gè)專(zhuān)門(mén)用于生成分層和描述性目標(biāo)概念的目標(biāo)標(biāo)題生成器。該模型能夠在兩種模式下運(yùn)行:1) 當(dāng)提供一個(gè)預(yù)定義的類(lèi)別詞匯表時(shí),DetCLIPv3預(yù)測(cè)列表中提到的物體的定位;2) 在沒(méi)有詞匯表的情況下,DetCLIPv3能夠定位物體并為每一個(gè)物體生成分層描述。

數(shù)據(jù)制定。 DetCLIPv3的訓(xùn)練利用了來(lái)自多個(gè)來(lái)源的數(shù)據(jù)集,包括檢測(cè)[50, 55]、定位[24]以及圖像-文本對(duì)[4, 48, 52, 53],并帶有邊界框偽標(biāo)簽(具體見(jiàn)第3.2節(jié))。與DetCLIPv1/v2[58, 60]一樣,作者采用一種_平行制定_方法將來(lái)自不同數(shù)據(jù)源的文本輸入統(tǒng)一為一種標(biāo)準(zhǔn)格式。具體來(lái)說(shuō),每個(gè)輸入樣本結(jié)構(gòu)化為一個(gè)三元組,,其中是輸入圖像,表示一組邊界框,而則表示一組概念文本,包括正負(fù)概念。

對(duì)于檢測(cè)數(shù)據(jù), 包括類(lèi)別名稱(chēng)及其定義(如 [58, 60] 中所述),適用于訓(xùn)練和測(cè)試階段。負(fù)概念是從數(shù)據(jù)集中的類(lèi)別中抽取的。對(duì)于接地(grounding)和圖像-文本對(duì)數(shù)據(jù),正概念是目標(biāo)描述,而負(fù)概念則從大規(guī)模名詞語(yǔ)料庫(kù)中抽?。ň唧w見(jiàn)第3.2節(jié))。在訓(xùn)練期間,為了增加負(fù)概念的數(shù)量,作者從所有訓(xùn)練節(jié)點(diǎn)收集它們,并執(zhí)行去重處理。

開(kāi)放詞匯檢測(cè)器。 作者提出了一種緊湊但功能強(qiáng)大的檢測(cè)器架構(gòu),用于DetCLIPv3,如圖3中紅色框所示。具體來(lái)說(shuō),它是一個(gè)雙路徑模型,包括一個(gè)視覺(jué)目標(biāo)檢測(cè)器  和一個(gè)文本編碼器 。視覺(jué)目標(biāo)檢測(cè)器采用基于 Transformer 的檢測(cè)架構(gòu)[3, 66, 71],由一個(gè) Backbone 網(wǎng)絡(luò)、一個(gè)像素編碼器和一個(gè)目標(biāo)解碼器組成。Backbone 網(wǎng)絡(luò)和像素編碼器負(fù)責(zé)提取視覺(jué)特征,進(jìn)行細(xì)粒度特征融合,并為解碼器提出候選目標(biāo) Query 。類(lèi)似于GroundingDINO [36],作者利用文本特征根據(jù)相似性選擇前k個(gè)像素特征,并后來(lái)使用它們的坐標(biāo)預(yù)測(cè)來(lái)初始化解碼器目標(biāo) Query 的位置部分。然而,與眾不同的是,作者放棄了在[36]中設(shè)計(jì)的計(jì)算密集型跨模態(tài)融合模塊。遵循先前的DETR-like檢測(cè)器[3, 66, 71],作者的訓(xùn)練損失由三個(gè)組成部分構(gòu)成:,其中  是區(qū)域視覺(jué)特征與文本概念之間的對(duì)比焦損失[34],而  和  分別是L1損失和GIOU[47]損失。為了提升性能,在解碼器的每一層以及編碼器的輸出上采用了輔助損失。

目標(biāo)描述器。 目標(biāo)描述器使DetCLIPV3能夠?yàn)槲矬w生成詳細(xì)和分層的標(biāo)簽。為了獲取圖像-文本對(duì)中包含的豐富知識(shí),作者在訓(xùn)練過(guò)程中進(jìn)一步結(jié)合了圖像級(jí)字幕目標(biāo)以增強(qiáng)生成能力。如圖3中藍(lán)色框所示,目標(biāo)描述器的設(shè)計(jì)受到Qformer [27]的啟發(fā)。具體來(lái)說(shuō),它采用了一種基于多模態(tài)Transformer的架構(gòu),其交叉注意力層被替換為為密集預(yù)測(cè)任務(wù)定制的可變形注意力[71]。描述器的輸入包括視覺(jué)(物體或圖像) Query 和文本標(biāo)記。視覺(jué) Query 通過(guò)交叉注意力與像素編碼器的特征交互,而自注意力層和FFN層在不同模態(tài)之間共享。此外,采用了多模態(tài)因果自注意力 Mask [11, 27]來(lái)控制視覺(jué) Query 與文本標(biāo)記之間的交互。描述器的訓(xùn)練由傳統(tǒng)的語(yǔ)言建模損失  指導(dǎo),對(duì)于物體級(jí)和圖像級(jí)生成具有不同的輸入格式:

目標(biāo)級(jí)生成。目標(biāo) Query 以及可變形交叉注意力所需的參考點(diǎn),都來(lái)源于目標(biāo)解碼器最終層的輸出。輸入結(jié)構(gòu)為:$,其中\texttt{[OBJ]}$是一個(gè)特殊的任務(wù) Token ,表示目標(biāo)生成任務(wù)。在訓(xùn)練期間,作者使用與 GT 情況相匹配的正 Query 來(lái)計(jì)算損失。在推理過(guò)程中,為了獲得前景 Proposal ,作者根據(jù)它們與作者精選名詞語(yǔ)料庫(kù)(第3.2節(jié))中最頻繁的15K名詞概念的相似性,選擇前k個(gè)候選目標(biāo) Query 。在為這些目標(biāo)生成分層標(biāo)簽后,作者使用OV檢測(cè)器重新校準(zhǔn)它們的目標(biāo)性得分,計(jì)算目標(biāo) Query 與它們生成的'短語(yǔ)'和'類(lèi)別'字段之間的相似性。這2個(gè)相似性中較高的一個(gè)被采納作為目標(biāo)性得分。

圖像級(jí)生成。受到Qformer [27]的啟發(fā),作者初始化了32個(gè)可學(xué)習(xí)的圖像 Query ,并使用一組固定的參考點(diǎn)。具體來(lái)說(shuō),作者從像素編碼器的參考點(diǎn)等間隔地采樣了32個(gè)位置。與目標(biāo)級(jí)生成類(lèi)似,輸入結(jié)構(gòu)為 $</imagequery,$$\texttt{[img]},text></imagequery,$$\texttt{[img]},text></imagequery,$$\texttt{[img]},text></imagequery,$$\texttt{[img]},text></imagequery,$$\texttt{[img]},text></imagequery,$$\texttt{[img]},text></imagequery,$$\texttt{[img]},text></imagequery,$$\texttt{[img]},text></imagequery,$$\texttt{[img]},text></imagequery,$$\texttt{[img]},text></imagequery,$$\texttt{[img]},text></imagequery,$$\texttt{[img]},text></imagequery,$$\texttt{[img]},text></imagequery,$$\texttt{[img]},text></imagequery,$$\texttt{[img]},text></imagequery,$$\texttt{[img]},text></imagequery,$$\texttt{[img]},text></imagequery,$$\texttt{[img]},text></imagequery,$$\texttt{[img]},text></imagequery,$$\texttt{[img]},text>,其中\texttt{[IMG]}$ 是一個(gè)特殊的任務(wù)標(biāo)記,表示圖像生成。圖像級(jí)生成的推理過(guò)程與訓(xùn)練是一致的。</imagequery,$$\texttt{[img]},text>

Dataset Construction

自動(dòng)標(biāo)注數(shù)據(jù) Pipeline 。利用大量成本效益高的圖像-文本對(duì)進(jìn)行視覺(jué)概念學(xué)習(xí),對(duì)于提高開(kāi)放詞匯目標(biāo)檢測(cè)器的一般化能力至關(guān)重要。然而,現(xiàn)有的圖像-文本對(duì)數(shù)據(jù)集存在重大缺陷,這些缺陷阻礙了它們?cè)贠VD中的實(shí)用性,如圖4所示:(1) 錯(cuò)位:互聯(lián)網(wǎng)來(lái)源的圖像-文本對(duì)數(shù)據(jù)經(jīng)常包含大量噪聲。即使使用CLIP [46]基于分?jǐn)?shù)的過(guò)濾[48, 49],許多文本仍然無(wú)法準(zhǔn)確描述圖像的內(nèi)容,如圖4的第二和第三張圖像所示。(2) 部分標(biāo)注:大部分文本只描述圖像中的主要目標(biāo),導(dǎo)致目標(biāo)信息稀疏,因此,損害了OVD系統(tǒng)的學(xué)習(xí)效率,如圖1所示。(3) 實(shí)體提取挑戰(zhàn):先前的工作[24, 32, 43, 60]主要使用傳統(tǒng)的NLP解析器,如NLTK [1, 42]或SpaCy [21],從圖像-文本對(duì)中提取名詞概念。它們的有限能力可能導(dǎo)致名詞與圖像內(nèi)容對(duì)齊不良,如圖4的第二行所示。這種不匹配為后續(xù)的學(xué)習(xí)過(guò)程或偽標(biāo)簽工作流程帶來(lái)了進(jìn)一步的復(fù)雜性。

圖片圖片

一個(gè)理想的圖像-文本對(duì)數(shù)據(jù)集對(duì)于視覺(jué)描述(OVD)應(yīng)當(dāng)包含對(duì)圖像的準(zhǔn)確和全面的描述,提供從詳細(xì)到粗略不同粒度 Level 的圖像中目標(biāo)的信息。基于這種啟發(fā),作者 Proposal 使用視覺(jué)大型語(yǔ)言模型(VLLM)[7, 35]來(lái)開(kāi)發(fā)一個(gè)自動(dòng)標(biāo)注流水線,以提高數(shù)據(jù)質(zhì)量。VLLM具有感知圖像內(nèi)容的能力,以及強(qiáng)大的語(yǔ)言技能,使它們能夠生成精確和詳細(xì)的標(biāo)題以及目標(biāo)描述。

使用VLLM重制標(biāo)題:作者從常用的數(shù)據(jù)集[4, 52, 53]中抽取了24萬(wàn)張圖像-文本對(duì),并使用InstructBLIP [7]模型進(jìn)行了重制標(biāo)題。為了利用原始標(biāo)題中的信息,作者將其融入作者的提示設(shè)計(jì)中,結(jié)構(gòu)如下:_"給定圖像的一個(gè)含噪聲的標(biāo)題:{原始標(biāo)題},撰寫(xiě)一幅圖像的詳細(xì)清晰描述。"_。這種方法有效地提升了標(biāo)題文本的質(zhì)量,同時(shí)保持了原始標(biāo)題中名詞概念的多樣性。

使用GPT-4的實(shí)體提取:作者利用GPT-4[45]卓越的語(yǔ)言能力來(lái)處理精致標(biāo)題中的實(shí)體信息。具體來(lái)說(shuō),首先用它過(guò)濾掉VLLM生成的標(biāo)題中非實(shí)體的描述,比如對(duì)圖像的氛圍或藝術(shù)性解讀。隨后,它負(fù)責(zé)從標(biāo)題中提取出現(xiàn)的物體實(shí)體。每個(gè)實(shí)體都被格式化為一個(gè)三元組:{短語(yǔ),類(lèi)別,父類(lèi)別},分別表示物體描述在三個(gè)不同粒度 Level 上。

對(duì)VLLM進(jìn)行大規(guī)模標(biāo)注的指令調(diào)整:考慮到GPT-4 API的高昂成本,將其用于大規(guī)模數(shù)據(jù)集生成是不切實(shí)際的。作為一種解決方案,作者在LLaVA [35]模型上執(zhí)行進(jìn)一步的指令調(diào)整階段,利用之前步驟獲得的改進(jìn)的標(biāo)題和目標(biāo)實(shí)體。然后,這個(gè)微調(diào)后的模型被用來(lái)為包含200M圖像-文本對(duì)的大型數(shù)據(jù)集生成標(biāo)題和實(shí)體信息,這些樣本取自CC15M [4, 52],YFCC[53] 和 LAION [48]。

邊界框自動(dòng)標(biāo)記:為了自動(dòng)推導(dǎo)出圖像-文本配對(duì)數(shù)據(jù)中的邊界框標(biāo)注,作者應(yīng)用一個(gè)預(yù)訓(xùn)練的開(kāi)詞匯目標(biāo)檢測(cè)器(第3.3節(jié))來(lái)分配偽邊界框標(biāo)簽,給定從前一步驟中得出的目標(biāo)實(shí)體。當(dāng)提供來(lái)自VLLM的準(zhǔn)確候選目標(biāo)實(shí)體時(shí),檢測(cè)器的準(zhǔn)確性可以大大提高。具體來(lái)說(shuō),作者將 '短語(yǔ)' 和 '類(lèi)別' 字段作為檢測(cè)器的文本輸入,并使用預(yù)定義的分?jǐn)?shù)閾值來(lái)過(guò)濾結(jié)果邊界框。如果這兩個(gè)字段中的任何一個(gè)匹配,作者會(huì)為該目標(biāo)分配整個(gè)實(shí)體 {短語(yǔ), 類(lèi)別, 父類(lèi)別}。在使用預(yù)定義的置信度閾值過(guò)濾后,大約有5000萬(wàn)個(gè)數(shù)據(jù)被采樣用于后續(xù)訓(xùn)練,作者將其稱(chēng)為 GranuCap50M。在訓(xùn)練檢測(cè)器時(shí),作者使用 '短語(yǔ)' 和 '類(lèi)別' 字段作為文本標(biāo)簽;而在訓(xùn)練目標(biāo)描述器時(shí),作者將三個(gè)字段 - '短語(yǔ)'  類(lèi)別'  父類(lèi)別'

無(wú)概念語(yǔ)料庫(kù)。 與DetCLIP [58]相似,作者利用提取的目標(biāo)實(shí)體的信息開(kāi)發(fā)了一個(gè)名詞概念語(yǔ)料庫(kù)。這個(gè)語(yǔ)料庫(kù)主要旨在為GT和圖像-文本對(duì)數(shù)據(jù)(第3.1節(jié))提供負(fù)概念。具體來(lái)說(shuō),作者從20億個(gè)重新配文的數(shù)據(jù)中收集實(shí)體的_'category'_字段。在頻率分析之后,總頻率低于10的概念被省略。DetCLIPv3的名詞概念語(yǔ)料庫(kù)由792k名詞概念組成,幾乎是DetCLIP中構(gòu)建的14k概念的57倍擴(kuò)展。

Multi-stage Training Scheme

學(xué)習(xí)生成多樣化的物體描述需要在大型數(shù)據(jù)集上進(jìn)行廣泛的訓(xùn)練。然而,像目標(biāo)檢測(cè)這樣的密集預(yù)測(cè)任務(wù)需要高分辨率輸入才能有效處理不同物體之間的尺度變化。這大大提高了計(jì)算成本,給擴(kuò)大訓(xùn)練規(guī)模帶來(lái)了挑戰(zhàn)。為了緩解這個(gè)問(wèn)題,作者開(kāi)發(fā)了一個(gè)基于“預(yù)訓(xùn)練+微調(diào)”范式的訓(xùn)練策略來(lái)優(yōu)化訓(xùn)練成本,具體來(lái)說(shuō),它包括以下3個(gè)步驟:

訓(xùn)練OV檢測(cè)器(第一階段):在初始階段,作者用標(biāo)注的數(shù)據(jù)集來(lái)訓(xùn)練OV檢測(cè)器,即Objects365 [50],V3Det[55]和GoldG [24]。為了使模型在后續(xù)訓(xùn)練階段能夠從低分辨率輸入中學(xué)習(xí),作者對(duì)訓(xùn)練數(shù)據(jù)應(yīng)用了大規(guī)模抖動(dòng)增強(qiáng)。此外,在這一階段開(kāi)發(fā)的具有Swin-L Backbone 網(wǎng)絡(luò)的模型被用來(lái)為圖像-文本對(duì)生成偽邊界框,具體如第3.2節(jié)所述。

預(yù)訓(xùn)練目標(biāo)描述生成器(階段2):為了使目標(biāo)描述生成器能夠生成多樣化的目標(biāo)描述,作者使用GranuCap50M對(duì)其進(jìn)行預(yù)訓(xùn)練。為了提高這個(gè)訓(xùn)練階段的效率,作者凍結(jié)了OV檢測(cè)器所有的參數(shù),包括 Backbone 網(wǎng)絡(luò)、像素編碼器和目標(biāo)解碼器,并采用了較低的輸入分辨率320×320。這種策略使得描述生成器能夠從大規(guī)模的圖像-文本對(duì)中有效地獲取視覺(jué)概念知識(shí)。

整體微調(diào)(階段3):這一階段旨在使字幕生成器適應(yīng)高分辨率輸入,同時(shí)提高 OV 檢測(cè)器的性能。具體來(lái)說(shuō),作者從 GranuCap50M 中均勻抽取了60萬(wàn)個(gè)樣本。這些樣本以及檢測(cè)和定位數(shù)據(jù)集一起用來(lái)進(jìn)一步微調(diào)模型。在此階段,釋放所有參數(shù)以最大化有效性,訓(xùn)練目標(biāo)設(shè)置為檢測(cè)和字幕生成損失的組合,即 。字幕生成器的監(jiān)督僅來(lái)自使用作者的自動(dòng)標(biāo)注 Pipeline 構(gòu)建的數(shù)據(jù)集,而所有數(shù)據(jù)都用于 OV 檢測(cè)器的訓(xùn)練。由于檢測(cè)器和字幕生成器都已進(jìn)行預(yù)訓(xùn)練,因此模型可以在幾個(gè)周期內(nèi)有效適應(yīng)。

4 Experiments

訓(xùn)練細(xì)節(jié)。 作者使用Swin-T和Swin-L [37] 主干網(wǎng)絡(luò)訓(xùn)練了2個(gè)模型。目標(biāo)檢測(cè)器的訓(xùn)練設(shè)置主要遵循DetCLIPv2 [60]。作者分別使用32/64塊V100 GPU來(lái)訓(xùn)練基于swin-T/L的模型。三個(gè)階段的訓(xùn)練周期分別為12、3和5。對(duì)于使用Swin-T主干網(wǎng)絡(luò)的模型,這些階段的相應(yīng)訓(xùn)練時(shí)間總計(jì)為54、56和35小時(shí)。有關(guān)其他訓(xùn)練細(xì)節(jié),請(qǐng)參閱附錄。

Zero-Shot Open-Vocabulary Object Detection

遵循之前的工作[29, 43, 58, 60, 65],作者用1203類(lèi)LVIS[18]數(shù)據(jù)集上的零樣本性能來(lái)評(píng)估作者模型的開(kāi)放詞匯能力。作者報(bào)告了在val(LVIS)和mini-val[24](LVIS)分割上的固定AP[9]性能。在這個(gè)實(shí)驗(yàn)中,作者僅使用了模型的OV檢測(cè)器組件,并將數(shù)據(jù)集的類(lèi)別名稱(chēng)作為輸入。

表1展示了作者的方法與現(xiàn)有方法的比較。DetCLIPv3顯著優(yōu)于其他方法,展現(xiàn)了卓越的開(kāi)詞匯目標(biāo)檢測(cè)能力。例如,在LVIS小型驗(yàn)證集上,采用Swin-T(第8行)和Swin-L(第15行) Backbone 網(wǎng)絡(luò)的作者的模型分別達(dá)到47.0和48.8的AP,分別比之前的最先進(jìn)方法DetCLIPv2提高了6.6(第7行)和4.1 AP(第14行)。值得注意的是,作者的Swin-L模型在稀有類(lèi)別上的性能(49.9 AP)甚至超過(guò)了在基礎(chǔ)類(lèi)別上的性能(頻繁類(lèi)別中為47.8 AP,普通類(lèi)別中為49.7 AP)。這表明,使用高質(zhì)量圖像-文本對(duì)的全面預(yù)訓(xùn)練大大增強(qiáng)了模型識(shí)別各種視覺(jué)概念的能力,導(dǎo)致在長(zhǎng)尾分布數(shù)據(jù)上的檢測(cè)能力顯著提升。

圖片

Evaluation of Object Captioner

作者采用了2個(gè)任務(wù)來(lái)評(píng)估作者的物體描述生成器,即零樣本生成式目標(biāo)檢測(cè)和密集標(biāo)注。

零樣本生成目標(biāo)檢測(cè)。 作者在COCO [33] 數(shù)據(jù)集上進(jìn)行了零樣本目標(biāo)級(jí)標(biāo)簽生成,使用的推理過(guò)程是第3.1節(jié)中描述的,并評(píng)估了其檢測(cè)性能。然而,這種評(píng)估由于兩個(gè)關(guān)鍵因素而具有重大挑戰(zhàn):(1) 缺乏預(yù)定義的類(lèi)別用于前景選擇,導(dǎo)致檢測(cè)器提出的前景區(qū)域與數(shù)據(jù)集的目標(biāo)模式之間存在不一致。(2) 生成結(jié)果可以是任何任意的詞匯,這可能與數(shù)據(jù)集中指定的類(lèi)別名稱(chēng)不匹配。為了緩解這些問(wèn)題,作者引入了多種后處理技術(shù)。具體來(lái)說(shuō),作者使用生成的標(biāo)簽中的“類(lèi)別”字段作為目標(biāo)的類(lèi)別。為了解決第(2)個(gè)問(wèn)題,在評(píng)估過(guò)程中,作者使用評(píng)估模型的文本編碼器計(jì)算生成類(lèi)別與COCO類(lèi)別名稱(chēng)之間的相似性,并用最佳匹配的COCO類(lèi)別替換生成的目標(biāo)類(lèi)別。為了解決第(1)個(gè)問(wèn)題,作者進(jìn)一步過(guò)濾掉相似度得分低于預(yù)定義閾值0.7的目標(biāo)。

為了與現(xiàn)有方法進(jìn)行比較,作者采用了在OVR-CNN [64]中提出的OV COCO設(shè)置,其中從COCO中選擇了48個(gè)類(lèi)別作為基礎(chǔ)類(lèi)別,17個(gè)作為新穎類(lèi)別。所使用的評(píng)估指標(biāo)是在IoU為0.5時(shí)的mAP。與先前方法相反,_作者在所有設(shè)置中執(zhí)行零樣本生成OV檢測(cè),而無(wú)需對(duì)基礎(chǔ)類(lèi)別進(jìn)行訓(xùn)練_。表2展示了評(píng)估結(jié)果。作者的生成方法可以在新穎類(lèi)別性能上顯著優(yōu)于先前的判別方法。而且,在沒(méi)有對(duì)基礎(chǔ)類(lèi)別進(jìn)行訓(xùn)練的情況下,作者的總體AP達(dá)到了與先前方法相當(dāng)?shù)乃?。這些結(jié)果證明了基于生成的OV檢測(cè)作為一個(gè)有前景的范式的潛力。

密集字幕生成。 利用從大量的圖像-文本對(duì)中獲得的視覺(jué)概念知識(shí),DetCLIPv3可以輕松地被適配以生成詳細(xì)的物體描述。遵循[23, 51]的研究,作者在VG V1.2 [25]和VG-COCO [51]數(shù)據(jù)集上評(píng)估了密集字幕生成的性能。為了確保公平比較,作者在訓(xùn)練數(shù)據(jù)集上對(duì)作者的模型進(jìn)行微調(diào)。類(lèi)似于CapDet [38],在微調(diào)期間,作者將作者的OV檢測(cè)器轉(zhuǎn)換為一個(gè)類(lèi)無(wú)關(guān)的前景提取器,這是通過(guò)將所有前景物體的文本標(biāo)簽分配給概念'object'來(lái)實(shí)現(xiàn)的。表3將作者的方法與現(xiàn)有方法進(jìn)行了比較。DetCLIPv3顯著優(yōu)于現(xiàn)有方法。_例如_,在VG上,作者使用Swin-T(第7行)和Swin-L(第8行)作為 Backbone 網(wǎng)絡(luò)的模型,分別超過(guò)了之前最佳的方法GRiT [56](第6行),提高了2.9 AP和4.2 AP。

Robustness to Distribution Shift

一個(gè)健壯的OV目標(biāo)檢測(cè)器應(yīng)該能夠在各個(gè)領(lǐng)域識(shí)別廣泛的視覺(jué)概念。最近的視覺(jué)-語(yǔ)言模型CLIP [46] 通過(guò)學(xué)習(xí)大量的圖像-文本對(duì),在ImageNet變體[19, 20, 54]的域遷移中展示了卓越的泛化能力。同樣,作者期望在OV檢測(cè)中觀察到類(lèi)似的現(xiàn)象。為此,作者使用COCO-O [40] 來(lái)研究作者模型對(duì)分布變化的魯棒性。表4將作者的方法與幾種領(lǐng)先的閉集檢測(cè)器以及開(kāi)集檢測(cè)器GLIP在COCO和COCO-O上進(jìn)行了比較。由于COCO沒(méi)有包含在作者的訓(xùn)練中,DetCLIPv3的性能落后于那些專(zhuān)門(mén)在它上面訓(xùn)練的檢測(cè)器。然而,作者的模型在COCO-O上顯著超過(guò)了這些檢測(cè)器。例如,作者的Swin-L模型在COCO-O上達(dá)到48.8 AP,甚至超過(guò)了它在COCO上的性能(48.5 AP),并獲得了最佳的有效魯棒性分?jǐn)?shù)+27.0。更多定性可視化結(jié)果請(qǐng)參考附錄。

Transfer Results with Fine-tuning

表5探討了通過(guò)在下游數(shù)據(jù)集上對(duì)DetCLIPv3進(jìn)行微調(diào)來(lái)轉(zhuǎn)移其能力,即LVIS minival [24]和ODinW [29]。對(duì)于LVIS,考慮了兩種設(shè)置:(1) LVIS:僅使用基礎(chǔ)(常見(jiàn)和頻繁)類(lèi)別進(jìn)行訓(xùn)練,如[43]中所做;以及(2) LVIS:涉及使用所有類(lèi)別進(jìn)行訓(xùn)練。

DetCLIPv3在所有設(shè)定中一致地優(yōu)于其同類(lèi)產(chǎn)品。在ODinW13上,基于Swin-T的DetCLIPv3(71.1 AP)甚至超過(guò)了基于Swin-L的DetCLIPv2(70.4 AP)。在LVIS上,DetCLIPv3展示了出色的性能,例如,基于Swin-L的模型在LVIS和LVIS上均達(dá)到了60.5 AP,超過(guò)了預(yù)先用20億偽標(biāo)簽數(shù)據(jù)訓(xùn)練的OWL-ST+FT [43](在LVIS上56.2 AP)一大截。這表明作者自動(dòng)標(biāo)注 Pipeline 構(gòu)建的高質(zhì)量圖像-文本對(duì)有效地提升了學(xué)習(xí)效率。此外,作者觀察到與[43]中類(lèi)似的結(jié)論:在強(qiáng)大的預(yù)訓(xùn)練支持下,即使僅在基礎(chǔ)類(lèi)別上進(jìn)行微調(diào)也能顯著增強(qiáng)稀有類(lèi)別的性能。這體現(xiàn)在Swin-L模型從表1第15行的49.8 AP提升到表5的60.3 AP上。

Ablation Study

DetCLIPv3的演變路線圖。 表6探討了DetCLIPv3的發(fā)展路線圖,從 Baseline 模型到最終版本。作者的實(shí)驗(yàn)采用了一個(gè)帶有Swin-T Backbone 網(wǎng)絡(luò)的模型。對(duì)于OV檢測(cè)器,作者在LVIS minival(第4.1節(jié))和COCO-O(第4.3節(jié))上評(píng)估了AP,對(duì)于字幕生成器,作者在VG(第4.2節(jié))上報(bào)告了微調(diào)后的性能。作者的 Baseline (第1行)模型是去除了物體字幕生成器的OV檢測(cè)器(如第3.1節(jié)所述),僅在Objects365 [50]上訓(xùn)練。這個(gè)模型能力有限,在LVIS上僅取得了30.8 AP的適中成績(jī)。隨后,作者引入了一系列有效設(shè)計(jì):(1)融入更多的人工標(biāo)注數(shù)據(jù)(第2行和第3行),即GoldG [24]和V3Det [55],將LVIS AP顯著提升到42.5。(2)引入圖像-文本對(duì)數(shù)據(jù),即來(lái)自GranuCap50M的60萬(wàn)樣本(也是作者第3階段訓(xùn)練使用的訓(xùn)練數(shù)據(jù),見(jiàn)第3.3節(jié)),有效將LVIS AP進(jìn)一步改進(jìn)為45.3。更重要的是,它顯著提升了模型的領(lǐng)域泛化能力,將COCO-O的AP從第3行的30.7提升到第4行的36.4。(3) 第5行進(jìn)一步整合了物體字幕生成器,但沒(méi)有了第2階段的預(yù)訓(xùn)練。盡管沒(méi)有引入新數(shù)據(jù),它還是將LVIS AP提升到46.6。這種改進(jìn)揭示了學(xué)習(xí)字幕生成器對(duì)OV檢測(cè)的好處——學(xué)習(xí)為物體生成多樣化標(biāo)簽鼓勵(lì)了物體解碼器提取更具判別性的物體特征。(4)整合第2階段字幕生成器預(yù)訓(xùn)練高效地從GranuCap50M的大量圖像-文本對(duì)中獲取廣泛的視覺(jué)概念知識(shí)。這種設(shè)計(jì)顯著增強(qiáng)了字幕生成器的生成能力,將VG的AP從第5行的17.1提升到第6行的18.4。此外,它還將OV檢測(cè)性能從在LVIS上的46.6 AP適度提升到47.0 AP。

圖像-文本對(duì)的偽標(biāo)記。 表7探討了在利用偽標(biāo)記的圖像-文本對(duì)時(shí)兩個(gè)關(guān)鍵因素:過(guò)濾閾值和數(shù)據(jù)量。作者在第一階段訓(xùn)練中使用了Swin-T模型,并整合了偽標(biāo)記數(shù)據(jù)。0.2的過(guò)濾閾值取得了最佳效果,而數(shù)據(jù)的不斷增加也持續(xù)提高了OV檢測(cè)的性能。盡管使用1200k數(shù)據(jù)獲得了更好的結(jié)果,但考慮到效率,作者選擇在第三階段訓(xùn)練中使用600k數(shù)據(jù)。值得注意的是,在生成性任務(wù)中輔助字幕器的學(xué)習(xí)時(shí),600k數(shù)據(jù)樣本的有效性(表6第5行,46.6 AP)超過(guò)了沒(méi)有字幕器輔助的1200k樣本的結(jié)果(46.1 AP)。

Visualization

圖1展示了DetCLIPv3在OV檢測(cè)和目標(biāo)標(biāo)簽生成方面的可視化結(jié)果。作者的模型展現(xiàn)出卓越的視覺(jué)理解能力,能夠檢測(cè)或生成廣泛的視覺(jué)概念。更多可視化結(jié)果請(qǐng)參閱附錄。

5 Limitation and Conclusion

限制。 對(duì)DetCLIPv3生成能力的評(píng)估尚不完整,因?yàn)楝F(xiàn)有的基準(zhǔn)測(cè)試在有效評(píng)估生成檢測(cè)結(jié)果方面存在不足。此外,DetCLIPv3當(dāng)前的檢測(cè)過(guò)程不支持通過(guò)指令進(jìn)行控制。未來(lái),重要的研究方向?qū)⑹情_(kāi)發(fā)用于評(píng)估生成式開(kāi)放詞匯檢測(cè)器的全面指標(biāo),并將大型語(yǔ)言模型(LLMs)整合到指令控制的開(kāi)放詞匯檢測(cè)中。

結(jié)論。在本文中,作者提出了DetCLIPv3,這是一種創(chuàng)新的OV檢測(cè)器,它能夠基于類(lèi)別名稱(chēng)定位目標(biāo),并生成具有層次性和多粒度的目標(biāo)標(biāo)簽。這種增強(qiáng)的視覺(jué)能力使得更全面的細(xì)粒度視覺(jué)理解成為可能,從而擴(kuò)展了OVD模型的應(yīng)用場(chǎng)景。作者希望作者的方法為未來(lái)視覺(jué)認(rèn)知系統(tǒng)的發(fā)展提供啟發(fā)。

訓(xùn)練。 DetCLIPv3的訓(xùn)練涉及來(lái)自各種來(lái)源的數(shù)據(jù)。表8匯總了在不同訓(xùn)練階段中使用的數(shù)據(jù)詳細(xì)信息。由于不同數(shù)據(jù)類(lèi)型的訓(xùn)練過(guò)程各不相同(例如,目標(biāo)字幕器只接受圖像-文本對(duì)數(shù)據(jù)作為輸入),作者設(shè)計(jì)每個(gè)迭代的全局批次僅包含一種類(lèi)型的數(shù)據(jù)。

對(duì)于開(kāi)放詞匯檢測(cè)器的訓(xùn)練,遵循先前的DetCLIP工作[58, 60],作者使用FILIP[59]語(yǔ)言模型的參數(shù)初始化文本編碼器,并在訓(xùn)練過(guò)程中將學(xué)習(xí)率降低0.1,以保留通過(guò)FILIP預(yù)訓(xùn)練獲得的知識(shí)。為了提高訓(xùn)練效率,作者將文本編碼器的最大文本標(biāo)記長(zhǎng)度設(shè)置為16。

在訓(xùn)練目標(biāo)描述器時(shí),作者使用Qformer [27]的預(yù)訓(xùn)練權(quán)重來(lái)初始化描述器,而可變形[71]交叉注意力層則是隨機(jī)初始化的。為了保留在Qformer [27]預(yù)訓(xùn)練期間獲得的知識(shí),目標(biāo)描述器使用與BERT [10]相同的分詞器來(lái)處理文本輸入,這與采用CLIP [46]分詞器的文本編碼器不同。目標(biāo)描述器的最大文本標(biāo)記長(zhǎng)度設(shè)置為32。

在每一個(gè)訓(xùn)練階段,為了節(jié)省GPU內(nèi)存,采用了自動(dòng)混合精度[41]和梯度預(yù)訓(xùn)練權(quán)重[6]。表9總結(jié)了每個(gè)訓(xùn)練階段的詳細(xì)訓(xùn)練設(shè)置。

推理過(guò)程。 DetCLIPv3的OV檢測(cè)器的推理過(guò)程遵循DINO [66],其中每張圖像的結(jié)果來(lái)自于300個(gè)具有最高置信度分?jǐn)?shù)的目標(biāo) Query 的預(yù)測(cè)。對(duì)于在LVIS [18]數(shù)據(jù)集上的固定AP [9]評(píng)估,要求整個(gè)驗(yàn)證集中的每個(gè)類(lèi)別至少有10,000個(gè)預(yù)測(cè)。為了確保每張圖像有足夠的預(yù)測(cè)數(shù)量,作者采用了類(lèi)似于GLIP [29]的推理過(guò)程。具體來(lái)說(shuō),在為每個(gè)數(shù)據(jù)樣本進(jìn)行推理時(shí),1203個(gè)類(lèi)別被分成31個(gè)塊,每個(gè)塊的大小為40個(gè)類(lèi)別。作者分別為每個(gè)塊進(jìn)行推理,并基于它們的置信度分?jǐn)?shù)保留前300個(gè)預(yù)測(cè)。

在DetCLIPv3目標(biāo)描述器的推理過(guò)程中,正如主論文中所描述的,對(duì)于每張圖像,作者使用作者開(kāi)發(fā)的名詞概念語(yǔ)料庫(kù)中最頻繁的15k個(gè)概念作為文本 Query ,提取相似度最高的前100個(gè)前景區(qū)域。在目標(biāo)描述器為這些區(qū)域生成描述性標(biāo)簽后,使用OV檢測(cè)器對(duì)其置信度分?jǐn)?shù)進(jìn)行重新校準(zhǔn)。然后對(duì)那些重新校準(zhǔn)后分?jǐn)?shù)高于0.05的區(qū)域執(zhí)行一個(gè)類(lèi)無(wú)關(guān)的非最大值抑制(NMS)操作,其結(jié)果作為預(yù)測(cè)輸出。作者對(duì)目標(biāo)描述器的推理設(shè)置了等于1的束搜索(beam search)大小。

微調(diào)。 作者在兩個(gè)數(shù)據(jù)集上對(duì)DetCLIPv3進(jìn)行微調(diào),即LVIS [18] 和 ODinW13 [29]。表10和11分別總結(jié)了LVIS和ODinW13的詳細(xì)微調(diào)設(shè)置。對(duì)于LVIS,當(dāng)用基礎(chǔ)類(lèi)別進(jìn)行微調(diào)時(shí),在采樣負(fù)概念時(shí)會(huì)排除新類(lèi)別。對(duì)于ODinW13,類(lèi)似于DetCLIPv2[60],作者采用自動(dòng)衰減的學(xué)習(xí)率計(jì)劃。具體來(lái)說(shuō),當(dāng)性能達(dá)到平臺(tái)期并在容忍期內(nèi)持續(xù)時(shí),作者將學(xué)習(xí)率降低0.1倍。如果在容忍期內(nèi)性能沒(méi)有提升,作者則終止訓(xùn)練過(guò)程。

Appendix B Additional Data Pipeline Details

圖5展示了DetCLIPv3自動(dòng)標(biāo)注數(shù)據(jù)流程的概覽。

提示。 在這里,作者提供了每個(gè)步驟中使用的提示,包括用于VLLMs以及GPT-4的提示。

使用VLLM重制標(biāo)題:作者采用Instruct-BLIP [7]對(duì)240K圖像-文本對(duì)進(jìn)行重新配文。為了利用原始標(biāo)題文本中的信息,作者使用以下提示: “給定圖像的噪聲標(biāo)題: {原始標(biāo)題}, _編寫(xiě)圖像的詳細(xì)清晰描述”。

使用GPT-4進(jìn)行實(shí)體提取:在這一步驟中,作者首先利用GPT-4從VLLM生成的標(biāo)題中過(guò)濾掉非實(shí)體描述。使用的提示是:_“這是一張圖片的標(biāo)題:{caption}。提取與圖像中可直接觀察到的事實(shí)描述相關(guān)的部分,同時(shí)過(guò)濾掉提及推理內(nèi)容、氣氛/外觀/風(fēng)格描述以及歷史/文化/品牌介紹等部分。只返回結(jié)果,不包含其他內(nèi)容。如果你認(rèn)為沒(méi)有事實(shí)描述,只需返回'None'?!? 隨后,作者使用以下提示從過(guò)濾后的標(biāo)題中提取關(guān)于目標(biāo)實(shí)體的信息:_“你是一個(gè)AI,負(fù)責(zé)從大量圖像標(biāo)題中開(kāi)發(fā)一個(gè)開(kāi)集目標(biāo)檢測(cè)數(shù)據(jù)集,無(wú)法訪問(wèn)實(shí)際的圖像。你的任務(wù)是按照以下原則準(zhǔn)確地識(shí)別和提取這些標(biāo)題中的'目標(biāo)':

  1. '物體'在物理上是可觸摸的:它們必須是可以在圖像中視覺(jué)表示的具體實(shí)體。它們不包括以下內(nèi)容:
  • 抽象概念(例如“歷史”、“文化”)或情感(例如“悲傷”、“快樂(lè)”)
  • 對(duì)圖像本身(例如“圖像”、“圖片”、“照片”)或相機(jī)(例如某物正對(duì)著“相機(jī)”)的元引用,除非它們專(zhuān)門(mén)指圖像中的物理元素。
  • 任何描述詞(如“外觀”、“氣氛”、“顏色”)
  • 事件/活動(dòng)及過(guò)程(如“游戲”、“演講”、“表演”)和特定事件類(lèi)型(如“鄉(xiāng)村風(fēng)格婚禮”、“電影節(jié)”)
  • 構(gòu)圖方面(如“透視”、“焦點(diǎn)”、“構(gòu)圖”)或視角/看法(如“鳥(niǎo)瞰圖”)。
  1. 物體在視覺(jué)上是獨(dú)特的:它們是獨(dú)立的實(shí)體,可以從其環(huán)境中視覺(jué)上隔離開(kāi)來(lái)。它們不包括環(huán)境特征(如“多彩環(huán)境”)和一般的位置/場(chǎng)景描述符(例如,“室內(nèi)場(chǎng)景”,“鄉(xiāng)村設(shè)置”,“晴天”,“黑白插圖”)。在提取過(guò)程中遵循以下指南:
  • 合并重復(fù)項(xiàng):如果提取的多個(gè)“物體”指代字幕中的同一實(shí)體,將它們合并為一個(gè),同時(shí)保留概念多樣性。
  • 對(duì)描述性變體進(jìn)行分類(lèi):對(duì)于用形容詞描述的“物體”,提供帶形容詞和不帶形容詞的兩個(gè)版本。
  • 識(shí)別更廣泛的類(lèi)別:為每個(gè)“物體”分配一個(gè)“父類(lèi)別”。以下是你結(jié)果的編號(hào)列表格式:id. “帶形容詞的物體”, “不帶形容詞的物體”, “父類(lèi)別”。你的回復(fù)應(yīng)僅包含結(jié)果,不含多余內(nèi)容。以下是字幕:{字幕}。
  1. 針對(duì)大規(guī)模標(biāo)注的VLLM指令調(diào)整:在這個(gè)階段,作者使用上面得到的字幕文本和物體實(shí)體信息來(lái)微調(diào)LLaVA [35] 模型。在這里,作者將前述信息組合成一個(gè)新的簡(jiǎn)潔提示,并構(gòu)建如下問(wèn)題-答案對(duì):_問(wèn)題:“從圖像的噪聲字幕:{原始字幕},生成一個(gè)精煉的圖像描述,并識(shí)別所有可見(jiàn)的‘物體’——圖像中任何視覺(jué)和物理可識(shí)別的實(shí)體。記住以下指南:
  • 從字幕中合并相似的‘物體’,保留概念多樣性。
  • 對(duì)于用形容詞描述的‘物體’,提供帶形容詞和不帶形容詞的兩個(gè)版本。
  • 為每個(gè)‘物體’分配一個(gè)‘父類(lèi)別’。以如下格式呈現(xiàn)結(jié)果:字幕:{字幕} 物體:{id. ‘帶形容詞的物體’,‘不帶形容詞的物體’,‘父類(lèi)別’}。<圖像標(biāo)記>” 答案:字幕:{精煉的字幕} 物體:{實(shí)體信息} 在這里,VLLM接收?qǐng)D像標(biāo)記<圖像標(biāo)記>和它們的原始字幕{原始字幕}作為輸入,并學(xué)習(xí)生成精煉的字幕以及提取關(guān)于物體實(shí)體的信息。

可視化。 圖2-a和2-b展示了通過(guò)作者提出的數(shù)據(jù)處理流程獲得的細(xì)化標(biāo)題和提取的實(shí)體信息。此外,圖3顯示了在第一階段訓(xùn)練后,作者基于Swin-L的模型生成的邊界框偽標(biāo)簽。

Appendix C More Qualitative Results

圖4-a、4-b和4-c展示了DetCLIPv3的目標(biāo)字幕生成器產(chǎn)生的多粒度目標(biāo)標(biāo)簽的附加定性結(jié)果。在沒(méi)有候選類(lèi)別的情況下,DetCLIPv3的目標(biāo)字幕生成器能夠生成密集、細(xì)粒度、多粒度的目標(biāo)標(biāo)簽,從而促進(jìn)了對(duì)圖像的更全面理解。

Appendix D More Experimental Results

表10:針對(duì)LVIS [18] 的詳細(xì)微調(diào)設(shè)置。

表11:ODinW13 [29]的詳細(xì)微調(diào)設(shè)置。

關(guān)于LVIS的更多結(jié)果。 為了全面評(píng)估DetCLIPv3的性能,表12提供了在LVIS上的標(biāo)準(zhǔn)平均精度(Average Precision, AP),并將其與在20億圖像-文本對(duì)上預(yù)訓(xùn)練的最新方法OWL-ST [43] 進(jìn)行比較。具體來(lái)說(shuō),作者在LVIS minival [24] 和驗(yàn)證 [18] 數(shù)據(jù)集上評(píng)估了兩種設(shè)置:零樣本性能和經(jīng)過(guò)在LVIS基礎(chǔ)類(lèi)別上微調(diào)后的性能。

3 擴(kuò)展實(shí)體

推理速度。 表15報(bào)告了DetCLIPv3的推理速度以及與先前方法的比較。

責(zé)任編輯:張燕妮 來(lái)源: 自動(dòng)駕駛之心
相關(guān)推薦

2015-11-16 11:31:35

Kubernetes網(wǎng)絡(luò)性能新版本特性

2009-05-11 14:19:55

Oracle性能優(yōu)化數(shù)據(jù)庫(kù)

2018-01-30 08:47:46

存儲(chǔ)查詢(xún)性能

2013-11-13 15:22:16

架構(gòu)系統(tǒng)架構(gòu)

2022-07-13 15:41:13

代碼檢查審查員開(kāi)發(fā)

2011-05-27 06:58:13

LifeSize碳排放

2024-02-26 10:21:49

神經(jīng)網(wǎng)絡(luò)YOLO

2009-08-14 10:14:23

H.264編碼器數(shù)字視頻編碼標(biāo)準(zhǔn)PowerSmart

2025-04-28 10:16:35

VSCode插件開(kāi)發(fā)

2017-11-12 20:25:40

FacebookAndroid程序員

2020-12-21 12:50:48

RPA數(shù)字化AI

2024-11-29 16:10:31

2021-10-28 21:16:53

計(jì)算

2021-05-31 07:37:48

Windows10操作系統(tǒng)微軟

2018-11-13 14:15:33

數(shù)據(jù)庫(kù)OracleMySQL

2024-11-29 14:00:00

模型訓(xùn)練

2024-03-14 11:55:08

AI模型

2024-12-18 14:30:00

數(shù)據(jù)訓(xùn)練AI

2017-03-01 18:17:27

阿里巴巴
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)