無(wú)需標(biāo)注海量數(shù)據(jù),目標(biāo)檢測(cè)新范式OVD讓多模態(tài)AGI又前進(jìn)一步
目標(biāo)檢測(cè)是計(jì)算機(jī)視覺(jué)中一個(gè)非常重要的基礎(chǔ)任務(wù),與常見(jiàn)的的圖像分類 / 識(shí)別任務(wù)不同,目標(biāo)檢測(cè)需要模型在給出目標(biāo)的類別之上,進(jìn)一步給出目標(biāo)的位置和大小信息,在 CV 三大任務(wù)(識(shí)別、檢測(cè)、分割)中處于承上啟下的關(guān)鍵地位。
當(dāng)前大火的多模態(tài) GPT-4 在視覺(jué)能力上只具備目標(biāo)識(shí)別的能力,還無(wú)法完成更高難度的目標(biāo)檢測(cè)任務(wù)。而識(shí)別出圖像或視頻中物體的類別、位置和大小信息,是現(xiàn)實(shí)生產(chǎn)中眾多人工智能應(yīng)用的關(guān)鍵,例如自動(dòng)駕駛中的行人車輛識(shí)別、安防監(jiān)控應(yīng)用中的人臉鎖定、醫(yī)學(xué)圖像分析中的腫瘤定位等等。
已有的目標(biāo)檢測(cè)方法如 YOLO 系列、R-CNN 系列等目標(biāo)檢測(cè)算法在科研人員的不斷努力下已經(jīng)具備很高的目標(biāo)檢測(cè)精度與效率,但由于現(xiàn)有方法需要在模型訓(xùn)練前就定義好待檢測(cè)目標(biāo)的集合(閉集),導(dǎo)致它們無(wú)法檢測(cè)訓(xùn)練集合之外的目標(biāo),比如一個(gè)被訓(xùn)練用于檢測(cè)人臉的模型就不能用于檢測(cè)車輛;另外,現(xiàn)有方法高度依賴人工標(biāo)注的數(shù)據(jù),當(dāng)需要增加或者修改待檢測(cè)的目標(biāo)類別時(shí),一方面需要對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行重新標(biāo)注,另一方面需要對(duì)模型進(jìn)行重新訓(xùn)練,既費(fèi)時(shí)又費(fèi)力。
一個(gè)可能的解決方案是,收集海量的圖像,并人工標(biāo)注 Box 信息與語(yǔ)義信息,但這將需要極高的標(biāo)注成本,而且使用海量數(shù)據(jù)對(duì)檢測(cè)模型進(jìn)行訓(xùn)練也對(duì)科研工作者提出了嚴(yán)峻的挑戰(zhàn),如數(shù)據(jù)的長(zhǎng)尾分布問(wèn)題與人工標(biāo)注的質(zhì)量不穩(wěn)定等因素都將影響檢測(cè)模型的性能表現(xiàn)。
發(fā)表于 CVPR 2021 的文章 OVR-CNN [1] 提出了一種全新的目標(biāo)檢測(cè)范式:開(kāi)放詞集目標(biāo)檢測(cè)(Open-Vocabulary Detection,OVD,亦稱為開(kāi)放世界目標(biāo)檢測(cè)),來(lái)應(yīng)對(duì)上文提到的問(wèn)題,即面向開(kāi)放世界未知物體的檢測(cè)場(chǎng)景。
OVD 由于能夠在無(wú)需人工擴(kuò)充標(biāo)注數(shù)據(jù)量的情形下識(shí)別并定位任意數(shù)量和類別目標(biāo)的能力,自提出后吸引了學(xué)術(shù)界與工業(yè)界的持續(xù)關(guān)注,也為經(jīng)典的目標(biāo)檢測(cè)任務(wù)帶來(lái)了新的活力與新的挑戰(zhàn),有望成為目標(biāo)檢測(cè)的未來(lái)新范式。
具體地,OVD 技術(shù)不需要人工標(biāo)注海量的圖片來(lái)增強(qiáng)檢測(cè)模型對(duì)未知類別的檢測(cè)能力,而是通過(guò)將具有良好泛化性的無(wú)類別(class-agnostic)區(qū)域檢測(cè)器與經(jīng)過(guò)海量無(wú)標(biāo)注數(shù)據(jù)訓(xùn)練的跨模態(tài)模型相結(jié)合,通過(guò)圖像區(qū)域特征與待檢測(cè)目標(biāo)的描述性文字進(jìn)行跨模態(tài)對(duì)齊來(lái)擴(kuò)展目標(biāo)檢測(cè)模型對(duì)開(kāi)放世界目標(biāo)的理解能力。
跨模態(tài)和多模態(tài)大模型工作近期的發(fā)展非常迅速,如 CLIP [2]、ALIGN [3] 與 R2D2 [4] 等,而它們的發(fā)展也促進(jìn)了 OVD 的誕生與 OVD 領(lǐng)域相關(guān)工作的快速迭代與進(jìn)化。
OVD 技術(shù)涉及兩大關(guān)鍵問(wèn)題的解決:1)如何提升區(qū)域 (Region) 信息與跨模態(tài)大模型之間的適配;2)如何提升泛類別目標(biāo)檢測(cè)器對(duì)新類別的泛化能力。從這兩個(gè)角度出發(fā),下面將詳細(xì)介紹一些 OVD 領(lǐng)域的相關(guān)工作。
OVD 基本流程示意 [1]
OVD 的基礎(chǔ)概念:OVD 的使用主要涉及到 few-shot 和 zero-shot 兩大類場(chǎng)景,few-shot 是指有少量人工標(biāo)注訓(xùn)練樣本的目標(biāo)類別,zero-shot 則是指不存在任何人工標(biāo)注訓(xùn)練樣本的目標(biāo)類別。在常用的學(xué)術(shù)評(píng)測(cè)數(shù)據(jù)集 COCO、LVIS 上,數(shù)據(jù)集會(huì)被劃分為 Base 類和 Novel 類,其中 Base 類對(duì)應(yīng) few-shot 場(chǎng)景,Novel 類對(duì)應(yīng) zero-shot 場(chǎng)景。如 COCO 數(shù)據(jù)集包含 65 種類別,常用的評(píng)測(cè)設(shè)定是 Base 集包含 48 種類別,few-shot 訓(xùn)練中只使用這 48 個(gè)類別。Novel 集包含 17 種類別,在訓(xùn)練時(shí)完全不可見(jiàn)。測(cè)試指標(biāo)主要參考 Novel 類的 AP50 數(shù)值進(jìn)行比較。
論文1:Open-Vocabulary Object Detection Using Captions
- 論文地址:https://arxiv.org/pdf/2011.10678.pdf
- 代碼地址:https://github.com/alirezazareian/ovr-cnn
OVR-CNN 是 CVPR 2021 的 Oral-Paper,也是 OVD 領(lǐng)域的開(kāi)山之作。它的二階段訓(xùn)練范式,影響了后續(xù)很多的 OVD 工作。如下圖所示,第一階段主要使用 image-caption pairs 對(duì)視覺(jué)編碼器進(jìn)行預(yù)訓(xùn)練,其中借助 BERT (參數(shù)固定) 來(lái)生成詞掩碼,并與加載 ImageNet 預(yù)訓(xùn)練權(quán)重的 ResNet50 進(jìn)行弱監(jiān)督的 Grounding 匹配,作者認(rèn)為弱監(jiān)督會(huì)讓匹配陷入局部最優(yōu),于是加入多模態(tài) Transformer 進(jìn)行詞掩碼預(yù)測(cè)來(lái)增加魯棒性。
第二階段的訓(xùn)練流程與 Faster-RCNN 類似,區(qū)別點(diǎn)在于,特征提取的 Backbone 來(lái)自于第一階段預(yù)訓(xùn)練得到的 ResNet50 的 1-3 層,RPN 后依然使用 ResNet50 的第四層進(jìn)行特征加工,隨后將特征分別用于 Box 回歸與分類預(yù)測(cè)。分類預(yù)測(cè)是 OVD 任務(wù)區(qū)別于常規(guī)檢測(cè)的關(guān)鍵標(biāo)志,OVR-CNN 中將特征輸入一階段訓(xùn)練得到的 V2L 模塊 (參數(shù)固定的圖向量轉(zhuǎn)詞向量模塊) 得到一個(gè)圖文向量,隨后與標(biāo)簽詞向量組進(jìn)行匹配,對(duì)類別進(jìn)行預(yù)測(cè)。在二階段訓(xùn)練中,主要使用 Base 類對(duì)檢測(cè)器模型進(jìn)行框回歸訓(xùn)練與類別匹配訓(xùn)練。由于 V2L 模塊始終固定,配合目標(biāo)檢測(cè)模型定位能力向新類別遷移,使得檢測(cè)模型能夠識(shí)別并定位到全新類別的目標(biāo)。
如下圖所示,OVR-CNN 在 COCO 數(shù)據(jù)集上的表現(xiàn)遠(yuǎn)超之前的 Zero-shot 目標(biāo)檢測(cè)算法。
論文2:RegionCLIP: Region-based Language-Image Pretraining
- 論文地址:https://arxiv.org/abs/2112.09106
- 代碼地址:https://github.com/microsoft/RegionCLIP
OVR-CNN 中使用 BERT 與多模態(tài) Transfomer 進(jìn)行 iamge-text pairs 預(yù)訓(xùn)練,但隨著跨模態(tài)大模型研究的興起,科研工作者開(kāi)始利用 CLIP,ALIGN 等更強(qiáng)大的跨模態(tài)大模型對(duì) OVD 任務(wù)進(jìn)行訓(xùn)練。檢測(cè)器模型本身主要針對(duì) Proposals,即區(qū)域信息進(jìn)行分類識(shí)別,發(fā)表于 CVPR 2022 的 RegionCLIP [5] 發(fā)現(xiàn)當(dāng)前已有的大模型,如 CLIP,對(duì)裁剪區(qū)域的分類能力遠(yuǎn)低于對(duì)原圖本身的分類能力,為了改進(jìn)這一點(diǎn),RegionCLIP 提出了一個(gè)全新的兩階段 OVD 方案。
第一階段,數(shù)據(jù)集主要使用 CC3M,COCO-caption 等圖文匹配數(shù)據(jù)集進(jìn)行區(qū)域級(jí)別的蒸餾預(yù)訓(xùn)練。具體地:
1. 將原先存在于長(zhǎng)文本中的詞匯進(jìn)行提取,組成 Concept Pool,進(jìn)一步形成一組關(guān)于 Region 的簡(jiǎn)單描述,用于訓(xùn)練。
2. 利用基于 LVIS 預(yù)訓(xùn)練的 RPN 提取 Proposal Regions,并利用原始 CLIP 對(duì)提取到的不同 Region 與準(zhǔn)備好的描述進(jìn)行匹配分類,并進(jìn)一步組裝成偽造的語(yǔ)義標(biāo)簽。
3. 將準(zhǔn)備好的 Proposal Regions 與語(yǔ)義標(biāo)簽在新的 CLIP 模型上進(jìn)行 Region-text 對(duì)比學(xué)習(xí),進(jìn)而得到一個(gè)專精于 Region 信息的 CLIP 模型。
4. 在預(yù)訓(xùn)練中,新的 CLIP 模型還會(huì)通過(guò)蒸餾策略學(xué)習(xí)原始 CLIP 的分類能力,以及進(jìn)行全圖級(jí)別的 image-text 對(duì)比學(xué)習(xí),來(lái)維持新的 CLIP 模型對(duì)完整圖像的表達(dá)能力。
第二階段,將得到的預(yù)訓(xùn)練模型在檢測(cè)模型上進(jìn)行遷移學(xué)習(xí)。
RegionCLIP 進(jìn)一步拓展了已有跨模態(tài)大模型在常規(guī)檢測(cè)模型上的表征能力,進(jìn)而取得了更加出色的性能,如下圖所示,RegionCLIP 相比 OVR-CNN 在 Novel 類別上取得了較大提升。RegionCLIP 通過(guò)一階段的預(yù)訓(xùn)練有效地的提升了區(qū)域 (Region) 信息與多模態(tài)大模型之間的適應(yīng)能力,但 CORA 認(rèn)為其使用更大參數(shù)規(guī)模的跨模態(tài)大模型進(jìn)行一階段訓(xùn)練時(shí),訓(xùn)練成本將會(huì)非常高昂。
論文3:CORA: Adapting CLIP for Open-Vocabulary Detection with Region Prompting and Anchor Pre-Matching
- 論文地址:https://arxiv.org/abs/2303.13076
- 代碼地址:https://github.com/tgxs002/CORA
CORA [6] 已被收錄于 CVPR 2023,為了克服其所提出當(dāng)前 OVD 任務(wù)所面臨的兩個(gè)阻礙,設(shè)計(jì)了一個(gè)類 DETR 的 OVD 模型。如其文章標(biāo)題所示,模型主要包含了 Region Prompting 與 Anchor Pre-Matching 兩個(gè)策略。前者通過(guò) Prompt 技術(shù)來(lái)優(yōu)化基于 CLIP 的區(qū)域分類器所提取的區(qū)域特征,進(jìn)而緩解整體與區(qū)域的分布差距,后者通過(guò) DETR 檢測(cè)方法中的錨點(diǎn)預(yù)匹配策略來(lái)提升 OVD 模型對(duì)新類別物體定位能力的泛化性。
CLIP 原始視覺(jué)編碼器的整體圖像特征與區(qū)域特征之間存在分布差距,進(jìn)而導(dǎo)致檢測(cè)器的分類精度較低(這一點(diǎn)與 RegionCLIP 的出發(fā)點(diǎn)類似)。因此,CORA 提出 Region Prompting 來(lái)適應(yīng) CLIP 圖像編碼器,提高對(duì)區(qū)域信息的分類性能。具體地,首先通過(guò) CLIP 編碼器的前 3 層將整幅圖像編碼成一個(gè)特征映射,然后由 RoI Align 生成錨點(diǎn)框或預(yù)測(cè)框,并將其合并成區(qū)域特征。隨后由 CLIP 圖像編碼器的第四層進(jìn)行編碼。為了緩解 CLIP 圖像編碼器的全圖特征圖與區(qū)域特征之間存在分布差距,設(shè)置了可學(xué)習(xí)的 Region Prompts 并與第四層輸出的特征進(jìn)行組合,進(jìn)而生成最終的區(qū)域特征用來(lái)與文本特征進(jìn)行匹配,匹配損失使用了樸素的交叉熵?fù)p失,且訓(xùn)練過(guò)程中與 CLIP 相關(guān)的參數(shù)模型全都凍結(jié)。
CORA 是一個(gè)類 DETR 的檢測(cè)器模型,類似于 DETR,其也使用了錨點(diǎn)預(yù)匹配策略來(lái)提前生成候選框用于框回歸訓(xùn)練。具體來(lái)說(shuō),錨點(diǎn)預(yù)匹配是將每個(gè)標(biāo)簽框與最接近的一組錨點(diǎn)框進(jìn)行匹配,以確定哪些錨點(diǎn)框應(yīng)該被視為正樣本,哪些應(yīng)該被視為負(fù)樣本。這個(gè)匹配過(guò)程通常是基于 IoU(交并比)進(jìn)行的,如果錨點(diǎn)框與標(biāo)簽框的 IoU 超過(guò)一個(gè)預(yù)定義的閾值,則將其視為正樣本,否則將其視為負(fù)樣本。CORA 表明該策略能夠有效提高對(duì)新類別定位能力的泛化性。
但是使用錨點(diǎn)預(yù)匹配機(jī)制也會(huì)帶來(lái)一些問(wèn)題,比如只有在至少有一個(gè)錨點(diǎn)框與標(biāo)簽框形成匹配時(shí),才可正常進(jìn)行訓(xùn)練。否則,該標(biāo)簽框?qū)⒈缓雎?,同時(shí)阻礙模型的收斂。進(jìn)一步,即使標(biāo)簽框獲得了較為準(zhǔn)確的錨點(diǎn)框,由于 Region Classifier 的識(shí)別精度有限,進(jìn)而導(dǎo)致該標(biāo)簽框仍可能被忽略,即標(biāo)簽框?qū)?yīng)的類別信息沒(méi)有與基于 CLIP 訓(xùn)練的 Region Classifier 形成對(duì)齊。因此,CORA 用 CLIP-Aligned 技術(shù)利用 CLIP 的語(yǔ)義識(shí)別能力,與預(yù)訓(xùn)練 ROI 的定位能力,在較少人力情形下對(duì)訓(xùn)練數(shù)據(jù)集的圖像進(jìn)行重新標(biāo)注,使用這種技術(shù),可以讓模型在訓(xùn)練中匹配更多的標(biāo)簽框。
相比于 RegionCLIP,CORA 在 COCO 數(shù)據(jù)集上進(jìn)一步提升了 2.4 的 AP50 數(shù)值。
總結(jié)與展望
OVD 技術(shù)不僅與當(dāng)前流行的跨 / 多模態(tài)大模型的發(fā)展緊密聯(lián)系,同時(shí)也承接了過(guò)去科研工作者對(duì)目標(biāo)檢測(cè)領(lǐng)域的技術(shù)累積,是傳統(tǒng) AI 技術(shù)與面向通用 AI 能力研究的一次成功銜接。OVD 更是一項(xiàng)面向未來(lái)的全新目標(biāo)檢測(cè)技術(shù),可以預(yù)料到的是,OVD 可以檢測(cè)并定位任意目標(biāo)的能力,也將反過(guò)來(lái)推進(jìn)多模態(tài)大模型的進(jìn)一步發(fā)展,有希望成為多模態(tài) AGI 發(fā)展中的重要基石。當(dāng)下,多模態(tài)大模型的訓(xùn)練數(shù)據(jù)來(lái)源是網(wǎng)絡(luò)上的海量粗糙信息對(duì),即文本圖像對(duì)或文本語(yǔ)音對(duì)。若利用 OVD 技術(shù)對(duì)原本粗糙的圖像信息進(jìn)行精準(zhǔn)定位,并輔助預(yù)測(cè)圖像的語(yǔ)義信息來(lái)篩選語(yǔ)料,將會(huì)進(jìn)一步提升大模型預(yù)訓(xùn)練數(shù)據(jù)的質(zhì)量,進(jìn)而優(yōu)化大模型的表征能力與理解能力。
一個(gè)很好的例子便是 SAM (Segment Anything)[7],SAM 不僅讓科研工作者們看到了通用視覺(jué)大模型未來(lái)方向,也引發(fā)了很多思考。值得注意的是,OVD 技術(shù)可以很好的接入 SAM,來(lái)增強(qiáng) SAM 的語(yǔ)義理解能力,自動(dòng)的生成 SAM 需要的 box 信息,從而進(jìn)一步解放人力。同樣的對(duì)于 AIGC (人工智能生成內(nèi)容),OVD 技術(shù)同樣可以增強(qiáng)與用戶之間的交互能力,如當(dāng)用戶需要指定一張圖片的某一個(gè)目標(biāo)進(jìn)行變化,或?qū)υ撃繕?biāo)生成一句描述的時(shí)候,可以利用 OVD 的語(yǔ)言理解能力與 OVD 對(duì)未知目標(biāo)檢測(cè)的能力實(shí)現(xiàn)對(duì)用戶描述對(duì)象的精準(zhǔn)定位,進(jìn)而實(shí)現(xiàn)更高質(zhì)量的內(nèi)容生成。當(dāng)下 OVD 領(lǐng)域的相關(guān)研究蓬勃發(fā)展,OVD 技術(shù)對(duì)未來(lái)通用 AI 大模型能夠帶來(lái)的改變值得期待。