自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

基于多模態(tài)大語言模型的上下文目標檢測 原創(chuàng) 精華

發(fā)布于 2025-3-6 09:33
瀏覽
0收藏

摘要:

最近的多模態(tài)大語言模型(MLLMs)在視覺-語言任務(如圖像描述和問答)中表現(xiàn)出色,但缺乏關鍵的感知能力,即目標檢測。本文提出了一種新的研究問題——上下文目標檢測,即在人機交互的上下文中理解可見物體。我們研究了三種代表性場景:語言填空測試、視覺描述生成和問答。此外,我們提出了ContextDET,一種統(tǒng)一的多模態(tài)模型,能夠端到端地對視覺-語言上下文進行可微分建模,從而定位、識別并將視覺對象與語言輸入關聯(lián)起來,以支持人機交互。ContextDET包含三個關鍵子模型:(1)用于提取視覺表示的視覺編碼器,(2)用于多模態(tài)上下文解碼的預訓練大語言模型(LLM),以及(3)用于根據(jù)上下文對象詞匯預測邊界框的視覺解碼器。這種“生成-檢測”框架使我們能夠檢測人類詞匯中的對象詞匯。大量實驗表明,ContextDET在我們提出的CODE基準、開放詞匯檢測和引用圖像分割任務中具有顯著優(yōu)勢。

1、引言

“對我來說,上下文是關鍵——從它衍生出對一切的理解。” —— Kenneth Noland  

計算機視覺的一個不可或缺的基石——目標檢測——是理解場景中的可見物體,它賦能了許多應用,如機器人、自動駕駛和AR/VR系統(tǒng)。最近,通過互聯(lián)網(wǎng)規(guī)模的視覺-語言數(shù)據(jù)訓練的多模態(tài)大語言模型(MLLMs),包括Flamingo、PaLM-E和OpenAI的GPT-4,展示了革命性的能力,使人類能夠與AI模型進行各種視覺-語言任務的交互,例如圖像描述和問答。這種交互式的人機環(huán)境需要對上下文信息進行建模,即視覺對象、人類詞匯、短語甚至對話之間的關系。因此,有必要提升MLLMs的能力,使其能夠定位、識別并將視覺對象與語言輸入關聯(lián)起來,以支持人機交互。    

在本文中,我們研究了一個新的研究問題——上下文目標檢測,即在人機交互的上下文中理解可見物體。與現(xiàn)有的標準目標檢測相比,我們?yōu)檫@種新設置考慮了四個綜合目標:(1)能力:能夠處理人類語言詞匯;(2)描述:用信息豐富的自然語言語句描述用戶的視覺輸入;(3)感知:定位并將視覺對象與語言查詢關聯(lián)起來;(4)理解:根據(jù)語言提示補充適當?shù)脑~匯。為了涵蓋這四個目標,我們結(jié)合了三種代表性任務:語言填空測試、視覺描述生成和問答,并將其與目標檢測結(jié)合(見圖1)。

盡管在開發(fā)更準確、更快速的目標檢測算法方面取得了顯著進展,但由于以下原因,現(xiàn)有的深度目標檢測器無法直接與MLLMs集成以進行上下文目標檢測。首先,標準的深度檢測器(如Mask-RCNN和DETR)使用封閉集分類器進行訓練,無法在現(xiàn)實場景中很好地泛化,因為這些場景中的對象類別或類并未預先定義或限制在封閉集中。盡管最近基于最先進的視覺-語言模型(如CLIP和ALIGN)的開放詞匯目標檢測(如Gu et al., 2022; Zhou et al., 2022; Zang et al., 2022; Rasheed et al., 2022)可以提高對新類別的零樣本遷移能力,但它們受限于預定義的新類別規(guī)模,無法檢測人類語言詞匯中的對象。雖然一些論文(如Dai et al., 2023)探索了使用LLMs改進二元OOD分類,但識別人類語言詞匯中的新類別名稱尚未得到解決。例如,這些開放詞匯檢測器無法處理圖1中的分布外類別,如“曲棍球守門員”“新郎”和“牛仔”。其次,現(xiàn)有深度檢測模型固有的“先定位再分類”范式不適合上下文目標檢測。在通用的人機交互場景中,視覺場景中的自然對象和語言輸入中的人類詞匯在不同上下文中具有不同的含義。例如,在圖1(a)和(b)中,通用的“人”類別在不同的視覺上下文中表現(xiàn)為“守門員”“球員”“牛仔”“新郎”“新娘”和“工人”。此外,隨著語言上下文的變化,“拉布拉多”一詞取代了“狗”的表示(圖1(c))。因此,需要一種創(chuàng)新的檢測方法來適應多樣且變化的上下文目標檢測。    


基于多模態(tài)大語言模型的上下文目標檢測-AI.x社區(qū)

圖 1:我們提出了一個新的上下文目標檢測任務,包括:(a) 觀察圖像并補全被遮蓋的目標名稱和位置;(b) 預測存在于描述性文字中的目標的標題和邊界框;(c) 回答有關目標名稱和位置的問題。與通常專注于檢測有限的預定義目標類別(例如“人”)的傳統(tǒng)目標檢測任務不同,我們的任務需要基于上下文理解來預測更具體的目標名稱(例如“冰球守門員”、“新郎”或“新娘”)。

為了應對上述挑戰(zhàn),本文提出了ContextDET,一種專門用于上下文目標檢測的“生成-檢測”框架。具體來說,它是一個端到端模型,包含三個關鍵模塊。首先,視覺編碼器提取給定圖像的高級表示,并生成局部和完整的視覺令牌以進行進一步的上下文建模。其次,為了有效建模多模態(tài)上下文,我們使用預訓練的LLM進行文本生成,并以局部視覺令牌和任務相關語言令牌作為多模態(tài)前綴的條件輸入。第三,將LLM生成的令牌作為視覺檢測的先驗知識,我們引入了一個視覺解碼器,該解碼器由多個交叉注意力層組成,在其中我們從上下文LLM令牌中計算條件對象查詢,并從完整視覺令牌中提取鍵和值,以預測相應的匹配分數(shù)和邊界框。這使得我們能夠檢測人類詞匯中的上下文對象詞匯。    

貢獻:總結(jié)來說,我們的貢獻如下:(1)我們研究了上下文目標檢測——這是視覺目標檢測的一個新方向,旨在提升MLLMs在人機交互中的能力。(2)為了推動該領域的實證研究,我們提出了一個新的基準CODE,包含10,346個獨特的對象詞匯,以促進上下文目標檢測的研究。(3)我們提出了一種新穎的“生成-檢測”框架ContextDET,專門用于上下文目標檢測。(4)我們展示了ContextDET不僅在CODE基準上具有優(yōu)勢,還在開放詞匯檢測和引用圖像分割任務中表現(xiàn)出色。我們希望我們的工作能夠激發(fā)未來在上下文目標檢測方面的研究,從而造福人機交互。

2、相關工作

1. 多模態(tài)大語言模型(MLLMs)

大語言模型(LLMs)已被開發(fā)用于理解和生成文本語言,在廣泛的自然語言處理(NLP)任務中表現(xiàn)出色。著名的LLMs包括OpenAI的GPT系列、Google的T5和PaLM,以及Meta的OPT和LLaMA。最近,MLLMs領域取得了進展(如Mokady et al., 2021; Tsimpoukelli et al., 2021; Chen et al., 2022b; Koh et al., 2023; Li et al., 2023; Huang et al., 2023; Driess et al., 2023; OpenAI, 2023),例如GPT-4模型,這些模型擴展了LLMs的能力,使其能夠理解語言和視覺輸入。MLLMs在圖像描述和視覺問答等視覺-語言任務中表現(xiàn)出色。然而,現(xiàn)有的MLLMs僅限于生成文本輸出。相比之下,我們的ContextDET基于MLLMs,擴展了對上下文目標檢測的支持,提供邊界框輸出。更多比較見第5.6節(jié)。

2. 使用視覺專家模型提示LLMs

最近的一些論文(如Shen et al., 2023; Wu et al., 2023a; Yang et al., 2023)提出了利用LLMs(如ChatGPT)生成的文本輸出來操縱外部視覺專家模型以完成各種視覺相關任務的系統(tǒng)。在目標檢測的背景下,這些視覺專家模型包括DETR、Grounding DINO、SAM等。然而,由于LLMs和專家模型的參數(shù)是凍結(jié)的,LLMs的知識和表示無法共享,可能導致性能不佳。與這些基于提示的方法不同,我們的ContextDET采用端到端的訓練流程,利用從MLLMs提取的潛在特征作為視覺解碼器的條件輸入,從而預測邊界框。

3. 具有上下文理解的目標檢測

“上下文”通常指圖像中的鄰近像素或周圍區(qū)域,并已在先前的研究中廣泛探索以增強目標檢測算法(如Divvala et al., 2009; Mottaghi et al., 2014; Shrivastava and Gupta, 2016; Chen et al., 2018)。在本文中,上下文信息的概念涵蓋了多模態(tài)模式和關系,涉及視覺圖像和文本詞匯。我們的ContextDET利用MLLMs的強大上下文理解能力,并將其應用于下游目標檢測任務。此外,我們提出了新的評估任務(如填空測試),以更有效地評估上下文理解能力。

4. 新類別上的目標檢測

盡管深度學習技術在目標檢測方面取得了顯著進展(如Ren et al., 2015; Liu et al., 2016; Law and Deng, 2018; Tian et al., 2019; Carion et al., 2020; Chen et al., 2022b; Liu et al., 2021; Zhang et al., 2023; Zhu et al., 2021; Wang et al., 2023b),但在現(xiàn)實場景中,目標檢測仍然是一個具有挑戰(zhàn)性的任務,特別是在零樣本目標檢測(Bansal et al., 2018)的情況下。零樣本目標檢測要求模型在訓練時僅使用基礎類別的數(shù)據(jù),但能夠檢測訓練時未見的新類別。最近的一種零樣本檢測變體,稱為開放詞匯目標檢測,允許使用額外的圖像-文本對(Zareian et al., 2021),引起了研究社區(qū)的廣泛關注。在這一背景下,最近的視覺和語言預訓練模型(如CLIP、ALIGN)被廣泛用于開放詞匯目標檢測(如Gu et al., 2022; Zhou et al., 2022; Du et al., 2022; Zang et al., 2022; Rasheed et al., 2022; Kuo et al., 2022; Wu et al., 2023b,c)。與僅依賴CLIP的方法不同,我們的ContextDET表明,MLLMs也可以有效地應用于開放詞匯設置。在MLLMs的幫助下,ContextDET不受預定義的基礎或新類別的限制。值得注意的是,ContextDET預測的對象名稱可以由MLLMs生成為最符合上下文的有效英文單詞。   

表1:我們提出的三種上下文目標檢測設置與之前相關任務的比較。


基于多模態(tài)大語言模型的上下文目標檢測-AI.x社區(qū)


5. 視覺定位

視覺定位任務(如引用表達式理解)結(jié)合了目標檢測和語言理解能力。在這些任務中,提供一個語言查詢來描述特定對象,模型的任務是預測被引用對象的位置。最先進的算法(如Yang et al., 2022; Wang et al., 2022)通常采用基于Transformer的跨模態(tài)結(jié)構或多模態(tài)預訓練(如Kamath et al., 2021)。我們提出的上下文目標檢測任務比視覺定位更具挑戰(zhàn)性。例如,在我們的填空測試中,語言查詢是不完整的,對象名稱被掩碼。模型需要根據(jù)上下文信息推斷缺失的對象名稱及其位置。此外,在我們的上下文描述生成設置中,沒有提供語言查詢。而在我們的上下文問答設置中,對象是在交互環(huán)境中使用人類語言描述的。

6. 圖像描述生成

圖像描述生成任務旨在生成描述性句子以理解給定圖像。通常,圖像描述生成模型首先使用預訓練的分類模型(如Chen et al., 2017)、目標檢測模型(如Anderson et al., 2018)或視覺語言模型(如Mokady et al., 2021)將輸入圖像編碼為特征嵌入。隨后,使用LSTM(Hochreiter and Schmidhuber, 1997)或Transformer(Vaswani et al., 2017)等子模塊將特征嵌入解碼為預測的句子。相比之下,我們的上下文描述生成任務不僅需要生成語言輸出,還要求模型預測生成描述中提到的對象的邊界框位置。

7. 視覺問答(VQA)

視覺問答任務涉及回答與給定圖像相關的問題(如Antol et al., 2015; Goyal et al., 2017)。在傳統(tǒng)的VQA中,模型的輸入和輸出由自然語言中的問答對組成。然而,在我們的上下文問答任務中,問題專門詢問對象名稱和位置,而相應的答案需要包括被引用對象的邊界框。

3、方法

本節(jié)描述了我們的上下文目標檢測框架ContextDET,它接受圖像和人類文本的交錯輸入,并生成自由格式的文本和相應的邊界框作為輸出。如圖2所示,我們的ContextDET是端到端的,包含三個關鍵架構組件:(1)一個視覺編碼器,用于提取高級圖像表示并計算視覺令牌;(2)一個預訓練的大語言模型(LLM),用于解碼帶有任務相關多模態(tài)前綴的多模態(tài)上下文令牌;(3)一個視覺解碼器,用于預測與上下文對象詞匯相關的條件查詢的匹配分數(shù)和邊界框。


基于多模態(tài)大語言模型的上下文目標檢測-AI.x社區(qū)

圖 2:我們的 ContextDET 是一個統(tǒng)一的端到端框架,能夠處理不同任務的不同語言標記輸入,包括 (a) 完形填空測試、(b) 圖像描述生成和 (c) 問答。符號“雪花”表示凍結(jié)的部分。符號 e 表示語言模型的潛在嵌入(第 3.2 節(jié)),符號 q 表示視覺解碼器的目標查詢(第 3.3 節(jié))。

視覺編碼器


基于多模態(tài)大語言模型的上下文目標檢測-AI.x社區(qū)

多模態(tài)上下文建模與LLM

基于多模態(tài)大語言模型的上下文目標檢測-AI.x社區(qū)

4、CODE基準

為了促進上下文目標檢測的研究,我們構建了一個上下文目標檢測(Contextual Object DEtection, CODE)數(shù)據(jù)集。具體來說,我們從Flickr30k(Young et al., 2014)和Flickr30k Entities(Plummer et al., 2015)中收集了圖像、邊界框和描述注釋。我們添加了包含描述字符串中對象名稱位置信息的注釋。這些對象名稱將被替換為“[MASK]”令牌,作為我們填空測試設置的輸入。CODE分為三個部分:訓練集包含29,781張圖像中的665,161個邊界框,驗證集包含1,000張圖像中的22,061個邊界框,測試集包含999張圖像中的21,641個邊界框??傮w而言,CODE數(shù)據(jù)集包含10,346個獨特的對象名稱,超過了以往任何檢測數(shù)據(jù)集中的對象名稱數(shù)量,例如COCO(80個類別)和LVIS(1,203個類別)。

 數(shù)據(jù)格式

我們的CODE基準遵循COCO數(shù)據(jù)集(Lin et al., 2014)的數(shù)據(jù)格式,并添加了額外的字段(藍色標注),包括語言描述、令牌ID和對象名稱。令牌ID記錄了對象名稱在語言令牌中的起始和結(jié)束位置索引。



基于多模態(tài)大語言模型的上下文目標檢測-AI.x社區(qū)

 圖3:我們的CODE基準遵循COCO數(shù)據(jù)集的數(shù)據(jù)格式,并添加了額外的字段(藍色標注),包括語言描述、令牌ID和對象名稱。令牌ID記錄了對象名稱在語言令牌中的起始和結(jié)束位置索引。    


基于多模態(tài)大語言模型的上下文目標檢測-AI.x社區(qū)

 圖4:CODE訓練集(左)和測試集(中、右)中對象詞匯的詞云可視化。中間的圖展示了測試集中高頻詞匯的可視化,而右側(cè)的圖展示了低頻詞匯的可視化。


基于多模態(tài)大語言模型的上下文目標檢測-AI.x社區(qū)


基于多模態(tài)大語言模型的上下文目標檢測-AI.x社區(qū)

 圖5:(a)傳統(tǒng)目標檢測任務的評估標準與(b)我們的上下文填空測試評估標準的比較。

評估細節(jié)

現(xiàn)有的目標檢測數(shù)據(jù)集(如Pascal VOC、Microsoft COCO、Open Images、LVIS、Object365和V3Det)依賴于標簽ID與類別名稱之間的預定義映射進行評估。例如,COCO數(shù)據(jù)集使用類似(1, person)、(2, bicycle)、...、(80, toothbrush)的映射來表示其80個類別。如圖5(a)所示,為了被分類為真正例(true positives),預測的邊界框必須與真實邊界框具有較高的IoU重疊,并且類別ID必須相同。在某些情況下,例如零樣本(Bansal et al., 2018)或開放詞匯(Zareian et al., 2021)目標檢測設置中,預定義的類別被分為兩組:基礎和新類別,以評估模型的泛化能力。然而,這些評估仍然依賴于預定義的ID-名稱映射,而名稱未包含在預定義映射中的對象則無法被評估。    

人類的感知并不依賴于預定義的類別ID。因此,對于我們提出的上下文填空測試任務,我們建立了新的評估標準,使用人類語言中的對象名稱進行評估。在此評估中,給定一個帶有掩碼的語言表達式和掩碼詞匯的索引,如果預測的邊界框滿足以下條件,則將其分類為真正例:(1)與真實邊界框具有較高的IoU重疊;(2)具有相同的含義;(3)具有相同的掩碼索引。相反,如果預測不滿足這些條件,則被視為假正例(false positives)。掩碼索引用于區(qū)分句子中多個具有相同名稱但位于不同[MASK]令牌位置的對象。對象名稱對應于LLMs的Tokenizer解碼的最有效的英文單詞。

在定義了基于名稱的真正例/假正例標準后,我們可以計算整體的平均精度(AP)指標進行評估。我們遵循COCO數(shù)據(jù)集設置IoU閾值,范圍從0.5到0.95,步長為0.05。由于存在大量長尾低頻名稱,其中只有少數(shù)示例可用于評估,因此我們未計算每個名稱的AP。

 AP@5用于前5個預測名稱

在某些情況下,我們的評估指標可能過于嚴格,特別是在處理大量同義詞或細粒度類別時,這些類別對標注者來說難以區(qū)分。類似的挑戰(zhàn)在之前的圖像分類數(shù)據(jù)集(如ImageNet)中也曾遇到,其中使用top-5準確率作為top-1準確率的補充指標。因此,我們還引入了一個補充指標,稱為top-5 AP(AP@5),該指標放寬了真正例的定義。在AP@5下,如果真實名稱位于前5個預測中,則預測被視為真正例。相比之下,基于top-1預測結(jié)果計算的AP指標稱為AP@1,以區(qū)別于AP@5。    

實現(xiàn)細節(jié)

我們修改了COCO數(shù)據(jù)集中提供的著名pycocotools包,并創(chuàng)建了評估腳本。

上下文問答和上下文描述生成的評估

填空測試、描述生成和問答設置的上下文理解性能高度相關。一個設置中的定量評估可以輕松轉(zhuǎn)換為另一個設置,只需使用不同的文本提示。例如:

- 填空測試提示:A -- stands with his bride while holding balloons。(預期答案:groom)

- 描述生成提示:A photo of a -- standing with his bride while holding balloons。(預期答案:groom)

- 問答提示:Question: who is standing with the bride while holding balloons in this image? Answer: ----。(預期答案:The groom)

這三種設置本質(zhì)上評估的是同一場景的上下文理解能力,但表現(xiàn)形式不同。

5、實驗

我們在不同任務上展示了ContextDET的結(jié)果,包括(1)我們提出的上下文目標檢測任務(見第5.1節(jié)),以及現(xiàn)有任務,如(2)開放詞匯目標檢測(見第5.3節(jié))和(3)引用圖像分割(見第5.4節(jié))。    

實現(xiàn)細節(jié)

我們的方法使用PyTorch實現(xiàn),所有模型均在配備4塊NVIDIA A100 GPU的單臺機器上進行訓練。訓練期間,應用了數(shù)據(jù)增強技術,包括隨機水平翻轉(zhuǎn)(概率為0.5)和大尺度抖動(Ghiasi et al., 2021)。我們將批量大小設置為8,并訓練模型6個周期。我們使用AdamW優(yōu)化器(Loshchilov and Hutter, 2019),學習率為 \(1e^{-4}\),權重衰減為0.05。對于ContextDET,我們報告了使用OPT-2.7B(Zhang et al., 2022b)作為語言模型和ResNet50(He et al., 2016)作為視覺骨干的結(jié)果。

5.1 上下文目標檢測

本節(jié)報告了我們提出的CODE數(shù)據(jù)集(見第4節(jié))上的基準測試結(jié)果。

評估指標

在我們的上下文填空測試設置中,我們計算了分類準確率和檢測AP指標。準確率表示正確預測對象詞匯的百分比。然而,由于人類語言中存在大量同義詞和細粒度對象詞匯,評估這一準確率具有挑戰(zhàn)性。這與之前的大詞匯量圖像分類數(shù)據(jù)集(如ImageNet)面臨的問題類似,這些數(shù)據(jù)集使用top-5準確率作為top-1準確率的補充指標。因此,我們同時采用了top-1準確率(Acc@1)和top-5準確率(Acc@5)作為評估指標。對于邊界框評估,我們基于top-1和top-5預測名稱計算平均精度(mAP)指標,分別表示為AP@1和AP@5。在評估中,我們比較的是對象名稱詞匯,而不是預定義的類別ID,這使得評估能夠靈活擴展到廣泛的人類詞匯。對于我們的上下文問答和描述生成設置,我們通過修改填空測試任務中使用的輸入文本提示格式來獲得定量結(jié)果。    

基線方法

由于之前的方法不具備“生成-檢測”能力,我們使用級聯(lián)解決方案將現(xiàn)有方法結(jié)合作為基線:首先使用BLIP-2(Li et al., 2023)、LLaVA(Liu et al., 2023b)或LLaVA 1.5(Liu et al., 2023a)生成描述,然后使用代表性的定位方法GLIP(Li et al., 2022)。我們還選擇了GLIP-2(Zhang et al., 2022a)作為基線,因為它與我們的上下文問答和描述生成場景兼容。然而,GLIP-2不適用于填空測試設置,因為它需要完整的對象名稱。

結(jié)果

我們在表2中提供了ContextDET在CODE數(shù)據(jù)集上的基準測試結(jié)果。我們的結(jié)果表明,上下文目標檢測非常具有挑戰(zhàn)性:top-1 AP顯著低于之前的目標檢測數(shù)據(jù)集(如COCO),這主要歸因于我們的基準包含10,346個獨特的對象名稱(COCO僅有80個名稱)。與BLIP-2/LLaVA/LLaVA1.5+GLIP等級聯(lián)解決方案相比,我們的端到端ContextDET在所有設置上均表現(xiàn)更好。這歸因于從LLMs提取的隱藏嵌入通過自注意力操作符包含了視覺和文本令牌之間的上下文關系,這對于需要上下文理解能力的任務至關重要。

我們還比較了ContextDET與LLaVA 1.5以及在CODE數(shù)據(jù)集上微調(diào)GLIP檢測器的結(jié)果(表2中的第4行)。然而,我們發(fā)現(xiàn)微調(diào)GLIP并未顯著提高檢測性能。這是因為GLIP依賴于對比學習,可能無法有效適應大量具有細微差異的對象類別。我們的觀察表明,LLM令牌提供的上下文信息對于檢測大詞匯量(如CODE數(shù)據(jù)集中超過10k個類別)中的新對象至關重要。    


基于多模態(tài)大語言模型的上下文目標檢測-AI.x社區(qū)

5.2 消融實驗

我們研究了使用局部視覺令牌 \( \bm{z} \)、決定局部區(qū)域數(shù)量的超參數(shù) \( p \) 以及效率分析的影響。實驗在CODE驗證集上進行。

超參數(shù) \( p \)

如第3.1節(jié)所述,我們有 \( p \) 個局部視覺令牌作為LLM解碼的前綴輸入。在表5中,我們展示了使用不同 \( p \) 值的效果。我們觀察到,選擇 \( p = 9 \)(第2行)能夠獲得最佳結(jié)果,因此將其作為默認選擇。

更多骨干網(wǎng)絡

我們在表3中提供了ContextDET在CODE數(shù)據(jù)集上的結(jié)果。我們首先報告了使用OPT-2.7B作為語言模型和ResNet50作為視覺骨干的結(jié)果(第1行)。我們的結(jié)果表明,上下文填空測試任務非常具有挑戰(zhàn)性:top-1 AP(AP@1)僅為10.2,顯著低于之前的目標檢測數(shù)據(jù)集(如COCO)。此外,我們的研究表明,使用更強大的語言模型和視覺骨干可以提高性能。當我們將ResNet50替換為Swin-B(第2行)時,我們觀察到AP@1從10.2顯著提高到13.1。此外,通過將OPT-2.7B替換為更大的OPT-6.7B(第4行),我們實現(xiàn)了更高的AP@1性能(13.7)。 


基于多模態(tài)大語言模型的上下文目標檢測-AI.x社區(qū)

不使用局部視覺令牌的LLM

在我們的上下文填空測試設置中,即使沒有局部視覺令牌輸入 \( \bm{z} \),LLM也能夠進行預測。然而,通過分析表4中的結(jié)果,我們觀察到性能顯著下降。例如,top-1準確率從48.7下降到30.9(約20%)。這一觀察強調(diào)了在我們的方法中添加局部視覺令牌對于上下文理解的關鍵作用。我們還觀察到,在沒有 \( \bm{z} \) 的情況下,語言建模損失 \( \mathcal{L}_{\text{lm}} \) 的值幾乎沒有下降。這是因為計算語言建模損失 \( \mathcal{L}_{\text{lm}} \) 與生成下一個文本令牌密切相關,而生成文本令牌嚴重依賴于視覺令牌 \( \bm{z} \)。如果沒有視覺令牌 \( \bm{z} \),模型無法有效生成準確描述視覺內(nèi)容的文本令牌,導致語言建模損失停滯。

效率分析

我們模型中的大多數(shù)參數(shù)(包括LLM組件)是凍結(jié)的,因此可訓練參數(shù)的比例較小。如表2第1行所示,當使用OPT-2.7B和ResNet50骨干時,只有6.4%的參數(shù)(183/2,835)是可訓練的。我們的設計并未帶來顯著的計算負擔,并且可以輕松復現(xiàn)。

5.3 開放詞匯目標檢測

我們展示了我們提出的ContextDET也可以應用于開放詞匯目標檢測任務,旨在評估其泛化能力。根據(jù)之前的工作(Bansal et al., 2018; Zareian et al., 2021),我們使用OV-COCO基準,并將65個類別分為基礎/新類別(48/17)。模型僅在基礎類別上訓練,但在新類別上進行評估(訓練期間不可用)。我們使用平均精度(AP)指標在基礎、新類別和所有類別上測量性能。

為了將ContextDET適應開放詞匯設置,我們?yōu)槊總€類別(包括基礎和新類別)提出類似“Does the [CLASS] appear in this picture?”的問題。如果MLLM回答“Yes”,我們將相應類別名稱的潛在嵌入 \( \bm{e} \) 作為視覺解碼器的條件輸入(見第3.3節(jié))。我們在表6中比較了ContextDET與選定的基線方法,包括最先進的方法BARON(Wu et al., 2023c)。我們觀察到,ContextDET在新類別、基礎類別和所有類別上分別顯著優(yōu)于BARON,分別提高了2.8%、4.7%和4.2%。所有基線方法都依賴于視覺-語言模型CLIP的先驗知識。相比之下,我們的ContextDET使用MLLM來檢測新對象。結(jié)果表明,在互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)集上訓練的MLLM具有強大的泛化能力,可以有益于開放詞匯任務。

效率分析

OV-DETR的訓練和測試時間(秒/迭代)分別為0.47/0.63和0.54/0.25。雖然由于LLMs的參數(shù)較多,我們的方法增加了訓練時間,但在測試時更加高效。這是因為OV-DETR以所有類別為條件,而ContextDET通過提問僅以圖像中存在的類別為條件。

5.4 引用圖像分割

我們的ContextDET不僅限于目標檢測,還可以擴展到圖像分割任務,其目標是為輸入圖像中的每個像素分配像素級標簽。為了將ContextDET框架適應分割任務,我們引入了一個額外的像素級分割頭,該頭以完整視覺令牌 \( \bm{c} \) 作為輸入。為了訓練分割模型,我們使用像素級交叉熵損失 \( \mathcal{L}_{\text{mask}} \) 和Dice損失 \( \mathcal{L}_{\text{dice}} \),其中真實標簽是圖像中匹配對象的像素級掩碼。

我們選擇引用圖像分割任務作為代表性基準,以評估ContextDET的分割性能。引用圖像分割任務的目標是根據(jù)細粒度的輸入語言查詢分割圖像中的區(qū)域。語言查詢將作為ContextDET中視覺解碼器的條件輸入。我們使用了三個常用的數(shù)據(jù)集:RefCOCO(Yu et al., 2016)、RefCOCO+(Yu et al., 2016)和RefCOCOg(Nagaraja et al., 2016)。在RefCOCO和RefCOCO+上,我們遵循Yu等人(Yu et al., 2016)中默認的訓練/驗證/testA/testB數(shù)據(jù)劃分。對于RefCOCOg,我們使用RefCOCO-umd劃分(Nagaraja et al., 2016)。我們報告了平均交并比(mIoU),該指標通過計算所有測試樣本的IoU分數(shù)的平均值得到。我們在表7中將ContextDET與一些最先進的方法進行了比較。ContextDET在驗證/測試集上分別比PolyFormer(Liu et al., 2023c)提高了0.63%和0.45%的mIoU。

 表7:在三個引用圖像分割基準上與最先進方法的比較(以mIoU指標衡量)。    


基于多模態(tài)大語言模型的上下文目標檢測-AI.x社區(qū)

5.5 標準目標檢測

我們進一步評估了ContextDET在標準目標檢測任務上的有效性,使用COCO基準。通過應用ContextDET的“描述生成”設置,并實施后處理調(diào)整(如過濾掉不相關的對象類別和置信度閾值),結(jié)果如表8所示。雖然我們的性能不如專門的目標檢測方法(如Deformable DETR),但ContextDET在檢測小物體方面表現(xiàn)出色,這歸因于上下文信息在消除包含小物體的區(qū)域歧義方面的優(yōu)勢。


基于多模態(tài)大語言模型的上下文目標檢測-AI.x社區(qū)

表8:在COCO驗證數(shù)據(jù)集上標準目標檢測結(jié)果的比較。    


基于多模態(tài)大語言模型的上下文目標檢測-AI.x社區(qū)

5.6 定性結(jié)果

除了在CODE基準上的定量評估外,我們還通過更多樣化的圖像和對象對ContextDET進行了定性評估,如圖7所示。我們觀察到ContextDET在復雜上下文理解和泛化到開放世界名稱方面的能力。例如,如圖7(a)所示,ContextDET能夠合理推斷出填充掩碼的對象名稱,并準確地將對象名稱與邊界框關聯(lián)起來。此外,ContextDET能夠預測開放世界概念的名稱和位置(如“哈利·波特”“皮卡丘”“梅西”),這些概念使用之前的封閉集目標檢測器難以檢測。最后,在圖7(c)中,我們展示了ContextDET能夠進行多輪問答對話,并預測對話歷史中提到的對象的邊界框。

我們進一步提供了ContextDET在上下文填空測試(圖8)、上下文描述生成(圖9)和上下文問答設置(圖10)中預測的更多定性結(jié)果。所選圖像隨機來自網(wǎng)絡,并未包含在訓練數(shù)據(jù)中。我們觀察到ContextDET能夠有效預測上下文對象詞匯,包括“老師”“學生”“醫(yī)生”和“護士”等術語,以及它們對應的邊界框。此外,我們發(fā)現(xiàn)了一些失敗案例。例如,預測的對象詞匯可能不正確,特別是對于不太常見的術語(如“地球”)。當處理遮擋對象(如“羊”)時,ContextDET的魯棒性較差。我們計劃在未來的研究中解決這些局限性。


基于多模態(tài)大語言模型的上下文目標檢測-AI.x社區(qū)

圖 7:ContextDET 在我們的三種上下文目標檢測設置中預測的定性示例,包括 (a) 完形填空測試、(b) 圖像描述生成和 (c) 問答。其中的“哈利·波特”、“皮卡丘”和“梅西”是新出現(xiàn)的名稱,這些名稱并未在 CODE 訓練集中標注。ContextDET 展示了合理的上下文理解和泛化能力。

與MLLMs的比較

我們在圖6中展示了一些視覺示例,并將我們的ContextDET與一些流行的MLLMs(如GPT-4)進行了比較。現(xiàn)有的MLLMs只能生成文本輸出,而我們的ContextDET通過提供感興趣對象的邊界框進一步推動了邊界。特別是,我們的方法允許對文本輸入中指定的感興趣對象進行細粒度定位,這為視覺-語言模型提供了更高程度的可解釋性??偟膩碚f,我們的方法為需要對象定位和對話交互的各種應用提供了新的可能性,例如AR/VR系統(tǒng)和機器人。

6、結(jié)論    

盡管最近的MLLMs在視覺-語言任務(如問答)中展示了顯著的能力,但它們在感知任務中的潛力仍然很大程度上未被探索。我們的ContextDET突出了MLLMs在多樣化感知任務中的巨大潛力,例如提出的上下文目標檢測任務,該任務預測圖像中精確的對象名稱及其位置以支持人機交互。為了訓練我們的模型,我們需要將邊界框的對象詞匯與語言描述關聯(lián)起來,這帶來了高昂的標注成本。因此,與之前的MLLM論文相比,我們使用了較少的訓練數(shù)據(jù),這可能限制了我們的最終性能。在未來的工作中,我們計劃探索使用半監(jiān)督或弱監(jiān)督學習技術來減少標注成本。此外,除了它們的上下文理解能力外,我們相信MLLMs的其他能力在下游任務中仍然未被充分探索,例如它們的交互能力用于指令調(diào)優(yōu)。例如,MLLMs能否用于根據(jù)人類語言指令對檢測輸出進行后處理?通過提供諸如“將預測框稍微向左移動”“移除冗余的重疊框”或“將預測類別從鷹更正為獵鷹”等指令,MLLMs能否相應地調(diào)整預測以滿足我們的期望?我們希望本文提出的見解能夠激發(fā)進一步研究,以將MLLMs應用于更多計算機視覺任務的革命性變革。


本文轉(zhuǎn)載自公眾號AIRoobt ,作者:AIRoobt

原文鏈接:??https://mp.weixin.qq.com/s/L9iGndBWpH8XZutDStxfKQ??

?著作權歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責任
已于2025-3-6 09:33:13修改
收藏
回復
舉報
回復
相關推薦