ECCV 2024 | 提升GPT-4V、Gemini檢測任務(wù)性能,你需要這種提示范式
本文作者來自浙江大學(xué)、上海人工智能實(shí)驗(yàn)室、香港中文大學(xué)、悉尼大學(xué)和牛津大學(xué)。作者列表:吳逸璇,王逸舟,唐詩翔,吳文灝,賀通,Wanli Ouyang,Philip Torr,Jian Wu。其中,共同第一作者吳逸璇是浙江大學(xué)博士生,王逸舟是上海人工智能實(shí)驗(yàn)室科研助理。通訊作者唐詩翔是香港中文大學(xué)博士后研究員。
多模態(tài)大模型(Multimodal Large Language Models,MLLMs)在不同的任務(wù)中表現(xiàn)出了令人印象深刻的能力,盡管如此,這些模型在檢測任務(wù)中的潛力仍被低估。在復(fù)雜的目標(biāo)檢測任務(wù)中需要精確坐標(biāo)時(shí),MLLMs 帶有的幻覺又讓它常常錯過目標(biāo)物體或給出不準(zhǔn)確的邊界框。為了讓 MLLMs 賦能檢測,現(xiàn)有的工作不僅需要收集大量高質(zhì)量的指令數(shù)據(jù)集,還需要對開源模型進(jìn)行微調(diào)。費(fèi)時(shí)費(fèi)力的同時(shí),也無法利用閉源模型更強(qiáng)大的視覺理解能力。為此,浙江大學(xué)聯(lián)合上海人工智能實(shí)驗(yàn)室和牛津大學(xué)提出了 DetToolChain,一種釋放多模態(tài)大語言模型檢測能力的新提示范式。不需要訓(xùn)練就能讓多模態(tài)大模型學(xué)會精確檢測。相關(guān)研究已經(jīng)被 ECCV 2024 收錄。
為了解決 MLLM 在檢測任務(wù)上的問題,DetToolChain 從三個(gè)點(diǎn)出發(fā):(1)針對檢測設(shè)計(jì)視覺提示(visual prompts),比傳統(tǒng)的文字提示(textual prompts)更直接有效的讓 MLLM 理解位置信息,(2)把精細(xì)的檢測任務(wù)拆解成小而簡單的任務(wù),(3)利用 chain-of-thought 逐步優(yōu)化檢測結(jié)果,也盡可能的避免多模態(tài)大模型的幻覺。
與上述的 insights 對應(yīng),DetToolChain 包含兩個(gè)關(guān)鍵設(shè)計(jì):(1)一套全面的視覺處理提示(visual processing prompts),直接在圖像中繪制,可以顯著縮小視覺信息和文本信息之間的差距。(2)一套全面的檢測推理提示 (detection reasoning prompts),增強(qiáng)對檢測目標(biāo)的空間理解,并通過樣本自適應(yīng)的檢測工具鏈逐步確定最終的目標(biāo)精確位置。
通過將 DetToolChain 與 MLLM 結(jié)合,如 GPT-4V 和 Gemini,可以在無需指令調(diào)優(yōu)的情況下支持各種檢測任務(wù),包括開放詞匯檢測、描述目標(biāo)檢測、指稱表達(dá)理解和定向目標(biāo)檢測。
- 論文標(biāo)題:DetToolChain: A New Prompting Paradigm to Unleash Detection Ability of MLLM
- 論文鏈接:https://arxiv.org/abs/2403.12488
什么是 DetToolChain?
圖 1 DetToolChain 的整體框架
如圖 1 所示,對于給定的查詢圖像,MLLM 被指示進(jìn)行以下步驟:
I. Formatting:將任務(wù)的原始輸入格式轉(zhuǎn)化為適當(dāng)?shù)闹噶钅0?,作?MLLM 的輸入;
II. Think:將特定的復(fù)雜檢測任務(wù)分解為更簡單的子任務(wù),并從檢測提示工具包中選擇有效的提示(prompts);
III. Execute:按順序迭代執(zhí)行特定的提示(prompts);
IV. Respond:運(yùn)用 MLLM 其自身的推理能力來監(jiān)督整個(gè)檢測過程并返回最終響應(yīng)(final answer)。
檢測提示工具包:Visual Processing Prompts
圖 2:visual processing prompts 的示意圖。我們設(shè)計(jì)了 (1) Regional Amplifier, (2) Spatial Measurement Standard, (3) Scene Image Parser,從不同的角度來提升 MLLMs 的檢測能力。
如圖 2 所示,(1) Regional Amplifier 旨在增強(qiáng) MLLMs 對感興趣區(qū)域(ROI)的可見性,包括將原始圖像裁剪成不同部分子區(qū)域,重點(diǎn)關(guān)注目標(biāo)物體所在子區(qū)域;此外,放大功能則使得可以對圖像中特定子區(qū)域進(jìn)行細(xì)粒度觀察。
(2) Spatial Measurement Standard 通過在原始圖像上疊加帶有線性刻度的尺子和指南針,為目標(biāo)檢測提供更明確的參考,如圖 2 (2) 所示。輔助尺子和指南針使 MLLMs 能夠利用疊加在圖像上的平移和旋轉(zhuǎn)參考輸出準(zhǔn)確的坐標(biāo)和角度。本質(zhì)上,這一輔助線簡化了檢測任務(wù),使 MLLMs 能夠讀取物體的坐標(biāo),而不是直接預(yù)測它們。
(3) Scene Image Parser 標(biāo)記預(yù)測的物體位置或關(guān)系,利用空間和上下文信息實(shí)現(xiàn)對圖像的空間關(guān)系理解。Scene Image Parser 可以分為兩類:首先,針對單個(gè)目標(biāo)物體,我們用質(zhì)心、凸包和帶標(biāo)簽名稱及框索引的邊界框標(biāo)記預(yù)測的物體。這些標(biāo)記以不同格式表示物體位置信息,使 MLLM 能夠檢測不同形狀和背景的多樣物體,特別是形狀不規(guī)則或被大量遮擋的物體。例如,凸包標(biāo)記器標(biāo)記物體的邊界點(diǎn)并將其連接為凸包,以增強(qiáng)對形狀非常不規(guī)則的物體的檢測性能。其次,針對多目標(biāo),我們通過場景圖標(biāo)記器(scene graph marker)連接不同物體的中心,以突出圖像中物體之間的關(guān)系?;趫鼍皥D,MLLM 可以利用其上下文推理能力來優(yōu)化預(yù)測的邊界框并避免幻覺。例如,如圖 2 (3) 所示,Jerry 要吃奶酪,因此它們的 bounding box 應(yīng)該非常接近。
檢測提示工具包:Detection Reasoning Prompts
為了提高預(yù)測框的可靠性,我們進(jìn)行了檢測推理提示(如表 1 所示),以檢查預(yù)測結(jié)果并診斷可能存在的潛在問題。首先,我們提出了 Problem Insight Guider,突出困難問題并為查詢圖像提供有效的檢測建議和相似例子。例如,針對圖 3,Problem Insight Guider 將該查詢定義為小物體檢測的問題,并建議通過放大沖浪板區(qū)域來解決它。其次,為了利用 MLLMs 固有的空間和上下文能力,我們設(shè)計(jì)了 Spatial Relationship Explorer 和 Contextual Object Predictor,以確保檢測結(jié)果符合常識。如圖 3 所示,沖浪板可能與海洋共現(xiàn)(上下文知識),而沖浪者的腳附近應(yīng)該有一個(gè)沖浪板(空間知識)。此外,我們應(yīng)用 Self-Verification Promoter 來增強(qiáng)多輪響應(yīng)的一致性。為了進(jìn)一步提升 MLLMs 的推理能力,我們采用了廣泛應(yīng)用的 prompting 方法,例如 debating 和 self-debugging 等。詳細(xì)描述請見原文。
圖 3 檢測推理提示可以幫助 MLLMs 解決小物體檢測問題,例如,利用常識定位人腳下的沖浪板,并鼓勵模型在海洋中檢測沖浪板。
圖 4 一個(gè) DetToolChain 應(yīng)用于旋轉(zhuǎn)目標(biāo)檢測的例子(HRSC2016 數(shù)據(jù)集)
實(shí)驗(yàn):免訓(xùn)練也能超越微調(diào)方法
如表 2 所示,我們在 open vocabulary detection(OVD)上評估了我們的方法,測試了在 COCO OVD benchmark 中 17 個(gè)新類、48 個(gè)基礎(chǔ)類和所有類的 AP50 結(jié)果。結(jié)果顯示,使用我們的 DetToolChain,GPT-4V 和 Gemini 的性能均顯著提升。
為了展示我們的方法在指稱表達(dá)理解上的有效性,我們將我們的方法與其他零樣本方法在 RefCOCO、RefCOCO + 和 RefCOCOg 數(shù)據(jù)集上進(jìn)行了比較(表 5)。在 RefCOCO 上,DetToolChain 使得 GPT-4V 基線在 val、test-A 和 test-B 上的性能分別提升了 44.53%、46.11% 和 24.85%,展示了 DetToolChain 在 zero-shot 條件下優(yōu)越的指稱表達(dá)理解和定位性能。