自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

港科大新SOTA丨大語言模型在通用視覺定位中的能力(LLM-Optic) 原創(chuàng)

發(fā)布于 2024-7-1 13:08
瀏覽
0收藏

?摘要:視覺定位是將用戶提供的文本查詢與圖像中特定區(qū)域鏈接起來的基本工具。盡管視覺定位模型取得了一定進(jìn)展,但它們在理解復(fù)雜查詢方面的能力仍然有限。為了解決這一限制,我們引入了LLM-Optic,這是一種創(chuàng)新方法,利用大型語言模型(LLM)作為光學(xué)透鏡來增強(qiáng)現(xiàn)有視覺定位模型對涉及復(fù)雜文本結(jié)構(gòu)、多對象或?qū)ο罂臻g關(guān)系的復(fù)雜文本查詢的理解能力——這些情況是當(dāng)前模型難以應(yīng)對的。LLM-Optic首先使用LLM作為文本定位器來解釋復(fù)雜的文本查詢,并準(zhǔn)確識別用戶意圖定位的對象。然后,利用預(yù)訓(xùn)練的視覺定位模型,根據(jù)文本定位器優(yōu)化后的查詢生成候選的邊界框。接下來,LLM-Optic通過數(shù)值標(biāo)記對候選邊界框進(jìn)行注釋,以在文本和特定圖像區(qū)域之間建立連接,從而鏈接兩種不同的模態(tài)。最后,利用大型多模態(tài)模型(LMM)作為視覺定位器,選擇與原始文本查詢最匹配的標(biāo)記候選對象。通過LLM-Optic,我們實(shí)現(xiàn)了通用視覺定位,能夠檢測由任意人類語言輸入指定的任意對象。重要的是,我們的方法無需額外的訓(xùn)練或微調(diào)即可實(shí)現(xiàn)這一增強(qiáng)。大量不同挑戰(zhàn)基準(zhǔn)上的實(shí)驗(yàn)表明,LLM-Optic實(shí)現(xiàn)了最先進(jìn)的零樣本視覺定位能力。項(xiàng)目頁面:[https://haoyu-zhao.github.io/LLM-Optic.github.io/](https://haoyu-zhao.github.io/LLM-Optic.github.io/)。

1 引言

視覺定位是計(jì)算機(jī)視覺中的一項(xiàng)關(guān)鍵任務(wù),是多個(gè)領(lǐng)域如自動駕駛【1, 2】、機(jī)器人技術(shù)【3】、無人機(jī)導(dǎo)航【4, 5】的基礎(chǔ)。先驅(qū)性的研究【6-12】對這一任務(wù)進(jìn)行了廣泛探索,推動了持續(xù)的進(jìn)步。值得注意的是,Grounding DINO【6】表現(xiàn)出色,達(dá)到了最先進(jìn)的結(jié)果。Grounding DINO是一種強(qiáng)大的開放詞匯對象檢測模型,其性能優(yōu)越,能夠處理自由形式的文本輸入查詢。這一能力源于其在多個(gè)階段實(shí)現(xiàn)了視覺和語言模態(tài)的融合。然而,盡管Grounding DINO取得了顯著成就,但在完全理解復(fù)雜輸入文本查詢方面仍面臨挑戰(zhàn)。在各種場景中,其局限性顯而易見:(1) 它在處理復(fù)雜句子結(jié)構(gòu)時(shí)表現(xiàn)困難,誤解語義信息,如圖1(A)所示,將“me find my printer”錯誤地分類為對象標(biāo)簽;(2) 在涉及多個(gè)對象的查詢中存在困難,常常無法區(qū)分主要對象及其地標(biāo),從而無法進(jìn)行精確定位,如圖1(B)所示,它錯誤地檢測到了查詢中提到的所有對象,但忽略了主要關(guān)注的對象;(3) 它錯誤解釋了空間關(guān)系,如圖1(C)所示。這些局限性凸顯了視覺定位的復(fù)雜性,表明需要進(jìn)一步的改進(jìn)。


港科大新SOTA丨大語言模型在通用視覺定位中的能力(LLM-Optic) -AI.x社區(qū)

圖1:LLM-Optic通過整合大型語言模型(LLM)的推理能力,增強(qiáng)了領(lǐng)先的視覺定位模型Grounding DINO的能力,從而在任何給定查詢中實(shí)現(xiàn)了更高的視覺定位準(zhǔn)確性。具體而言,Grounding DINO在以下方面存在局限:(1) 在處理復(fù)雜句子結(jié)構(gòu)時(shí)表現(xiàn)困難,如查詢(A)所示;(2) 在涉及多個(gè)對象的查詢中面臨挑戰(zhàn),常常無法區(qū)分主要對象及其地標(biāo),從而無法進(jìn)行精確定位(查詢(B));(3) 錯誤解釋空間關(guān)系(查詢(C))。然而,我們的框架有效地解決了這些問題。

Grounding DINO表現(xiàn)出這些局限性的主要原因可能在于其使用BERT【13】作為文本編碼器。BERT主要通過兩個(gè)任務(wù)進(jìn)行預(yù)訓(xùn)練:掩碼語言建模(MLM)和下一個(gè)句子預(yù)測(NSP)。盡管這些任務(wù)有助于學(xué)習(xí)基本的語言結(jié)構(gòu),但不足以捕捉更復(fù)雜的語言現(xiàn)象和上下文關(guān)系的細(xì)微差別。相反,大型語言模型(LLM)在自然語言理解方面表現(xiàn)出卓越的能力。LLM通常在更廣泛的任務(wù)和顯著更大的數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,這些數(shù)據(jù)集涵蓋了復(fù)雜的文本生成和理解任務(wù)。這種廣泛的訓(xùn)練使得它們能夠更深入地理解復(fù)雜的語義關(guān)系和上下文變化,從而增強(qiáng)其解釋和響應(yīng)復(fù)雜查詢的能力。大型多模態(tài)模型(LMM),也稱為多模態(tài)大型語言模型(MM-LLM),是LLM的擴(kuò)展,結(jié)合了圖像和文本模態(tài)。在語言理解能力方面,它們優(yōu)于像Grounding DINO這樣的模型。然而,目前LMM在視覺定位方面存在局限,常常無法為復(fù)雜的定位查詢生成精確的邊界框。為了提升LMM在視覺語言任務(wù)如視覺定位中的表現(xiàn),當(dāng)前的方法【14-16】涉及對現(xiàn)有的大模型進(jìn)行訓(xùn)練或微調(diào)。這個(gè)過程需要大量的訓(xùn)練數(shù)據(jù)、顯著的計(jì)算資源和大量的訓(xùn)練時(shí)間。

在這項(xiàng)工作中,我們介紹了LLM-Optic,一種簡單但有效的解決方案,通過整合大型語言模型的推理能力,增強(qiáng)現(xiàn)有的開放詞匯對象檢測模型,而無需額外的訓(xùn)練或微調(diào)。它有效地解決了現(xiàn)有模型在解釋復(fù)雜文本查詢時(shí)遇到的挑戰(zhàn)。此外,LLM-Optic超越了通常與專用模型相關(guān)的限制,這些模型通常僅限于定義狹窄的任務(wù)和特定的輸出格式。它實(shí)現(xiàn)了通用視覺定位,能夠基于各種描述識別任意數(shù)量的對象,并且能夠處理描述對象在圖像中不存在的情況,顯著增強(qiáng)了視覺定位在各種場景中的適用范圍,實(shí)現(xiàn)了與人類一樣的穩(wěn)健性。該框架在零樣本設(shè)置中在視覺定位基準(zhǔn)中達(dá)到了最先進(jìn)的準(zhǔn)確性,在所有評估的數(shù)據(jù)集中都表現(xiàn)出改進(jìn),其中在RefCOCOg【17】驗(yàn)證集中的最高增幅達(dá)到了22%。

LLM-Optic主要由三個(gè)模塊組成:基于LLM的文本定位器、候選位置設(shè)置和標(biāo)記模塊,以及基于LMM的視覺定位器。最初,LLM作為文本定位器,處理復(fù)雜的文本查詢以確定文本背后的真實(shí)意圖。文本定位器的輸出然后傳遞到候選位置設(shè)置和標(biāo)記模塊。在該模塊中,文本定位器的輸出,即對目標(biāo)的簡單但精確的描述,被傳遞到一個(gè)預(yù)訓(xùn)練的開放詞匯對象檢測模型。該模型負(fù)責(zé)為可能對應(yīng)描述的候選對象生成邊界框。每個(gè)邊界框都用數(shù)字標(biāo)識符進(jìn)行清晰標(biāo)記。隨后,帶有標(biāo)記邊界框的圖像以及原始查詢文本由視覺定位器處理。在這里,一個(gè)LMM確定哪些標(biāo)記的對象準(zhǔn)確地對應(yīng)于查詢文本描述。我們的框架的模塊化架構(gòu)使我們能夠無縫地整合最新的進(jìn)展,并在該領(lǐng)域保持領(lǐng)先地位。

總之,我們的貢獻(xiàn)可以總結(jié)為:

- 我們提出了LLM-Optic,一個(gè)簡單但高效且完全模塊化的框架,通過三個(gè)基本組件增強(qiáng)了視覺定位模型的能力:基于LLM的文本定位器,分析文本查詢中的潛在意圖;候選位置設(shè)置和標(biāo)記模塊,負(fù)責(zé)生成潛在目標(biāo)邊界框并通過標(biāo)記在文本和對應(yīng)的圖像區(qū)域之間建立連接;以及基于LMM的視覺定位器,精確識別圖像中查詢描述的對象。我們的框架原則具有適應(yīng)性,能夠通過簡化的遷移過程應(yīng)用于廣泛的計(jì)算機(jī)視覺任務(wù)。

- 我們的方法顯著擴(kuò)展了當(dāng)前最先進(jìn)定位模型的能力,無需額外的訓(xùn)練或微調(diào)。它有效地解決了現(xiàn)有模型在解釋復(fù)雜文本查詢時(shí)遇到的挑戰(zhàn)。此外,我們的框架超越了專用模型的限制,這些模型通常僅限于狹窄定義的任務(wù)和受限的輸出格式,允許多樣化的輸入文本以及多樣化的輸出結(jié)果。

- 大量跨多個(gè)視覺定位基準(zhǔn)的實(shí)驗(yàn)表明,所提出的框架在零樣本設(shè)置中顯著優(yōu)于最先進(jìn)的模型,無需使用額外的數(shù)據(jù)。這些實(shí)驗(yàn)在所有評估的數(shù)據(jù)集中都表現(xiàn)出顯著改進(jìn),其中在RefCOCOg驗(yàn)證集中的最大增幅為22%。

2 相關(guān)工作

視覺定位。視覺定位基于對象檢測,通過將圖像的特定區(qū)域與自然語言描述鏈接起來,增強(qiáng)跨模態(tài)的理解。對象檢測任務(wù)是計(jì)算機(jī)視覺領(lǐng)域的核心工作之一,并在不斷演進(jìn)。對象檢測的主要目標(biāo)是在圖像中定位屬于預(yù)定義類別的所有目標(biāo)對象【18-22】。然而,這些閉合詞匯對象檢測(CVD)模型專注于在閉合類別集合內(nèi)進(jìn)行檢測,由于這些預(yù)定義類別的限制,難以泛化到新的類別。隨著研究的進(jìn)展,出現(xiàn)了幾項(xiàng)相關(guān)任務(wù)。除了CVD之外,該領(lǐng)域現(xiàn)在根據(jù)輸入文本的類型區(qū)分三項(xiàng)任務(wù):開放詞匯對象檢測(OVD)、指稱表達(dá)理解(REC)和短語定位(PG)。OVD【6-12】任務(wù)通過允許識別超出預(yù)定義類別的任意類別來解決傳統(tǒng)對象檢測的局限性。相比之下,REC【23-26, 10, 27】任務(wù)專注于高度具體的查詢,可能會詳細(xì)描述對象的相對位置、外觀特征和其他描述。與OVD不同,一個(gè)單一類別標(biāo)簽可以對應(yīng)多個(gè)邊界框,而在REC中,每個(gè)查詢特定定位一個(gè)唯一對象。PG【28, 12, 11, 29】任務(wù)要求定位句子中所有引用的對象(短語),需要全面識別文本輸入中的多個(gè)對象。

在本文中,我們介紹了LLM-Optic,它針對的是更廣泛適用的視覺定位任務(wù),即通用視覺定位。與為特定任務(wù)設(shè)計(jì)的專用模型不同,例如在復(fù)雜用戶查詢時(shí)表現(xiàn)不佳的OVD任務(wù)模型,或者只能定位單個(gè)對象并需要特定訓(xùn)練數(shù)據(jù)的REC任務(wù)模型,LLM-Optic設(shè)計(jì)得更加靈活。這意味著LLM-Optic可以根據(jù)任何給定查詢識別任意數(shù)量的對象,顯著擴(kuò)展了視覺定位在各種場景中的適用范圍,從而真正實(shí)現(xiàn)了通用視覺定位。

大型多模態(tài)模型。大型語言模型(LLM)領(lǐng)域的最新進(jìn)展展示了顯著的成果。這些成就迅速擴(kuò)展到包含文本和圖像模態(tài)的大型多模態(tài)模型(LMM)。最先進(jìn)的模型【30-38】廣泛應(yīng)用于敘事生成【39, 40】、場景生成【41】、圖像字幕生成【42】,以及作為視覺語言任務(wù)的評估器【43, 44】,展現(xiàn)了其卓越的能力。此外,LLM和LMM在各種應(yīng)用方法中表現(xiàn)出靈活性。例如,一些LMM被專門訓(xùn)練或微調(diào)用于視覺定位【14, 15】和3D理解【45, 46】等任務(wù)。此外,一些研究【47-50】僅將LLM用作多輪對話中的計(jì)劃和工具使用的代理,而無需進(jìn)行任何額外的訓(xùn)練或微調(diào)。這些多樣的應(yīng)用方法展示了它們顯著的實(shí)際價(jià)值。

然而,最先進(jìn)的LMM如GPT-4V【31】和LLaVA【35】雖然在多個(gè)領(lǐng)域中表現(xiàn)出色,但并未針對視覺定位任務(wù)進(jìn)行專門優(yōu)化。因此,它們通常在處理復(fù)雜的視覺定位查詢時(shí)表現(xiàn)不佳,通常無法直接輸出查詢中指定對象的精確邊界框。因此,據(jù)我們所知,我們的框架LLM-Optic是首次嘗試將LLM和LMM的能力與2D視覺定位模型結(jié)合。這一整合利用了LLM和LMM在圖像和文本方面的推理能力,以及視覺定位模型的精確定位能力。它無需任何額外的訓(xùn)練或微調(diào)。此外,每次交互只需要一次對話,使用最少的令牌消耗。

3 方法

我們的目標(biāo)是通過整合LLM和LMM的高級推理能力,提升現(xiàn)有視覺定位模型理解復(fù)雜文本查詢的能力。這種增強(qiáng)使它們能夠克服當(dāng)前的局限性,從而確保對任何查詢進(jìn)行準(zhǔn)確的視覺定位。我們提出的框架命名為LLM-Optic,分為三個(gè)主要組件:文本定位器(§3.1)、候選位置和標(biāo)記設(shè)置(§3.2)以及視覺定位器(§3.3)。這種高度模塊化的方法無需額外的訓(xùn)練或微調(diào),每個(gè)組件都可以與任何最先進(jìn)的模型互換。


港科大新SOTA丨大語言模型在通用視覺定位中的能力(LLM-Optic) -AI.x社區(qū)

圖2:LLM-Optic概覽。我們提出使用LLM和LMM作為有效的推理模塊來處理復(fù)雜的用戶查詢,以實(shí)現(xiàn)通用視覺定位。我們的框架包括三個(gè)關(guān)鍵模塊:基于LLM的文本定位器、候選位置和標(biāo)記設(shè)置模塊,以及基于LMM的視覺定位器。該框架不需要任何額外的訓(xùn)練,并具有完全模塊化的設(shè)計(jì),允許快速整合新技術(shù)的最新進(jìn)展。

3.1 文本定位器

LLM在自然語言理解方面表現(xiàn)出色【30, 51】。對于復(fù)雜的用戶查詢,我們使用LLM(GPT-3.5 Turbo)作為文本定位器來解析和解釋文本查詢。我們告知LLM預(yù)期的輸入和輸出格式;LLM使用的提示詳情在附錄A中提供。文本定位器有效地提取關(guān)鍵信息,確保對用戶實(shí)際意圖的深入理解。這種準(zhǔn)確的解釋至關(guān)重要,因?yàn)樗笇?dǎo)了后續(xù)的預(yù)訓(xùn)練視覺定位模型準(zhǔn)確識別用戶查詢中指定的對象。例如,直接將“掛在筆記本電腦正上方的圖片”輸入到視覺定位模型中可能會導(dǎo)致誤解。然而,文本定位器通過語義和常識推理確定應(yīng)關(guān)注定位圖片,而筆記本電腦只是一個(gè)參考地標(biāo)。文本定位器處理用戶的原始查詢后,傳遞給視覺定位模型的優(yōu)化輸入變?yōu)樘崛〉奈谋尽皥D片”,標(biāo)識了一個(gè)特定的對象類別,視覺定位模型可以高效處理。

3.2 候選位置和標(biāo)記設(shè)置

候選位置。通過文本定位器處理后,我們得到一個(gè)簡單但精確的輸入查詢表達(dá),即“優(yōu)化查詢”,如“圖片”。這個(gè)簡潔的表達(dá)被傳遞給一個(gè)開放詞匯對象檢測模型,我們具體使用Grounding DINO。Grounding DINO是一個(gè)強(qiáng)大的、預(yù)訓(xùn)練的開放詞匯對象檢測器,在現(xiàn)有視覺定位模型中表現(xiàn)優(yōu)異。該模型負(fù)責(zé)生成可能匹配優(yōu)化查詢的候選對象的邊界框。然而,這些候選并不是最終目標(biāo);相反,它們是匹配查詢對象指定類別的初步選擇。進(jìn)一步的處理,包括對象外觀和空間關(guān)系的分析,需要在后續(xù)模塊中由視覺定位器進(jìn)行額外推理。

標(biāo)記設(shè)置。定位候選對象后,我們在每個(gè)候選邊界框的中心標(biāo)記一個(gè)唯一的數(shù)字標(biāo)識符,如圖3所示。這些標(biāo)識符作為每個(gè)候選邊界框的唯一身份。此步驟有兩個(gè)主要目的:首先,通過直接索引每個(gè)用邊界框注釋的特定區(qū)域到對應(yīng)的編號,建立文本-視覺鏈接,使后續(xù)的視覺定位器能夠更有效地基于這些標(biāo)記進(jìn)行推理和響應(yīng)。其次,根據(jù)Set-of-Mark Visual Prompting的研究【52】,這些標(biāo)記可以有效減少大型多模態(tài)模型中常見的幻覺,從而提高視覺定位器的準(zhǔn)確性。


港科大新SOTA丨大語言模型在通用視覺定位中的能力(LLM-Optic) -AI.x社區(qū)

圖3:候選位置和標(biāo)記設(shè)置的過程。圖像(a)是原始輸入圖像,圖像(b)顯示了用邊界框標(biāo)注的圖像,而圖像(c)顯示了在每個(gè)邊界框上應(yīng)用標(biāo)記后的圖像。

3.3 視覺定位器

圖像標(biāo)記后,它與原始未處理的查詢配對形成圖像-文本對。這個(gè)對輸入到一個(gè)LMM中,具體來說是LLM-Optic中的GPT-4V,作為視覺定位器。最先進(jìn)的LMM,如GPT-4V,在一般的視覺語言任務(wù)中表現(xiàn)出色【53, 54】。作為視覺定位器,LMM利用其推理能力分析標(biāo)記圖像和原始文本查詢,最終從標(biāo)記候選對象中選擇與查詢描述目標(biāo)最匹配的對象。同樣地,我們告知LMM預(yù)期的輸入和輸出格式;LLM使用的提示詳情在附錄A中提供。LMM的輸出是與文本查詢匹配的對象的標(biāo)記標(biāo)識符,然后用來索引先前保存的邊界框以定位目標(biāo)對象。詳細(xì)示例如圖4所示。


港科大新SOTA丨大語言模型在通用視覺定位中的能力(LLM-Optic) -AI.x社區(qū)

圖4:文本定位器和視覺定位器輸出示例。我們放大了標(biāo)記的尺寸以增強(qiáng)可見性;然而,實(shí)際標(biāo)記較小,如附錄E中的附加結(jié)果所示,以避免遮擋目標(biāo)對象。

4 實(shí)驗(yàn)

4.1 數(shù)據(jù)集

為了評估LLM-Optic的性能,我們在多個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),包括RefCOCO【55】、RefCOCOg【17】和描述檢測數(shù)據(jù)集(D3)【56】。這些數(shù)據(jù)集以其復(fù)雜的描述為特征,廣泛用于現(xiàn)有視覺定位模型的訓(xùn)練和測試。

RefCOCO & RefCOCOg。RefCOCO【55】和RefCOCOg【17】是專為指稱表達(dá)理解(REC)任務(wù)設(shè)計(jì)的數(shù)據(jù)集,重點(diǎn)是理解在圖像中指示唯一對象的自然語言表達(dá)。源自MS-COCO【57】,RefCOCO分為四個(gè)部分:Train、TestA、TestB和Val,而RefCOCOg分為三個(gè)部分:Train、Test和Val。兩者的主要區(qū)別在于指稱表達(dá)的復(fù)雜性;RefCOCO適應(yīng)任何類型的語言,而RefCOCOg提供了更詳細(xì)的對象描述。值得注意的是,RefCOCOg的平均表達(dá)長度為8.4個(gè)詞,顯著長于RefCOCO的3.5個(gè)詞。

描述檢測數(shù)據(jù)集(D3)。不同于RefCOCO和RefCOCOg,D3數(shù)據(jù)集采用了多樣且靈活的語言表達(dá),長度和復(fù)雜性各異。D3的一個(gè)顯著特點(diǎn)是包含了大量強(qiáng)調(diào)某些概念缺失的描述,例如“直升機(jī)不在空中飛行”。這一特點(diǎn)大大有助于評估不同方法的穩(wěn)健性。

4.2 評估指標(biāo)

我們使用多種常用指標(biāo)評估不同模型的視覺定位能力,包括平均交并比(mIoU)以及Accuracy@0.25和Accuracy@0.5。Accuracy@0.25和Accuracy@0.5分別指的是邊界框預(yù)測與真實(shí)邊界框的交并比超過0.25和0.5的準(zhǔn)確率。

4.3 基線

我們選擇了GPT-4V【31】、Grounding DINO【6】和UNINEXT【58】作為我們的基線,因?yàn)樗鼈冊诖硇院头€(wěn)健性方面表現(xiàn)優(yōu)異。在視覺定位方面,Grounding DINO和UNINEXT在各自的任務(wù)中表現(xiàn)出了最先進(jìn)的性能,特別是在OVD任務(wù)中Grounding DINO和在REC任務(wù)中UNINEXT。同樣,GPT-4V也作為最先進(jìn)的LMM表現(xiàn)出色。值得注意的是,GPT-4V和Grounding DINO沒有在REC數(shù)據(jù)集(RefCOCO系列)上進(jìn)行訓(xùn)練。相比之下,UNINEXT在RefCOCO系列上進(jìn)行了訓(xùn)練,表現(xiàn)出卓越的最先進(jìn)性能。我們包含這一基線以展示經(jīng)過訓(xùn)練的管道的能力,相對于我們的零樣本設(shè)置建立了一個(gè)性能上限?;€的詳細(xì)規(guī)格如下。

GPT-4V。GPT-4V(ison)【31】是一個(gè)最先進(jìn)的大型多模態(tài)模型,目前在各種任務(wù)中表現(xiàn)出色【53, 54】。在我們的實(shí)驗(yàn)中,我們?yōu)镚PT-4V提供了精心設(shè)計(jì)的提示,詳細(xì)信息見附錄A,使其能夠基于用戶查詢直接輸出目標(biāo)對象的邊界框。

Grounding DINO。Grounding DINO【6】是一個(gè)強(qiáng)大的視覺定位模型,在各種對象檢測數(shù)據(jù)集中表現(xiàn)出最先進(jìn)的性能。該模型通過整合雙編碼器單解碼器架構(gòu)增強(qiáng)了閉合集檢測器DINO【18】,在多個(gè)階段促進(jìn)了視覺語言模態(tài)融合。這一先進(jìn)架構(gòu)包括一個(gè)特征增強(qiáng)器、一個(gè)語言引導(dǎo)的查詢選擇模塊和一個(gè)跨模態(tài)解碼器。

UNINEXT。UNINEXT【58】是在RefCOCO系列上使用額外訓(xùn)練數(shù)據(jù)達(dá)到最先進(jìn)結(jié)果的模型。它圍繞三個(gè)主要組件構(gòu)建:提示生成、圖像-提示特征融合和對象發(fā)現(xiàn)與檢索。其訓(xùn)練過程分為三個(gè)階段:通感知覺預(yù)訓(xùn)練、圖像級聯(lián)合訓(xùn)練和視頻級聯(lián)合訓(xùn)練。值得注意的是,RefCOCO系列在后兩個(gè)階段用于微調(diào)。

4.4 結(jié)果

由于GPT-4V的配額限制,我們采用了抽樣方法進(jìn)行實(shí)驗(yàn)。我們隨機(jī)抽取了RefCOCO每個(gè)部分的200對文本-圖像對(共800對),RefCOCOg每個(gè)部分的200對文本-圖像對(共600對),以及D3的200對文本-圖像對??偣玻@些抽樣策略產(chǎn)生了1600對文本-圖像對,為我們的實(shí)驗(yàn)提供了一個(gè)大量且多樣化的測試數(shù)據(jù)集。此外,初步測試表明GPT-4在處理復(fù)雜查詢方面的定位能力較弱,因此我們只從每個(gè)數(shù)據(jù)集部分抽取了50對文本-圖像對,總計(jì)400對文本-圖像對。所有實(shí)驗(yàn)均在一致的環(huán)境和統(tǒng)一的設(shè)置下進(jìn)行。

我們按照上述數(shù)據(jù)集設(shè)置進(jìn)行了實(shí)驗(yàn),結(jié)果詳見表1。這些結(jié)果清楚地表明,LLM-Optic在零樣本設(shè)置中在所有評估的數(shù)據(jù)集中實(shí)現(xiàn)了最先進(jìn)的性能,顯著超越了Grounding DINO。例如,LLM-Optic在RefCOCOg驗(yàn)證集上的Accuracy@0.5方面顯示出22%的顯著改進(jìn)。與通常使用32或16個(gè)A100 GPU以及額外訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練的最先進(jìn)模型UNINEXT相比,LLM-Optic的性能相當(dāng),盡管我們的框架不需要額外的訓(xùn)練。此外,在沒有對UNINEXT進(jìn)行微調(diào)的D3數(shù)據(jù)集中,LLM-Optic的性能超過了UNINEXT 20%,突顯了我們框架的有效性。除了其出色的性能外,還需要注意的是,為了確保公平比較,我們采用了特定設(shè)置,這可能表明LLM-Optic的實(shí)際性能可能高于表1中所示的結(jié)果。有關(guān)更多詳細(xì)信息,請參見附錄B。

表1:在RefCOCO、RefCOCOg和D3數(shù)據(jù)集上與最先進(jìn)基線的比較,突出顯示了我們的優(yōu)越性能,最高分以粗體表示。包括了UNINEXT在RefCOCO系列上的結(jié)果,以展示當(dāng)前訓(xùn)練管道的能力,作為RefCOCO系列對我們零樣本設(shè)置的性能上限。在相同的零樣本設(shè)置下,我們的框架在D3數(shù)據(jù)集上顯著優(yōu)于UNINEXT,展示了我們的卓越性能和穩(wěn)健性。結(jié)果清楚地表明,我們的框架在很大程度上超越了這些最先進(jìn)的方法。*表示模型是否在RefCOCO系列上進(jìn)行了微調(diào)。


港科大新SOTA丨大語言模型在通用視覺定位中的能力(LLM-Optic) -AI.x社區(qū)

4.5 附加評估

使用不同LLM和LMM的消融研究。我們在D3數(shù)據(jù)集上進(jìn)行了消融研究,以評估不同LLM作為文本定位器和LMM作為視覺定位器的有效性。我們從D3數(shù)據(jù)集中隨機(jī)選擇了100個(gè)樣本進(jìn)行分析。對于文本定位器,我們使用了各種LLM,包括GPT-3.5 Turbo、GPT-4、Llama-2【33】和Llama-3【33】。我們的結(jié)果(見表2)表明,所有測試的LLM表現(xiàn)出強(qiáng)大的性能。值得注意的是,開源LLM的性能與GPT-4相當(dāng),甚至基本的7B模型也表現(xiàn)出足夠的能力,作為輸入查詢的文本定位器。

表2:在D3數(shù)據(jù)集上使用不同大型語言模型(LLM)作為文本定位器和大型多模態(tài)模型(LMM)作為視覺定位器的消融研究。*表示模型是否開源。


港科大新SOTA丨大語言模型在通用視覺定位中的能力(LLM-Optic) -AI.x社區(qū)

對于視覺定位器,除了GPT-4V,我們還評估了廣泛使用的開源LMM,如LLaVa-1.5【35】和LLaVa-1.6(也稱為LLaVa-Next)【36】,具有不同的模型參數(shù)規(guī)模。這些評估表明,雖然LLaVa-1.6能夠作為視覺定位器,但在提供準(zhǔn)確響應(yīng)方面不如GPT-4V有效。這可能是因?yàn)镚PT-4V擁有更多的模型參數(shù),并且在更廣泛的數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練。相比之下,LLaVa-1.5未能完成作為視覺定位器的任務(wù),其表現(xiàn)不佳可能是因?yàn)長LaVa-1.6具備增強(qiáng)的視覺推理和OCR能力,這歸功于改進(jìn)的視覺指令調(diào)優(yōu)數(shù)據(jù)混合,而LLaVa-1.5缺乏這些能力。這鞏固了GPT-4V作為當(dāng)前最可靠選擇的地位。我們的模塊化設(shè)計(jì)允許我們隨時(shí)替換最新的預(yù)訓(xùn)練模型,從而可能隨著該領(lǐng)域研究的進(jìn)展提升我們模型的性能。

LLM-Optic的穩(wěn)健性。LLM-Optic克服了專用模型的典型限制,這些模型通常局限于狹窄定義的任務(wù)和特定的輸出格式。例如,OVD模型由于缺乏詳細(xì)的上下文理解而受到限制,主要關(guān)注預(yù)定義類別,而不是詳細(xì)考慮目標(biāo)的具體屬性。然而,REC模型擅長解析擴(kuò)展描述,但受到假設(shè)圖像中僅存在一個(gè)目標(biāo)且需要特定訓(xùn)練數(shù)據(jù)的限制。這種假設(shè)在目標(biāo)缺失或存在多個(gè)目標(biāo)的情況下引入了限制。與這些模型不同,LLM-Optic提供了一個(gè)多功能且穩(wěn)健的解決方案,能夠應(yīng)對各種復(fù)雜的視覺定位挑戰(zhàn)。LLM-Optic實(shí)現(xiàn)了通用視覺定位,能夠根據(jù)各種描述識別任意數(shù)量的對象,并且能夠處理描述對象在圖像中不存在的情況。這顯著增強(qiáng)了視覺定位在各種場景中的適用范圍,實(shí)現(xiàn)了與人類相似的穩(wěn)健性。不同視覺定位模型之間的區(qū)別總結(jié)在表3中。此外,我們在圖5中展示了LLM-Optic處理不同情況的案例。

 

港科大新SOTA丨大語言模型在通用視覺定位中的能力(LLM-Optic) -AI.x社區(qū)


港科大新SOTA丨大語言模型在通用視覺定位中的能力(LLM-Optic) -AI.x社區(qū)


5 結(jié)論

在本文中,我們介紹了LLM-Optic,這是一種旨在增強(qiáng)當(dāng)前最先進(jìn)視覺定位模型能力的新型框架,無需額外的訓(xùn)練或微調(diào)。它有效地解決了現(xiàn)有模型在解釋復(fù)雜文本查詢時(shí)遇到的局限性。此外,LLM-Optic克服了專用模型固有的限制,這些模型通常受限于定義狹窄的任務(wù)和輸出格式,實(shí)現(xiàn)了通用視覺定位。該框架具有模塊化設(shè)計(jì),每個(gè)組件都可以與任何最先進(jìn)的模型互換。具體來說,它集成了三個(gè)核心組件:基于LLM的文本定位器、候選位置和標(biāo)記設(shè)置模塊,以及基于LMM的視覺定位器。廣泛的實(shí)驗(yàn)表明,LLM-Optic在多個(gè)數(shù)據(jù)集的零樣本設(shè)置中,性能優(yōu)于當(dāng)前最先進(jìn)的方法。此外,據(jù)我們所知,LLM-Optic是首個(gè)利用LLM和LMM來增強(qiáng)計(jì)算機(jī)視覺方法的研究,為未來的研究提供了寶貴的見解。

Zhao H, Ge W, Chen Y. LLM-Optic: Unveiling the Capabilities of Large Language Models for Universal Visual Grounding[J]. arXiv preprint arXiv:2405.17104, 2024.


本文轉(zhuǎn)載自公眾號AIRoobt ,作者:AIRoobt

原文鏈接:??https://mp.weixin.qq.com/s/pHSddyFBGBhTuhZp7K0qYQ??




?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦