識(shí)別高分低能,綜合性視覺(jué)語(yǔ)言理解新基準(zhǔn),五項(xiàng)挑戰(zhàn)評(píng)估多模態(tài)模型的推理能力
多模態(tài)模型在學(xué)術(shù)基準(zhǔn)測(cè)試中獲得高分,到了真實(shí)世界應(yīng)用時(shí)卻表現(xiàn)不及預(yù)期,該如何分辨?
新的綜合性視覺(jué)語(yǔ)言理解基準(zhǔn)JourneyBench,利用基于diffusion模型提示生成的圖像,并采用一種新穎的人機(jī)閉環(huán)框架,通過(guò)五項(xiàng)具有挑戰(zhàn)性的任務(wù)來(lái)評(píng)估多模態(tài)模型的推理能力:
- 多模態(tài)鏈?zhǔn)綌?shù)學(xué)推理 (Multimodal Chain-of-Thought)
- 多圖像視覺(jué)問(wèn)答 (Multi-image VQA)
- 細(xì)粒度跨模態(tài)檢索 (Fine-grained Cross-modal Retrieval)
- 包含幻覺(jué)觸發(fā)的開(kāi)放式視覺(jué)問(wèn)答 (VQA with Hallucination Triggers)
- 非常見(jiàn)圖像的描述 (Unusual Image Captioning)
JourneyBench由哥倫比亞大學(xué)、弗吉尼亞理工和加州大學(xué)洛杉磯分校的團(tuán)隊(duì)提出,是Google Deepmind的多模態(tài)(Gemini)團(tuán)隊(duì)提出的HaloQuest, ECCV 2024的衍生工作。
HaloQuest的第一作者聯(lián)合哥倫比亞大學(xué)、弗吉尼亞理工和加州大學(xué)洛杉磯分校構(gòu)建了一個(gè)綜合性的視覺(jué)語(yǔ)言理解的訓(xùn)練以及評(píng)價(jià)基準(zhǔn)JourneyBench。
團(tuán)隊(duì)認(rèn)為盡管現(xiàn)有的視覺(jué)語(yǔ)言理解的評(píng)價(jià)基準(zhǔn)推動(dòng)了顯著進(jìn)展,但它們通常包含有限的視覺(jué)多樣性,并且場(chǎng)景的復(fù)雜性低于日常生活中遇到的情況:
- 許多基準(zhǔn)因互聯(lián)網(wǎng)圖片的版權(quán)限制,將其圖像分布限制在像COCO或Flickr這樣的平臺(tái)和資源中。
- 這些基準(zhǔn)往往限制于日常常見(jiàn)的物體和場(chǎng)景,而非罕見(jiàn)甚至微抽象的場(chǎng)景。
- 這些基準(zhǔn)的過(guò)分同質(zhì)化的數(shù)據(jù)在模型的預(yù)訓(xùn)練中也多有出現(xiàn),模型很容易通過(guò)學(xué)習(xí)到的偏見(jiàn)在測(cè)試中表現(xiàn)優(yōu)異,但不一定真正理解圖像內(nèi)容。
這種偏見(jiàn)、偏差可能會(huì)在學(xué)術(shù)基準(zhǔn)測(cè)試中提高分?jǐn)?shù),但在過(guò)渡到真實(shí)復(fù)雜的世界應(yīng)用時(shí)卻會(huì)帶來(lái)顯著挑戰(zhàn)。
此外,用于評(píng)估多模態(tài)鏈?zhǔn)綌?shù)學(xué)推理的基準(zhǔn)常常包含冗余的視覺(jué)內(nèi)容(即視覺(jué)信息并不需要,模型就可以回答問(wèn)題的內(nèi)容)。當(dāng)前的多模態(tài)鏈?zhǔn)綌?shù)學(xué)推理基準(zhǔn)也未能充分解決其他的關(guān)鍵問(wèn)題,例如幻覺(jué)現(xiàn)象和預(yù)測(cè)一致性。在檢索任務(wù)的基準(zhǔn)測(cè)試中,模型的性能接近人類(lèi)水平,難以區(qū)分不同模型。這種性能飽和部分是由于現(xiàn)有檢索基準(zhǔn)缺乏細(xì)粒度的細(xì)節(jié),對(duì)當(dāng)今強(qiáng)大的模型缺乏足夠的挑戰(zhàn)性。
基于diffusion模型的提示生成的圖像近些年興起,這為創(chuàng)造更具挑戰(zhàn)性和全面的多模態(tài)基準(zhǔn)提供了獨(dú)特的機(jī)會(huì)。與真實(shí)圖像不同,這些生成的圖像避免了版權(quán)問(wèn)題,并提供了多樣化的視覺(jué)內(nèi)容,從而能夠設(shè)計(jì)更具挑戰(zhàn)性和注重細(xì)微差別的測(cè)試場(chǎng)景。
- 生成圖像可以結(jié)合罕見(jiàn)的概念,例如“馬卡龍上的大象”,這在傳統(tǒng)數(shù)據(jù)集中極為罕見(jiàn),但對(duì)于評(píng)估模型對(duì)視覺(jué)概念的真實(shí)理解至關(guān)重要。例如,COCO中包含的對(duì)象關(guān)系在常識(shí)數(shù)據(jù)庫(kù)ConceptNet中占68%,而我們收集的生成圖像中僅占6%。
- 此外,隨著生成圖像變得越來(lái)越逼真,并在網(wǎng)上大量涌現(xiàn),將其納入基準(zhǔn)以評(píng)估模型理解和解釋多樣化視覺(jué)場(chǎng)景的能力將變得日益重要。
- 通過(guò)利用基于提示生成的圖像,可以克服現(xiàn)有基準(zhǔn)的局限性,提供更好的可控性和視覺(jué)內(nèi)容多樣性。這種方法能夠嚴(yán)格測(cè)試模型的幻覺(jué)傾向、一致性,以及在各種不可預(yù)測(cè)環(huán)境中有效運(yùn)行的能力。
數(shù)據(jù)介紹
JourneyBench用五項(xiàng)多模態(tài)理解任務(wù)測(cè)試模型在罕見(jiàn)場(chǎng)景中的推理應(yīng)用能力:
非常見(jiàn)圖像的描述 (Unusual Image Captioning)
圖像描述是VLU基準(zhǔn)測(cè)試中的標(biāo)準(zhǔn)任務(wù),JourneyBench旨在測(cè)試模型理解和描述虛構(gòu)圖像的能力。為了利用基于提示生成的圖像進(jìn)一步推動(dòng) VLU 評(píng)估的邊界,并測(cè)試現(xiàn)有模型在之前評(píng)估工作中被忽略的能力,JourneyBench特別關(guān)注虛構(gòu)圖像。被測(cè)試模型需要生成一句話(huà)的圖像描述,突出使其成為虛構(gòu)圖像的元素。
細(xì)粒度跨模態(tài)檢索 (Fine-grained Cross-modal Retrieval)
跨模態(tài)檢索是許多基準(zhǔn)中包含的一項(xiàng)基礎(chǔ)性多模態(tài)理解的任務(wù)。給定一張圖像,其目標(biāo)是檢索匹配的文本,反之亦然。然而現(xiàn)在有的擴(kuò)模態(tài)檢索缺乏樣本為中心的干擾選項(xiàng),致使模型只需關(guān)注圖像之間的整體不同而非object-level的細(xì)粒度的不同。
多模態(tài)鏈?zhǔn)綌?shù)學(xué)推理 (Multimodal Chain-of-Thought)
在多模態(tài)鏈?zhǔn)綌?shù)學(xué)推理任務(wù)中,輸入由一張圖像和一個(gè)問(wèn)題組成,兩個(gè)模態(tài)的信息絕不重合并且強(qiáng)制互補(bǔ),要求模型整合來(lái)自?xún)煞N模態(tài)的信息來(lái)進(jìn)行鏈?zhǔn)降臄?shù)學(xué)推理。JourneyBench不單單檢測(cè)最終答案的準(zhǔn)確性,也會(huì)評(píng)審答題思路的準(zhǔn)確性。
多圖像視覺(jué)問(wèn)答 (Multi-image VQA)
該任務(wù)要求模型在視覺(jué)問(wèn)答中對(duì)多張圖像進(jìn)行推理。然而,由于真實(shí)圖像資源有限,現(xiàn)有數(shù)據(jù)集主要測(cè)試模型的基本能力,例如顏色匹配、圖文匹配和物體計(jì)數(shù)。相比之下,JourneyBench 評(píng)估三個(gè)特定的能力且延伸到更有挑戰(zhàn)性的推理類(lèi)別,比如:第一次提出多圖片的多模態(tài)算術(shù)推理、將外部知識(shí)應(yīng)用于視覺(jué)推理以及識(shí)別多模態(tài)因果關(guān)系。這是目前最大的多圖片視覺(jué)問(wèn)答數(shù)據(jù)資源。
包含幻覺(jué)觸發(fā)的開(kāi)放式視覺(jué)問(wèn)答(VQA with Hallucination Triggers)
基于之前HaloQuest的工作,JourneyBench也包含了容易從三種模態(tài)(文字,圖片和外部知識(shí))來(lái)觸發(fā)模型進(jìn)行幻覺(jué)的問(wèn)題。這些問(wèn)題都圍繞著基于diffusion模型提示生成的各種非常見(jiàn)圖像。該任務(wù)包含三個(gè)類(lèi)別的問(wèn)題,對(duì)應(yīng)著三種觸發(fā)模態(tài),旨在觸發(fā)模型的幻覺(jué):帶有錯(cuò)誤前提的問(wèn)題(幻覺(jué)觸發(fā)存在于語(yǔ)言模態(tài))、詢(xún)問(wèn)挑戰(zhàn)性視覺(jué)細(xì)節(jié)的問(wèn)題(幻覺(jué)觸發(fā)存在于視覺(jué)模態(tài))和最后缺乏足夠上下文以進(jìn)行準(zhǔn)確解釋的問(wèn)題(幻覺(jué)觸發(fā)存在于外部知識(shí))。
數(shù)據(jù)樣本如下圖所示:
非常見(jiàn)圖像的描述 (Unusual Image Captioning)
圖像描述是多模態(tài)理解基準(zhǔn)測(cè)試中的標(biāo)準(zhǔn)任務(wù),JourneyBench測(cè)試模型對(duì)非常見(jiàn)圖像的理解和描述能力。
為此,我們要求模型生成一句話(huà)的圖像描述,突出點(diǎn)出使該圖像顯得非常見(jiàn)甚至虛構(gòu)的元素。非常見(jiàn)甚至虛構(gòu)的圖像與現(xiàn)有基準(zhǔn)中的真實(shí)圖像有很大不同,JourneyBench將其定義為描述不尋常視覺(jué)組合或現(xiàn)實(shí)中不可能存在的虛構(gòu)場(chǎng)景的生成圖像。如果我們分析視覺(jué)元素和關(guān)系在ConceptNet中的存在比例,COCO數(shù)據(jù)集中的對(duì)象和關(guān)系在ConceptNet中有68%的匹配率,而JourneyBench的生成圖像中這一比例僅為6%。
細(xì)粒度跨模態(tài)檢索(Fine-grainedCross-modalRetrieval)
在MS-COCO和Flickr30K等流行的跨模態(tài)檢索基準(zhǔn)上。這些基準(zhǔn)主要涉及真實(shí)圖像,且重點(diǎn)是整體區(qū)分圖像和文本的配對(duì)。然而,為了使模型能夠準(zhǔn)確檢索相關(guān)內(nèi)容,能夠在細(xì)粒度層面區(qū)分圖像-文本配對(duì)至關(guān)重要。為了挑戰(zhàn)模型在類(lèi)似圖像中進(jìn)行細(xì)粒度區(qū)分的能力,JourneyBench用對(duì)抗性人機(jī)閉環(huán)框架,為每個(gè)查詢(xún)樣本創(chuàng)建特定的干擾項(xiàng),即需要細(xì)粒度辨別才能克服的難負(fù)樣本。
JourneyBench通過(guò)多輪注釋和一致性檢查進(jìn)行質(zhì)量保證,以防止出Falsepositive報(bào)或Falsenegative。目前領(lǐng)域中常用的數(shù)據(jù)集通常面臨諸如不一致、FP/FN、模糊性等問(wèn)題,如下圖所示。這主要源于從原始描述數(shù)據(jù)集中抽樣的過(guò)程。盡管已經(jīng)有一些努力試圖糾正這些準(zhǔn)確性問(wèn)題,但這些嘗試卻無(wú)意中引入了原始數(shù)據(jù)集中不存在的誤報(bào)。JourneyBench的標(biāo)注過(guò)程以及生成圖片自身的多樣性使得上述問(wèn)題極少存在于樣本中。更高質(zhì)量的數(shù)據(jù)使得JourneyBench對(duì)模型性能的測(cè)試更準(zhǔn)確。
多模態(tài)鏈?zhǔn)綌?shù)學(xué)推理(Multimodal Chain-of-Thought)
現(xiàn)有的多模態(tài)鏈?zhǔn)綌?shù)學(xué)推理數(shù)據(jù)資源(如MathVista和ScienceQA)通常包含冗余的視覺(jué)信息,使得模型僅通過(guò)語(yǔ)言輸入就能回答問(wèn)題。與MathVista和ScienceQA等多模態(tài)推理數(shù)據(jù)不同,在JourneyBench的多模態(tài)數(shù)學(xué)推理中,視覺(jué)信息和文本信息是嚴(yán)格確認(rèn)沒(méi)有任何重疊信息的,而且是互補(bǔ)的,以確保模型在鏈?zhǔn)綌?shù)學(xué)推理過(guò)程中必須從兩種模態(tài)中獲取信息才能夠正確解題。
多圖像視覺(jué)問(wèn)答(Multi-imageVQA)
最近,有少數(shù)多圖像視覺(jué)問(wèn)答基準(zhǔn)被提出,要求模型在VQA視覺(jué)問(wèn)答中對(duì)多張圖像進(jìn)行推理。然而,由于真實(shí)圖像資源的有限性,現(xiàn)有數(shù)據(jù)集主要測(cè)試基本能力,例如顏色匹配、圖像-文本匹配和物體計(jì)數(shù)。相比之下,JourneyBench的多圖像VQA任務(wù)拓展了三個(gè)具體且更具有挑戰(zhàn)性的推理類(lèi)別:多圖片算術(shù)推理、多圖片的將外部知識(shí)應(yīng)用于視覺(jué)的推理,以及多圖片的因果關(guān)系的識(shí)別。
包含幻覺(jué)觸發(fā)的開(kāi)放式視覺(jué)問(wèn)答(VQAwithHallucinationTriggers)
基于Haloquest,JourneyBench也包含了包含幻覺(jué)觸發(fā)的開(kāi)放式視覺(jué)問(wèn)答。這個(gè)任務(wù)是第一次在多模態(tài)理解和推理任務(wù)重系統(tǒng)的分析了幻覺(jué)的觸發(fā)形式,特別是很橫跨文字、視覺(jué)和外部知識(shí)三個(gè)模態(tài),找到了對(duì)應(yīng)的三種幻覺(jué)觸發(fā)模型。這個(gè)任務(wù)也利用了人機(jī)閉路方法收集了問(wèn)題以及非常見(jiàn)甚至虛幻場(chǎng)景的圖片。為了讓這個(gè)任務(wù)更有通用性,它結(jié)合GoogleDeepmind開(kāi)發(fā)了一款開(kāi)放性的VQA視覺(jué)問(wèn)答的評(píng)價(jià)機(jī)制,并且證明了其和人體評(píng)價(jià)的相似性。這個(gè)任務(wù)第一次提出了用diffusion模型生成的圖片來(lái)幫助模型進(jìn)行挑戰(zhàn)性的評(píng)價(jià)甚至訓(xùn)練的范式,并且通過(guò)實(shí)驗(yàn)證明了這個(gè)范式的可行性。其工作進(jìn)一步證明了,HaloQuest的訓(xùn)練數(shù)據(jù)配合著instructiontuning也能有效的改善現(xiàn)有大模型的幻覺(jué)行為。
實(shí)驗(yàn)與分析
研究選取了共21個(gè)多模態(tài)模型用以不同任務(wù)的實(shí)驗(yàn)分析,其中包括:
- 跨模態(tài)檢索模型:ALBEF、CLIP
- 開(kāi)源通用模型:MiniGPT4、mPLUG
- 開(kāi)源多圖像模型:VILA、Idefics2、Mantis
- 閉源模型:GPT-4V、GPT-4o
研究發(fā)現(xiàn):
1. 模型在區(qū)分細(xì)粒度視覺(jué)細(xì)節(jié)方面存在困難。在JourneyBench中的檢索分?jǐn)?shù)低于MS-COCO和Flickr30k,表明模型在從我們數(shù)據(jù)集中檢索文本和圖像時(shí)面臨更大的挑戰(zhàn)。
2. 模型對(duì)非常見(jiàn)以及虛構(gòu)的視覺(jué)場(chǎng)景并不適應(yīng)。大多數(shù)模型在JourneyBench上的表現(xiàn)遠(yuǎn)遜于在其他圖像描述數(shù)據(jù)集上的表現(xiàn),其中大部分模型的CIDEr得分低于30。
3. 跨模態(tài)算術(shù)推理中具有挑戰(zhàn)性。除GPT和LLaVA外,大多數(shù)其他模型得分低于10%。值得注意的是,GPT-4V和GPT-4o在包含眾多物體的視覺(jué)環(huán)境中,在一致性、幻覺(jué)和跨模態(tài)方面表現(xiàn)不佳。
4. 多張圖像的跨模態(tài)問(wèn)答極具挑戰(zhàn)性??傮w來(lái)看,各種模型在JourneyBench中跨多張圖像問(wèn)答時(shí)遇到了極大的困難,特別實(shí)在多圖像的夸模態(tài)數(shù)學(xué)推理,外部知識(shí)的推理問(wèn)答和因果關(guān)系的判別。
現(xiàn)有的VLMs視覺(jué)和語(yǔ)言的多模態(tài)模型在幻覺(jué)問(wèn)題上表現(xiàn)不佳,顯示出較高的幻覺(jué)率。這一結(jié)果表明模型能力存在顯著不足,并突出了需要有效的幻覺(jué)緩解方法。此外,模型規(guī)模的增加并不一定代表能提高其對(duì)幻覺(jué)的抵抗能力。
結(jié)論
JourneyBench是一種全新的多模態(tài)理解和推理的基準(zhǔn),用于測(cè)試模型在各種任務(wù)中對(duì)不尋?;蛱摌?gòu)圖像的理解能力,包括多模態(tài)鏈?zhǔn)綌?shù)學(xué)推理、多圖像VQA視覺(jué)問(wèn)答、非常見(jiàn)和虛幻圖像的描述、側(cè)重幻覺(jué)的視覺(jué)問(wèn)答以及細(xì)粒度的跨模態(tài)檢索。JourneyBench的任務(wù)使之前所有測(cè)試過(guò)的高評(píng)分模型在評(píng)估中得分持續(xù)較低,突顯出其不尋?;蛱摌?gòu)圖像的主題、策略性設(shè)計(jì)的干擾項(xiàng)、引發(fā)幻覺(jué)的問(wèn)題以及需要跨模態(tài)共指的問(wèn)題所帶來(lái)的挑戰(zhàn)。這使得JourneyBench成為評(píng)估先進(jìn)多模態(tài)視覺(jué)和語(yǔ)言模型MM-LLMs能力的理想工具,推動(dòng)這些模型在理解和解釋能力上的極限。