自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

如何全面評(píng)估多模態(tài)大模型能力?MLLM評(píng)測(cè)任務(wù)與指標(biāo)總結(jié) 原創(chuàng) 精華

發(fā)布于 2024-12-20 14:47
瀏覽
0收藏

本篇總結(jié)了多模態(tài)大模型的評(píng)測(cè)任務(wù)和指標(biāo)。

目前多模態(tài)大型語(yǔ)言模型(MLLMs)的研究主要集中在模型架構(gòu)和訓(xùn)練方法上,但用于評(píng)估這些模型的基準(zhǔn)測(cè)試的分析還比較少。

另外目前評(píng)測(cè)可能還存在三大問(wèn)題:

  • 目標(biāo)不一致:每個(gè)模態(tài)、基準(zhǔn)測(cè)試都有不同的目標(biāo),導(dǎo)致研究領(lǐng)域碎片化。
  • 任務(wù)飽和:多樣化目標(biāo)驅(qū)動(dòng)的任務(wù)激增,這種飽和使得很難辨別真正創(chuàng)新或有影響力的基準(zhǔn)測(cè)試,導(dǎo)致寶貴的資源被忽視或利用不足。
  • 指標(biāo)演變與差異:曾經(jīng)推出發(fā)一些設(shè)計(jì)良好的指標(biāo)受到基準(zhǔn)測(cè)試快速演變和頻繁更新的阻礙。

大家在評(píng)估哪些多模態(tài)大模型適用于自己的任務(wù)時(shí),可能也會(huì)存在多方面的考慮,本篇對(duì)論文《A Survey on Multimodal Benchmarks: In the Era of Large AI Models》進(jìn)行了一個(gè)解讀與快速總結(jié),讓大家對(duì)多模態(tài)大模型評(píng)測(cè)內(nèi)容有個(gè)快速的了解,可以在實(shí)際挑選的時(shí)候,有意識(shí)地去評(píng)估模型的相關(guān)能力。

一、理解任務(wù) 

1. 視覺(jué)感知

視覺(jué)感知能力涉及提取顯著特征和準(zhǔn)確識(shí)別和解釋視覺(jué)元素(例如,多個(gè)對(duì)象、文本信息和復(fù)雜的情感或隱含線索)

- 細(xì)粒度感知

  • 多類識(shí)別:識(shí)別圖像中是否存在某些對(duì)象。
  • 對(duì)象屬性:識(shí)別對(duì)象的特定屬性,如顏色、紋理和狀態(tài)。
  • 對(duì)象計(jì)數(shù):確定圖像中特定對(duì)象的實(shí)例數(shù)量。
  • 對(duì)象位置:表示對(duì)象相對(duì)于圖像的位置。由于上下文在對(duì)象檢測(cè)中的重要性,CODE基準(zhǔn)測(cè)試通過(guò)上下文豐富的環(huán)境更好地評(píng)估模型,增強(qiáng)了任務(wù)設(shè)計(jì)。
  • 空間關(guān)系:推理兩個(gè)或多個(gè)對(duì)象之間的空間關(guān)系。
  • 光學(xué)字符識(shí)別(OCR):識(shí)別查詢區(qū)域內(nèi)的文本。

- 高階感知

  • 情感識(shí)別:從圖像中識(shí)別情感表達(dá)。
  • 含義理解:給定圖像和一組多項(xiàng)選擇問(wèn)題,具有固定的可能答案,模型必須選擇最能解釋圖像的視覺(jué)隱含含義或價(jià)值的正確答案。
  • 美學(xué)理解:通過(guò)問(wèn)題從圖像中識(shí)別美學(xué)屬性(例如,內(nèi)容和主題),然后提供美學(xué)描述,最后通過(guò)數(shù)量分?jǐn)?shù)進(jìn)行美學(xué)評(píng)估。

- 綜合感知

目前主要是下面三個(gè)方向:

  • 引入相對(duì)ICL準(zhǔn)確性和相對(duì)魯棒性,用于多選QA,以衡量上下文學(xué)習(xí)和魯棒性,強(qiáng)調(diào)超越隨機(jī)猜測(cè)的改進(jìn);
  • 引入通用智能準(zhǔn)確性(GIA)指標(biāo),利用驗(yàn)證性因子分析來(lái)驗(yàn)證MLLMs的認(rèn)知結(jié)構(gòu)與人類智能的一致性;
  • 引入多模態(tài)增益(MG)衡量視覺(jué)輸入的改進(jìn),以及多模態(tài)泄漏(ML)檢測(cè)意外的數(shù)據(jù)暴露,確保公平比較。

2. 上下文理解

- 上下文依賴?yán)斫?/strong>

給定一個(gè)查詢和一個(gè)帶有兩種不同上下文的圖像,MLLMs需要生成正確的響應(yīng)。因此為了更好地衡量在不同上下文中識(shí)別的能力,設(shè)計(jì)了上下文意識(shí)指標(biāo)。

- 多圖像理解

通常結(jié)合多圖像輸入任務(wù),如動(dòng)作識(shí)別和圖表理解。舉例來(lái)說(shuō),可以用于復(fù)雜任務(wù)的監(jiān)控和解密圖像序列中對(duì)象的位置變化。使用模型提取和標(biāo)準(zhǔn)化AI生成的描述中的對(duì)象和行為關(guān)鍵詞,將這些列表與人類基準(zhǔn)進(jìn)行比較以評(píng)估準(zhǔn)確性。

- 長(zhǎng)上下文理解

這項(xiàng)任務(wù)通過(guò)在長(zhǎng)無(wú)關(guān)圖像和文本語(yǔ)料庫(kù)(haystack)中準(zhǔn)確找到相應(yīng)的信息來(lái)評(píng)估MLLM的長(zhǎng)上下文理解能力。例如,模型必須定位由給定標(biāo)題描述的特定子圖像;在文本任務(wù)中,模型從密集的多模態(tài)上下文中提取7位密碼,而在圖像任務(wù)中,識(shí)別并檢索嵌入在圖像中的文本,需要OCR能力。

- 交錯(cuò)圖像-文本理解

給定交錯(cuò)的圖像-文本內(nèi)容(例如,上下文示例),模型必須有效地響應(yīng)查詢(例如,QA或字幕格式)

引入了交錯(cuò)圖像-文本理解任務(wù),其中模型不僅基于更長(zhǎng)的圖像-文本序列回答問(wèn)題,還識(shí)別與響應(yīng)相關(guān)的特定圖像索引。

- 空間-時(shí)間感知

涉及檢索、排序和計(jì)數(shù)插入到視頻序列中的視覺(jué)(信息)“針”,挑戰(zhàn)模型準(zhǔn)確處理和分析長(zhǎng)上下文視頻中的空間和時(shí)間信息。

3. 特定模態(tài)理解

- 長(zhǎng)視頻理解

以事件為導(dǎo)向的長(zhǎng)視頻理解,并提出了層次化任務(wù)分類法,包括原子事件理解(例如,事件描述)、復(fù)合事件理解(例如,時(shí)間推理)和整體理解(例如,上下文推理)

- 綜合視頻理解

任務(wù)涵蓋三個(gè)不同的層次:視頻專有理解、基于先驗(yàn)知識(shí)的問(wèn)題回答和理解與決策。

另外強(qiáng)調(diào)技能(記憶、抽象、物理、語(yǔ)義)和推理類型(描述性、解釋性、預(yù)測(cè)性、反事實(shí)性)在視頻、音頻和文本模態(tài)上的跨模態(tài)評(píng)估任務(wù)。

- 音頻理解

關(guān)注六個(gè)維度的分類任務(wù)——內(nèi)容、說(shuō)話者、語(yǔ)義、退化、副語(yǔ)言學(xué)和音頻處理——使用指令調(diào)整來(lái)評(píng)估模型處理已見(jiàn)和未見(jiàn)場(chǎng)景的能力。另外結(jié)合了基礎(chǔ)和基于聊天的音頻任務(wù)的層次化評(píng)估,涵蓋所有音頻類型。

- 3D理解

引入了兩個(gè)新任務(wù):部件感知點(diǎn)定位和部件感知點(diǎn)定位字幕。

  • 在部件感知點(diǎn)定位中,根據(jù)用戶指令預(yù)測(cè)部件級(jí)別的分割掩模。在
  • 部件感知點(diǎn)定位字幕中,生成一個(gè)詳細(xì)的字幕,包括部件級(jí)別的描述,每個(gè)描述對(duì)應(yīng)一個(gè)分割掩模。

另外也有通過(guò)NeRF權(quán)重解釋3D場(chǎng)景的幾何和逼真表示的任務(wù)。

- 全模態(tài)理解

評(píng)估模型識(shí)別來(lái)自不同模態(tài)的輸入實(shí)體的共同點(diǎn)的能力,挑戰(zhàn)它從四個(gè)給定選項(xiàng)中選擇最合適的答案。

任務(wù)強(qiáng)調(diào)視覺(jué)定位,并引入了多模態(tài)通用信息提取的概念,涉及跨文本、圖像、音頻和視頻輸入提取和關(guān)聯(lián)信息,確保實(shí)體和事件準(zhǔn)確鏈接到它們對(duì)應(yīng)的模態(tài)。

二、推理任務(wù)

1. 關(guān)系推理

關(guān)系推理任務(wù)可以廣泛分為三種主要類型:

第一種類型側(cè)重于預(yù)測(cè)關(guān)系,包括實(shí)體之間還是模式之間。

  • 以實(shí)體為中心的任務(wù)涉及檢測(cè)對(duì)象及其成對(duì)關(guān)系,
  • 以模式為中心的任務(wù),旨在從給定的視覺(jué)模式中推斷關(guān)系,以預(yù)測(cè)后續(xù)模式。召回率和準(zhǔn)確性分別用于評(píng)估以實(shí)體為中心和以模式為中心的任務(wù)。

第二類涉及空間中心關(guān)系,如地面空間推理,3D空間定位和細(xì)粒度空間推理。像基于IoU(交并比)的準(zhǔn)確性這樣的指標(biāo)用于評(píng)估性能。

第三類涉及時(shí)間中心關(guān)系,如基于不同視頻片段回答問(wèn)題,或執(zhí)行時(shí)間和語(yǔ)言定位。這些任務(wù)的常見(jiàn)評(píng)估指標(biāo)包括準(zhǔn)確性、BLEU、BERT分?jǐn)?shù)和召回率。最后,以比較為中心的任務(wù)側(cè)重于在對(duì)象、場(chǎng)景或情境之間進(jìn)行相對(duì)比較。準(zhǔn)確性用于評(píng)估。

2. 多步推理

多步推理任務(wù)可以廣泛分為兩種主要類型:基于規(guī)則的任務(wù)和思維鏈(CoT)任務(wù)。

在基于規(guī)則的任務(wù)中,期望應(yīng)用預(yù)定義的規(guī)則或推斷底層模式來(lái)解決問(wèn)題。例如,在尋找數(shù)學(xué)謎題中缺失值的任務(wù)中,模型必須從給定的信息中推斷出控制規(guī)則。

CoT任務(wù)強(qiáng)調(diào)模型將問(wèn)題分解為一系列邏輯的、順序的步驟的能力。例如模型識(shí)別關(guān)鍵圖像區(qū)域并通過(guò)問(wèn)題逐步推理,提供了中間邊界框和推理注釋以促進(jìn)評(píng)估。

3. 反思推理

反思推理任務(wù)可以廣泛分為三種類型:反事實(shí)思維、分析性提問(wèn)和知識(shí)編輯。

第一種反事實(shí)VQA 中,MLLMs被要求通過(guò)基于給定事實(shí)的假設(shè)場(chǎng)景生成答案,從而評(píng)估它們執(zhí)行反事實(shí)推理的能力。例如,一個(gè)典型的問(wèn)題可能會(huì)問(wèn)“如果地面是干的,人們戴著太陽(yáng)帽而不是舉著傘,天氣可能會(huì)是什么?”。

第二種分析性提問(wèn)這方面,現(xiàn)有工作主要集中在問(wèn)答上,而分析性提問(wèn),包括提問(wèn)和評(píng)估技能很大程度上沒(méi)有探索。

第三種類型的任務(wù),知識(shí)編輯,評(píng)估MLLMs更新知識(shí)的能力,特別是當(dāng)面對(duì)過(guò)時(shí)或不準(zhǔn)確的信息時(shí)。例如,引入了一跳和多跳推理任務(wù),用于知識(shí)編輯。知識(shí)編輯的指標(biāo)更為微妙,包括可靠性、普遍性、局部性、可移植性和一致性等措施。

三、生成任務(wù)

1. 面向能力

- 交錯(cuò)圖像-文本生成

給定包含文本和圖像的提示,此任務(wù)旨在評(píng)估模型在模態(tài)間生成連貫、交錯(cuò)內(nèi)容的能力。

例如基于給定問(wèn)題的交錯(cuò)圖像-文本生成,模型僅基于給定的問(wèn)題生成交錯(cuò)內(nèi)容,而不提供初始圖像信息,推動(dòng)模型推理和預(yù)測(cè)結(jié)果;

或?qū)W⒂诠适骂I(lǐng)域,涉及任務(wù)如多模態(tài)故事延續(xù)和多模態(tài)故事生成。前者專注于用文本和圖像擴(kuò)展給定的敘述,而后者挑戰(zhàn)模型從頭開(kāi)始創(chuàng)建整個(gè)敘述序列,無(wú)縫整合文本和視覺(jué)內(nèi)容。此任務(wù)的主要評(píng)估方向是生成的交錯(cuò)圖像和文本的連貫性和一致性;

或者利用模型評(píng)估交錯(cuò)圖像-文本內(nèi)容中的實(shí)體和風(fēng)格一致性。通過(guò)采用思維鏈方法,BingChat逐步檢測(cè)和分析常見(jiàn)主題和視覺(jué)風(fēng)格因素,如色彩調(diào)色板和氛圍,以生成最終的定量分?jǐn)?shù)

- 代碼生成

涉及從各種格式的輸入創(chuàng)建編程代碼,如文本和圖像,甚至更復(fù)雜的網(wǎng)頁(yè)。旨在整合MLLMs的優(yōu)勢(shì),它們可以理解和處理多樣化數(shù)據(jù)類型,促進(jìn)將復(fù)雜的、多方面的規(guī)范轉(zhuǎn)換為可執(zhí)行代碼。

任務(wù)從網(wǎng)頁(yè)圖像生成HTML代碼,通過(guò)將代碼轉(zhuǎn)換回圖像并與ground-truth進(jìn)行比較,專注于視覺(jué)保真度,而不是傳統(tǒng)的代碼級(jí)指標(biāo)。

或強(qiáng)調(diào)功能性和視覺(jué)準(zhǔn)確性,通過(guò)整合傳統(tǒng)的代碼執(zhí)行檢查與使用GPT-4v和詳細(xì)文本匹配指標(biāo)的高級(jí)視覺(jué)評(píng)估,提供超出標(biāo)準(zhǔn)代碼通過(guò)率的全面評(píng)估。

- 指令遵循

要求MLLMs生成嚴(yán)格遵循給定指令或指令的輸出。

例如查詢輸入通常結(jié)合了定義目標(biāo)和格式的任務(wù)指令,以及提供多模態(tài)上下文的特定任務(wù)實(shí)例。對(duì)于每個(gè)指令收集了指令條件字幕,這些字幕不僅提供圖像的一般描述,還強(qiáng)調(diào)與給定指令相關(guān)的特定信息。

- 幻覺(jué)

視覺(jué)幻覺(jué)(VH)指的是在視覺(jué)問(wèn)答期間模型生成關(guān)于圖像的錯(cuò)誤細(xì)節(jié)的實(shí)例,包括錯(cuò)誤的前提、上下文不足和解釋視覺(jué)數(shù)據(jù),幻覺(jué)發(fā)生在模型提供錯(cuò)誤答案時(shí),適當(dāng)?shù)捻憫?yīng)應(yīng)該是“我不知道”。

可以通過(guò)測(cè)量模型響應(yīng)中幻覺(jué)對(duì)象的頻率來(lái)評(píng)估幻覺(jué)。

為了提高可信度并解決MLLMs中的幻覺(jué),BEfore-AFter幻覺(jué)數(shù)據(jù)集(BEAF)引入了四個(gè)關(guān)鍵指標(biāo):真理解(TU)、無(wú)知(IG)、固執(zhí)己見(jiàn)(SB)和猶豫不決(ID)

TU評(píng)估模型是否正確回答了關(guān)于移除對(duì)象的問(wèn)題;

  • IG在給出錯(cuò)誤答案時(shí)測(cè)量無(wú)知;
  • SB評(píng)估模型堅(jiān)持初始答案的傾向;
  • SBp和SBn表示一致的“是”或“否”響應(yīng);
  • ID跟蹤與移除對(duì)象無(wú)關(guān)的問(wèn)題的答案的不必要變化。

- 安全性

安全性任務(wù)確保MLLMs的響應(yīng)不會(huì)導(dǎo)致有害或非法的結(jié)果。LLM需要從安全回答、謹(jǐn)慎回答或拒絕回答中選擇。

對(duì)于毒性評(píng)估可以提供了輸入,如NSFW圖像(例如,暴力或露骨內(nèi)容)與字幕查詢配對(duì),以評(píng)估模型傾向于生成有害響應(yīng)的趨勢(shì)。

對(duì)于越獄,它涉及測(cè)試模型對(duì)旨在繞過(guò)安全協(xié)議的提示的抵抗力(例如,帶有嵌入文本截圖的圖像詢問(wèn)非法查詢),并衡量模型是否以不違反安全指南的方式適當(dāng)響應(yīng)。

- 可信度

任務(wù)通過(guò)提供圖像與事實(shí)性或誤導(dǎo)性文本查詢配對(duì)的輸入來(lái)評(píng)估MLLMs,并評(píng)估它們響應(yīng)的準(zhǔn)確性。

例如專注于面部反欺騙和面部偽造檢測(cè)任務(wù),要求MLLMs根據(jù)不同模態(tài)(例如,RGB、深度圖、紅外圖像)的挑戰(zhàn)性輸入,準(zhǔn)確識(shí)別真實(shí)與假面部。

此外還可以引入了多屬性思維鏈范式,通過(guò)分析多個(gè)屬性(例如,形狀、顏色、紋理)來(lái)增強(qiáng)推理,以實(shí)現(xiàn)更可靠和全面的決策。

- 健壯性

MLLMs被給予圖像,并被要求回答正面問(wèn)題以評(píng)估視覺(jué)理解,并回答誤導(dǎo)性問(wèn)題以測(cè)試對(duì)欺騙性提示的健壯性,從多個(gè)選擇中選擇正確答案。

根據(jù)模型的響應(yīng)如何專注于本質(zhì)的核心特征,同時(shí)忽略不相關(guān)、誤導(dǎo)性的偶然特征,評(píng)估其對(duì)跨模態(tài)偶然偏見(jiàn)的抵抗力。

2. 面向模態(tài)

- 僅文本

應(yīng)用傳統(tǒng)的圖像字幕指標(biāo),例如ROUGE和METEOR,以及基于LLM的評(píng)估。

- 僅視覺(jué)

Inception Score(IS)和CLIP分?jǐn)?shù)這樣的指標(biāo)衡量與地ground truth的視覺(jué)保真度和多樣性。

為了評(píng)估風(fēng)格一致性和重建準(zhǔn)確性,采用像結(jié)構(gòu)相似性指數(shù)度量(SSIM)和峰值信噪比(PSNR)這樣的指標(biāo)。

- 跨模態(tài)

確保不同模態(tài)間內(nèi)容一致性和敘事連貫性至關(guān)重要,跟交錯(cuò)圖像-文本生成比較類似。

利用MLLMs評(píng)估圖像和文本之間的連貫性或一致性,通過(guò)檢查風(fēng)格、實(shí)體、內(nèi)容趨勢(shì)等。

四、應(yīng)用任務(wù)

1. 交互式?jīng)Q策制定智能體

這個(gè)任務(wù)將環(huán)境和智能體被建模為部分可觀察的馬爾可夫決策過(guò)程(POMDP):E = (S, A, ?, T)

智能體接收狀態(tài)st ∈ S的部分觀察ot ∈ ?,采取行動(dòng)at ∈ A,并根據(jù)函數(shù)T : S × A → S轉(zhuǎn)換到新?tīng)顟B(tài),旨在完成像網(wǎng)頁(yè)導(dǎo)航或信息檢索這樣的任務(wù)。

2. 具身決策制定智能體

該任務(wù)概述任務(wù)目標(biāo)的語(yǔ)言指令以及進(jìn)行人類水平的規(guī)劃,根據(jù)視覺(jué)輸入確定下一個(gè)合適的行動(dòng)。這種視覺(jué)輸入由顯示過(guò)去幀的視頻序列組成,這些幀跟蹤任務(wù)進(jìn)展,最后一幀代表當(dāng)前的自我中心視圖。

3. 機(jī)器人應(yīng)用

對(duì)模型響應(yīng)進(jìn)行判斷,將模型的響應(yīng)分類為“A”(正確),“B”(錯(cuò)誤)或“C”(不確定)。

4. 自動(dòng)駕駛

引入圖形視覺(jué)問(wèn)答(GVQA),其中推理任務(wù)被構(gòu)建為問(wèn)題-答案對(duì)內(nèi)的有向圖,與傳統(tǒng)的自動(dòng)駕駛視覺(jué)問(wèn)答不同,GVQA利用問(wèn)題-答案之間的邏輯依賴關(guān)系來(lái)增強(qiáng)回答過(guò)程。

本篇文把目前多模態(tài)大模型的評(píng)測(cè)方向和指標(biāo)進(jìn)行了一個(gè)羅列總結(jié),大家可以在挑選大模型的時(shí)候基于自己想要完成的任務(wù),進(jìn)行特定方向的評(píng)測(cè)~

參考文獻(xiàn)

[1] A Survey on Multimodal Benchmarks: In the Era of Large AI Models


文轉(zhuǎn)載自公眾號(hào)瓦力算法學(xué)研所,作者:喜歡瓦力的卷卷

原文鏈接:??https://mp.weixin.qq.com/s/FtcTO-2AKOddLiO453yBGg??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
已于2024-12-20 14:56:08修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦