自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

準(zhǔn)確率不足20%,GPT-4V/Gemini竟看不懂漫畫!首個(gè)圖像序列基準(zhǔn)測(cè)試開源

人工智能
馬里蘭大學(xué)聯(lián)合北卡教堂山發(fā)布首個(gè)專為多模態(tài)大語(yǔ)言模型(MLLM)設(shè)計(jì)的圖像序列的基準(zhǔn)測(cè)試Mementos,涵蓋了真實(shí)世界圖像序列、機(jī)器人圖像序列,以及動(dòng)漫圖像序列,用4761個(gè)多樣化圖像序列的集合,全面測(cè)試MLLM對(duì)碎散圖像序列的推理能力!

OpenAI的GPT-4V和谷歌最新的Gemini多模態(tài)大語(yǔ)言模型一經(jīng)推出就得到業(yè)界和學(xué)界的熱切關(guān)注: 一系列工作都從多角度展示了這些多模態(tài)大語(yǔ)言模型對(duì)視頻的理解能力。人們似乎相信我們離通用人工智能artificial general intelligence (AGI) 又邁進(jìn)了一大步!

可如果告訴你,GPT-4V連漫畫中的人物行為都會(huì)看錯(cuò), 試問:元芳,你怎么看?

我們來(lái)看看這幅迷你漫畫系列:

圖片圖片

如果讓生物界最高智能體——人類,也就是讀者朋友來(lái)描述, 你大概率會(huì)說(shuō):

圖片圖片

那我們來(lái)看看當(dāng)機(jī)器界最高智能體——也就是GPT-4V來(lái)看這幅迷你漫畫系列的時(shí)候,它會(huì)這么描述呢?

圖片圖片

GPT-4V作為公認(rèn)的站在鄙視鏈頂端的機(jī)器智能體,居然公然睜眼說(shuō)瞎話。

還有更離譜的是,就算給GPT-4V實(shí)際的生活圖像片段,它也會(huì)把一個(gè)人上樓梯過(guò)程中與另一個(gè)人交談的行為也離譜的識(shí)別成兩個(gè)人手持「武器」相互打斗嬉鬧 (如下圖所示)。

圖片圖片

Gemini也不遑多讓,同樣的圖像片段,把這個(gè)過(guò)程看成了男子艱難上樓并與妻子爭(zhēng)吵被鎖在屋里。

圖片圖片

這些例子都來(lái)自于馬里蘭大學(xué)聯(lián)合北卡教堂山的研究團(tuán)隊(duì)的最新成果,他們推出了一個(gè)專門為MLLM設(shè)計(jì)的圖像序列的推理基準(zhǔn)測(cè)試——Mementos。

就像諾蘭的電影《Memento記憶碎片》重新定義了敘事方式,Mementos正在重塑測(cè)試人工智能的上限。

作為一個(gè)全新的基準(zhǔn)測(cè)試,它挑戰(zhàn)的是人工智能對(duì)如記憶碎片般的圖像序列的理解。

圖片圖片

論文鏈接:https://arxiv.org/abs/2401.10529

項(xiàng)目主頁(yè):https://mementos-bench.github.io 

Mementos是第一個(gè)專為MLLM設(shè)計(jì)的圖像序列推理的基準(zhǔn)測(cè)試,主要關(guān)注大模型在連續(xù)圖像上的對(duì)象幻覺和行為幻覺。

其涉及的圖片類型多樣,涵蓋三大類別:真實(shí)世界圖像,機(jī)器人圖像,以及動(dòng)漫圖像。

并且包含了4,761個(gè)不同長(zhǎng)度的多樣化圖像序列,每個(gè)序列都配有人類注釋的主要對(duì)象及其在序列中的行為描述。

圖片圖片

目前數(shù)據(jù)已經(jīng)開源,并且還在更新中。

幻覺類型

作者在論文中闡述了MLLM在Mementos中會(huì)產(chǎn)生的兩種幻覺:對(duì)象幻覺(object hallucination)和行為幻覺(behavior hallucination)。

顧名思義, 對(duì)象幻覺是幻想出不存在的對(duì)象(object), 而行為幻覺則是幻想出對(duì)象并沒有做出的動(dòng)作與行為。

測(cè)評(píng)方式

對(duì)于如何準(zhǔn)確的評(píng)估MLLM在Mementos上的行為幻覺和對(duì)象幻覺,研究團(tuán)隊(duì)選擇了將MLLM產(chǎn)生的圖像描述和人標(biāo)注的描述進(jìn)行關(guān)鍵詞匹配。

為了自動(dòng)化評(píng)測(cè)每一個(gè)MLLM的表現(xiàn),作者采用了GPT-4輔助測(cè)試的方法來(lái)進(jìn)行評(píng)估:

圖片圖片

1. 作者將圖像序列和提示詞作為輸入給MLLM,并生成與相應(yīng)圖像序列對(duì)應(yīng)的描述;

2. 請(qǐng)求GPT-4提取AI生成描述中的對(duì)象和行為關(guān)鍵詞;

3. 獲得兩個(gè)關(guān)鍵詞列表:AI生成的對(duì)象關(guān)鍵詞列表和AI生成的行為關(guān)鍵詞列表;

4. 計(jì)算AI生成的對(duì)象關(guān)鍵詞列表和行為關(guān)鍵詞列表和人的標(biāo)注的關(guān)鍵詞表的召回率、準(zhǔn)確率和F1指標(biāo)。

測(cè)評(píng)結(jié)果

作者在Mementos上評(píng)估了MLLMs在序列圖像推理方面的表現(xiàn),對(duì)包括GPT4V和Gemini在內(nèi)的九種最新的MLLMs進(jìn)行了細(xì)致的評(píng)估。

MLLM被要求來(lái)描述圖像序列中正在發(fā)生的事件,從而來(lái)測(cè)評(píng)MLLM對(duì)于連續(xù)圖像的推理能力。

結(jié)果發(fā)現(xiàn),如下圖所示,GPT-4V和Gemini對(duì)于人物行為在漫畫數(shù)據(jù)集的正確率竟然不到20%。

圖片圖片

而在真實(shí)世界圖像和機(jī)器人圖像中,GPT-4V和Gemini的表現(xiàn)也不盡如人意:

圖片圖片

關(guān)鍵點(diǎn)

1. 在評(píng)估多模態(tài)大型語(yǔ)言模型時(shí),GPT-4V和LLaVA-1.5分別是在黑盒和開源MLLMs中表現(xiàn)最好的模型。GPT-4V在理解圖像序列方面的推理能力優(yōu)于其他所有MLLMs,而LLaVA-1.5在對(duì)象理解方面幾乎與黑盒模型Gemini相當(dāng)或甚至超越。

2. 雖然Video-LLaMA-2和Chat-UniVi是為視頻理解設(shè)計(jì)的,但它們并沒有顯示出比LLaVA-1.5更好的優(yōu)勢(shì)。

3. 所有MLLMs在圖像序列中對(duì)象推理的三個(gè)指標(biāo)上表現(xiàn)顯著優(yōu)于行為推理,表明當(dāng)前MLLMs在從連續(xù)圖像中自主推斷行為的能力不強(qiáng)。

4. 黑盒模型在機(jī)器人領(lǐng)域的表現(xiàn)最佳,而開源模型在日常生活領(lǐng)域表現(xiàn)相對(duì)較好。這可能與訓(xùn)練數(shù)據(jù)的分布偏移有關(guān)。

5. 訓(xùn)練數(shù)據(jù)的局限性導(dǎo)致開源MLLMs的推理能力較弱。這表明了訓(xùn)練數(shù)據(jù)的重要性以及它對(duì)模型性能的直接影響。

錯(cuò)誤原因

作者對(duì)當(dāng)前多模態(tài)大型語(yǔ)言模型在處理圖像序列推理時(shí)失敗的原因的分析,主要識(shí)別了三個(gè)錯(cuò)誤原因:

1. 對(duì)象與行為幻覺之間的相互作用

研究假設(shè),錯(cuò)誤的對(duì)象識(shí)別會(huì)導(dǎo)致隨后的行為識(shí)別不準(zhǔn)確。量化分析和案例研究表明,對(duì)象幻覺會(huì)在一定程度上導(dǎo)致行為幻覺。例如,當(dāng)MLLM錯(cuò)誤地將場(chǎng)景識(shí)別為網(wǎng)球場(chǎng)后,可能會(huì)描述人物正在打網(wǎng)球,即使這種行為在圖像序列中并不存在。

2. 共現(xiàn)對(duì)行為幻覺的影響

MLLM傾向于生成在圖像序列推理中常見的行為組合,這加劇了行為幻覺的問題。例如,在處理機(jī)器人領(lǐng)域的圖像時(shí),MLLM可能錯(cuò)誤地描述一個(gè)機(jī)器人手臂在“抓取把手”之后拉開抽屜,即使實(shí)際行為是“抓取抽屜的側(cè)面”。

3. 行為幻覺的雪球效應(yīng)

隨著圖像序列的進(jìn)行,錯(cuò)誤可能會(huì)逐漸累積或加劇,這稱為雪球效應(yīng)。在圖像序列推理中,如果早期出現(xiàn)錯(cuò)誤,這些錯(cuò)誤可能會(huì)在序列中積累和放大,導(dǎo)致對(duì)象和行為識(shí)別的準(zhǔn)確性下降。

舉個(gè)例子

圖片圖片

從上圖可知,MLLM失敗原因包括對(duì)象幻覺以及對(duì)象幻覺與行為幻覺之間的相關(guān)性,以及共現(xiàn)行為。

例如,在出現(xiàn)「網(wǎng)球場(chǎng)」的對(duì)象幻覺后,MLLM隨后展現(xiàn)出「拿著網(wǎng)球拍」的行為幻覺(對(duì)象幻覺與行為幻覺之間的相關(guān)性)以及「似乎在打網(wǎng)球」的共現(xiàn)行為。

圖片圖片

觀察上圖中的樣本,可以發(fā)現(xiàn)MLLM錯(cuò)誤地認(rèn)為椅子再往后仰并且認(rèn)為椅子碎掉了。

這一現(xiàn)象揭示了MLLM對(duì)于圖像序列中的靜止的對(duì)象,它也會(huì)產(chǎn)生這個(gè)對(duì)象發(fā)生了某些動(dòng)作的幻覺。

圖片圖片

在上圖關(guān)于機(jī)械臂的圖像序列展示中,機(jī)械臂伸到了把手旁邊,MLLM就錯(cuò)誤地認(rèn)為機(jī)械臂抓住了把手,證明了MLLM會(huì)生成在圖像序列推理中常見的行為組合,從而產(chǎn)生幻覺。

圖片圖片

在上圖的案例中,老夫子并沒有牽著狗,MLLM錯(cuò)誤地認(rèn)為遛狗就要牽著狗,并且「狗的撐桿跳」被識(shí)別成了「創(chuàng)造了噴泉」。

大量的錯(cuò)誤反映了MLLM對(duì)于漫畫領(lǐng)域的不熟悉,在二次元?jiǎng)勇I(lǐng)域,MLLM可能需要大幅度的優(yōu)化和預(yù)訓(xùn)練.

在附錄中,作者通過(guò)詳細(xì)展示了各主要類別中的失敗案例,并進(jìn)行了深入的分析。

總結(jié)

近年來(lái),多模態(tài)大型語(yǔ)言模型在處理各種視覺-語(yǔ)言任務(wù)上展現(xiàn)出了卓越的能力。

這些模型,如GPT-4V和Gemini,能夠理解和生成與圖像相關(guān)的文本,極大地推動(dòng)了人工智能技術(shù)的發(fā)展。

然而,現(xiàn)有的MLLM基準(zhǔn)測(cè)試主要集中于基于單張靜態(tài)圖像的推理,而對(duì)于從圖像序列中推斷,這對(duì)于理解我們不斷變化的世界至關(guān)重要,的能力研究相對(duì)較少。

為了解決這一挑戰(zhàn),研究人員提出了一種新的基準(zhǔn)測(cè)試「Mementos」,目的是評(píng)估MLLMs在序列圖像推理方面的能力。

Mementos包含了4761個(gè)不同長(zhǎng)度的多樣化圖像序列。此外,研究團(tuán)隊(duì)還采用了GPT-4輔助方法來(lái)評(píng)估MLLM的推理性能。

通過(guò)對(duì)九個(gè)最新的MLLMs(包括GPT-4V和Gemini)在Mementos上的仔細(xì)評(píng)估,研究發(fā)現(xiàn)這些模型在準(zhǔn)確描述給定圖像序列的動(dòng)態(tài)信息方面存在挑戰(zhàn),常常導(dǎo)致對(duì)象及其行為的幻覺/誤表達(dá)。

量化分析和案例研究識(shí)別出三個(gè)關(guān)鍵因素影響MLLMs的序列圖像推理:

1. 對(duì)象和行為幻覺之間的相關(guān)性;

2. 共現(xiàn)行為的影響;

3. 行為幻覺的累積影響。

這一發(fā)現(xiàn)對(duì)于理解和提升MLLMs在處理動(dòng)態(tài)視覺信息方面的能力具有重要意義。Mementos基準(zhǔn)不僅揭示了當(dāng)前MLLMs的局限性,也為未來(lái)的研究和改進(jìn)提供了方向。

隨著人工智能技術(shù)的快速發(fā)展,MLLMs在多模態(tài)理解領(lǐng)域的應(yīng)用將變得更加廣泛和深入。Mementos基準(zhǔn)測(cè)試的引入,不僅推動(dòng)了這一領(lǐng)域的研究,也為我們提供了新的視角,去理解和改進(jìn)這些先進(jìn)的AI系統(tǒng)如何處理和理解我們復(fù)雜多變的世界。

參考資料:

https://github.com/umd-huanglab/Mementos

責(zé)任編輯:武曉燕 來(lái)源: 新智元
相關(guān)推薦

2024-02-06 09:00:00

GPT-4VLLaVA大型語(yǔ)言

2023-10-31 12:23:17

GPT-4版本VLM

2023-12-01 12:32:04

數(shù)據(jù)訓(xùn)練

2025-02-13 09:40:00

2023-11-20 21:56:04

AI推理

2025-04-01 09:25:00

2024-07-23 09:48:59

2019-12-09 08:29:26

Netty架構(gòu)系統(tǒng)

2023-09-19 09:20:16

2023-11-13 18:19:35

AI訓(xùn)練

2023-12-29 09:55:03

視覺模型

2024-05-20 08:20:00

OpenAI模型

2023-10-19 09:32:45

自動(dòng)駕駛技術(shù)

2023-10-14 13:09:53

谷歌模型

2023-10-14 17:24:49

2024-06-20 10:43:15

2022-12-12 07:40:36

服務(wù)器項(xiàng)目Serverless

2023-05-05 09:42:12

2024-01-03 12:56:39

2024-06-18 12:54:39

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)