自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

14 項(xiàng)任務(wù)測(cè)下來,GPT4V、Gemini等多模態(tài)大模型竟都沒什么視覺感知能力?

發(fā)布于 2024-5-11 09:33
瀏覽
0收藏

2023-2024年,以 GPT-4V、Gemini、Claude、LLaVA 為代表的多模態(tài)大模型(Multimodal LLMs)已經(jīng)在文本和圖像等多模態(tài)內(nèi)容處理方面表現(xiàn)出了空前的能力,成為技術(shù)新浪潮。


然而,對(duì)于這些模型的評(píng)測(cè)多集中于語言上的任務(wù),對(duì)于視覺的要求多為簡(jiǎn)單的物體識(shí)別。相對(duì)的,計(jì)算機(jī)視覺最初試圖解讀圖像作為3D場(chǎng)景的投影,而不僅僅處理2D平面“模式”的數(shù)組。


為響應(yīng)這一情況,本文提出了BLINK,這是一個(gè)新的測(cè)試集,包含了重新構(gòu)想的傳統(tǒng)計(jì)算機(jī)視覺問題,使我們能夠更全面評(píng)估多模態(tài)大模型的視覺感知能力,帶你揭開GPT4V、Gemini等大模型的視覺界限秘密。


作者相信BLINK將激勵(lì)社區(qū)幫助多模態(tài)LLMs達(dá)到與人類同等級(jí)別的視覺感知能力。


14 項(xiàng)任務(wù)測(cè)下來,GPT4V、Gemini等多模態(tài)大模型竟都沒什么視覺感知能力?-AI.x社區(qū)


論文鏈接:https://zeyofu.github.io/blink


什么是BLINK?


BLINK 是一個(gè)針對(duì)多模態(tài)語言模型(Multimodal LLMs)的新基準(zhǔn)測(cè)試,專注于評(píng)估其核心視覺感知能力,這些能力在其他評(píng)估中并未涉及。


BLINK包含 14 項(xiàng)視覺感知任務(wù),擁有3.8k個(gè)選擇題7.3k張圖像


人類可以“一眨眼”之間解決這些任務(wù) (例如,相對(duì)視深、視覺對(duì)應(yīng)、目標(biāo)定位,和多視角推理等);但對(duì)當(dāng)前的多模態(tài)大型語言模型(Multimodal LLMs)而言,這些任務(wù)構(gòu)成了重大挑戰(zhàn),因?yàn)樗鼈冸y以通過自然語言處理來解決。


平均而言,人類在這些任務(wù)上的準(zhǔn)確率為95.70%,然而即使是GPT-4V和Gemini也只達(dá)到了51.26%45.72%的準(zhǔn)確率,比隨機(jī)猜測(cè)僅高出13.17%7.63%。 


14 項(xiàng)任務(wù)測(cè)下來,GPT4V、Gemini等多模態(tài)大模型竟都沒什么視覺感知能力?-AI.x社區(qū)


BLINK與其他基準(zhǔn)測(cè)試的區(qū)別


14 項(xiàng)任務(wù)測(cè)下來,GPT4V、Gemini等多模態(tài)大模型竟都沒什么視覺感知能力?-AI.x社區(qū)


(1)BLINK 運(yùn)用了多種的視覺prompts, 如圓形、盒形, 和圖像遮罩 masks, 而以前的基準(zhǔn)測(cè)試僅包含文本問題和答案。


(2)BLINK評(píng)估了更全面的視覺感知能力,如多視角推理、深度估算和反射率估算。以往的基準(zhǔn)測(cè)試通常更側(cè)重于基于物體識(shí)別的視覺問答(VQA)。


(3)BLINK只包含“視覺”常識(shí)性問題,這些問題人類不需要接受教育就可以在一秒鐘內(nèi)回答,而以前的基準(zhǔn)測(cè)試像MMMU這樣的則需要專業(yè)領(lǐng)域知識(shí)。


(4)BLINK涵蓋了14個(gè)需求感知的任務(wù),這些任務(wù)受到經(jīng)典計(jì)算機(jī)視覺問題的啟發(fā)。雖然這些問題僅需人類“一眨眼”的時(shí)間即可解決,但它們超出了當(dāng)前多模態(tài)大型語言模型的能力。


BLINK 實(shí)驗(yàn)結(jié)果


14 項(xiàng)任務(wù)測(cè)下來,GPT4V、Gemini等多模態(tài)大模型竟都沒什么視覺感知能力?-AI.x社區(qū)


本文評(píng)估了17個(gè)不同大?。?B,13B,34B)的多模態(tài)LLMs在BLINK上的表現(xiàn)。并觀察到一個(gè)悖論:盡管這些問題對(duì)于人類來說很容易(平均準(zhǔn)確率為95.70%),但對(duì)現(xiàn)有機(jī)器來說卻極其困難。


7B和13B開源多模態(tài)大型語言模型(LLMs)的平均準(zhǔn)確率大約在35-42%之間,與隨機(jī)猜測(cè)(38.09%)相似。


最好的開源模型是LLaVA-v1.6-34B,達(dá)到了45.05%的準(zhǔn)確率。


即使是最新的大模型,如GPT-4V、Gemini Pro和Claude 3 OPUS,其準(zhǔn)確率也僅為51.26%、45.72%和44.11%。它們的表現(xiàn)僅比隨機(jī)猜測(cè)好13.17%、7.63%和6.02%,并且比人類的表現(xiàn)差44.44%、49.98%和51.59%。


值得注意的是,在某些任務(wù)上,如拼圖、語義對(duì)應(yīng)、多視角推理、對(duì)象定位和相對(duì)反射率,一些多模態(tài)LLMs甚至表現(xiàn)不如隨機(jī)猜測(cè)。


14 項(xiàng)任務(wù)測(cè)下來,GPT4V、Gemini等多模態(tài)大模型竟都沒什么視覺感知能力?-AI.x社區(qū)


BLINK展示大模型的錯(cuò)誤范例


對(duì)于每項(xiàng)任務(wù),該文章展示了LLaVAv1.6-34B、Qwen-VL-Max、Gemini Pro、GPT-4V和人類的選擇。紅色選項(xiàng)指的是正確答案。請(qǐng)注意,為了視覺效果,作者故意放大了標(biāo)記,并且將一些圖片做成插圖以節(jié)省空間。


對(duì)于智力測(cè)驗(yàn),第三張圖片是通過疊加第一張和第二張圖片構(gòu)成的。 


14 項(xiàng)任務(wù)測(cè)下來,GPT4V、Gemini等多模態(tài)大模型竟都沒什么視覺感知能力?-AI.x社區(qū)


BLINK實(shí)驗(yàn)分析


(1)把圖片轉(zhuǎn)換成文字是否是解決多模態(tài)問題的正確選擇?


為了回答這個(gè)問題,本文使用GPT-4V將圖片轉(zhuǎn)換為與任務(wù)無關(guān)的密集圖片字幕,并使用基于文本的LLM來完成任務(wù)(Caption + LLM)。這種密集字幕利用語言描述了圖像及視覺提示的詳細(xì)信息(例如,每個(gè)圓圈的位置)。


作者在BLINK、MMBench和MMMU上進(jìn)行了實(shí)驗(yàn)。令人驚訝的是,Caption + LLM的配置在MMBench和MMMU上的結(jié)果遠(yuǎn)優(yōu)于BLINK。這些結(jié)果表明,圖像字幕攜帶了回答其他基準(zhǔn)所需的大部分視覺信息。同時(shí),BLINK需要的高級(jí)感知能力超出了通用字幕目前可達(dá)到的范圍。


14 項(xiàng)任務(wù)測(cè)下來,GPT4V、Gemini等多模態(tài)大模型竟都沒什么視覺感知能力?-AI.x社區(qū)


(2)視覺提示(visual prompts)對(duì)多模態(tài)大模型能產(chǎn)生多大的影響?


本文分析了BLINK中多個(gè)任務(wù)上圓圈大小和顏色的影響。


實(shí)驗(yàn)表明,視覺提示可能對(duì)多模態(tài)LLM的性能產(chǎn)生重大影響,改進(jìn)視覺提示或提高模型對(duì)提示變化的魯棒性是未來研究的有前景的方向。根據(jù)分析,作者發(fā)現(xiàn)最佳圓圈大小依賴于具體任務(wù),平均而言,10px的圓圈效果最好。同樣,對(duì)于所有任務(wù)來說,紅色比灰色更好。


14 項(xiàng)任務(wù)測(cè)下來,GPT4V、Gemini等多模態(tài)大模型竟都沒什么視覺感知能力?-AI.x社區(qū)


(3)傳統(tǒng)計(jì)算機(jī)視覺專家模型能解決BLINK任務(wù)嗎?


專家可以作為多模態(tài)LLM可能達(dá)到的上限的代理。這揭示了一個(gè)可能性,即多模態(tài)LLM可能因正確的數(shù)據(jù)和培訓(xùn)策略而在這些任務(wù)上取得進(jìn)展。


14 項(xiàng)任務(wù)測(cè)下來,GPT4V、Gemini等多模態(tài)大模型竟都沒什么視覺感知能力?-AI.x社區(qū)


作者簡(jiǎn)介:


府星妤 (Xingyu Fu)是賓夕法尼亞大學(xué)NLP組的博士生,師從Dan Roth教授。她曾在亞馬遜和微軟實(shí)習(xí)。她的研究主要專注于多模態(tài)大模型的感知和推理Reasoning。


胡雨石 (Yushi Hu)是華盛頓大學(xué)NLP組的博士生,師從Mari Ostendorf 和 Noah Smith 教授。與此同時(shí),他還是艾倫人工智能研究所(AI2)學(xué)生研究員,此前曾在谷歌和騰訊AI 實(shí)習(xí)。他的研究主要專注于多模態(tài)大模型和基于反饋的模型訓(xùn)練。


本文轉(zhuǎn)自 機(jī)器之心 ,作者:機(jī)器之心


原文鏈接:??https://mp.weixin.qq.com/s/_-mgdLLJd4ck1UMJmfWTpg??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦