自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

VLM集體「失明」?視力測(cè)試慘敗,GPT-4o、Claude 3.5全都不及格

人工智能
視覺(jué)大語(yǔ)言模型在最基礎(chǔ)的視覺(jué)任務(wù)上集體「翻車」,即便是簡(jiǎn)單的圖形識(shí)別都能難倒一片,或許這些最先進(jìn)的VLM還沒(méi)有發(fā)展出真正的視覺(jué)能力?

最新一輪的語(yǔ)言模型,如GPT-4o和Gemini 1.5 Pro,在發(fā)布時(shí)都被定義為「原生多模態(tài)」,能夠理解圖像、音頻、文本等多種形式的輸入。

這些多模態(tài)LLM在相關(guān)的介紹、營(yíng)銷,甚至是學(xué)術(shù)論文中,都使用了「視覺(jué)能力」(visual capability)、「視覺(jué)理解」(visual understanding)這樣的表述。

這似乎是想表達(dá),模型在某種意義上是可以看見(jiàn)并理解事物的,而且這種能力已經(jīng)能與人類相匹配。

那么我們開(kāi)一個(gè)腦洞:如果對(duì)視覺(jué)語(yǔ)言模型進(jìn)行視力測(cè)試,它們會(huì)是標(biāo)準(zhǔn)視力5.2或是大近視眼,還是壓根啥也看不見(jiàn)?

一項(xiàng)新研究表明,大語(yǔ)言模型實(shí)際上并沒(méi)有像期望的擁有類人的視覺(jué)能力。事實(shí)是,它們根本就是「盲人」。

奧本大學(xué)和阿爾伯塔大學(xué)的研究人員在一系列非常簡(jiǎn)單的視覺(jué)任務(wù)上測(cè)試了4個(gè)當(dāng)今最先進(jìn)的多模態(tài)模型,發(fā)現(xiàn)結(jié)果并不如人意。

這些任務(wù)對(duì)人類來(lái)說(shuō)極其簡(jiǎn)單,比如兩個(gè)形狀是否重疊、圖片中有多少個(gè)五邊形,或者單詞中的哪個(gè)字母被圈了起來(lái)。

然而,這些先進(jìn)模型的視覺(jué)充其量達(dá)到了「近視」程度,看到的細(xì)節(jié)非常模糊。最壞的情況下,模型就像一個(gè)「聰明的盲人」,做出一些有根據(jù)的猜測(cè)。

圖片圖片

論文地址:https://arxiv.org/pdf/2407.06581

7大任務(wù)

現(xiàn)在,視力測(cè)試就正式開(kāi)始了,VLM需要完成7個(gè)小任務(wù)。

論文合著者Anh Nguye特別強(qiáng)調(diào),「我們的七項(xiàng)任務(wù)非常簡(jiǎn)單,人類的表現(xiàn)準(zhǔn)確率可達(dá)100%」。

那么,當(dāng)AI模型面對(duì)這些一年級(jí)小學(xué)生都能做對(duì)的題目,會(huì)有怎樣的表現(xiàn)呢?

圖片圖片

任務(wù)1:兩條折線有幾個(gè)交點(diǎn)?

鑒于VLM在之前有關(guān)圖表的基準(zhǔn)測(cè)試中表現(xiàn)驚人,比如Claude 3.5 Sonnet在AI2D中的得分率為 94.7%,在ChartQA中的得分率為90.8%,我們可以合理推測(cè),這種問(wèn)題應(yīng)該難不倒它們。

如下圖所示,白色畫布上共繪制了150幅折線圖,都由兩條折線組成,其中每條折線都由三個(gè)點(diǎn)定義。

這三個(gè)點(diǎn)的x坐標(biāo)固定且等距,y坐標(biāo)通過(guò)隨機(jī)采樣得到,這樣就創(chuàng)建出了交點(diǎn)個(gè)數(shù)為0、1或2的兩條折線。

圖片圖片

實(shí)驗(yàn)使用了兩種不同的措辭來(lái)詢問(wèn)大模型,比如,「藍(lán)線和紅線圖互相交叉多少次?」以及「藍(lán)線和紅線交叉了幾次?」

通過(guò)計(jì)算每個(gè)模型回答這兩種問(wèn)法的平均準(zhǔn)確率,可以排除一些prompt方面的影響,達(dá)到更準(zhǔn)確的結(jié)果。

圖片圖片

相比較而言,Sonnet-3.5在這個(gè)任務(wù)中的表現(xiàn)稍好,平均準(zhǔn)確率能達(dá)到77.33%,而其它模型的表現(xiàn)效果較差。

雖然77.33%聽(tīng)上去是一個(gè)不錯(cuò)的成績(jī),但由于答案只有0、1、2三種可能性,因此隨機(jī)猜測(cè)的正確率就有33%。

值得注意的是,當(dāng)兩條折線之間的距離變窄時(shí),VLM的表現(xiàn)往往會(huì)更差??偠灾?,VLM無(wú)法可靠地識(shí)別和計(jì)算線段交叉點(diǎn)。

圖片圖片

任務(wù)2:圓的相交相切相離問(wèn)題

圖片圖片

這個(gè)問(wèn)題屬于初中幾何的范疇:圓的相交、相切和相離(沒(méi)有人會(huì)不記得老師徒手畫圓的背影吧)。

但是,我們不會(huì)用這種術(shù)語(yǔ)來(lái)考察VLM,而是對(duì)其進(jìn)行一個(gè)簡(jiǎn)單的重疊形狀測(cè)試,這可以說(shuō)是我們可以想象到的最簡(jiǎn)單的視覺(jué)推理任務(wù)之一。

可惜的是,無(wú)論是兩個(gè)圓形稍微重疊、剛好接觸還是有一定距離,不管哪種情況,模型都始終無(wú)法做出正確的判斷。

圖片圖片

相比較而言,當(dāng)兩個(gè)圓形相距很遠(yuǎn)時(shí),GPT-4o的正確率超過(guò) 95%,但在零距離或很小距離時(shí),只有18%的時(shí)間正確,小于隨機(jī)猜測(cè)時(shí)50%的正確率。

圖片圖片

Gemini Pro 1.5表現(xiàn)最好,平均準(zhǔn)確率達(dá)到92.78,但在兩圓距離較近時(shí)正確率也只有7成。

圖片圖片

任務(wù)3:識(shí)別被圈起來(lái)的字母

用紅圈?圈出單詞中的字母,一次一個(gè),任務(wù)要求VLM識(shí)別被圈出的字母。

顯然,這項(xiàng)任務(wù)對(duì)人類來(lái)說(shuō)很容易,但作者的假設(shè)是,如果VLM的視覺(jué)模糊,它可能無(wú)法識(shí)別被圈出的確切字母,因?yàn)橄噜徸帜钢g的間距很小。

圖片圖片

之所以選擇單詞Acknowledgement、Subdermatoglyphic和字符串tHyUiKaRbNqWeOpXcZvM,是因?yàn)樗鼈儼藢挾群透叨榷疾煌淖址#ɡ渲R(shí),subdermatoglyphic是最長(zhǎng)的沒(méi)有重復(fù)字母的單詞)

實(shí)驗(yàn)發(fā)現(xiàn),雖然VLM可以準(zhǔn)確識(shí)別紅圈這種形狀,并能完美拼出單詞,但「讀出被圈出的字母」難住了所有的模型。例如,當(dāng)字母被紅色橢圓形稍微部分遮擋時(shí),VLM識(shí)別往往會(huì)出錯(cuò)。

圖片圖片

當(dāng)出現(xiàn)錯(cuò)誤時(shí),VLM通常會(huì)預(yù)測(cè)與被圈出的字母相鄰的字母。

有時(shí)模型會(huì)產(chǎn)生幻覺(jué),盡管可以準(zhǔn)確地拼寫單詞,但會(huì)出現(xiàn)Subdermatoglyphic中不存在的字符(例如9、n、?)。

圖片圖片

除GPT-4o外,所有模型在兩個(gè)英文單詞上的表現(xiàn)都比隨機(jī)字符串略好(高出 2 到 6 分),這表明熟悉單詞本身可能有助于VLM做出更有根據(jù)的猜測(cè)。

Gemini-1.5和Sonnet-3.5是排名前兩名的模型(92.81% 和 89.22%),比GPT-4o和Sonnet-3高出近20分。

總而言之,VLM可能會(huì)根據(jù)詞語(yǔ)拼寫猜測(cè)圈出的字母是什么,略微提高準(zhǔn)確性,但并不意味著VLM能夠看到紅色圓圈內(nèi)的字母。

任務(wù)4:環(huán)環(huán)相扣問(wèn)題

接下來(lái),VLM需要面對(duì)的是一個(gè)「環(huán)環(huán)相扣」問(wèn)題,即計(jì)算圖像中有幾個(gè)圓圈互鎖。

此處應(yīng)響起B(yǎng)GM:啊啊啊啊~ 五環(huán),你比四環(huán)多一環(huán)~

圖片圖片

這項(xiàng)測(cè)試的結(jié)果有一點(diǎn)離奇:當(dāng)圖中有五個(gè)環(huán)時(shí),模型都能100%正確;一旦多一個(gè)環(huán),VLM則完全摸不著頭腦了。

圖片圖片

Gemini迷失了方向,一次都回答不正確,Sonnet-3.5有三分之一的時(shí)間是對(duì)的,GPT-4o的正確率接近一半。

圖片圖片

作者提出,識(shí)別「五環(huán)」的準(zhǔn)確率如此之高,和常見(jiàn)的奧運(yùn)會(huì)「五環(huán)」標(biāo)志有非常密切的關(guān)系。

表5中可以看到,4個(gè)模型都傾向于數(shù)出5個(gè)圓,遠(yuǎn)遠(yuǎn)大于數(shù)出5個(gè)五邊形的頻率。

圖片圖片

這個(gè)測(cè)試表明,無(wú)論這些模型在做什么,它都不具備我們?nèi)祟愃斫獾摹敢暳Α?。主要?wèn)題在于它們的表現(xiàn)非常不穩(wěn)定,在不同數(shù)量、不同形狀組成的圖像中,識(shí)別成功率存在巨大差異。

圖片圖片

任務(wù)5:嵌套正方形

任務(wù)2顯示VLM在計(jì)算相交圓方面存在困難,那么把正方形都完全嵌套在另一個(gè)更大的正方形中,使它們的邊緣不相交,VLM表現(xiàn)又會(huì)如何呢?

如下圖所示,在大小為C×C的畫布上,作者渲染N∈{2,3,4,5}個(gè)嵌套的正方形。

圖片圖片

首先使用隨機(jī)邊長(zhǎng)d∈{2,3,4}px渲染最外層的正方形。剩余的N-1個(gè)正方形使用0.75×d的縮小系數(shù)繪制,并放置在隨機(jī)坐標(biāo)處,以確保它們不會(huì)接觸到外部正方形。

對(duì)于3種線條粗細(xì)的設(shè)置分別生成10張圖像(其中正方形具有不同的隨機(jī)位置),并對(duì)所有N值重復(fù)該過(guò)程,共得到120張圖像。

可以發(fā)現(xiàn),計(jì)算嵌套的正方形數(shù)量,對(duì)VLM來(lái)說(shuō)都是難以準(zhǔn)確完成的任務(wù)。

圖片圖片

模型精度差異很大,GPT-4o(48.33%)和Gemini-1.5(55.00%)至少落后Gemini-1.5(80.00%)和Claude3.5(87.50%)30分。

圖片圖片

任務(wù)6:表格有幾列和幾行?

之前任務(wù)的結(jié)果表明,VLM無(wú)力應(yīng)對(duì)重疊(任務(wù)4)或嵌套(任務(wù)5)這樣的問(wèn)題,作者決定給VLM換個(gè)方向,看看它們關(guān)于相鄰圖形相關(guān)問(wèn)題的表現(xiàn)。

作者將正方形拼成一個(gè)網(wǎng)格,然后讓VLM來(lái)計(jì)數(shù)。這些VLM曾在DocVQA中有過(guò)出色表現(xiàn)(準(zhǔn)確率≥ 90%),DocVQA中就包含許多帶有表格的問(wèn)題,因此這項(xiàng)任務(wù)對(duì)于VLM來(lái)說(shuō)應(yīng)該是很簡(jiǎn)單的。

為了簡(jiǎn)化任務(wù),作者僅要求模型計(jì)算給定表格中的行數(shù)和列數(shù)。

圖片圖片

結(jié)果發(fā)現(xiàn),模型始終無(wú)法正確計(jì)算空白網(wǎng)格的行數(shù)和列數(shù)。

圖片圖片

然而,當(dāng)網(wǎng)格單元中包含文本時(shí),所有VLM的性能都會(huì)提高,尤其是Sonnet-3.5。

圖片圖片

任務(wù)7:識(shí)別路線圖

這項(xiàng)任務(wù)測(cè)試VLM識(shí)別特殊顏色路徑的能力,跟隨特定顏色的線條從給定的出發(fā)點(diǎn)追蹤到目的地,這是閱讀并理解地圖所需的重要能力。

如下圖所示,在大小為C×C的圖像上創(chuàng)建地鐵地圖,其中C∈{512,1024}px。

在4個(gè)固定坐標(biāo)處寫4個(gè)站名(A、B、C、D)。將畫布劃分為一個(gè)由18×18個(gè)單元格組成的隱形網(wǎng)格,并初始化距離每個(gè)站C/18px的3個(gè)路徑起點(diǎn)。

使用深度優(yōu)先搜索算法從隨機(jī)站和隨機(jī)起點(diǎn)開(kāi)始繪制一條路徑,其中每一步都可以沿任何方向移動(dòng)一個(gè)單元格。重復(fù)這個(gè)過(guò)程,使每個(gè)站都有N∈{1,2,3}條輸出路徑,總共繪制出180個(gè)地圖。

圖片圖片

給定兩個(gè)指定車站,任務(wù)要求VLM計(jì)算兩站之間有多少種不同顏色的路徑。

實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),即使兩站之間只有一條顏色的路徑,也沒(méi)有模型能達(dá)到100%的準(zhǔn)確率。

圖片圖片

準(zhǔn)確率最高的是Sonnet-3.5,在只有一條路時(shí)能達(dá)到95%,然而到了兩條路的情況下,準(zhǔn)確率就迅速降低到僅有50.18%。

圖片圖片

隨著路徑復(fù)雜性提升,從1條路徑增加到3條路徑,大多數(shù)VLM都會(huì)表現(xiàn)出明顯的性能下降。

VLM的「盲目性」

為什么VLM在上述的視覺(jué)能力檢測(cè)中表現(xiàn)得極不穩(wěn)定呢?

或許我們能從任務(wù)4中模型對(duì)「奧運(yùn)五環(huán)」的偏好中找到蛛絲馬跡。最符合常理的解釋就是:

VLM的訓(xùn)練數(shù)據(jù)中,「奧運(yùn)五環(huán)」的圖像反復(fù)出現(xiàn),而且在許多文字資料中有詳細(xì)的描述。

但是在VLM的訓(xùn)練數(shù)據(jù)中,卻找不到6個(gè)或者7個(gè)互鎖的環(huán),這也是它們?yōu)槭裁椿卮鸩槐M如人意的原因。

因?yàn)閂LM或許根本不知道它們「看」的是什么,也沒(méi)有真正理解什么是環(huán)、重疊或是任何其他概念。

可是,即便我們用blind(盲)來(lái)形容模型的這種表現(xiàn),也仍然是在把模型擬人化,就跟大模型公司宣傳其具有「視覺(jué)能力」一樣別無(wú)二致。

研究人員Nguyen也表示,「盲」即使對(duì)于人類來(lái)說(shuō)也有很多定義,而且目前還沒(méi)有一個(gè)詞可以形容人工智能對(duì)我們所展示的圖像的這種盲目/不敏感。

VLM的行為是輸入文本提示、輸入圖像和數(shù)十億個(gè)權(quán)重的復(fù)雜函數(shù),目前還沒(méi)有技術(shù)可以準(zhǔn)確地可視化模型所看到的內(nèi)容。

他推測(cè),這些模型并不是完全「盲目」的,它們從圖像中只能提取出「近似」和抽象的視覺(jué)信息,但無(wú)法進(jìn)行視覺(jué)判斷,因此表現(xiàn)得像一個(gè)了解圖像但實(shí)際上看不到圖像的人。

Nguyen用一個(gè)例子,很好地支持了上述假設(shè):

圖片圖片

用戶:兩個(gè)圓形重疊的區(qū)域是什么顏色的?

GPT-4o:兩個(gè)圓形的重疊區(qū)域是綠松石的顏色(青色陰影)。

Gemini-1.5:綠色圓形和藍(lán)色圓形的重疊區(qū)域會(huì)是青色的。

Sonnet-3.5:我很抱歉,但圖片里只有兩個(gè)單獨(dú)的圓形,一個(gè)是綠色,一個(gè)是藍(lán)色,不存在重疊區(qū)域。

很顯然,除了Sonnet-3.5以外,GPT-4o和Gemini-1.5只是在「想象」圖像,而不是真的「看到」了圖像。

那么,這項(xiàng)研究是否意味著這些「視覺(jué)」人工智能模型毫無(wú)用處?

事實(shí)并非如此。這些模型中的每一個(gè)都在很多任務(wù)上表現(xiàn)出高度的準(zhǔn)確性,比如識(shí)別人類行為和表情、日常物品和環(huán)境照片等方面。

這項(xiàng)研究的意義在于,讓我們對(duì)VLM過(guò)于「擬人化」的營(yíng)銷策略祛魅。

如果我們聽(tīng)信科技巨頭的營(yíng)銷話術(shù),可能會(huì)真的認(rèn)為視覺(jué)大模型能夠「看到」。

但只需要進(jìn)行幾個(gè)小測(cè)試,我們就能輕易發(fā)現(xiàn)VLM和人類的本質(zhì)區(qū)別。它被「擬人化」,其實(shí)正凸顯了其非人的本質(zhì)。

參考資料:

https://arxiv.org/abs/2407.06581

https://techcrunch.com/2024/07/11/are-visual-ai-models-actually-blind/?_refluxos=a10

https://vlmsareblind.github.io/

責(zé)任編輯:武曉燕 來(lái)源: 新智元
相關(guān)推薦

2024-07-11 16:38:15

2024-06-21 09:51:17

2024-06-21 09:58:38

2024-06-28 18:13:05

2025-04-08 02:26:00

2025-01-06 13:15:02

2024-10-06 09:00:00

AI訓(xùn)練數(shù)據(jù)

2017-04-11 09:33:12

JS面試題應(yīng)聘者

2011-12-14 20:23:31

HTC

2024-06-21 09:57:00

2024-05-20 08:20:00

OpenAI模型

2025-01-22 16:57:32

字節(jié)跳動(dòng)豆包大模型

2024-06-24 12:25:22

2024-05-21 12:23:17

2024-06-05 08:29:35

2025-04-18 09:13:00

2024-10-21 14:30:00

AI游戲

2024-12-19 17:50:28

2023-06-15 13:45:41

模型AI

2010-04-20 21:48:48

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)