自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="wbfch"></cite>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

VLM集體「失明」？視力測(cè)試慘敗，GPT-4o、Claude 3.5全都不及格

作者：新智元 2024-07-16 13:24:38

視覺(jué)大語(yǔ)言模型在最基礎(chǔ)的視覺(jué)任務(wù)上集體「翻車」，即便是簡(jiǎn)單的圖形識(shí)別都能難倒一片，或許這些最先進(jìn)的VLM還沒(méi)有發(fā)展出真正的視覺(jué)能力？

最新一輪的語(yǔ)言模型，如GPT-4o和Gemini 1.5 Pro，在發(fā)布時(shí)都被定義為「原生多模態(tài)」，能夠理解圖像、音頻、文本等多種形式的輸入。

這些多模態(tài)LLM在相關(guān)的介紹、營(yíng)銷，甚至是學(xué)術(shù)論文中，都使用了「視覺(jué)能力」（visual capability）、「視覺(jué)理解」（visual understanding）這樣的表述。

這似乎是想表達(dá)，模型在某種意義上是可以看見(jiàn)并理解事物的，而且這種能力已經(jīng)能與人類相匹配。

那么我們開(kāi)一個(gè)腦洞：如果對(duì)視覺(jué)語(yǔ)言模型進(jìn)行視力測(cè)試，它們會(huì)是標(biāo)準(zhǔn)視力5.2或是大近視眼，還是壓根啥也看不見(jiàn)？

一項(xiàng)新研究表明，大語(yǔ)言模型實(shí)際上并沒(méi)有像期望的擁有類人的視覺(jué)能力。事實(shí)是，它們根本就是「盲人」。

奧本大學(xué)和阿爾伯塔大學(xué)的研究人員在一系列非常簡(jiǎn)單的視覺(jué)任務(wù)上測(cè)試了4個(gè)當(dāng)今最先進(jìn)的多模態(tài)模型，發(fā)現(xiàn)結(jié)果并不如人意。

這些任務(wù)對(duì)人類來(lái)說(shuō)極其簡(jiǎn)單，比如兩個(gè)形狀是否重疊、圖片中有多少個(gè)五邊形，或者單詞中的哪個(gè)字母被圈了起來(lái)。

然而，這些先進(jìn)模型的視覺(jué)充其量達(dá)到了「近視」程度，看到的細(xì)節(jié)非常模糊。最壞的情況下，模型就像一個(gè)「聰明的盲人」，做出一些有根據(jù)的猜測(cè)。

圖片

論文地址：https://arxiv.org/pdf/2407.06581

7大任務(wù)

現(xiàn)在，視力測(cè)試就正式開(kāi)始了，VLM需要完成7個(gè)小任務(wù)。

論文合著者Anh Nguye特別強(qiáng)調(diào)，「我們的七項(xiàng)任務(wù)非常簡(jiǎn)單，人類的表現(xiàn)準(zhǔn)確率可達(dá)100%」。

那么，當(dāng)AI模型面對(duì)這些一年級(jí)小學(xué)生都能做對(duì)的題目，會(huì)有怎樣的表現(xiàn)呢？

圖片

任務(wù)1：兩條折線有幾個(gè)交點(diǎn)？

鑒于VLM在之前有關(guān)圖表的基準(zhǔn)測(cè)試中表現(xiàn)驚人，比如Claude 3.5 Sonnet在AI2D中的得分率為 94.7%，在ChartQA中的得分率為90.8%，我們可以合理推測(cè)，這種問(wèn)題應(yīng)該難不倒它們。

如下圖所示，白色畫布上共繪制了150幅折線圖，都由兩條折線組成，其中每條折線都由三個(gè)點(diǎn)定義。

這三個(gè)點(diǎn)的x坐標(biāo)固定且等距，y坐標(biāo)通過(guò)隨機(jī)采樣得到，這樣就創(chuàng)建出了交點(diǎn)個(gè)數(shù)為0、1或2的兩條折線。

圖片

實(shí)驗(yàn)使用了兩種不同的措辭來(lái)詢問(wèn)大模型，比如，「藍(lán)線和紅線圖互相交叉多少次？」以及「藍(lán)線和紅線交叉了幾次？」

通過(guò)計(jì)算每個(gè)模型回答這兩種問(wèn)法的平均準(zhǔn)確率，可以排除一些prompt方面的影響，達(dá)到更準(zhǔn)確的結(jié)果。

圖片

相比較而言，Sonnet-3.5在這個(gè)任務(wù)中的表現(xiàn)稍好，平均準(zhǔn)確率能達(dá)到77.33％，而其它模型的表現(xiàn)效果較差。

雖然77.33%聽(tīng)上去是一個(gè)不錯(cuò)的成績(jī)，但由于答案只有0、1、2三種可能性，因此隨機(jī)猜測(cè)的正確率就有33%。

值得注意的是，當(dāng)兩條折線之間的距離變窄時(shí)，VLM的表現(xiàn)往往會(huì)更差?？偠灾?，VLM無(wú)法可靠地識(shí)別和計(jì)算線段交叉點(diǎn)。

圖片

任務(wù)2：圓的相交相切相離問(wèn)題

圖片

這個(gè)問(wèn)題屬于初中幾何的范疇：圓的相交、相切和相離（沒(méi)有人會(huì)不記得老師徒手畫圓的背影吧）。

但是，我們不會(huì)用這種術(shù)語(yǔ)來(lái)考察VLM，而是對(duì)其進(jìn)行一個(gè)簡(jiǎn)單的重疊形狀測(cè)試，這可以說(shuō)是我們可以想象到的最簡(jiǎn)單的視覺(jué)推理任務(wù)之一。

可惜的是，無(wú)論是兩個(gè)圓形稍微重疊、剛好接觸還是有一定距離，不管哪種情況，模型都始終無(wú)法做出正確的判斷。

圖片

相比較而言，當(dāng)兩個(gè)圓形相距很遠(yuǎn)時(shí)，GPT-4o的正確率超過(guò) 95%，但在零距離或很小距離時(shí)，只有18%的時(shí)間正確，小于隨機(jī)猜測(cè)時(shí)50%的正確率。

圖片

Gemini Pro 1.5表現(xiàn)最好，平均準(zhǔn)確率達(dá)到92.78，但在兩圓距離較近時(shí)正確率也只有7成。

圖片

任務(wù)3：識(shí)別被圈起來(lái)的字母

用紅圈?圈出單詞中的字母，一次一個(gè)，任務(wù)要求VLM識(shí)別被圈出的字母。

顯然，這項(xiàng)任務(wù)對(duì)人類來(lái)說(shuō)很容易，但作者的假設(shè)是，如果VLM的視覺(jué)模糊，它可能無(wú)法識(shí)別被圈出的確切字母，因?yàn)橄噜徸帜钢g的間距很小。

圖片

之所以選擇單詞Acknowledgement、Subdermatoglyphic和字符串tHyUiKaRbNqWeOpXcZvM，是因?yàn)樗鼈儼藢挾群透叨榷疾煌淖址＃ɡ渲R(shí)，subdermatoglyphic是最長(zhǎng)的沒(méi)有重復(fù)字母的單詞）

實(shí)驗(yàn)發(fā)現(xiàn)，雖然VLM可以準(zhǔn)確識(shí)別紅圈這種形狀，并能完美拼出單詞，但「讀出被圈出的字母」難住了所有的模型。例如，當(dāng)字母被紅色橢圓形稍微部分遮擋時(shí)，VLM識(shí)別往往會(huì)出錯(cuò)。

圖片

當(dāng)出現(xiàn)錯(cuò)誤時(shí)，VLM通常會(huì)預(yù)測(cè)與被圈出的字母相鄰的字母。

有時(shí)模型會(huì)產(chǎn)生幻覺(jué)，盡管可以準(zhǔn)確地拼寫單詞，但會(huì)出現(xiàn)Subdermatoglyphic中不存在的字符（例如9、n、?）。

圖片

除GPT-4o外，所有模型在兩個(gè)英文單詞上的表現(xiàn)都比隨機(jī)字符串略好（高出 2 到 6 分），這表明熟悉單詞本身可能有助于VLM做出更有根據(jù)的猜測(cè)。

Gemini-1.5和Sonnet-3.5是排名前兩名的模型（92.81% 和 89.22%），比GPT-4o和Sonnet-3高出近20分。

總而言之，VLM可能會(huì)根據(jù)詞語(yǔ)拼寫猜測(cè)圈出的字母是什么，略微提高準(zhǔn)確性，但并不意味著VLM能夠看到紅色圓圈內(nèi)的字母。

任務(wù)4：環(huán)環(huán)相扣問(wèn)題

接下來(lái)，VLM需要面對(duì)的是一個(gè)「環(huán)環(huán)相扣」問(wèn)題，即計(jì)算圖像中有幾個(gè)圓圈互鎖。

此處應(yīng)響起B(yǎng)GM：啊啊啊啊~ 五環(huán)，你比四環(huán)多一環(huán)~

圖片

這項(xiàng)測(cè)試的結(jié)果有一點(diǎn)離奇：當(dāng)圖中有五個(gè)環(huán)時(shí)，模型都能100%正確；一旦多一個(gè)環(huán)，VLM則完全摸不著頭腦了。

圖片

Gemini迷失了方向，一次都回答不正確，Sonnet-3.5有三分之一的時(shí)間是對(duì)的，GPT-4o的正確率接近一半。

圖片

作者提出，識(shí)別「五環(huán)」的準(zhǔn)確率如此之高，和常見(jiàn)的奧運(yùn)會(huì)「五環(huán)」標(biāo)志有非常密切的關(guān)系。

表5中可以看到，4個(gè)模型都傾向于數(shù)出5個(gè)圓，遠(yuǎn)遠(yuǎn)大于數(shù)出5個(gè)五邊形的頻率。

圖片

這個(gè)測(cè)試表明，無(wú)論這些模型在做什么，它都不具備我們?nèi)祟愃斫獾摹敢暳Α?。主要?wèn)題在于它們的表現(xiàn)非常不穩(wěn)定，在不同數(shù)量、不同形狀組成的圖像中，識(shí)別成功率存在巨大差異。

圖片

任務(wù)5：嵌套正方形

任務(wù)2顯示VLM在計(jì)算相交圓方面存在困難，那么把正方形都完全嵌套在另一個(gè)更大的正方形中，使它們的邊緣不相交，VLM表現(xiàn)又會(huì)如何呢?

如下圖所示，在大小為C×C的畫布上，作者渲染N∈{2,3,4,5}個(gè)嵌套的正方形。

圖片

首先使用隨機(jī)邊長(zhǎng)d∈{2,3,4}px渲染最外層的正方形。剩余的N-1個(gè)正方形使用0.75×d的縮小系數(shù)繪制，并放置在隨機(jī)坐標(biāo)處，以確保它們不會(huì)接觸到外部正方形。

對(duì)于3種線條粗細(xì)的設(shè)置分別生成10張圖像（其中正方形具有不同的隨機(jī)位置），并對(duì)所有N值重復(fù)該過(guò)程，共得到120張圖像。

可以發(fā)現(xiàn)，計(jì)算嵌套的正方形數(shù)量，對(duì)VLM來(lái)說(shuō)都是難以準(zhǔn)確完成的任務(wù)。

圖片

模型精度差異很大，GPT-4o（48.33%）和Gemini-1.5（55.00%）至少落后Gemini-1.5（80.00%）和Claude3.5（87.50%）30分。

圖片

任務(wù)6：表格有幾列和幾行？

之前任務(wù)的結(jié)果表明，VLM無(wú)力應(yīng)對(duì)重疊（任務(wù)4）或嵌套（任務(wù)5）這樣的問(wèn)題，作者決定給VLM換個(gè)方向，看看它們關(guān)于相鄰圖形相關(guān)問(wèn)題的表現(xiàn)。

作者將正方形拼成一個(gè)網(wǎng)格，然后讓VLM來(lái)計(jì)數(shù)。這些VLM曾在DocVQA中有過(guò)出色表現(xiàn)（準(zhǔn)確率≥ 90%），DocVQA中就包含許多帶有表格的問(wèn)題，因此這項(xiàng)任務(wù)對(duì)于VLM來(lái)說(shuō)應(yīng)該是很簡(jiǎn)單的。

為了簡(jiǎn)化任務(wù)，作者僅要求模型計(jì)算給定表格中的行數(shù)和列數(shù)。

圖片

結(jié)果發(fā)現(xiàn)，模型始終無(wú)法正確計(jì)算空白網(wǎng)格的行數(shù)和列數(shù)。

圖片

然而，當(dāng)網(wǎng)格單元中包含文本時(shí)，所有VLM的性能都會(huì)提高，尤其是Sonnet-3.5。

圖片

任務(wù)7：識(shí)別路線圖

這項(xiàng)任務(wù)測(cè)試VLM識(shí)別特殊顏色路徑的能力，跟隨特定顏色的線條從給定的出發(fā)點(diǎn)追蹤到目的地，這是閱讀并理解地圖所需的重要能力。

如下圖所示，在大小為C×C的圖像上創(chuàng)建地鐵地圖，其中C∈{512，1024}px。

在4個(gè)固定坐標(biāo)處寫4個(gè)站名（A、B、C、D）。將畫布劃分為一個(gè)由18×18個(gè)單元格組成的隱形網(wǎng)格，并初始化距離每個(gè)站C/18px的3個(gè)路徑起點(diǎn)。

使用深度優(yōu)先搜索算法從隨機(jī)站和隨機(jī)起點(diǎn)開(kāi)始繪制一條路徑，其中每一步都可以沿任何方向移動(dòng)一個(gè)單元格。重復(fù)這個(gè)過(guò)程，使每個(gè)站都有N∈{1,2,3}條輸出路徑，總共繪制出180個(gè)地圖。

圖片

給定兩個(gè)指定車站，任務(wù)要求VLM計(jì)算兩站之間有多少種不同顏色的路徑。

實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)，即使兩站之間只有一條顏色的路徑，也沒(méi)有模型能達(dá)到100%的準(zhǔn)確率。

圖片

準(zhǔn)確率最高的是Sonnet-3.5，在只有一條路時(shí)能達(dá)到95%，然而到了兩條路的情況下，準(zhǔn)確率就迅速降低到僅有50.18％。

圖片

隨著路徑復(fù)雜性提升，從1條路徑增加到3條路徑，大多數(shù)VLM都會(huì)表現(xiàn)出明顯的性能下降。

VLM的「盲目性」

為什么VLM在上述的視覺(jué)能力檢測(cè)中表現(xiàn)得極不穩(wěn)定呢？

或許我們能從任務(wù)4中模型對(duì)「奧運(yùn)五環(huán)」的偏好中找到蛛絲馬跡。最符合常理的解釋就是：

VLM的訓(xùn)練數(shù)據(jù)中，「奧運(yùn)五環(huán)」的圖像反復(fù)出現(xiàn)，而且在許多文字資料中有詳細(xì)的描述。

但是在VLM的訓(xùn)練數(shù)據(jù)中，卻找不到6個(gè)或者7個(gè)互鎖的環(huán)，這也是它們?yōu)槭裁椿卮鸩槐M如人意的原因。

因?yàn)閂LM或許根本不知道它們「看」的是什么，也沒(méi)有真正理解什么是環(huán)、重疊或是任何其他概念。

可是，即便我們用blind（盲）來(lái)形容模型的這種表現(xiàn)，也仍然是在把模型擬人化，就跟大模型公司宣傳其具有「視覺(jué)能力」一樣別無(wú)二致。

研究人員Nguyen也表示，「盲」即使對(duì)于人類來(lái)說(shuō)也有很多定義，而且目前還沒(méi)有一個(gè)詞可以形容人工智能對(duì)我們所展示的圖像的這種盲目/不敏感。

VLM的行為是輸入文本提示、輸入圖像和數(shù)十億個(gè)權(quán)重的復(fù)雜函數(shù)，目前還沒(méi)有技術(shù)可以準(zhǔn)確地可視化模型所看到的內(nèi)容。

他推測(cè)，這些模型并不是完全「盲目」的，它們從圖像中只能提取出「近似」和抽象的視覺(jué)信息，但無(wú)法進(jìn)行視覺(jué)判斷，因此表現(xiàn)得像一個(gè)了解圖像但實(shí)際上看不到圖像的人。

Nguyen用一個(gè)例子，很好地支持了上述假設(shè)：

圖片

用戶：兩個(gè)圓形重疊的區(qū)域是什么顏色的？
GPT-4o：兩個(gè)圓形的重疊區(qū)域是綠松石的顏色（青色陰影）。
Gemini-1.5：綠色圓形和藍(lán)色圓形的重疊區(qū)域會(huì)是青色的。
Sonnet-3.5：我很抱歉，但圖片里只有兩個(gè)單獨(dú)的圓形，一個(gè)是綠色，一個(gè)是藍(lán)色，不存在重疊區(qū)域。

很顯然，除了Sonnet-3.5以外，GPT-4o和Gemini-1.5只是在「想象」圖像，而不是真的「看到」了圖像。

那么，這項(xiàng)研究是否意味著這些「視覺(jué)」人工智能模型毫無(wú)用處？

事實(shí)并非如此。這些模型中的每一個(gè)都在很多任務(wù)上表現(xiàn)出高度的準(zhǔn)確性，比如識(shí)別人類行為和表情、日常物品和環(huán)境照片等方面。

這項(xiàng)研究的意義在于，讓我們對(duì)VLM過(guò)于「擬人化」的營(yíng)銷策略祛魅。

如果我們聽(tīng)信科技巨頭的營(yíng)銷話術(shù)，可能會(huì)真的認(rèn)為視覺(jué)大模型能夠「看到」。

但只需要進(jìn)行幾個(gè)小測(cè)試，我們就能輕易發(fā)現(xiàn)VLM和人類的本質(zhì)區(qū)別。它被「擬人化」，其實(shí)正凸顯了其非人的本質(zhì)。

參考資料：

https://arxiv.org/abs/2407.06581

https://techcrunch.com/2024/07/11/are-visual-ai-models-actually-blind/?_refluxos=a10

https://vlmsareblind.github.io/

責(zé)任編輯：武曉燕來(lái)源：新智元

VLM 視覺(jué)GPT-4o

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<p id="pflv0"></p>

<sub id="pflv0"></sub>

<style id="pflv0"></style>