這些VLM竟都是盲人?GPT-4o、Sonnet-3.5相繼敗于「視力」測(cè)試
讓現(xiàn)在最火的 SOTA 模型們(GPT-4o,Gemini-1.5,Sonnet-3,Sonnet-3.5)數(shù)一數(shù)兩條線有幾個(gè)交點(diǎn),他們表現(xiàn)會(huì)比人類好嗎?
答案很可能是否定的。
自 GPT-4V 推出以來(lái),視覺語(yǔ)言模型 (VLMs) 讓大模型的智能程度朝著我們想象中的人工智能水平躍升了一大步。
VLMs 既能看懂畫面,又能用語(yǔ)言來(lái)描述看到的東西,并基于這些理解來(lái)執(zhí)行復(fù)雜的任務(wù)。比如,給 VLM 模型發(fā)去一張餐桌的圖片,再發(fā)一張菜單的圖片,它就能從兩張圖中分別提取啤酒瓶的數(shù)量和菜單上的單價(jià),算出這頓飯買啤酒花了多少錢。
VLMs 的進(jìn)步如此之快,以至于讓模型找出這張圖中有沒有一些不合常理的「抽象元素」,例如,讓模型鑒定圖中有沒有一個(gè)人正在飛馳的出租車上熨衣服,成為了一種通行的測(cè)評(píng)方式。
然而,目前的基準(zhǔn)測(cè)試集并不能很好地評(píng)估 VLMs 的視覺能力。以 MMMU 為例,其中有 42.9% 的問(wèn)題不需要看圖,就能解決,也就是說(shuō),許多答案可以僅通過(guò)文本問(wèn)題和選項(xiàng)推斷出來(lái)。其次,現(xiàn)在 VLM 展示出的能力,很大程度上是「背記」大規(guī)模互聯(lián)網(wǎng)數(shù)據(jù)的結(jié)果。這導(dǎo)致了 VLMs 在測(cè)試集中的得分很高,但這并不代表這個(gè)判斷成立:VLM 可以像人類一樣感知圖像嗎?
為了得到這個(gè)問(wèn)題的答案,來(lái)自?shī)W本大學(xué)和阿爾伯塔大學(xué)的研究者決定給 VLMs「測(cè)測(cè)視力」。從驗(yàn)光師的「視力測(cè)試」處得到了啟發(fā),他們讓:GPT-4o、Gemini-1.5 Pro 、Claude-3 Sonnet 和 Claude-3.5 Sonnet 這四款頂級(jí) VLM 做了一套「視力測(cè)試題」。
- 論文標(biāo)題:Vision language models are blind
- 論文鏈接:https://arxiv.org/pdf/2407.06581
- 項(xiàng)目鏈接:https://vlmsareblind.github.io/
這套題很簡(jiǎn)單,例如,數(shù)兩條線有幾個(gè)交點(diǎn),識(shí)別是哪個(gè)字母被紅圈標(biāo)出來(lái)了,幾乎不需要任何世界知識(shí)。測(cè)試結(jié)果令人震驚,VLMs 實(shí)際上都「近視」,圖片的細(xì)節(jié)在它們看來(lái)實(shí)際是模糊的。
VLM 瞎不瞎?七大任務(wù),一測(cè)便知
為了避免 VLMs 從互聯(lián)網(wǎng)數(shù)據(jù)集中直接「抄答案」,論文作者設(shè)計(jì)了一套全新的「視力測(cè)試」。論文作者選擇讓 VLMs 判斷空間中幾何圖形之間的關(guān)系,例如兩個(gè)圖形是否相交。因?yàn)檫@些圖案在白色畫布上的空間信息,通常無(wú)法用自然語(yǔ)言描述。
人類在處理這些信息時(shí),將通過(guò)「視覺大腦」感知。但對(duì)于 VLMs 來(lái)說(shuō),它們所依靠的是在模型的初期階段將圖像特征和文本特征結(jié)合起來(lái),即將視覺編碼器集成到大型語(yǔ)言模型中,這本質(zhì)上是一個(gè)沒有眼睛的知識(shí)大腦。
初步實(shí)驗(yàn)表明,VLMs 在面對(duì)人類視力測(cè)試,比如我們每個(gè)人都測(cè)過(guò)的顛來(lái)倒去的「E」視力表等等,它們的表現(xiàn)已經(jīng)非常驚艷。
測(cè)試與結(jié)果
第一關(guān):數(shù)一數(shù)線條之間有幾個(gè)交點(diǎn)?
論文作者在白色背景上創(chuàng)建了 150 幅含有兩條線段的圖像。這些線段的 x 坐標(biāo)固定并等間距分布,而 y 坐標(biāo)則是隨機(jī)生成的。兩條線段之間的交點(diǎn)只有 0 個(gè)、1 個(gè)、2 個(gè)三種情況。
如圖 5 所示,在兩版提示詞和三版線段粗細(xì)不同的測(cè)試中,所有 VLMs 在這個(gè)簡(jiǎn)單任務(wù)上表現(xiàn)都不佳。
擁有最佳準(zhǔn)確率的 Sonnet-3.5 也僅為 77.33%(見表 1)。
更具體地說(shuō),當(dāng)兩條線之間的距離縮小時(shí),VLMs 的表現(xiàn)往往更差(見下方圖 6)。由于每個(gè)線圖由三個(gè)關(guān)鍵點(diǎn)組成,兩條線之間的距離計(jì)算為三個(gè)對(duì)應(yīng)點(diǎn)對(duì)的平均距離。
該結(jié)果與 VLMs 在 ChartQA 上的高準(zhǔn)確率形成鮮明對(duì)比,這表明 VLMs 能夠識(shí)別線圖的整體趨勢(shì),但無(wú)法「放大」以看到類似于「哪些線條相交了」這種細(xì)節(jié)。
第二關(guān):判斷兩個(gè)圓之間的位置關(guān)系
如圖所示,論文作者在一個(gè)給定大小的畫布上,隨機(jī)生成兩個(gè)大小一致的圓。兩個(gè)圓的位置關(guān)系只有三種情況:相交、相切和相離。
令人驚訝的是,在這個(gè)對(duì)人類來(lái)說(shuō)直觀可見,一眼就能看出答案的的任務(wù)中,沒有一個(gè) VLM 能夠完美地給出答案(見圖 7)。
準(zhǔn)確率最佳(92.78%)的模型是 Gemini-1.5(見表 2)。
在實(shí)驗(yàn)中,有一種情況頻繁出現(xiàn):當(dāng)兩個(gè)圓靠得很近時(shí),VLMs 往往表現(xiàn)不佳,但會(huì)做出有根據(jù)的推測(cè)。如下圖所示,Sonnet-3.5 通常保守地回答「否」。
如圖 8 所示,即使當(dāng)兩個(gè)圓之間的距離相差得很遠(yuǎn),有一個(gè)半徑(d = 0.5)這么寬時(shí),準(zhǔn)確率最差的 GPT-4o 也做不到 100% 準(zhǔn)確。
也就是說(shuō),VLM 的視覺似乎不夠清晰,無(wú)法看到兩個(gè)圓之間的細(xì)小間隙或交點(diǎn)。
第三關(guān):有幾個(gè)字母被紅圈圈起來(lái)了?
由于一個(gè)單詞間字母之間的間隔很小,論文作者們假設(shè):如果 VLMs「近視」,那么它們是沒辦法識(shí)別出被紅圈圈出的字母的。
因此,他們選擇了「Acknowledgement」、「Subdermatoglyphic」和「tHyUiKaRbNqWeOpXcZvM」這樣的字符串。隨機(jī)生成紅圈圈出字符串中的某個(gè)字母,作為測(cè)試。
測(cè)試結(jié)果說(shuō)明,被測(cè)模型在這一關(guān)的表現(xiàn)都很差(見圖 9 和表 3)。
例如,當(dāng)字母被紅圈輕微遮擋時(shí),視覺語(yǔ)言模型往往會(huì)出錯(cuò)。它們經(jīng)常混淆紅圈旁邊的字母。有時(shí)模型會(huì)產(chǎn)生幻覺,例如,盡管能夠準(zhǔn)確拼寫單詞,但會(huì)給單詞中添加(例如,「9」,「n」,「?」)等亂碼。
除了 GPT-4o 之外,所有模型在單詞上的表現(xiàn)都略好于隨機(jī)字符串,這表明知道單詞的拼寫可能有助于視覺語(yǔ)言模型做出判斷,從而略微提高準(zhǔn)確性。
Gemini-1.5 和 Sonnet-3.5 是排名前二的模型,準(zhǔn)確率分別為 92.81% 和 89.22%,并且比 GPT-4o 和 Sonnet-3 的表現(xiàn)近乎高出近 20%。
第四關(guān)和第五關(guān):重疊的圖形有幾個(gè)?有幾個(gè)「套娃」正方形?
假設(shè) VLMs「近視」,那么它們可能無(wú)法清晰地看到類似于「奧運(yùn)五環(huán)」這樣的圖案,每?jī)蓚€(gè)圓圈之間的交叉點(diǎn)。為此,論文作者隨機(jī)生成了 60 組類似于「奧運(yùn)五環(huán)」的圖案,讓 VLMs 數(shù)一數(shù)它們重疊的圖形有幾個(gè)。他們也生成了五邊形版的「奧運(yùn)五環(huán)」進(jìn)一步測(cè)試。
由于 VLMs 計(jì)算相交圓圈的數(shù)量時(shí)表現(xiàn)不佳,論文作者進(jìn)一步測(cè)試了當(dāng)圖案的邊緣不相交,每個(gè)形狀完全嵌套在另一個(gè)形狀內(nèi)部的情況。他們用 2-5 正方形生成了「套娃」式的圖案,并讓 VLMs 計(jì)算圖像中的正方形總數(shù)。
從下表中鮮紅的叉號(hào)不難看出,這兩關(guān)對(duì)于 VLMs 來(lái)說(shuō),也是難以逾越的障礙。
在嵌套正方形的測(cè)試中,各個(gè)模型的準(zhǔn)確率差異很大:GPT-4o(準(zhǔn)確率 48.33%)和 Sonnet-3(準(zhǔn)確率 55.00%)這兩種模型至少比 Gemini-1.5(準(zhǔn)確率 80.00%)和 Sonnet-3.5(準(zhǔn)確率 87.50%)低 30 個(gè)百分點(diǎn)。
這種差距在模型計(jì)數(shù)重疊的圓形和五邊形時(shí)則會(huì)更大,不過(guò) Sonnet-3.5 的表現(xiàn)要比其他模型好上幾倍。如下表所示,當(dāng)圖像為五邊形時(shí),Sonnet-3.5 以 75.83% 的準(zhǔn)確率遠(yuǎn)超 Gemini-1.5 的 9.16%。
令人驚訝的是,被測(cè)的四個(gè)模型在數(shù) 5 個(gè)圓環(huán)時(shí)都達(dá)到了 100% 的準(zhǔn)確率,但僅僅額外添加一個(gè)圓環(huán)就足以使準(zhǔn)確率大幅下降到接近零的水平。
然而,在計(jì)算五邊形時(shí),所有 VLM(除 Sonnet-3.5 外)即使在計(jì)算 5 個(gè)五邊形時(shí)也表現(xiàn)不佳。總體來(lái)看,計(jì)算 6 到 9 個(gè)形狀(包括圓和五邊形)對(duì)所有模型來(lái)說(shuō)都是困難的。
這表明,VLM 存在偏見,它們更傾向于輸出著名的「奧運(yùn)五環(huán)」作為結(jié)果。例如,無(wú)論實(shí)際圓的數(shù)量是多少,Gemini-1.5 都會(huì)在 98.95% 的試驗(yàn)里將結(jié)果預(yù)測(cè)為「5」(見表 5)。對(duì)于其他模型,這種圓環(huán)預(yù)測(cè)錯(cuò)誤出現(xiàn)的頻率也遠(yuǎn)高于五邊形的情況。
除了數(shù)量外,VLM 在形狀的顏色上也有不同的「偏好」。
GPT-4o 在彩色形狀上的表現(xiàn)優(yōu)于純黑的形狀,而 Sonnet-3.5 隨著圖像尺寸的增加預(yù)測(cè)的表現(xiàn)越來(lái)越好。然而,當(dāng)研究人員改變顏色和圖像分辨率時(shí),其他模型的準(zhǔn)確率僅略有變化。
值得注意的是,在計(jì)算嵌套正方形的任務(wù)中,即使正方形的數(shù)量只有 2-3 個(gè),GPT-4o 和 Sonnet-3 依然很難計(jì)算。當(dāng)正方形的數(shù)量增加到四個(gè)和五個(gè)時(shí),所有模型都遠(yuǎn)未達(dá)到 100% 的準(zhǔn)確率。這表明,即使形狀的邊緣不相交,VLM 也很難準(zhǔn)確地提取目標(biāo)形狀。
第六關(guān):數(shù)一數(shù)表格有幾行?有幾列?
雖然 VLMs 在重疊或嵌套圖形時(shí)遇到了困難,但它們眼中的平鋪圖案又是怎樣的呢?在基礎(chǔ)測(cè)試集中,特別是包含許多含有表格任務(wù)的 DocVQA,被測(cè)模型的準(zhǔn)確率都≥90%。論文作者隨機(jī)生成了 444 個(gè)行數(shù)列數(shù)各異的表格,讓 VLMs 數(shù)一數(shù)表格有幾行?有幾列?
結(jié)果顯示,雖然在基礎(chǔ)數(shù)據(jù)集中拿到了高分,但如下圖所示,VLM 在計(jì)數(shù)空表格中的行和列也表現(xiàn)不佳。
具體來(lái)說(shuō),它們通常會(huì)存在 1-2 格的偏差。如下圖所示,GPT-4o 把 4×5 的網(wǎng)格認(rèn)成了 4×4,Gemini-1.5 則認(rèn)成了 5×5。
這表明,雖然 VLMs 可以從表格中提取重要內(nèi)容以回答 DocVQA 中的表格相關(guān)問(wèn)題,但無(wú)法清晰地逐格識(shí)別表格。
這可能是因?yàn)槲臋n中的表格大多是非空的,而 VLM 不習(xí)慣空表格。有趣的是,在研究人員通過(guò)嘗試在每個(gè)單元格中添加一個(gè)單詞來(lái)簡(jiǎn)化任務(wù)后,觀察到所有 VLM 的準(zhǔn)確率顯著提高,例如,GPT-4o 從 26.13% 提高到了 53.03%(見表 6)。然而,這種情況中,被測(cè)模型的表現(xiàn)依舊不完美。如圖 15a 和 b 所示,表現(xiàn)最好的模型(Sonnet-3.5)在包含文本的網(wǎng)格中表現(xiàn)為 88.68%,而在空網(wǎng)格中表現(xiàn)為 59.84%。
而大多數(shù)模型(Gemini-1.5、Sonnet-3 和 Sonnet-3.5)在計(jì)算列數(shù)方面的表現(xiàn)始終優(yōu)于計(jì)算行數(shù)(見圖 15c 和 d)。
第七關(guān):從出發(fā)點(diǎn)到目的地,有幾條地鐵直達(dá)線路?
這項(xiàng)測(cè)試檢測(cè)的是 VLMs 跟隨路徑的能力,這對(duì)于模型解讀地圖、圖表以及能否理解用戶在輸入的圖片中添加的箭頭等標(biāo)注至關(guān)重要。為此,論文作者隨機(jī)生成了 180 幅地鐵線路圖,每張圖有四個(gè)固定的站點(diǎn)。他們要求 VLMs 計(jì)算兩個(gè)站點(diǎn)之間有多少條單色的路徑。
測(cè)試結(jié)果令人震驚,即使把兩個(gè)站點(diǎn)之間的路徑簡(jiǎn)化到只有一條,所有模型也無(wú)法達(dá)到 100% 的準(zhǔn)確率。如表 7 所示,表現(xiàn)最好的模型是 Sonnet-3.5,準(zhǔn)確率為 95%;最差的模型是 Sonnet-3,準(zhǔn)確率為 23.75%。
從下圖中不難看出,VLM 的預(yù)測(cè)通常會(huì)有 1 到 3 條路徑的偏差。隨著地圖復(fù)雜度從 1 條路徑增加到 3 條路徑,大多數(shù) VLM 的表現(xiàn)都變得更差。
面對(duì)當(dāng)今主流 VLM 在圖像識(shí)別上表現(xiàn)極差這一「無(wú)情事實(shí)」,眾多網(wǎng)友先是拋開了自己「AI 辯護(hù)律師」的身份,留下了很多較為悲觀的評(píng)論。
一位網(wǎng)友表示:「SOTA 模型們(GPT-4o,Gemini-1.5 Pro,Sonnet-3,Sonnet-3.5)表現(xiàn)得如此糟糕真是令人尷尬,而這些模型居然在宣傳時(shí)還聲稱:它們可以理解圖像?例如它們可以用于幫助盲人或輔導(dǎo)兒童幾何學(xué)!
在悲觀陣營(yíng)的另一方,一位網(wǎng)友認(rèn)為這些糟糕的結(jié)果可以通過(guò)訓(xùn)練和微調(diào)輕松解決。只需生成大約 100,000 個(gè)示例,并用真實(shí)數(shù)據(jù)進(jìn)行訓(xùn)練,這樣問(wèn)題就解決了。
不過(guò),無(wú)論是「AI 辯護(hù)者」還是「AI 悲觀者」都默認(rèn)了一個(gè)事實(shí):VLM 在圖像測(cè)試中,仍然存在極難調(diào)和的事實(shí)性缺陷。
論文作者也收到了對(duì)更多這個(gè)測(cè)試是否科學(xué)的質(zhì)疑。
有網(wǎng)友認(rèn)為,這篇論文的測(cè)試并不能說(shuō)明 VLMs「近視」。首先近視的人看細(xì)節(jié)并不模糊,「看細(xì)節(jié)模糊」是遠(yuǎn)視的癥狀。其次,看不見細(xì)節(jié)與不能計(jì)算交點(diǎn)的數(shù)量是兩回事。計(jì)算空白網(wǎng)格的行和列的數(shù)量的準(zhǔn)確率,不會(huì)因?yàn)榉直媛实奶岣叨岣?,而提高圖像的分辨率對(duì)于理解這個(gè)任務(wù)并沒有幫助。此外,提高圖像分辨率對(duì)于理解這個(gè)任務(wù)中的重疊線條或交叉點(diǎn)并不會(huì)產(chǎn)生顯著影響。
實(shí)際上,這些視覺語(yǔ)言模型(VLMs)在處理這類任務(wù)時(shí)所面臨的挑戰(zhàn),可能更多地與它們的推理能力和對(duì)圖像內(nèi)容的解釋方式有關(guān),而不僅僅是視覺分辨率的問(wèn)題。換句話說(shuō),即使圖像的每個(gè)細(xì)節(jié)都清晰可見,如果模型缺乏正確的推理邏輯或?qū)σ曈X信息的深入理解,它們?nèi)匀豢赡軣o(wú)法準(zhǔn)確地完成這些任務(wù)。因此,這項(xiàng)研究可能需要更深入地探討 VLMs 在視覺理解和推理方面的能力,而不僅僅是它們的圖像處理能力。
還有網(wǎng)友認(rèn)為,如果人類的視覺經(jīng)過(guò)卷積處理,那么人類自身也會(huì)在判斷線條交點(diǎn)的測(cè)試中遇到困難。
更多信息,請(qǐng)參考原論文。