自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

視覺語言模型能夠“看見”嗎?

發(fā)布于 2024-7-22 09:48
瀏覽
0收藏

來自奧本大學(xué)和阿爾伯塔大學(xué)的研究人員發(fā)現(xiàn),最先進(jìn)的具有視覺能力的大型語言模型(VLMs)在理解涉及基本幾何形狀的空間信息方面表現(xiàn)得非常糟糕,例如判斷兩個(gè)圓是否重疊。他們提出了一個(gè)名為BlindTest的新基準(zhǔn)測(cè)試,包括7項(xiàng)簡(jiǎn)單任務(wù),這些任務(wù)在互聯(lián)網(wǎng)上自然語言中不太可能有現(xiàn)成答案,以測(cè)試VLM像人類一樣“看見”圖像的能力。

現(xiàn)有的VLM基準(zhǔn)(如MMMU和ChartQA)涵蓋了廣泛的主題,但輸入圖像并非總是回答問題所必需的,即答案可能僅從文本問題和答案選擇中推斷出來,或由模型從互聯(lián)網(wǎng)規(guī)模的訓(xùn)練中記住。出于這個(gè)差距并受到驗(yàn)光師對(duì)人類進(jìn)行視覺敏銳度測(cè)試的啟發(fā),作者設(shè)計(jì)了7個(gè)涉及二維幾何原型的低級(jí)視覺任務(wù)。然后他們測(cè)試了在現(xiàn)有多模態(tài)視覺基準(zhǔn)中排名最高的四個(gè)VLM——GPT-4o、Gemini-1.5 Pro、Claude-3 Sonnet和Claude-3.5 Sonnet。對(duì)于每個(gè)任務(wù),他們用兩個(gè)語義上等同得不同問題提示VLM。任務(wù)和結(jié)果如下:

1、計(jì)數(shù)線的交叉點(diǎn)

在150張包含兩條有顏色的圖像中,它們恰好在0、1或2點(diǎn)相交,最佳準(zhǔn)確率是77.33%(Sonnet-3.5),最差是48.67%(GPT-4o)。

視覺語言模型能夠“看見”嗎?-AI.x社區(qū)

2、兩個(gè)圓重疊或接觸

在672張兩個(gè)大小相等的圓重疊、相切或分離(具有方向和大小變化)的圖像中,最佳準(zhǔn)確率是92.78%(Gemini-1.5),最差準(zhǔn)確率是72.69%(依然是GPT-4o)。此外,當(dāng)兩個(gè)圓靠得很近時(shí),性能往往會(huì)下降。

3、字符串中的帶圓圈字母

一個(gè)紅色橢圓疊加在字符串中的某個(gè)字母上。作者測(cè)試了三個(gè)字符串——Acknowledgement、Subdermatoglyphic和一個(gè)隨機(jī)字符串tHyUiKaRbNqWeOpXcZvM。Gemini-1.5(92.81%準(zhǔn)確率)和Sonnet-3.5(89.22%準(zhǔn)確率)比GPT-4o和Sonnet-3高出近20個(gè)百分點(diǎn)。除了GPT-4o,所有模型在兩個(gè)英文單詞上的表現(xiàn)略優(yōu)于隨機(jī)字符串,這表明知道單詞可能有助于VLM做出更好的猜測(cè)。

4、計(jì)數(shù)重疊形狀

N個(gè)重疊的、同樣大小的圓(N=5,6,7,8,9)像奧運(yùn)會(huì)標(biāo)志一樣排列成兩排。性能范圍從20.83%(Gemini-1.5)到44.16%(Sonnet-3.5)。重復(fù)相同排列的五邊形,性能差異更大,從9.16%(Gemini-1.5)到75.83%(Sonnet-3.5)。所有四個(gè)模型在計(jì)數(shù)5個(gè)圓時(shí)都100%準(zhǔn)確,但在計(jì)數(shù)5個(gè)五邊形時(shí)表現(xiàn)不佳(除Sonnet-3.5外)。

5、計(jì)數(shù)嵌套正方形

2到5個(gè)正方形嵌套在一起,每個(gè)形狀完全在另一個(gè)形狀內(nèi)部。Sonnet-3.5的最佳準(zhǔn)確率為87.5%。GPT-4o和Sonnet-3在計(jì)數(shù)僅2或3個(gè)正方形時(shí)就表現(xiàn)不佳。

視覺語言模型能夠“看見”嗎?-AI.x社區(qū)

6、計(jì)算網(wǎng)格的行數(shù)和列數(shù)

VLM很難計(jì)算空網(wǎng)格中的確切行數(shù)和列數(shù),最好的模型(Sonnet-3.5)準(zhǔn)確率為59.84%,其余模型的準(zhǔn)確率為25-26%。然而,在每個(gè)單元格中添加一個(gè)單詞顯著提高了所有模型的性能。例如,GPT-4o的準(zhǔn)確率從26%提高到53%,提高了一倍多。

7、跟蹤單一顏色的路徑

最后一個(gè)任務(wù)要求模型計(jì)算簡(jiǎn)化地鐵圖中兩站之間獨(dú)特顏色路徑的數(shù)量?!傲钊苏痼@”的是,作者發(fā)現(xiàn)即使只有一條路徑時(shí),也沒有模型達(dá)到100%準(zhǔn)確率。隨著地圖復(fù)雜性的增加,大多數(shù)VLM的表現(xiàn)更差。

視覺語言模型能夠“看見”嗎?-AI.x社區(qū)

總體而言,BlindTest基準(zhǔn)測(cè)試首次為VLM提供了低級(jí)視覺健全性檢查。它們?cè)谶@些簡(jiǎn)單(對(duì)人類而言)的無需任何先驗(yàn)知識(shí)的任務(wù)上的表現(xiàn)令人失望,與它們?cè)诂F(xiàn)有視覺基準(zhǔn)上的令人印象深刻的表現(xiàn)形成對(duì)比,這些基準(zhǔn)存在數(shù)據(jù)泄漏問題。解決VLM的這些局限性可能是一項(xiàng)不小的挑戰(zhàn),并且可能有助于解決多模態(tài)模型已知的其他視覺缺陷,如理解物體的方向。

本文轉(zhuǎn)載自MoPaaS魔泊云,作者: JAYMEE SHENG ?

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦