自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="aki64"><track id="aki64"></track></cite>

<blockquote id="aki64"><i id="aki64"><video id="aki64"></video></i></blockquote>

<sub id="aki64"></sub>

<blockquote id="aki64"><i id="aki64"><video id="aki64"></video></i></blockquote>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

視覺語言模型能夠“看見”嗎？

發(fā)布于 2024-7-22 09:48

瀏覽

0收藏

來自奧本大學(xué)和阿爾伯塔大學(xué)的研究人員發(fā)現(xiàn)，最先進(jìn)的具有視覺能力的大型語言模型（VLMs）在理解涉及基本幾何形狀的空間信息方面表現(xiàn)得非常糟糕，例如判斷兩個(gè)圓是否重疊。他們提出了一個(gè)名為BlindTest的新基準(zhǔn)測(cè)試，包括7項(xiàng)簡(jiǎn)單任務(wù)，這些任務(wù)在互聯(lián)網(wǎng)上自然語言中不太可能有現(xiàn)成答案，以測(cè)試VLM像人類一樣“看見”圖像的能力。

現(xiàn)有的VLM基準(zhǔn)（如MMMU和ChartQA）涵蓋了廣泛的主題，但輸入圖像并非總是回答問題所必需的，即答案可能僅從文本問題和答案選擇中推斷出來，或由模型從互聯(lián)網(wǎng)規(guī)模的訓(xùn)練中記住。出于這個(gè)差距并受到驗(yàn)光師對(duì)人類進(jìn)行視覺敏銳度測(cè)試的啟發(fā)，作者設(shè)計(jì)了7個(gè)涉及二維幾何原型的低級(jí)視覺任務(wù)。然后他們測(cè)試了在現(xiàn)有多模態(tài)視覺基準(zhǔn)中排名最高的四個(gè)VLM——GPT-4o、Gemini-1.5 Pro、Claude-3 Sonnet和Claude-3.5 Sonnet。對(duì)于每個(gè)任務(wù)，他們用兩個(gè)語義上等同得不同問題提示VLM。任務(wù)和結(jié)果如下：

1、計(jì)數(shù)線的交叉點(diǎn)

在150張包含兩條有顏色的圖像中，它們恰好在0、1或2點(diǎn)相交，最佳準(zhǔn)確率是77.33%（Sonnet-3.5），最差是48.67%（GPT-4o）。

視覺語言模型能夠“看見”嗎？-AI.x社區(qū)

2、兩個(gè)圓重疊或接觸

在672張兩個(gè)大小相等的圓重疊、相切或分離（具有方向和大小變化）的圖像中，最佳準(zhǔn)確率是92.78%（Gemini-1.5），最差準(zhǔn)確率是72.69%（依然是GPT-4o）。此外，當(dāng)兩個(gè)圓靠得很近時(shí)，性能往往會(huì)下降。

3、字符串中的帶圓圈字母

一個(gè)紅色橢圓疊加在字符串中的某個(gè)字母上。作者測(cè)試了三個(gè)字符串——Acknowledgement、Subdermatoglyphic和一個(gè)隨機(jī)字符串tHyUiKaRbNqWeOpXcZvM。Gemini-1.5（92.81%準(zhǔn)確率）和Sonnet-3.5（89.22%準(zhǔn)確率）比GPT-4o和Sonnet-3高出近20個(gè)百分點(diǎn)。除了GPT-4o，所有模型在兩個(gè)英文單詞上的表現(xiàn)略優(yōu)于隨機(jī)字符串，這表明知道單詞可能有助于VLM做出更好的猜測(cè)。

4、計(jì)數(shù)重疊形狀

N個(gè)重疊的、同樣大小的圓（N=5,6,7,8,9）像奧運(yùn)會(huì)標(biāo)志一樣排列成兩排。性能范圍從20.83%（Gemini-1.5）到44.16%（Sonnet-3.5）。重復(fù)相同排列的五邊形，性能差異更大，從9.16%（Gemini-1.5）到75.83%（Sonnet-3.5）。所有四個(gè)模型在計(jì)數(shù)5個(gè)圓時(shí)都100%準(zhǔn)確，但在計(jì)數(shù)5個(gè)五邊形時(shí)表現(xiàn)不佳（除Sonnet-3.5外）。

5、計(jì)數(shù)嵌套正方形

2到5個(gè)正方形嵌套在一起，每個(gè)形狀完全在另一個(gè)形狀內(nèi)部。Sonnet-3.5的最佳準(zhǔn)確率為87.5%。GPT-4o和Sonnet-3在計(jì)數(shù)僅2或3個(gè)正方形時(shí)就表現(xiàn)不佳。

視覺語言模型能夠“看見”嗎？-AI.x社區(qū)

6、計(jì)算網(wǎng)格的行數(shù)和列數(shù)

VLM很難計(jì)算空網(wǎng)格中的確切行數(shù)和列數(shù)，最好的模型（Sonnet-3.5）準(zhǔn)確率為59.84%，其余模型的準(zhǔn)確率為25-26%。然而，在每個(gè)單元格中添加一個(gè)單詞顯著提高了所有模型的性能。例如，GPT-4o的準(zhǔn)確率從26%提高到53%，提高了一倍多。

7、跟蹤單一顏色的路徑

最后一個(gè)任務(wù)要求模型計(jì)算簡(jiǎn)化地鐵圖中兩站之間獨(dú)特顏色路徑的數(shù)量?！傲钊苏痼@”的是，作者發(fā)現(xiàn)即使只有一條路徑時(shí)，也沒有模型達(dá)到100%準(zhǔn)確率。隨著地圖復(fù)雜性的增加，大多數(shù)VLM的表現(xiàn)更差。

視覺語言模型能夠“看見”嗎？-AI.x社區(qū)

總體而言，BlindTest基準(zhǔn)測(cè)試首次為VLM提供了低級(jí)視覺健全性檢查。它們?cè)谶@些簡(jiǎn)單（對(duì)人類而言）的無需任何先驗(yàn)知識(shí)的任務(wù)上的表現(xiàn)令人失望，與它們?cè)诂F(xiàn)有視覺基準(zhǔn)上的令人印象深刻的表現(xiàn)形成對(duì)比，這些基準(zhǔn)存在數(shù)據(jù)泄漏問題。解決VLM的這些局限性可能是一項(xiàng)不小的挑戰(zhàn)，并且可能有助于解決多模態(tài)模型已知的其他視覺缺陷，如理解物體的方向。

本文轉(zhuǎn)載自MoPaaS魔泊云，作者： JAYMEE SHENG ?

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

ChatGPT可以開車嗎？分享大型語言模型在自動(dòng)駕駛方面的應(yīng)用案例

51CTO內(nèi)容精選 ? 2988瀏覽 ? 1回復(fù)
多模態(tài)視覺-語言大模型的架構(gòu)演進(jìn)

angel ? 4219瀏覽 ? 0回復(fù)
ICML 2024：從視覺語言基礎(chǔ)模型反饋中進(jìn)行強(qiáng)化學(xué)習(xí)

AIGC最前線 ? 3634瀏覽 ? 0回復(fù)
到底什么是視覺語言模型？(分類/訓(xùn)練/評(píng)估)

angel ? 6028瀏覽 ? 0回復(fù)
港科大新SOTA丨大語言模型在通用視覺定位中的能力（LLM-Optic）

AIRoobt ? 4286瀏覽 ? 0回復(fù)
大模型是泡沫嗎？

NLP工作站 ? 2062瀏覽 ? 0回復(fù)
最新研究：大語言模型使用Json格式輸出會(huì)降低模型性能嗎？

大語言模型論文跟蹤 ? 3430瀏覽 ? 0回復(fù)
多模態(tài)大語言模型的演變?nèi)仡櫍。?em>視覺定位、圖像生成、編輯、理解）

angel ? 3469瀏覽 ? 0回復(fù)
微軟開源視覺語言模型Florence-2的應(yīng)用實(shí)戰(zhàn)

51CTO內(nèi)容精選 ? 2450瀏覽 ? 0回復(fù)
Cephalo：專門用于仿生設(shè)計(jì)的多模態(tài)視覺大型語言模型

魯班模錘1 ? 2815瀏覽 ? 0回復(fù)
多模態(tài)RAG-ColPali：使用視覺語言模型實(shí)現(xiàn)高效的文檔檢索

大模型自然語言處理 ? 2377瀏覽 ? 0回復(fù)
LLaVA-o1：第一個(gè)能夠進(jìn)行自發(fā)、系統(tǒng)推理的視覺語言模型，類似于 GPT-o1

Halo咯咯 ? 2353瀏覽 ? 0回復(fù)
Hugging Face 發(fā)布 SmolVLM：用于設(shè)備端推理的 2B 參數(shù)視覺語言模型

Halo咯咯 ? 2249瀏覽 ? 0回復(fù)
EVEv2.0，視覺語言分開編碼，多模態(tài)視覺語言理解；視覺信息引導(dǎo)與標(biāo)記邏輯增強(qiáng)減少大語言模型幻覺

AI研究前瞻 ? 1847瀏覽 ? 0回復(fù)
多模態(tài)大語言模型（MLLMs）如何重塑和變革計(jì)算機(jī)視覺？

angel ? 3230瀏覽 ? 0回復(fù)
大型語言模型（LLMs）如何能夠從長達(dá)數(shù)十年的符號(hào) AI 項(xiàng)目中受益

lintoms ? 1466瀏覽 ? 0回復(fù)
你了解大模型的生態(tài)體系嗎？大模型從技術(shù)到應(yīng)用的內(nèi)容梳理

AI探索時(shí)代 ? 1014瀏覽 ? 0回復(fù)
我們一起聊聊視覺語言模型

丟翅膀的魚 ? 1104瀏覽 ? 0回復(fù)
NVIDIA發(fā)布Eagle 2.5：長文本理解的“新星”，如何打破視覺-語言模型的局限？

Halo咯咯 ? 191瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

大型語言模型（LLMs）如何能夠從長達(dá)數(shù)十年的符號(hào) AI 項(xiàng)目中受益 2025-02-28 13:23:42發(fā)布
Deepseek AI模型本地部署步驟簡(jiǎn)記：ollama + deepseek-r1 + 本地AI模型的Web UI 2025-02-13 12:43:51發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇： AI工程中面臨的開放挑戰(zhàn)

下一篇：解析Llama 3.1 與Meta 的 AI 戰(zhàn)略，以及新的開放前沿模型生態(tài)系統(tǒng)

社區(qū)精華內(nèi)容

目錄

<blockquote id="0ukcj"><rt id="0ukcj"></rt></blockquote>

<style id="0ukcj"></style><blockquote id="0ukcj"><i id="0ukcj"></i></blockquote>