自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<blockquote id="i14dh"><i id="i14dh"></i></blockquote>}

<cite id="i14dh"><rp id="i14dh"><form id="i14dh"></form></rp></cite>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

GPT-4o 到底有多強(qiáng)？模型圖文多模態(tài)能力評測結(jié)果全公開

發(fā)布于 2024-7-10 09:30

瀏覽

0收藏

5 月 14 日， OpenAI 發(fā)布了 GPT-4o ，支持文本、圖像、語音、視頻等多種形式的輸入，大幅提升了推理響應(yīng)的速度，在非英文任務(wù)上具有較大提升，并擁有比現(xiàn)有模型更強(qiáng)的視覺理解能力。我們第一時間對 GPT-4o 模型的圖像-文本多模態(tài)能力進(jìn)行了評測。

GPT-4o 到底有多強(qiáng)？模型圖文多模態(tài)能力評測結(jié)果全公開-AI.x社區(qū)

OpenAI 官方公布的視覺理解性能

基于多模態(tài)大模型開源評測工具 VLMEvalKit，我們在 Open VLM Leaderboard 中的十二個圖文多模態(tài)評測集上測試了 GPT-4o 的視覺能力。

GPT-4o 到底有多強(qiáng)？模型圖文多模態(tài)能力評測結(jié)果全公開-AI.x社區(qū)

GPT-4o (20240513) 與此前的 GPT-4v 版本在各個多模態(tài)測試集上的性能對比

在各個通用圖文多模態(tài)評測數(shù)據(jù)集 (MMBench, MME, SEEDBench, MMStar 等) 上，GPT-4o 相比上一版本的 GPT-4v 均有不同程度的提升。其中在更具挑戰(zhàn)性的 MMStar，中文測試集 CCBench，MMBench_CN 等上面的提升尤其顯著。

在基于GPT-4主觀打分的MMVet與LLaVABench上，GPT-4o 相比上一版本的 GPT-4v 有微小下降，目前猜測是由于 GPT-4 打分的隨機(jī)性所致。

在強(qiáng)推理的多模測試集 (MMMU, MathVista 等) 上，GPT-4o 相比上一版本的 GPT-4v 有一定提升，但比較微小。

在幻覺多模測試集 HallusionBench 上，GPT-4o 相比上一版本的 GPT-4v 有顯著提升。

總結(jié)

GPT-4o 的客觀性能相比 GPT-4v (0409) 有了更進(jìn)一步的提升，在所有測試集上的平均分提升約 3 分；
GPT-4o 顯示了更強(qiáng)的感知能力與更少的幻覺；
GPT-4o 的中文能力得到了較大的提高。

需要注意的是，由于 OpenAI 設(shè)置的規(guī)則，GPT-4o 在解答部分評測集中問題的時候，會出現(xiàn)拒答的現(xiàn)象。這一點導(dǎo)致 GPT-4o 的真實性能可能較我們報告的性能更強(qiáng)。

GPT-4o 的詳細(xì)評測結(jié)果已上線至Opencompass官網(wǎng)及Open-VLM-Leaderboard，歡迎大家訪問查看更詳細(xì)的評測數(shù)據(jù)！

GPT-4o 到底有多強(qiáng)？模型圖文多模態(tài)能力評測結(jié)果全公開-AI.x社區(qū)

Opencompass官網(wǎng)：

???https://opencompass.org.cn/??

Open-VLM-Leaderboard：

??https://huggingface.co/spaces/opencompass/open_vlm_leaderboard??

本文轉(zhuǎn)載自??司南評測體系??，作者： OpenCompass 司南 ????

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

OpenAI模型終于更新！強(qiáng)大視聽能力的GPT-4o將面向所有用戶，其前身正是神秘的gpt2！

51CTO技術(shù)棧 ? 3111瀏覽 ? 0回復(fù)
GPT-4o 的數(shù)學(xué)又雙叕進(jìn)步了？來 MathBench 看看新版 GPT-4o 到底強(qiáng)在哪！

戀戀青鳥 ? 3070瀏覽 ? 0回復(fù)
GPT-4o熱潮來襲：探索圖生文本的奧秘（多模態(tài)大模型系列之一）

魚蟲子 ? 6227瀏覽 ? 0回復(fù)
GPT-4o與SQL：大模型改變自身架構(gòu)的能力有多強(qiáng)？

51CTO技術(shù)棧 ? 2180瀏覽 ? 0回復(fù)
GPT-4o背后可能的語音技術(shù)

魚蟲子 ? 2814瀏覽 ? 0回復(fù)
模型更新，評測集優(yōu)化：多模態(tài)大模型評測升級！

戀戀青鳥 ? 4899瀏覽 ? 0回復(fù)
GPT-4o們其實都是眼盲！OpenAI奧特曼自曝自家模型：推理比人弱。研究證明：多模態(tài)能力還差得遠(yuǎn)，楊立昆上大

51CTO技術(shù)棧 ? 2012瀏覽 ? 1回復(fù)
13.11 和 13.8 到底哪個大？超過一半 AI 大模型回答錯誤，強(qiáng)如 GPT-4O 也翻車了

wsp_ping ? 3636瀏覽 ? 0回復(fù)
長上下文能力只是吹牛？最強(qiáng)GPT-4o正確率僅55.8%，開源模型不如瞎蒙

duhorse ? 2756瀏覽 ? 0回復(fù)
多模態(tài)大模型能力評測基準(zhǔn)全面綜述：理解、推理、生成、應(yīng)用、趨勢

十一月雨_55 ? 8192瀏覽 ? 0回復(fù)
超GPT-4o，1240億參數(shù)！最強(qiáng)開源多模態(tài)模型 Pixtral Large！

Aceryt ? 2051瀏覽 ? 0回復(fù)
o1的風(fēng)又吹到多模態(tài)，直接吹翻了GPT-4o-mini

PaperAgent ? 2072瀏覽 ? 0回復(fù)
LLM合集：港大利用GPT-4o生成QA對，打造大規(guī)模多模態(tài)視頻思維鏈（COT）數(shù)據(jù)集

AIPaperDaily ? 2572瀏覽 ? 0回復(fù)
微軟發(fā)布Phi-4，最強(qiáng)小模型！參數(shù)極小、超GPT-4o

Aceryt ? 1779瀏覽 ? 0回復(fù)
如何全面評估多模態(tài)大模型能力？MLLM評測任務(wù)與指標(biāo)總結(jié)

shizhi02 ? 6530瀏覽 ? 0回復(fù)
微軟開源最強(qiáng)小模型Phi-4，超GPT-4o、可商用

Aceryt ? 1927瀏覽 ? 0回復(fù)
GPT-4o圖像生成能力全揭秘：背后竟藏自回歸+擴(kuò)散架構(gòu)？北大&中山等開源GPT-ImgEval

angel ? 1448瀏覽 ? 0回復(fù)
清華發(fā)布GLM 4！32B參數(shù)模型硬剛GPT-4o，性能驚艷

Halo咯咯 ? 1760瀏覽 ? 0回復(fù)
GPT-4o(多模態(tài)版)、Claude3.7、Gemini2.5最新系統(tǒng)提示詞！

云中江樹 ? 259瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

可擴(kuò)展性長文本評測集——Ada-LEval 詳細(xì)解讀 2024-11-12 14:54:43發(fā)布
深度探索：LLaMa-3 網(wǎng)絡(luò)安全能力全解析 2024-08-01 14:12:48發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：可擴(kuò)展性長文本評測集——Ada-LEval 詳細(xì)解讀

下一篇： T-Eval：大模型智能體能力評測基準(zhǔn)解讀 | ACL 2024

社區(qū)精華內(nèi)容

目錄