模型更新,評測集優(yōu)化:多模態(tài)大模型評測升級!
先放結(jié)論
如果你想為你的項目挑選合適的圖文多模態(tài)模型,以下是一些可供參考的模型性能 (括號內(nèi)為評測分?jǐn)?shù)):
已測性能最強的閉源模型:
- GPT-4o(海外 API 模型,69.9)
- GLM-4v(國內(nèi) API 模型,60.8)
已測位于 "參數(shù)量-性能" 前沿上的開源模型:
- InternVL-v1.5 (26B, 61.7)
- MiniCPM-Llama3-V2.5 (8B, 58.8)
- InternLM-XComposer2-7B-4KHD (7B, 58.8)
- ?Mini-InternVL (4B, 56.2; 2B, 49.8)
本期的多模態(tài)模型性能榜單
1.多模態(tài)大模型評測榜單構(gòu)成更新
在 4 月底,司南多模態(tài)大模型評測榜單由 12 個數(shù)據(jù)集上的分?jǐn)?shù)計算平均分得到。在 5 月至 6 月,基于精簡評測集的目的,我們對榜單構(gòu)成進行了如下變動:
- 將 MMBench 更新到了 v1.1 版本 (數(shù)據(jù)質(zhì)量有所提升),同時將其中英文版本合為一個分?jǐn)?shù),以避免占據(jù)過高權(quán)重;
- 移除多個與 MMBench 相似定位的評測集,僅保留 MMBench v1.1版本
- 移除 LLaVABench(因數(shù)據(jù)量小,測試方差太大)
目前,司南多模態(tài)大模型榜單共包含 8 個 benchmark 的分?jǐn)?shù)及其平均分:MMBench v1.1 (客觀綜合),MMStar (數(shù)據(jù)污染),MMMU (多模態(tài)考試),MathVista (多模態(tài)數(shù)學(xué)),HallusionBench (幻覺),AI2D (圖表理解),OCRBench (OCR 能力),MMVet (主觀綜合)。
大家仍可在 Open VLM Leaderboard 訪問全部的測試結(jié)果 (超過 20 個 benchmark):
??https://huggingface.co/spaces/opencompass/open_vlm_leaderboard??
2.新增模型及性能表現(xiàn)
新增 API 模型
我們更新了大量 API 模型的評測結(jié)果,其中包括:GPT-4o (低/高分辨率),GPT-4v (0409,高分辨率), GLM-4v,Gemini-1.5-Pro,RekaFlash / RekaCore。
- GPT-4o(低/高分辨率), GPT-4v(0409,高分辨率)
GPT-4o 是 OpenAI 于 5 月 13 日發(fā)布的最新人工智能模型,代表了GPT系列的一個重要升級。其中,“o” 代表“Omni”,意為“全能”,凸顯了其多功能特性。GPT-4o 具有支持音頻、圖像等多種模態(tài)的任意組合作為輸入,能夠進行快速推理、實時響應(yīng)等主要特點。我們在 VLMEvalKit 所支持的圖文多模態(tài)任務(wù)上對其進行了評測,其高分辨率版本最終取得了 69.9 分的平均分?jǐn)?shù),占據(jù)總分第一并大幅領(lǐng)先于第二超過 5 分。同時,基于 GPT-4o, GPT-4v 的高低分辨率性能對比,我們發(fā)現(xiàn)高分辨率版本相比低分辨率版本帶來約 3.5 分的平均分提升,對于 MMMU,OCRBench 等評測集的提升會更加顯著。
- Gemini-1.5-Pro
Gemini-1.5-Pro 是 Google 于 4 月 12 日發(fā)布一款強大的AI模型,具有多模態(tài)理解和超長上下文處理等能力。我們對其的評測基于 Google 的 Vertex 平臺。我們基于 VLMEvalKit 所支持的圖文多模態(tài)任務(wù)上對其進行了評測。這一模型最終取得了 64.4 分的平均分?jǐn)?shù),居于總分第二。
- GLM-4v
GLM-4v 是智譜AI推出的一款多模態(tài)大語言模型,支持視覺問答、圖像字幕、視覺定位和復(fù)雜目標(biāo)檢測等各類圖像理解任務(wù)。經(jīng)過測試,GLM-4v 取得了 60.8 分的平均分?jǐn)?shù),居于總分第五。
- RekaFlash / RekaEdge
RekaFlash / RekaEdge 是 Reka.ai 推出的中/輕量級多模態(tài)大模型,支持多種輸入模態(tài)及 128k 上下文長度。其中 RekaFlash 曾在主觀評測榜單 VisionArena 中取得過第一的成績 (目前也僅弱于 GPT-4o/4v)。我們對其客觀性能進行了測試,但發(fā)現(xiàn)他們的客觀性能并不理想:RekaFlash / RekaEdge 僅取得 53.9/46.7 的平均分?jǐn)?shù),分列榜單的第 18 與 32 名。
整體上,目前的多模態(tài)榜單上閉源模型仍處于領(lǐng)先地位,尤其是 GPT-4o 會大幅度領(lǐng)先于其他模型。需要注意的是,由于模型廠商會對 API 模型施加各種拒答策略作為限制,可能導(dǎo)致我們現(xiàn)在對于各個 API 模型的性能依然有所低估。我們會在近期對這一現(xiàn)象進行定量分析。
新增開源模型
相比較 API 模型,我們在同期內(nèi)新增的開源模型數(shù)量更多,比如有:
- MiniCPM-Llama3-V2.5 (OpenBMB)
- Mini-InternVL-[2B/4B] (Shanghai AI Lab)
- InternLM-XComposer2-[1.8B / 7B-4KHD] (Shanghai AI Lab)
- WeMM (WeChat AI)
- CogVLM2-19B (Zhipu AI)
- Phi-3-Vision (Microsoft)
- XVERSE-V-13B (XVERSE)
- 360VL-70B (360)
- PaliGemma-3B (Google)
- Bunny-LLaMA-3-8B (BAAI)
- MiniCPM-Llama3-V2.5
作為一個 8B 量級的模型,它的整體性能超越了 Qwen-VL-Max、Gemini-1.0-Pro 等開源模型,以 58.8 的平均分位列榜單第 7 (開源模型第 2)。同時,該模型還具備一些特色能力,例如支持德語、法語、西班牙語等30+種語言的多模態(tài)能力,以及具備增強的OCR和指令跟隨能力,可以處理高達(dá)180萬像素的圖像。
- Mini-InternVL
作為 4B/2B 大小的小模型,Mini-InternVL 的性能測試結(jié)果均位于 參數(shù)量-性能 前沿上,分別位列榜單的第 14 及 24 名 (開源模型第 7 及 11 名),優(yōu)于基于相同語言模型的其他多模態(tài)大模型。
3.新增評測集
除了 MMBench v1.1 外,我們還新增了 POPE 與 SEEDBench2_Plus 兩個評測集。其中 POPE 評測集主要用于檢測多模態(tài)大模型的物體相關(guān)幻覺,SEEDBench2-Plus 評測集主要專注于結(jié)構(gòu)化圖文理解。
此外,MMT-Bench,SEEDBench2,Video-MME 等評測集也正在支持過程中。
POPE:用以檢測多模態(tài)大模型的物體相關(guān)幻覺
SEEDBench2-Plus:一個專注于結(jié)構(gòu)化圖文理解的多模態(tài)評測集
4.結(jié) 語
在多模態(tài)評測方面,我們注重評測數(shù)據(jù)集 - 評測工具 - 開放榜單的三位一體建設(shè),同時也會進行多模態(tài)學(xué)習(xí)及評測的研究工作(近期會陸續(xù)公開一些研究成果)。
本文轉(zhuǎn)載自 司南評測體系,作者: 司南 OpenCompass
