自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="elsla"><s id="elsla"><li id="elsla"></li></s></sub>

<p id="elsla"></p>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

模型更新，評測集優(yōu)化：多模態(tài)大模型評測升級！

發(fā)布于 2024-7-1 11:12

瀏覽

0收藏

先放結(jié)論

如果你想為你的項目挑選合適的圖文多模態(tài)模型，以下是一些可供參考的模型性能（括號內(nèi)為評測分?jǐn)?shù)）：

已測性能最強的閉源模型：

GPT-4o（海外 API 模型，69.9）
GLM-4v（國內(nèi) API 模型，60.8）

已測位于 "參數(shù)量-性能" 前沿上的開源模型：

InternVL-v1.5 (26B, 61.7)
MiniCPM-Llama3-V2.5 (8B, 58.8)
InternLM-XComposer2-7B-4KHD (7B, 58.8)
?Mini-InternVL (4B, 56.2; 2B, 49.8)

模型更新，評測集優(yōu)化：多模態(tài)大模型評測升級！-AI.x社區(qū)

本期的多模態(tài)模型性能榜單

1.多模態(tài)大模型評測榜單構(gòu)成更新

在 4 月底，司南多模態(tài)大模型評測榜單由 12 個數(shù)據(jù)集上的分?jǐn)?shù)計算平均分得到。在 5 月至 6 月，基于精簡評測集的目的，我們對榜單構(gòu)成進行了如下變動：

將 MMBench 更新到了 v1.1 版本 (數(shù)據(jù)質(zhì)量有所提升)，同時將其中英文版本合為一個分?jǐn)?shù)，以避免占據(jù)過高權(quán)重;
移除多個與 MMBench 相似定位的評測集，僅保留 MMBench v1.1版本
移除 LLaVABench(因數(shù)據(jù)量小，測試方差太大)

目前，司南多模態(tài)大模型榜單共包含 8 個 benchmark 的分?jǐn)?shù)及其平均分：MMBench v1.1 (客觀綜合)，MMStar (數(shù)據(jù)污染)，MMMU (多模態(tài)考試)，MathVista (多模態(tài)數(shù)學(xué))，HallusionBench (幻覺)，AI2D (圖表理解)，OCRBench (OCR 能力)，MMVet (主觀綜合)。

大家仍可在 Open VLM Leaderboard 訪問全部的測試結(jié)果 (超過 20 個 benchmark)：

??https://huggingface.co/spaces/opencompass/open_vlm_leaderboard??

2.新增模型及性能表現(xiàn)

新增 API 模型

我們更新了大量 API 模型的評測結(jié)果，其中包括：GPT-4o (低/高分辨率)，GPT-4v (0409,高分辨率)， GLM-4v，Gemini-1.5-Pro，RekaFlash / RekaCore。

GPT-4o(低/高分辨率), GPT-4v(0409,高分辨率)

GPT-4o 是 OpenAI 于 5 月 13 日發(fā)布的最新人工智能模型，代表了GPT系列的一個重要升級。其中，“o” 代表“Omni”，意為“全能”，凸顯了其多功能特性。GPT-4o 具有支持音頻、圖像等多種模態(tài)的任意組合作為輸入，能夠進行快速推理、實時響應(yīng)等主要特點。我們在 VLMEvalKit 所支持的圖文多模態(tài)任務(wù)上對其進行了評測，其高分辨率版本最終取得了 69.9 分的平均分?jǐn)?shù)，占據(jù)總分第一并大幅領(lǐng)先于第二超過 5 分。同時，基于 GPT-4o， GPT-4v 的高低分辨率性能對比，我們發(fā)現(xiàn)高分辨率版本相比低分辨率版本帶來約 3.5 分的平均分提升，對于 MMMU，OCRBench 等評測集的提升會更加顯著。

Gemini-1.5-Pro

Gemini-1.5-Pro 是 Google 于 4 月 12 日發(fā)布一款強大的AI模型，具有多模態(tài)理解和超長上下文處理等能力。我們對其的評測基于 Google 的 Vertex 平臺。我們基于 VLMEvalKit 所支持的圖文多模態(tài)任務(wù)上對其進行了評測。這一模型最終取得了 64.4 分的平均分?jǐn)?shù)，居于總分第二。

GLM-4v

GLM-4v 是智譜AI推出的一款多模態(tài)大語言模型，支持視覺問答、圖像字幕、視覺定位和復(fù)雜目標(biāo)檢測等各類圖像理解任務(wù)。經(jīng)過測試，GLM-4v 取得了 60.8 分的平均分?jǐn)?shù)，居于總分第五。

RekaFlash / RekaEdge

RekaFlash / RekaEdge 是 Reka.ai 推出的中/輕量級多模態(tài)大模型，支持多種輸入模態(tài)及 128k 上下文長度。其中 RekaFlash 曾在主觀評測榜單 VisionArena 中取得過第一的成績 (目前也僅弱于 GPT-4o/4v)。我們對其客觀性能進行了測試，但發(fā)現(xiàn)他們的客觀性能并不理想：RekaFlash / RekaEdge 僅取得 53.9/46.7 的平均分?jǐn)?shù)，分列榜單的第 18 與 32 名。

整體上，目前的多模態(tài)榜單上閉源模型仍處于領(lǐng)先地位，尤其是 GPT-4o 會大幅度領(lǐng)先于其他模型。需要注意的是，由于模型廠商會對 API 模型施加各種拒答策略作為限制，可能導(dǎo)致我們現(xiàn)在對于各個 API 模型的性能依然有所低估。我們會在近期對這一現(xiàn)象進行定量分析。

新增開源模型

相比較 API 模型，我們在同期內(nèi)新增的開源模型數(shù)量更多，比如有：

MiniCPM-Llama3-V2.5 (OpenBMB)
Mini-InternVL-[2B/4B] (Shanghai AI Lab)
InternLM-XComposer2-[1.8B / 7B-4KHD] (Shanghai AI Lab)
WeMM (WeChat AI)
CogVLM2-19B (Zhipu AI)
Phi-3-Vision (Microsoft)
XVERSE-V-13B (XVERSE)
360VL-70B (360)
PaliGemma-3B (Google)
Bunny-LLaMA-3-8B (BAAI)

模型更新，評測集優(yōu)化：多模態(tài)大模型評測升級！-AI.x社區(qū)

MiniCPM-Llama3-V2.5

作為一個 8B 量級的模型，它的整體性能超越了 Qwen-VL-Max、Gemini-1.0-Pro 等開源模型，以 58.8 的平均分位列榜單第 7 (開源模型第 2)。同時，該模型還具備一些特色能力，例如支持德語、法語、西班牙語等30+種語言的多模態(tài)能力，以及具備增強的OCR和指令跟隨能力，可以處理高達(dá)180萬像素的圖像。

模型更新，評測集優(yōu)化：多模態(tài)大模型評測升級！-AI.x社區(qū)

Mini-InternVL

作為 4B/2B 大小的小模型，Mini-InternVL 的性能測試結(jié)果均位于參數(shù)量-性能前沿上，分別位列榜單的第 14 及 24 名 (開源模型第 7 及 11 名)，優(yōu)于基于相同語言模型的其他多模態(tài)大模型。

3.新增評測集

除了 MMBench v1.1 外，我們還新增了 POPE 與 SEEDBench2_Plus 兩個評測集。其中 POPE 評測集主要用于檢測多模態(tài)大模型的物體相關(guān)幻覺，SEEDBench2-Plus 評測集主要專注于結(jié)構(gòu)化圖文理解。

此外，MMT-Bench，SEEDBench2，Video-MME 等評測集也正在支持過程中。

模型更新，評測集優(yōu)化：多模態(tài)大模型評測升級！-AI.x社區(qū)

POPE：用以檢測多模態(tài)大模型的物體相關(guān)幻覺

模型更新，評測集優(yōu)化：多模態(tài)大模型評測升級！-AI.x社區(qū)

SEEDBench2-Plus：一個專注于結(jié)構(gòu)化圖文理解的多模態(tài)評測集

4.結(jié) 語

在多模態(tài)評測方面，我們注重評測數(shù)據(jù)集 - 評測工具 - 開放榜單的三位一體建設(shè)，同時也會進行多模態(tài)學(xué)習(xí)及評測的研究工作(近期會陸續(xù)公開一些研究成果)。

本文轉(zhuǎn)載自司南評測體系，作者：司南 OpenCompass

標(biāo)簽

多模態(tài)

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

《多模態(tài)大語言模型綜述》重大升級

angel ? 3556瀏覽 ? 0回復(fù)
清華給海內(nèi)外知名大模型做了場綜合能力評測

輕薄滴假象 ? 2661瀏覽 ? 0回復(fù)
ChemBench：大語言模型化學(xué)能力評測數(shù)據(jù)集

戀戀青鳥 ? 3864瀏覽 ? 0回復(fù)
Flames 安全評測基準(zhǔn)：大語言模型的對齊效果如何？

戀戀青鳥 ? 3416瀏覽 ? 0回復(fù)
GPT-4系列模型，在文檔理解中的多維度評測

Aceryt ? 2127瀏覽 ? 0回復(fù)
可擴展性長文本評測集——Ada-LEval 詳細(xì)解讀

戀戀青鳥 ? 2502瀏覽 ? 0回復(fù)
模型圖文多模態(tài)能力評測結(jié)果全公開

戀戀青鳥 ? 7557瀏覽 ? 0回復(fù)
T-Eval：大模型智能體能力評測基準(zhǔn)解讀 | ACL 2024

戀戀青鳥 ? 3292瀏覽 ? 0回復(fù)
多模態(tài)與偽多模態(tài)大模型

AI探索時代 ? 2154瀏覽 ? 0回復(fù)
RAG工程如何評測？

shizhi02 ? 2496瀏覽 ? 0回復(fù)
可擴展性長文本評測集——Ada-LEval 詳細(xì)解讀

戀戀青鳥 ? 1791瀏覽 ? 0回復(fù)
多模態(tài)大模型能力評測基準(zhǔn)全面綜述：理解、推理、生成、應(yīng)用、趨勢

十一月雨_55 ? 8178瀏覽 ? 0回復(fù)
大語言模型評測中的評價指標(biāo)：方法、基準(zhǔn)和最佳實踐

芝士AI吃魚 ? 7810瀏覽 ? 0回復(fù)
英偉達(dá)NVLM多模態(tài)大模型細(xì)節(jié)和數(shù)據(jù)集

大模型自然語言處理 ? 2226瀏覽 ? 0回復(fù)
如何全面評估多模態(tài)大模型能力？MLLM評測任務(wù)與指標(biāo)總結(jié)

shizhi02 ? 6507瀏覽 ? 0回復(fù)
DeepSeek多模態(tài)大模型Janus、Janus-Pro模型架構(gòu)及優(yōu)化方法淺談

大模型自然語言處理 ? 2822瀏覽 ? 0回復(fù)
【模型測試】大模型評測工具OpenCompass使用方法總結(jié)

一起AI技術(shù) ? 2067瀏覽 ? 0回復(fù)
【模型測試】ai-eval-system在線評測系統(tǒng)v0.2預(yù)覽版本介紹

一起AI技術(shù) ? 871瀏覽 ? 0回復(fù)
【模型測試】基于OpenCompass構(gòu)建Dify應(yīng)用的自定義評測體系

一起AI技術(shù) ? 1532瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

可擴展性長文本評測集——Ada-LEval 詳細(xì)解讀 2024-11-12 14:54:43發(fā)布
深度探索：LLaMa-3 網(wǎng)絡(luò)安全能力全解析 2024-08-01 14:12:48發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇： Flames 安全評測基準(zhǔn)：大語言模型的對齊效果如何？

下一篇：可擴展性長文本評測集——Ada-LEval 詳細(xì)解讀

社區(qū)精華內(nèi)容

目錄

<pre id="k8seb"><td id="k8seb"><tfoot id="k8seb"></tfoot></td></pre>

^{<em id="k8seb"></em>}

<nav id="k8seb"><strong id="k8seb"><object id="k8seb"></object></strong></nav>