自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

首個多模態(tài)視頻競技場Video-MME來了！Gemini全面超越GPT-4o，Jeff Dean連轉(zhuǎn)三次

發(fā)布于 2024-6-28 13:51

瀏覽

0收藏

大模型性能哪家強？GPT-4一家常霸榜。

基準測試全擅長，競技場上見真章。

首個多模態(tài)視頻競技場Video-MME來了！Gemini全面超越GPT-4o，Jeff Dean連轉(zhuǎn)三次-AI.x社區(qū)

不過近日，谷歌的Gemini終于揚眉吐氣了一把，在全新的、更復(fù)雜的多模態(tài)考試中大獲全勝，全面超越了GPT-4o。

Jeff Dean表示：已閱，很贊。

首個多模態(tài)視頻競技場Video-MME來了！Gemini全面超越GPT-4o，Jeff Dean連轉(zhuǎn)三次-AI.x社區(qū)

首個多模態(tài)視頻競技場Video-MME來了！Gemini全面超越GPT-4o，Jeff Dean連轉(zhuǎn)三次-AI.x社區(qū)

首個多模態(tài)視頻競技場Video-MME來了！Gemini全面超越GPT-4o，Jeff Dean連轉(zhuǎn)三次-AI.x社區(qū)

這就是來自中科大，廈大，港大，北大，港中文和華師大的研究者聯(lián)合奉獻的，世界上首個多模態(tài)LLM視頻分析綜合評估基準——Video-MME。

首個多模態(tài)視頻競技場Video-MME來了！Gemini全面超越GPT-4o，Jeff Dean連轉(zhuǎn)三次-AI.x社區(qū)

論文地址：https://arxiv.org/pdf/2405.21075

項目地址：https://video-mme.github.io/

在前往AGI的道路上，多模態(tài)大語言模型（MLLM）顯然成為當前的焦點。

不久前出世的GPT-4o，就在多模態(tài)的表現(xiàn)上技驚四座；同時，偏愛谷歌「雙子座」的網(wǎng)友也不在少數(shù)。

首個多模態(tài)視頻競技場Video-MME來了！Gemini全面超越GPT-4o，Jeff Dean連轉(zhuǎn)三次-AI.x社區(qū)

首個多模態(tài)視頻競技場Video-MME來了！Gemini全面超越GPT-4o，Jeff Dean連轉(zhuǎn)三次-AI.x社區(qū)

不過之前的相關(guān)基準測試，主要關(guān)注LLM在靜態(tài)圖像理解方面的能力。

而對于現(xiàn)實世界來說，處理連續(xù)視覺數(shù)據(jù)，也就是視頻的能力，是至關(guān)重要的。

首個多模態(tài)視頻競技場Video-MME來了！Gemini全面超越GPT-4o，Jeff Dean連轉(zhuǎn)三次-AI.x社區(qū)

Video-MME是有史以來第一個為視頻分析精心設(shè)計的，綜合多模態(tài)基準測試，幫助我們?nèi)嬖u估MLLM捕捉現(xiàn)實世界動態(tài)性質(zhì)的能力。

Video-MME涵蓋了廣泛的視覺域、時長和數(shù)據(jù)模式，包括900個視頻，總時長256小時，還人工注釋了2700個高質(zhì)量的問答對（多項選擇題，每個視頻3個）。

下圖是其中一個例子：

準確回答該問題需要同時從視頻幀、字幕or語音中同時獲取信息，并且信息直接的跨度達30分鐘

首個多模態(tài)視頻競技場Video-MME來了！Gemini全面超越GPT-4o，Jeff Dean連轉(zhuǎn)三次-AI.x社區(qū)

在時間維度上，Video-MME中收集了各種不同時長的視頻。

包括短視頻（< 2分鐘）、中視頻（4分鐘~15分鐘）和長視頻（30分鐘~60分鐘），總體時長從11秒到1小時不等。

首個多模態(tài)視頻競技場Video-MME來了！Gemini全面超越GPT-4o，Jeff Dean連轉(zhuǎn)三次-AI.x社區(qū)

從視頻類型多樣性來看，Video-MME跨越了6個主要視覺領(lǐng)域：知識、影視、體育比賽、生活記錄和多語言，包含有30個子領(lǐng)域，以確保廣泛的場景泛化性。

在數(shù)據(jù)模式的廣度上，Video-MME整合了視頻幀以外的多模態(tài)輸入，包括字幕和音頻，以評估MLLM的全方位能力。

此外，Video-MME中所有數(shù)據(jù)都是由人類新收集和標注，而不是來自任何現(xiàn)有的視頻數(shù)據(jù)集，以確保數(shù)據(jù)的多樣性和質(zhì)量。

研究人員使用Video-MME，對各種最先進的MLLM進行了基準測試，包括GPT-4V、GPT4o和Gemini 1.5 Pro，以及開源圖像模型InternVL-Chat-V1.5和視頻模型LLaVA-NeXT-Video等。

首個多模態(tài)視頻競技場Video-MME來了！Gemini全面超越GPT-4o，Jeff Dean連轉(zhuǎn)三次-AI.x社區(qū)

實驗表明，Gemini 1.5 Pro是目前性能最高的商用MLLM，平均準確率為75%，GPT系列的最好成績是GPT-4o的71.9%。

相比之心，開源MLLM仍有巨大差距，表現(xiàn)最好的VILA-1.5以及LLaVA-NeXT-Video的總體準確率分別只有59和52%，開源社區(qū)還有相當大的提升空間。

首個多模態(tài)視頻競技場Video-MME來了！Gemini全面超越GPT-4o，Jeff Dean連轉(zhuǎn)三次-AI.x社區(qū)

此外，通過將輸入擴展到多幀圖像，Video-MME也可用來評估基于圖像的MLLM，例如Qwen-VL-Max和InternVL-Chat-V1.5。

兩種模型的準確度均達到51%左右，接近視頻專用模型LLaVA-NeXT-Video，這表明圖像理解是視頻理解的基礎(chǔ)，所以Video-MME在MLLM評估領(lǐng)域具有廣泛的適用性。

下面，換個視角，看看這些MLLM在不同任務(wù)類型下的表現(xiàn)：

首個多模態(tài)視頻競技場Video-MME來了！Gemini全面超越GPT-4o，Jeff Dean連轉(zhuǎn)三次-AI.x社區(qū)

——Gemini 1.5 Pro 最終還是壓制住了 GPT-4o!

我們再把Gemini 1.5 Pro單獨拉出來開個小灶，詳細給出不同視頻時長和不同視頻類型下的評估結(jié)果：

首個多模態(tài)視頻競技場Video-MME來了！Gemini全面超越GPT-4o，Jeff Dean連轉(zhuǎn)三次-AI.x社區(qū)

通過對上表的進一步觀察，我們還可以發(fā)現(xiàn)，整合字幕和音頻可以顯著增強LLM的視頻理解能力。

Gemini 1.5 Pro在加入字幕和音頻之后，準確度分別提高了6.2%和4.3%，長視頻則更為明顯。

對任務(wù)類型的細粒度分析表明，字幕和音頻對于需要大量領(lǐng)域知識的視頻特別有益。

當然了，隨著視頻長度的增加，MLLM性能普遍下降，所以處理長視頻仍然是件困難的事情。

下面給出Gemini 1.5 Pro在不同視頻子類型上的評估結(jié)果，包括天文學(xué)、技術(shù)、紀錄片、新聞報道、電子競技、魔術(shù)表演和時尚等30個子類別。

首個多模態(tài)視頻競技場Video-MME來了！Gemini全面超越GPT-4o，Jeff Dean連轉(zhuǎn)三次-AI.x社區(qū)

Video-MME

數(shù)據(jù)集構(gòu)建

Video-MME的數(shù)據(jù)集構(gòu)建過程包括視頻采集、問答對標注、質(zhì)量審核三個步驟。

視頻采集

為了全面覆蓋不同的視頻類型，研究人員創(chuàng)建了一個域?qū)哟谓Y(jié)構(gòu)，用于從網(wǎng)絡(luò)上收集原始視頻。

首先定義6個關(guān)鍵領(lǐng)域：知識、電影和電視、體育比賽、生活記錄和多語言。

每個領(lǐng)域進一步劃分為詳細的標簽，例如體育比賽包含足球和籃球，從而產(chǎn)生總共30個細粒度的視頻類。

首個多模態(tài)視頻競技場Video-MME來了！Gemini全面超越GPT-4o，Jeff Dean連轉(zhuǎn)三次-AI.x社區(qū)

對于每個類型，收集不同持續(xù)時間的視頻：短視頻（少于2分鐘）、中視頻（4-15分鐘）和長視頻（30-60分鐘）。

此外，還會獲取相應(yīng)的元信息，例如字幕和音頻，用于進一步研究。最終的數(shù)據(jù)集由900個視頻組成，這些視頻跨越各個領(lǐng)域，持續(xù)時間長度相對平衡。

首個多模態(tài)視頻競技場Video-MME來了！Gemini全面超越GPT-4o，Jeff Dean連轉(zhuǎn)三次-AI.x社區(qū)

問答標注

在收集原始視頻數(shù)據(jù)后，研究者對以問答對的形式對其進行注釋，以評估MLLM在解釋視頻內(nèi)容方面的熟練程度。

這里采用多項選擇題的QA格式，參與標注的作者都精通英語，在視覺語言學(xué)習(xí)方面具有豐富的研究經(jīng)驗。

首個多模態(tài)視頻競技場Video-MME來了！Gemini全面超越GPT-4o，Jeff Dean連轉(zhuǎn)三次-AI.x社區(qū)

標注者通過反復(fù)觀看視頻來提出3個相關(guān)的問題，每個問題有4個潛在選項。這2700個QA對包含12種任務(wù)類型，比如感知、推理和信息概要。

質(zhì)量審核

為了保證數(shù)據(jù)集的質(zhì)量，作者還進行了嚴格的人工審查流程。

首先，指派不同的標注者來檢查每個QA對，確保語言表達正確且明確，以及問題可回答（候選選項和正確選項都是合理的）。

此外，為了確保問題足夠具有挑戰(zhàn)性，要求多模態(tài)模型看了視頻才能回答，研究人員向Gemini 1.5 Pro提供了純文本問題，并過濾掉可以僅根據(jù)文本問題回答的QA對。

最后，Gemini 1.5 Pro在僅使用文本提問的情況下，準確率低于 15%。

數(shù)據(jù)集統(tǒng)計

視頻和元信息

Video-MME總共包含900個視頻、713個字幕和869個音頻文件。

從任務(wù)類型的分布來看，較短的視頻主要涉及與感知相關(guān)的任務(wù)，例如動作和物體識別。

相比之下，較長的視頻主要以與時間推理相關(guān)的任務(wù)為特色。從下表中可以看到，Video-MME的有效時長（Certificate Length準確回答問題所需的時間跨度）非常長，表明了其挑戰(zhàn)性。

首個多模態(tài)視頻競技場Video-MME來了！Gemini全面超越GPT-4o，Jeff Dean連轉(zhuǎn)三次-AI.x社區(qū)

問答數(shù)據(jù)

關(guān)于問題和答案的語言多樣性，下表列出了數(shù)據(jù)集中文本字段的平均字數(shù)。

問題、選項和答案的字數(shù)在不同視頻長度上顯示出顯著的一致性，這表明Video-MME中的QA對風格一致。

首個多模態(tài)視頻競技場Video-MME來了！Gemini全面超越GPT-4o，Jeff Dean連轉(zhuǎn)三次-AI.x社區(qū)

另一方面，字幕的字數(shù)隨著視頻長度的增加而顯著增加，短視頻的平均字數(shù)為198.6，而長視頻子集的字數(shù)高達6.5K。這一趨勢表明，較長的視頻包含的信息更多。

此外，問題對應(yīng)的正確答案選項（A/B/C/D）的分布接近均勻（25.2%/27.2%/25.2%/22.3%），確保了無偏的評估。

本文轉(zhuǎn)自新智元，作者：新智元

原文鏈接:??https://mp.weixin.qq.com/s/fVoIEp64VePfN_e7C9CfCw??

標簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

開源模型首勝GPT-4！競技場最新戰(zhàn)報引熱議，Karpathy：這是我唯二信任的榜單

Crystalcxt ? 2062瀏覽 ? 0回復(fù)
超越GPT-4V，蘋果多模態(tài)大模型上新！

duhorse ? 2309瀏覽 ? 0回復(fù)
GPT-4升級被曝引入Q*，推理/數(shù)學(xué)更強廢話更少，競技場重奪王位

Crystalcxt ? 2279瀏覽 ? 0回復(fù)
大模型競技場全面測評結(jié)果出爐：Llama3 70B成開源模型中最強王者！

AIGC最前線 ? 5708瀏覽 ? 0回復(fù)
GPT-4o 的數(shù)學(xué)又雙叕進步了？來 MathBench 看看新版 GPT-4o 到底強在哪！

戀戀青鳥 ? 3068瀏覽 ? 0回復(fù)
GPT-4o熱潮來襲：探索圖生文本的奧秘（多模態(tài)大模型系列之一）

魚蟲子 ? 6224瀏覽 ? 0回復(fù)
AutoCoder：性能超越GPT-4o的模型，居然只有33B，還是開源！

大語言模型論文跟蹤 ? 4935瀏覽 ? 0回復(fù)
3D生成競技場來了！比拼360°環(huán)繞視頻，最強模型由你pick

Crystalcxt ? 2510瀏覽 ? 0回復(fù)
GPT-4o背后可能的語音技術(shù)

魚蟲子 ? 2795瀏覽 ? 0回復(fù)
超越GPT-4o，Claude 3.5一夜封王！10倍編碼速度逆天，全網(wǎng)最全實測來了

duhorse ? 3941瀏覽 ? 0回復(fù)
GPT-4o 到底有多強？模型圖文多模態(tài)能力評測結(jié)果全公開

戀戀青鳥 ? 7557瀏覽 ? 0回復(fù)
開源模型王座一夜易主，GPT-4o被超越

duhorse ? 2008瀏覽 ? 0回復(fù)
終于來了，OpenAI測試GPT-4o高級語音模式！

Aceryt ? 2120瀏覽 ? 0回復(fù)
Qwen2-VL全面解讀！阿里開源多模態(tài)視覺語言模型，多項超越GPT4o與Claude 3.5-Sonnet

angel ? 9174瀏覽 ? 0回復(fù)
小扎深夜炸場！Meta首個開源多模態(tài)模型Llama 3.2橫空出世，能力不輸GPT4o-mini；小扎：開源的拐點來了！

51CTO技術(shù)棧 ? 2905瀏覽 ? 0回復(fù)
超GPT-4o，1240億參數(shù)！最強開源多模態(tài)模型 Pixtral Large！

Aceryt ? 2033瀏覽 ? 0回復(fù)
LLM合集：港大利用GPT-4o生成QA對，打造大規(guī)模多模態(tài)視頻思維鏈（COT）數(shù)據(jù)集

AIPaperDaily ? 2565瀏覽 ? 0回復(fù)
DeepSeek-R1-Distill-Qwen-1.5B 在某些基準測試中超越了 GPT-4o

Halo咯咯 ? 1.0w瀏覽 ? 0回復(fù)
GPT-4o(多模態(tài)版)、Claude3.7、Gemini2.5最新系統(tǒng)提示詞！

云中江樹 ? 101瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

DeepSeek第五天開源猛料，3FS并行文件系統(tǒng)榨干SSD！6.6 TiB/s吞吐量堪比光速 2025-02-28 12:53:18發(fā)布
剛剛，DeepSeek開源DeepEP通信庫，千億MoE訓(xùn)推顛覆級創(chuàng)新！FP8狂飆，帶飛GPU 2025-02-25 12:24:42發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇： LLM驚現(xiàn)篡改代碼獲得獎勵，欺騙人類無法根除逆轉(zhuǎn)！Anthropic新作揭露驚人真相

下一篇： LLM最喜歡的隨機數(shù)是什么？答案竟是ta！

社區(qū)精華內(nèi)容

目錄