首個多模態(tài)視頻競技場Video-MME來了!Gemini全面超越GPT-4o,Jeff Dean連轉(zhuǎn)三次
大模型性能哪家強?GPT-4一家常霸榜。
基準測試全擅長,競技場上見真章。
不過近日,谷歌的Gemini終于揚眉吐氣了一把,在全新的、更復(fù)雜的多模態(tài)考試中大獲全勝,全面超越了GPT-4o。
Jeff Dean表示:已閱,很贊。
這就是來自中科大,廈大,港大,北大,港中文和華師大的研究者聯(lián)合奉獻的,世界上首個多模態(tài)LLM視頻分析綜合評估基準——Video-MME。
論文地址:https://arxiv.org/pdf/2405.21075
項目地址:https://video-mme.github.io/
在前往AGI的道路上,多模態(tài)大語言模型(MLLM)顯然成為當前的焦點。
不久前出世的GPT-4o,就在多模態(tài)的表現(xiàn)上技驚四座;同時,偏愛谷歌「雙子座」的網(wǎng)友也不在少數(shù)。
不過之前的相關(guān)基準測試,主要關(guān)注LLM在靜態(tài)圖像理解方面的能力。
而對于現(xiàn)實世界來說,處理連續(xù)視覺數(shù)據(jù),也就是視頻的能力,是至關(guān)重要的。
Video-MME是有史以來第一個為視頻分析精心設(shè)計的,綜合多模態(tài)基準測試,幫助我們?nèi)嬖u估MLLM捕捉現(xiàn)實世界動態(tài)性質(zhì)的能力。
Video-MME涵蓋了廣泛的視覺域、時長和數(shù)據(jù)模式,包括900個視頻,總時長256小時,還人工注釋了2700個高質(zhì)量的問答對(多項選擇題,每個視頻3個)。
下圖是其中一個例子:
準確回答該問題需要同時從視頻幀、字幕or語音中同時獲取信息,并且信息直接的跨度達30分鐘
在時間維度上,Video-MME中收集了各種不同時長的視頻。
包括短視頻(< 2分鐘)、中視頻(4分鐘~15分鐘)和長視頻(30分鐘~60分鐘),總體時長從11秒到1小時不等。
從視頻類型多樣性來看,Video-MME跨越了6個主要視覺領(lǐng)域:知識、影視、體育比賽、生活記錄和多語言,包含有30個子領(lǐng)域,以確保廣泛的場景泛化性。
在數(shù)據(jù)模式的廣度上,Video-MME整合了視頻幀以外的多模態(tài)輸入,包括字幕和音頻,以評估MLLM的全方位能力。
此外,Video-MME中所有數(shù)據(jù)都是由人類新收集和標注,而不是來自任何現(xiàn)有的視頻數(shù)據(jù)集,以確保數(shù)據(jù)的多樣性和質(zhì)量。
研究人員使用Video-MME,對各種最先進的MLLM進行了基準測試,包括GPT-4V、GPT4o和Gemini 1.5 Pro,以及開源圖像模型InternVL-Chat-V1.5和視頻模型LLaVA-NeXT-Video等。
實驗表明,Gemini 1.5 Pro是目前性能最高的商用MLLM,平均準確率為75%,GPT系列的最好成績是GPT-4o的71.9%。
相比之心,開源MLLM仍有巨大差距,表現(xiàn)最好的VILA-1.5以及LLaVA-NeXT-Video的總體準確率分別只有59和52%,開源社區(qū)還有相當大的提升空間。
此外,通過將輸入擴展到多幀圖像,Video-MME也可用來評估基于圖像的MLLM,例如Qwen-VL-Max和InternVL-Chat-V1.5。
兩種模型的準確度均達到51%左右,接近視頻專用模型LLaVA-NeXT-Video,這表明圖像理解是視頻理解的基礎(chǔ),所以Video-MME在MLLM評估領(lǐng)域具有廣泛的適用性。
下面,換個視角,看看這些MLLM在不同任務(wù)類型下的表現(xiàn):
——Gemini 1.5 Pro 最終還是壓制住了 GPT-4o!
我們再把Gemini 1.5 Pro單獨拉出來開個小灶,詳細給出不同視頻時長和不同視頻類型下的評估結(jié)果:
通過對上表的進一步觀察,我們還可以發(fā)現(xiàn),整合字幕和音頻可以顯著增強LLM的視頻理解能力。
Gemini 1.5 Pro在加入字幕和音頻之后,準確度分別提高了6.2%和4.3%,長視頻則更為明顯。
對任務(wù)類型的細粒度分析表明,字幕和音頻對于需要大量領(lǐng)域知識的視頻特別有益。
當然了,隨著視頻長度的增加,MLLM性能普遍下降,所以處理長視頻仍然是件困難的事情。
下面給出Gemini 1.5 Pro在不同視頻子類型上的評估結(jié)果,包括天文學(xué)、技術(shù)、紀錄片、新聞報道、電子競技、魔術(shù)表演和時尚等30個子類別。
Video-MME
數(shù)據(jù)集構(gòu)建
Video-MME的數(shù)據(jù)集構(gòu)建過程包括視頻采集、問答對標注、質(zhì)量審核三個步驟。
視頻采集
為了全面覆蓋不同的視頻類型,研究人員創(chuàng)建了一個域?qū)哟谓Y(jié)構(gòu),用于從網(wǎng)絡(luò)上收集原始視頻。
首先定義6個關(guān)鍵領(lǐng)域:知識、電影和電視、體育比賽、生活記錄和多語言。
每個領(lǐng)域進一步劃分為詳細的標簽,例如體育比賽包含足球和籃球,從而產(chǎn)生總共30個細粒度的視頻類。
對于每個類型,收集不同持續(xù)時間的視頻:短視頻(少于2分鐘)、中視頻(4-15分鐘)和長視頻(30-60分鐘)。
此外,還會獲取相應(yīng)的元信息,例如字幕和音頻,用于進一步研究。最終的數(shù)據(jù)集由900個視頻組成,這些視頻跨越各個領(lǐng)域,持續(xù)時間長度相對平衡。
問答標注
在收集原始視頻數(shù)據(jù)后,研究者對以問答對的形式對其進行注釋,以評估MLLM在解釋視頻內(nèi)容方面的熟練程度。
這里采用多項選擇題的QA格式,參與標注的作者都精通英語,在視覺語言學(xué)習(xí)方面具有豐富的研究經(jīng)驗。
標注者通過反復(fù)觀看視頻來提出3個相關(guān)的問題,每個問題有4個潛在選項。這2700個QA對包含12種任務(wù)類型,比如感知、推理和信息概要。
質(zhì)量審核
為了保證數(shù)據(jù)集的質(zhì)量,作者還進行了嚴格的人工審查流程。
首先,指派不同的標注者來檢查每個QA對,確保語言表達正確且明確,以及問題可回答(候選選項和正確選項都是合理的)。
此外,為了確保問題足夠具有挑戰(zhàn)性,要求多模態(tài)模型看了視頻才能回答,研究人員向Gemini 1.5 Pro提供了純文本問題,并過濾掉可以僅根據(jù)文本問題回答的QA對。
最后,Gemini 1.5 Pro在僅使用文本提問的情況下,準確率低于 15%。
數(shù)據(jù)集統(tǒng)計
視頻和元信息
Video-MME總共包含900個視頻、713個字幕和869個音頻文件。
從任務(wù)類型的分布來看,較短的視頻主要涉及與感知相關(guān)的任務(wù),例如動作和物體識別。
相比之下,較長的視頻主要以與時間推理相關(guān)的任務(wù)為特色。從下表中可以看到,Video-MME的有效時長(Certificate Length準確回答問題所需的時間跨度)非常長,表明了其挑戰(zhàn)性。
問答數(shù)據(jù)
關(guān)于問題和答案的語言多樣性,下表列出了數(shù)據(jù)集中文本字段的平均字數(shù)。
問題、選項和答案的字數(shù)在不同視頻長度上顯示出顯著的一致性,這表明Video-MME中的QA對風格一致。
另一方面,字幕的字數(shù)隨著視頻長度的增加而顯著增加,短視頻的平均字數(shù)為198.6,而長視頻子集的字數(shù)高達6.5K。這一趨勢表明,較長的視頻包含的信息更多。
此外,問題對應(yīng)的正確答案選項(A/B/C/D)的分布接近均勻(25.2%/27.2%/25.2%/22.3%),確保了無偏的評估。
本文轉(zhuǎn)自 新智元 ,作者:新智元
