突破短視頻局限!MMBench 團(tuán)隊構(gòu)建中長視頻開放問答評測基準(zhǔn),全面評估多模態(tài)大模型視頻理解能力
GPT-4o 四月發(fā)布會掀起了視頻理解的熱潮,而開源領(lǐng)軍者Qwen2也對視頻毫不手軟,在各個視頻評測基準(zhǔn)上狠狠秀了一把肌肉。
但當(dāng)前的大部分評測基準(zhǔn)仍然具有以下幾個缺陷:
- 多注重于短視頻,視頻長度或視頻鏡頭數(shù)不足,難以考察到模型的長時序理解能力;
- 對模型的考察局限在部分較為簡單的任務(wù),更多細(xì)粒度的能力未被大部分基準(zhǔn)所涉及到;
- 現(xiàn)有的基準(zhǔn)仍可以僅憑單幀圖像以獲取較高的分?jǐn)?shù),說明問題和畫面的時序性關(guān)聯(lián)不強(qiáng);
- 對開放性問題的評估仍舊采用較舊的GPT-3.5,打分和人類偏好有較大的偏差且并不準(zhǔn)確,容易高估模型性能。
針對這些問題,有沒有對應(yīng)的基準(zhǔn)能夠較好解決這些問題呢?
在最新的NeurIPS D&B 2024中由浙江大學(xué)聯(lián)合上海人工智能實驗室,上海交通大學(xué)和香港中文大學(xué)提出的MMBench-Video打造了一個全面的開放性視頻理解評測基準(zhǔn),并針對當(dāng)前主流MLLM構(gòu)建了開源的視頻理解能力評估榜單。
全能力鏈條覆蓋高質(zhì)量數(shù)據(jù)集
MMBench-Video這一視頻理解評測基準(zhǔn)采取全人工標(biāo)注,歷經(jīng)一次標(biāo)注和二次質(zhì)量核驗,視頻種類豐富且質(zhì)量高,問答涵蓋模型能力全面,準(zhǔn)確回答問題需要橫跨時間維度對信息進(jìn)行提取,更好的考察了模型的時序理解能力。
與其他數(shù)據(jù)集相比,MMBench-Video具有如下幾個突出特點:
視頻時長跨度較廣,鏡頭數(shù)多變:采集的視頻時長從30秒到6分鐘不等,避免了過短視頻語意信息簡單,過長視頻評測帶來的資源消耗大等問題。同時視頻涵蓋的鏡頭數(shù)整體呈長尾分布,一個視頻最多具有210個鏡頭,包含了豐富的場景與語境信息。
全方位能力大考,感知與推理的全面挑戰(zhàn):模型的視頻理解能力主要包含感知和推理兩個部分,每個部分能力可以再額外進(jìn)行細(xì)化。受MMBench啟發(fā)并結(jié)合視頻理解所涉及到的具體能力,研究者建立了一個包含26個細(xì)粒度能力的綜合能力譜系,每個細(xì)粒度能力都用數(shù)十到數(shù)百個問答對進(jìn)行評估,且并不為現(xiàn)有任務(wù)的集合。
視頻種類豐富,問答語言多樣性強(qiáng):覆蓋了人文、體育、科教、美食、金融等16個主要領(lǐng)域,每個領(lǐng)域視頻均占到5%以上。同時問答對相比傳統(tǒng)VideoQA數(shù)據(jù)集有了進(jìn)一步的長度及語意豐富度提升,不局限于’what’’when’等簡單問題類型。
時序獨立性佳,標(biāo)注質(zhì)量高:在研究中發(fā)現(xiàn),大部分VideoQA數(shù)據(jù)集能夠僅通過視頻內(nèi)的1幀獲得充足的信息,從而進(jìn)行準(zhǔn)確的回答。這可能是因為視頻內(nèi)前后畫面變化較小,視頻鏡頭少,也可能是因為問答對質(zhì)量較低。研究者將這一情況稱之為數(shù)據(jù)集的時序獨立性較差。與他們相比,MMBench-Video由于在標(biāo)注時給出了詳細(xì)的規(guī)則限制,且問答對經(jīng)過二次核驗,具有顯著較低的時序獨立性,能夠更好的考察模型的時序理解能力。
主流多模態(tài)大模型成績單
為了更加全面評估多個模型的視頻理解性能,MMBench-Video選取了11個代表性的視頻語言模型,6個開源圖文多模態(tài)大模型及GPT-4o等5個閉源模型進(jìn)行全面的實驗分析。
在所有模型當(dāng)中,GPT-4o在視頻理解方面表現(xiàn)突出,同時Gemini-Pro-v1.5也展現(xiàn)出了出眾的模型性能。
令人訝異的是,現(xiàn)有的開源圖文多模態(tài)大模型在MMBench-Video上表現(xiàn)整體優(yōu)于經(jīng)過視頻-問答對微調(diào)的視頻語言模型,最優(yōu)的圖文模型VILA1.5在整體性能上超出最優(yōu)的視頻模型LLaVA-NeXT-Video近40%。
經(jīng)過進(jìn)一步探究發(fā)現(xiàn),圖文模型之所以在視頻理解上表現(xiàn)更優(yōu),可能歸因于它們在處理靜態(tài)視覺信息時的精細(xì)化處理能力更強(qiáng),而視頻語言模型在面向靜態(tài)圖像的感知及推理性能均有不足,進(jìn)而面對更復(fù)雜的時序推理和動態(tài)場景時顯得力不從心。
這種差異揭示了現(xiàn)有視頻模型在空間和時間理解上的顯著不足,尤其是在處理長視頻內(nèi)容時,其時序推理能力亟待提升。此外,圖文模型通過多幀輸入在推理上的性能提升表明,它們有潛力進(jìn)一步拓展至視頻理解領(lǐng)域,而視頻模型則需要在更廣泛的任務(wù)上加強(qiáng)學(xué)習(xí),以彌補這一差距。
視頻長度和鏡頭數(shù)量被認(rèn)為是影響模型性能的關(guān)鍵因素。
實驗結(jié)果表明,隨著視頻長度的增加,GPT-4o在多幀輸入下的表現(xiàn)有所下降,而開源模型如InternVL-Chat-v1.5和Video-LLaVA的表現(xiàn)相對穩(wěn)定。相比視頻長度,鏡頭數(shù)量對模型性能的影響更為顯著。
當(dāng)視頻鏡頭超過50個時,GPT-4o的性能下降至原始得分的75%。這表明,頻繁的鏡頭切換使得模型更難以理解視頻內(nèi)容,導(dǎo)致其表現(xiàn)下降。
除此之外,MMBench-Video還借助接口獲取到了視頻的字幕信息,從而通過文字引入了音頻模態(tài)。
在引入后,模型在視頻理解上的表現(xiàn)得到了顯著提升,當(dāng)音頻信號與視覺信號結(jié)合時,模型能夠更加準(zhǔn)確地回答復(fù)雜問題。這一實驗結(jié)果表明,字幕信息的加入能極大豐富模型的上下文理解能力,尤其是在長視頻任務(wù)中,語音模態(tài)的信息密度為模型提供了更多線索,幫助其生成更精確的回答。然而,需要注意的是,雖然語音信息可以提升模型性能,但同時也可能增加生成幻覺內(nèi)容的風(fēng)險。
在裁判模型選擇方面,實驗顯示GPT-4具備更為公正和穩(wěn)定的評分能力,其抗操縱性強(qiáng),評分不偏向于自己的回答,能夠更好地與人工評判對齊。
相比之下,GPT-3.5在評分時容易出現(xiàn)偏高的問題,導(dǎo)致最終結(jié)果的失真。與此同時,開源的大語言模型,如Qwen2-72B-Instruct,也展現(xiàn)了出色的評分潛力,其在與人工評判的對齊度上表現(xiàn)突出,證明其有望成為一種高效的評估模型工具。
使用VLMEvalKit一鍵評測
MMBench-Video目前支持在VLMEvalKit中一鍵評測。
VLMEvalKit是一個專為大型視覺語言模型評測設(shè)計的開源工具包。它支持在各種基準(zhǔn)測試上對大型視覺語言模型進(jìn)行一鍵評估,無需進(jìn)行繁重的數(shù)據(jù)準(zhǔn)備工作,使評估過程更加簡便。VLMEvalKit適用于圖文多模態(tài)模型及視頻多模態(tài)模型的評測,支持單對圖文輸入、圖文交錯輸入及視頻-文本輸入。它實現(xiàn)70多個基準(zhǔn)測試,覆蓋了多種任務(wù),包括但不限于圖像描述、視覺問答、圖像字幕生成等。所支持的模型及評測基準(zhǔn)正在不斷更新中。
同時基于現(xiàn)有視頻多模態(tài)模型的評測結(jié)果較為分散,難以復(fù)現(xiàn)等現(xiàn)實,團(tuán)隊還建立了OpenVLM Video Leaderboard這一針對模型的綜合視頻理解能力評測榜單。OpenCompass VLMEvalKit團(tuán)隊將持續(xù)更新最新多模態(tài)大模型及評測benchmark,打造主流,開放,便捷的多模態(tài)開源評測體系。
最后總結(jié)一下,MMBench-Video是一個針對視頻理解任務(wù)設(shè)計的全新長視頻、多鏡頭基準(zhǔn),涵蓋了廣泛的視頻內(nèi)容和細(xì)粒度能力評估。
基準(zhǔn)測試包含從YouTube收集的600多個長視頻,涵蓋新聞、體育等16個主要類別,旨在評估MLLMs的時空推理能力。與傳統(tǒng)的視頻問答基準(zhǔn)不同,MMBench-Video通過引入長視頻和高質(zhì)量的人工標(biāo)注問答對,彌補了現(xiàn)有基準(zhǔn)在時序理解和復(fù)雜任務(wù)處理方面的不足。
通過GPT-4評估模型的答案,該基準(zhǔn)展現(xiàn)了更高的評估精度和一致性,為視頻理解領(lǐng)域的模型改進(jìn)提供了有力的工具。
MMBench-Video 的推出為研究人員和開發(fā)者提供了一個強(qiáng)大的評估工具,幫助開源社區(qū)深入理解和優(yōu)化視頻語言模型的能力。
論文鏈接:https://arxiv.org/abs/2406.14515
Github鏈接:https://github.com/open-compass/VLMEvalKit
HomePage:https://mmbench-video.github.io/
MMBench-Video LeaderBoard:https://huggingface.co/spaces/opencompass/openvlm_video_leaderboard