全球首個(gè)「視頻教學(xué)」基準(zhǔn)!南洋理工、CMU發(fā)布Video-MMMU
想象一下,你正在觀看吳恩達(dá)老師的機(jī)器學(xué)習(xí)課程,視頻講解清晰、動(dòng)畫直觀,你很快掌握了核心概念,并能在考試中靈活應(yīng)用,人類對這個(gè)過程再熟悉不過。
那么,如果AI也能這樣學(xué)習(xí)呢?
圖1 Video-MMMU提出知識獲取的3大認(rèn)知階段
這正是Video-MMMU試圖回答的核心問題:AI能否通過觀看視頻獲取并應(yīng)用知識?
對于多模態(tài)大模型(LMMs)來說,視頻不僅是它們感知世界的窗口,更是獲取知識的重要途徑。南洋理工大學(xué)S-Lab團(tuán)隊(duì)推出Video-MMMU數(shù)據(jù)集是首個(gè)評測LMMs從多學(xué)科專業(yè)視頻中提取、理解并運(yùn)用知識能力的創(chuàng)新基準(zhǔn)。
通過Video-MMMU,我們不再滿足于模型「看懂」視頻,而是探索它能否真正「學(xué)會(huì)」視頻中的新知識,并運(yùn)用這些知識解決實(shí)際問題。
論文地址:https://arxiv.org/abs/2501.13826
開源代碼:https://github.com/EvolvingLMMs-Lab/VideoMMMU
項(xiàng)目主頁:https://videommmu.github.io/
數(shù)據(jù)集:https://huggingface.co/datasets/lmms-lab/VideoMMMU
三大認(rèn)知階段:從感知到應(yīng)用
教育學(xué)認(rèn)為,學(xué)習(xí)是一個(gè)漸進(jìn)的認(rèn)知過程 [1],而Video-MMMU正是圍繞這個(gè)過程設(shè)計(jì)的,將學(xué)習(xí)新知識拆解為三個(gè)認(rèn)知階段:感知(Perception)、理解(Comprehension)和運(yùn)用(Adaptation),系統(tǒng)評估模型在知識獲取不同層次的能力。
感知(Perception)——信息獲取的起點(diǎn),模型需要從視頻中提取關(guān)鍵信息,這是獲取知識的基礎(chǔ)。
理解(Comprehension)——從感知到掌握,模型不僅需要「看清」,還要理解知識的深層次含義。
運(yùn)用(Adaptation)——真正的學(xué)以致用,模型需要將從視頻中學(xué)到的知識運(yùn)用到全新的場景中。這是測試學(xué)習(xí)能力的最終環(huán)節(jié)。
知識增益(?knowledge):衡量模型的能力提升
Video-MMMU 的另一大亮點(diǎn)在于設(shè)計(jì)了「知識增益」(?knowledge)指標(biāo)。這一創(chuàng)新不僅關(guān)注模型的「絕對能力」,更評估其在觀看視頻前后的在應(yīng)用階段的表現(xiàn)提升。
圖2 模型通過觀看視頻,將原本無法解決的問題做對?!附忸}」的能力不是唯一的檢驗(yàn)標(biāo)準(zhǔn),能獲取知識,并把原本做錯(cuò)的問題做對,也是一種重要的能力。
與傳統(tǒng)評測不同,Video-MMMU更關(guān)注模型是否能通過觀看視頻解決原本無法解答的問題。從Video-MMMU的角度,智能不僅僅是「解題」的能力,更是快速學(xué)習(xí)和應(yīng)用新技能的能力。
對于多模態(tài)大模型來說,視頻就是它們的課堂。通過視頻「上課」,模型可以獲取新知識,并靈活應(yīng)用于實(shí)際生活中的未知挑戰(zhàn),不僅是對「智能」概念的重新思考,更是邁向通用智能(AGI)的一次有趣探索。
Video-MMMU 的發(fā)布,為評估和改進(jìn)LMMs的知識獲取能力提供了全新視角。如果人類的課堂是學(xué)習(xí)的起點(diǎn),那么 Video-MMMU 就是LMMs走向課堂的一扇大門。
數(shù)據(jù)集的獨(dú)特性
Video-MMMU的獨(dú)特之處在于首次將視頻作為知識傳播的核心渠道,從傳統(tǒng)的視頻場景理解轉(zhuǎn)向視頻內(nèi)容的知識學(xué)習(xí)。數(shù)據(jù)集專注于高質(zhì)量教育視頻,平均時(shí)長506.2秒,覆蓋多個(gè)學(xué)科領(lǐng)域。其問題平均長度達(dá)75.7字,遠(yuǎn)超其他基準(zhǔn),體現(xiàn)出高度專業(yè)性和挑戰(zhàn)性。
數(shù)據(jù)集設(shè)計(jì)
Video-MMMU覆蓋6大專業(yè)領(lǐng)域(藝術(shù)、商業(yè)、醫(yī)學(xué)、科學(xué)、人文、工程)中的30個(gè)學(xué)科。數(shù)據(jù)集包含精心篩選的300個(gè)大學(xué)水平的教育視頻和900個(gè)高質(zhì)量的問答對。
問題設(shè)計(jì)
感知階段的問題類型
- ASR(自動(dòng)語音識別):要求模型準(zhǔn)確轉(zhuǎn)錄視頻中的口述內(nèi)容。示例:如上圖中Art(左上)的例子。
- OCR(光學(xué)字符識別):從公式、圖表或手寫筆記中提取關(guān)鍵細(xì)節(jié)。示例:如上圖中Business(左下)的例子。
理解階段的問題類型
- 概念理解(Concept Comprehension):通過不定項(xiàng)選擇題評估模型對視頻中概念的理解。示例:如上圖中Humanities(中上)的例子。
- 解題方法理解(Problem-solving Strategy Comprehension):在視頻中演示的解決問題基礎(chǔ)上,通過改變輸入值測試模型是否掌握了解題方法。示例:如上圖中Science(中下)的例子。
運(yùn)用階段的問題類型
- 案例分析(Case Study Analysis):將視頻中講解的知識應(yīng)用于新的實(shí)際情境。示例:如上圖Medicine(右上)的例子。
- 解題方法運(yùn)用(Problem-solving Strategy Adaptation):將視頻中演示的解決方法應(yīng)用于實(shí)際的問題。示例:如上圖中Engineering(右下)的例子。
實(shí)驗(yàn)結(jié)果分析
各認(rèn)知階段的表現(xiàn)
- 人類 vs. AI:人類專家在所有階段的表現(xiàn)都優(yōu)于模型,盡管Claude-3.5-Sonnet在模型中得分最高,但仍明顯落后于人類。
- 難度逐級遞增:無論是人類還是AI,從感知到理解再到運(yùn)用,準(zhǔn)確率逐步下降,說明越深層次的認(rèn)知任務(wù)對能力要求越高。
- 知識運(yùn)用的挑戰(zhàn):運(yùn)用階段(Adaptation Track) 是知識獲取的最大瓶頸,模型得分普遍低于50%。這表明,盡管模型在可能表面理解了視頻知識,但在實(shí)際應(yīng)用時(shí)仍存在明顯短板,難以靈活遷移和運(yùn)用所學(xué)內(nèi)容。
音頻文本的影響
作者使用 OpenAI Whisper 生成音頻轉(zhuǎn)錄文本,以測試其對模型表現(xiàn)的影響。
結(jié)果顯示:
- 感知與理解階段:音頻文本有助于模型更精準(zhǔn)地理解視頻內(nèi)容,提高表現(xiàn)。
- 運(yùn)用階段的挑戰(zhàn):模型表現(xiàn)反而下降,可能因?yàn)橐纛l中存在冗余信息,干擾了模型對關(guān)鍵知識的提取和遷移能力。這說明,盡管音頻文本能幫助AI“聽懂”視頻,但真正的知識應(yīng)用依然是重大挑戰(zhàn)。
知識增益的定量分析
Video-MMMU 的核心創(chuàng)新之一是引入「知識增益」指標(biāo)(?knowledge)用于評估模型通過觀看視頻學(xué)習(xí)新知識的能力。與傳統(tǒng)評測不同,該指標(biāo)關(guān)注模型是否能通過視頻學(xué)習(xí),解決原本不會(huì)的問題,而不僅僅是靜態(tài)的解題能力。(?knowledge)定義為:
人類 vs. AI:學(xué)習(xí)能力差距
人類在觀看視頻后,知識增益達(dá)33.1%,而表現(xiàn)最好的模型(GPT-4o)僅為15.6%,多數(shù)模型低于10%。更令人意外的是,一些模型在觀看視頻后反而表現(xiàn)下降,表明它們在知識學(xué)習(xí)和應(yīng)用方面仍遠(yuǎn)不及人類。
模型的知識獲取兩面性
僅憑知識增益(?knowledge)并不能全面衡量模型的真實(shí)學(xué)習(xí)能力。因此,作者進(jìn)一步引入兩個(gè)關(guān)鍵指標(biāo):
- 錯(cuò)誤轉(zhuǎn)正確率(Wrong-to-Right Rate):模型能否通過視頻學(xué)習(xí),把原本錯(cuò)誤的答案修正?定義為:
- 正確轉(zhuǎn)錯(cuò)誤率(Right-to-Wrong Rate):模型是否看視頻之后,把原本做對的題做錯(cuò)了?
實(shí)驗(yàn)發(fā)現(xiàn),大多數(shù)模型取得較為不錯(cuò)的錯(cuò)誤轉(zhuǎn)正確率,顯示出一定的學(xué)習(xí)能力。但是,大多數(shù)模型的正確轉(zhuǎn)錯(cuò)誤率遠(yuǎn)高于人類,表明它們在吸收視頻知識時(shí)仍存在明顯不足。
人類的認(rèn)知優(yōu)勢
人類在這兩個(gè)指標(biāo)上的表現(xiàn)更加平衡:
- 錯(cuò)誤轉(zhuǎn)正確率:40.4% → 說明人類能更有效地學(xué)習(xí)新知識。
- 正確轉(zhuǎn)錯(cuò)誤率:10.7% → 這表明,人類能夠自然整合新舊知識,而模型在處理視頻信息時(shí),往往會(huì)修改原本正確的答案,這成為其學(xué)習(xí)能力的核心短板之一。
結(jié)論:模型的瓶頸
實(shí)驗(yàn)結(jié)果揭示了當(dāng)前多模態(tài)大模型(LMMs)在視頻學(xué)習(xí)中的兩大挑戰(zhàn):
- 學(xué)習(xí)能力有限:難以高效獲取并應(yīng)用新知識。
- 模型回答的不穩(wěn)定性:原本會(huì)做的題,看完視頻后反而不會(huì)了。
如何提升LMMs的學(xué)習(xí)效率和穩(wěn)定性,將是提升視頻知識獲取能力的關(guān)鍵。
錯(cuò)誤分析
作者對Claude-3.5-Sonnet在運(yùn)用階段的100個(gè)錯(cuò)誤進(jìn)行了分類,分析模型做錯(cuò)的根本原因。
- 方法選擇錯(cuò)誤(8%):模型選擇了錯(cuò)誤的解題方法,也就是說,它未能理解視頻中講解的正確策略。簡單來說,模型看了視頻,但沒有選對路。
- 方法運(yùn)用錯(cuò)誤(64%):這是最常見的錯(cuò)誤。模型記住了視頻中的方法,但在新情境下無法靈活應(yīng)用。比如,它理解了視頻中的解題方法,但無法正確運(yùn)用到另一個(gè)場景中。
- 問題誤讀錯(cuò)誤(15%):模型沒讀懂題目,比如錯(cuò)看了數(shù)值或條件。這些錯(cuò)誤和知識獲取無關(guān),更像是「粗心大意」。
作者詳細(xì)分析了模型方法運(yùn)用錯(cuò)誤的例子:
總結(jié)
Video-MMMU首次系統(tǒng)性評測了LMMs從視頻中學(xué)習(xí)、理解和應(yīng)用知識的能力,揭示了當(dāng)前多模態(tài)大模型在學(xué)習(xí)效率和知識遷移上的顯著不足。提升模型從視頻中獲取知識的能力,將是邁向AGI的重要一步。