小紅書&上交多模態(tài)大模型新基準(zhǔn),Gemini 1.5 Pro準(zhǔn)確率僅48%
多模態(tài)大模型理解真實(shí)世界的水平到底如何?
有新基準(zhǔn)來衡量了。
就在最近,小紅書和上海交通大學(xué)聯(lián)合提出WorldSense,一個全新的基準(zhǔn)測試,用來評估多模態(tài)大模型(MLLMs)的多模態(tài)真實(shí)場景理解能力。
基于WorldSense,團(tuán)隊(duì)對各種先進(jìn)的MLLMs進(jìn)行了廣泛評估,結(jié)果發(fā)現(xiàn):
開源的視頻-音頻模型在該基準(zhǔn)上的準(zhǔn)確率僅約25%,幾乎等同于隨機(jī)猜測;即使是表現(xiàn)最好的專有模型 Gemini 1.5 Pro,準(zhǔn)確率也只有48%,遠(yuǎn)不能滿足可靠的真實(shí)世界應(yīng)用需求。
下面具體來看。
WorldSense介紹
想象一下,當(dāng)你開車時,不僅要依靠眼睛觀察道路標(biāo)志、交通信號燈和障礙物,還要用耳朵聽其他車輛的喇叭聲、后方傳來的警笛聲,甚至通過手對方向盤的觸感、車輛行駛時的震動來做出實(shí)時決策,確保安全駕駛。
這就是人類在真實(shí)場景中自然的多模態(tài)信息整合能力。
而現(xiàn)在的多模態(tài)大模型,在處理這些復(fù)雜的真實(shí)世界場景時,表現(xiàn)究竟如何呢?
WorldSense的誕生,正是為了填補(bǔ)現(xiàn)有評估體系的關(guān)鍵空白。
與以往那些存在諸多局限性的基準(zhǔn)測試不同,它具備三大核心亮點(diǎn),為多模態(tài)大模型的評估開辟了新的道路。
全模態(tài)協(xié)同,深度融合感知
在WorldSense的設(shè)計(jì)中,音頻和視頻緊密耦合,每個問題都需要模型充分挖掘音頻和視頻中的線索,將兩者信息有機(jī)結(jié)合,才能找到正確答案。
比如,在上圖第一個例子中,有個人手里拿著水果。如果僅依靠視覺信息,我們可能只能看到他拿著東西這個動作,但很難確定他具體在做什么,是展示水果的顏色、大小,還是在進(jìn)行其他操作;而僅憑借音頻,我們甚至都難以判斷他手中拿的是什么水果。
只有將視覺與音頻信息協(xié)同起來,模型才能準(zhǔn)確理解場景,給出正確答案。這種設(shè)計(jì)嚴(yán)格考驗(yàn)?zāi)P屯瑫r處理多種感官輸入、進(jìn)行精準(zhǔn)理解的能力。
最新的開源視頻音頻多模態(tài)大模型僅僅獲得了25%左右的準(zhǔn)確率,而表現(xiàn)最好的Gemini 1.5 Pro也只有48%的準(zhǔn)確率,并且在缺失一個模態(tài)的情況下性能下降約15%左右。
這進(jìn)一步說明了全模態(tài)協(xié)同在真實(shí)世界感知的重要性和WorldSense中多模態(tài)信息的強(qiáng)耦合,也揭示了現(xiàn)有多模態(tài)大模型的局限性。
視頻與任務(wù)多樣性,全方位場景覆蓋
據(jù)介紹,WorldSense涵蓋了1662個視聽同步視頻,系統(tǒng)地分為8個主要領(lǐng)域和67個細(xì)粒度子類別,覆蓋了豐富的真實(shí)世界場景。
同時,它還包含3172個多選問答對,橫跨26種不同的認(rèn)知任務(wù),從基礎(chǔ)的物體識別、聲音辨別,到復(fù)雜的因果推理、抽象概念理解,全方位評估MLLMs的多模態(tài)理解能力。
高質(zhì)量標(biāo)注,可靠性的基石
為了保證評估的可靠性,所有的問答對都是由80位專家手動標(biāo)注。
而且,標(biāo)注過程并非一蹴而就,而是經(jīng)過多輪嚴(yán)格的人工審核,從語言表達(dá)的清晰度、邏輯的連貫性,到答案的準(zhǔn)確性和唯一性,都進(jìn)行了反復(fù)考量。
不僅如此,還借助自動MLLM驗(yàn)證技術(shù),進(jìn)一步確保標(biāo)注質(zhì)量。
經(jīng)過這樣雙重保障的標(biāo)注過程,確保問題和答案的準(zhǔn)確性和高質(zhì)量。
實(shí)驗(yàn)
如前所述,研究團(tuán)隊(duì)基于WorldSense對各種先進(jìn)的MLLMs進(jìn)行了廣泛評估,結(jié)果令人深思。
開源的視頻 - 音頻模型在該基準(zhǔn)上的準(zhǔn)確率僅約25%,幾乎等同于隨機(jī)猜測;即使是表現(xiàn)最好的專有模型Gemini 1.5 Pro,準(zhǔn)確率也只有48%,遠(yuǎn)不能滿足可靠的真實(shí)世界應(yīng)用需求。
這表明當(dāng)前的模型在理解真實(shí)世界場景方面還面臨巨大挑戰(zhàn),同時也凸顯了全模態(tài)協(xié)同理解的重要性。
為進(jìn)一步深入剖析這些模型的性能短板,研究人員開展了細(xì)粒度分析,從不同音頻類型和任務(wù)類別兩個關(guān)鍵維度入手,挖掘模型在實(shí)際應(yīng)用中的具體問題。
這一分析為我們深入洞察現(xiàn)有模型的局限性提供了關(guān)鍵視角。
最終結(jié)果如下:
1、音頻相關(guān)任務(wù)表現(xiàn)欠佳:模型在音頻識別、計(jì)數(shù)等任務(wù)上表現(xiàn)差,顯著落后于其他任務(wù)類型。這是由于音頻信號復(fù)雜,現(xiàn)有模型架構(gòu)和訓(xùn)練方法難以有效解析利用其中的頻率、音色等信息。
2、情感相關(guān)任務(wù)挑戰(zhàn)巨大:這類任務(wù)需整合面部表情、語氣語調(diào)、語音內(nèi)容等多模態(tài)線索,模型表現(xiàn)較差,暗示其訓(xùn)練數(shù)據(jù)缺乏情感樣本,且架構(gòu)算法難以融合多模態(tài)信息進(jìn)行判斷。
3、不同音頻類型下表現(xiàn)各異:以Gemini 1.5 Pro為例,其處理事件相關(guān)問題的準(zhǔn)確率低于語音或音樂任務(wù),其他模型也存在類似情況。這凸顯現(xiàn)有模型缺乏對各種音頻類型通用、穩(wěn)定的理解能力。
鑒于上述評估中揭示的多模態(tài)大模型(MLLMs)在性能上的巨大差距,研究團(tuán)隊(duì)深入探究了提升MLLMs性能的潛在方法,具體涵蓋視覺信息、音頻信息以及視頻幀等方面的研究。
視覺信息的影響
研究人員通過設(shè)置不同的輸入配置,探究視覺信息對模型性能的影響,這些配置包括僅音頻輸入、音頻結(jié)合視頻字幕輸入以及音頻結(jié)合視頻幀輸入。
從實(shí)驗(yàn)結(jié)果來看,視覺信息通常能提升模型性能。以Gemini 1.5 Pro為例,其僅音頻輸入時準(zhǔn)確率為34.6%,而添加視頻幀輸入后,準(zhǔn)確率提升至48.0%。
然而,不同模型受視覺信息的影響存在差異。像UnifiedIO2系列模型,在結(jié)合視頻字幕輸入時,性能提升效果并不穩(wěn)定,甚至出現(xiàn)了性能下降的情況。
這一現(xiàn)象表明,一方面,視覺信息若能被模型恰當(dāng)整合,對增強(qiáng)多模態(tài)理解至關(guān)重要;另一方面,當(dāng)前模型在有效利用視覺信息方面的能力仍然有限,可能是因?yàn)槟P驮谔幚硪曈X特征與其他模態(tài)信息融合時存在困難,或者是在提取視覺關(guān)鍵信息上還不夠高效。
音頻信息的作用
在音頻信息的研究上,團(tuán)隊(duì)設(shè)置了三種輸入配置進(jìn)行實(shí)驗(yàn),分別是僅視頻輸入、視頻結(jié)合字幕輸入以及視頻結(jié)合原始音頻輸入。
實(shí)驗(yàn)結(jié)果呈現(xiàn)出有趣的規(guī)律。
對于Gemini 1.5 Pro和OneLLM等模型,添加字幕能提高準(zhǔn)確率,而添加原始音頻后,準(zhǔn)確率提升更為顯著,這充分說明字幕和原始音頻中的聲學(xué)特征(如語氣、情感、環(huán)境聲音等)都為多模態(tài)理解提供了有價值的信息,且原始音頻包含了字幕無法捕捉的重要線索,對多模態(tài)理解意義重大。
但不同模型對音頻信息的處理能力也有所不同。UnifiedIO2 在整合字幕或音頻時,性能出現(xiàn)了下降,尤其是字幕輸入導(dǎo)致準(zhǔn)確率明顯降低,這反映出該模型在多模態(tài)處理方面存在困難,可能無法有效融合音頻和視覺等多模態(tài)信息。
而Video - LLaMA2雖然在添加兩種模態(tài)信息時性能都有所提升,但對字幕的依賴更強(qiáng),在處理原始音頻時表現(xiàn)相對較弱,這表明它更擅長處理文本形式的音頻信息,而在解析復(fù)雜聲學(xué)信息上能力不足。
此外,研究人員還對僅視頻輸入的 MLLMs 提供轉(zhuǎn)錄字幕進(jìn)行評估,發(fā)現(xiàn)幾乎所有模型在添加字幕后性能都顯著提升,不過在音樂相關(guān)問題上,由于字幕無法有效捕捉旋律、節(jié)奏和和聲等固有聲學(xué)特征,性能提升并不明顯。
這進(jìn)一步證明了原始音頻在多模態(tài)理解中的獨(dú)特價值,同時也表明當(dāng)前模型在整合聲學(xué)和文本信息以實(shí)現(xiàn)全面場景理解方面存在較大的提升空間。
視頻幀采樣密度的效果
研究團(tuán)隊(duì)還研究了視頻幀的時間采樣密度對模型性能的影響,通過改變僅視頻輸入的 MLLMs 的輸入幀數(shù)來進(jìn)行實(shí)驗(yàn)。
結(jié)果顯示,大多數(shù)模型在增加幀密度后,性能有顯著提升。
這是因?yàn)楦叩膸芏饶軌蜃屇P透玫夭蹲揭曨l中細(xì)粒度的時間動態(tài)變化和微妙的視覺改變,從而提升對視頻內(nèi)容的理解。
例如,在一些包含快速動作或微小細(xì)節(jié)變化的視頻中,增加幀密度能讓模型獲取更多關(guān)鍵信息,進(jìn)而做出更準(zhǔn)確的判斷。但也有例外,如 LLaMA - 3.2 在增加幀密度時,性能并未提升。
這可能與該模型自身的架構(gòu)特點(diǎn)或訓(xùn)練方式有關(guān),導(dǎo)致它無法有效利用增加的幀信息,這也為后續(xù)研究如何優(yōu)化模型以更好地利用視頻幀信息提供了思考方向。
小結(jié)一下,通過對視覺信息、音頻信息以及視頻幀采樣密度的研究,為提升MLLMs在真實(shí)世界場景中的理解能力提供了重要的參考方向。
未來的研究可以基于這些發(fā)現(xiàn),進(jìn)一步優(yōu)化模型架構(gòu)和訓(xùn)練方法,以增強(qiáng)模型對多模態(tài)信息的處理能力,縮小與人類真實(shí)世界理解能力之間的差距。
論文鏈接:
https://arxiv.org/abs/2502.04326
項(xiàng)目主頁:
https://jaaackhongggg.github.io/WorldSense/