考考大模型視頻理解能力,中科院人大百川提出新基準(zhǔn)合成框架
測試Gemini1.5 Pro、GPT-4o等多模態(tài)大模型的新基準(zhǔn)來了,針對視頻理解能力的那種。
直接在視頻內(nèi)容中插入多個無關(guān)的圖像或文本“針”,嚴(yán)格評估模型對時間理解的能力。
來看下面的栗子。
比如插入密碼詞“Alice”,讓模型找到這個密碼詞;插入蘋果圖片,讓模型解答這個水果是什么;又或者插入多個“針”,詢問模型插入針的順序是什么。
這就是來自中科院、人大、百川的研究團(tuán)隊聯(lián)合提出的利用合成視頻構(gòu)建視頻理解測試基準(zhǔn)的方法。
該方法名為VideoNIAH,可以解耦視頻內(nèi)容與其對應(yīng)的查詢-響應(yīng)對,通過插入無關(guān)的圖像或文本“針”來生成測試數(shù)據(jù),既保證了視頻來源的多樣性和查詢響應(yīng)的多樣性,還通過插入多個針來嚴(yán)格評估模型對時間理解的能力。
此外,使用與現(xiàn)實(shí)視頻內(nèi)容相對應(yīng)的查詢-響應(yīng)對可能存在數(shù)據(jù)泄露風(fēng)險,影響基準(zhǔn)測試的公平性,使用合成視頻生成方法可以有效避免這一問題。
研究團(tuán)隊利用VideoNIAH方法制作了一個能夠有效評估視頻模型的細(xì)粒度理解能力和時空建模能力,同時支持長上下文評估的合成視頻理解基準(zhǔn)VNBench,包含1350個樣本。
隨后對Gemini1.5 Pro、GPT-4o、GPT-4-turbo以及其它開源模型進(jìn)行了測試,并分析了一系列結(jié)果。
研究團(tuán)隊發(fā)現(xiàn),即使是GPT-4o等最先進(jìn)的專有模型,在需要檢測和追蹤視頻中特定空間區(qū)域內(nèi)的“針”等計數(shù)任務(wù)上的表現(xiàn)也不理想;在排序任務(wù)上,專有模型與開源模型之間的性能差距尤為顯著……
VNBench更多細(xì)節(jié)以及更多實(shí)驗結(jié)果我們接著往下看。
用VideoNIAH構(gòu)建新基準(zhǔn)
隨著視頻中心的MLLMs模型的提出,需要有更全面的基準(zhǔn)測試來評估這些模型在視頻理解方面的能力,包括細(xì)粒度理解、時空建模以及長上下文處理等。
傳統(tǒng)的視頻基準(zhǔn)測試通常需要基于目標(biāo)能力精心選擇視頻,并進(jìn)行繁瑣的查詢-響應(yīng)對標(biāo)注,以匹配特定視頻內(nèi)容。這個過程不僅挑戰(zhàn)重重,而且資源消耗巨大。
為了開發(fā)和評估視頻理解模型,需要一個既能夠擴(kuò)展到不同視頻源和長度,又能夠高效運(yùn)行的基準(zhǔn)測試框架。
研究團(tuán)隊提出了VideoNIAH。
如前文所述,VideoNIAH(Video Needle In A Haystack)創(chuàng)新性地將測試視頻內(nèi)容與其查詢-響應(yīng)對解耦,通過在原始視頻中插入無關(guān)的圖像/文本“針”(needles),并僅從這些針生成注釋。
這種方法不僅確保了視頻來源的多樣性和查詢響應(yīng)的多樣性,還通過插入多個針來嚴(yán)格評估模型對時間理解的能力。
利用VideoNIAH,研究者們構(gòu)建了一個全面的視頻基準(zhǔn)測試VNBench,包括檢索、排序和計數(shù)等任務(wù)。VNBench能夠有效評估視頻模型的細(xì)粒度理解能力和時空建模能力,同時支持長上下文評估。
VNBench的特點(diǎn)主要表現(xiàn)在以下三個方面:
“針”類型(Needle Type)的多樣性
- 編輯內(nèi)幀(Edit):使用人為添加的字幕作為”針”,這些字幕被嵌入到視頻幀中,模擬了在視頻中尋找特定文本信息的場景。
- 插入幀間(Insert):使用圖像作為”針”,這些圖像作為靜態(tài)片段插入到視頻幀之間,考察模型對視頻中靜態(tài)圖像的識別和記憶能力。
- 級別劃分:根據(jù)圖像的可識別性分為兩個級別,第一級使用常見物體(如水果圖像),第二級使用更具挑戰(zhàn)性的地標(biāo)圖像/物體圖像,增加了任務(wù)的難度。
?
視頻”干草堆”(Video Haystack)的多樣性
- 時間分布:VNBench使用的視頻”干草堆”來自不同的數(shù)據(jù)源,視頻時長從10秒到180秒不等,覆蓋了短、中、長三種不同的視頻長度,以評估模型對不同視頻長度的適應(yīng)能力。
- 內(nèi)容覆蓋:視頻內(nèi)容包含多種場景,確保了評估的廣泛性和視頻源的多樣性。
?
查詢(Query)的多樣性
- 檢索任務(wù):要求模型從視頻中檢索出特定的”針”,考察模型的細(xì)粒度理解和信息提取能力。
- 排序任務(wù):要求模型識別并排序視頻中所有插入”針”的時間順序,考察模型對視頻時間動態(tài)和事件序列的理解能力。
- 計數(shù)任務(wù):要求模型計算視頻中特定對象的出現(xiàn)次數(shù),包括對單個幀內(nèi)和跨幀的重復(fù)模式的識別和追蹤,考察模型在時空維度上的理解能力。
- 任務(wù)分類:VNBench的三個任務(wù)類型分別對應(yīng)不同的視頻理解能力評估,檢索任務(wù)評估信息檢索能力,排序任務(wù)評估時間推理能力,計數(shù)任務(wù)評估對視頻內(nèi)容的長期記憶和模式識別能力。
通過這些設(shè)計,VNBench能夠全面地評估視頻理解模型在多樣化的視頻內(nèi)容和查詢條件下的性能,為視頻理解技術(shù)的研究提供了一個有力的基準(zhǔn)測試工具。
實(shí)驗及分析結(jié)果
在論文中,通過VNBench對視頻理解多模態(tài)大語言模型(MLLMs)進(jìn)行了一系列評估,分析結(jié)果揭示了以下幾個關(guān)鍵點(diǎn):
首先是專有模型與開源模型的性能差異。
專有模型(如Gemini 1.5 Pro和GPT-4系列)在大多數(shù)VNBench任務(wù)上的表現(xiàn)優(yōu)于開源模型。這表明專有模型可能擁有更優(yōu)越的視頻理解能力,這可能歸功于更大的模型參數(shù)和更全面的訓(xùn)練過程。
其次是任務(wù)難度與模型表現(xiàn)。
模型在單針短依賴任務(wù)(檢索任務(wù))上的表現(xiàn)普遍優(yōu)于多針長依賴任務(wù)(排序和計數(shù)任務(wù))。這表明當(dāng)前的視頻模型在處理需要長期依賴信息的任務(wù)時仍然面臨挑戰(zhàn)。
排序任務(wù)的性能差距方面,在排序任務(wù)上,專有模型與開源模型之間的性能差距尤為顯著。大多數(shù)開源模型在排序任務(wù)上幾乎無法完成任務(wù),這可能是由于它們在訓(xùn)練過程中忽視了時間序列建模的能力。
然后是計數(shù)任務(wù)的困難。即使是最先進(jìn)的專有模型,在計數(shù)任務(wù)上的表現(xiàn)也不理想。特別是在需要檢測和追蹤視頻中特定空間區(qū)域內(nèi)的“針”時(Counting-E-2任務(wù)),所有模型的表現(xiàn)都很差,這表明當(dāng)前的視頻模型在理解和建模視頻中的細(xì)粒度時空關(guān)系方面仍有不足。
此外,視頻上下文長度的影響方面,隨著視頻處理時長的增加,開源模型的性能顯著下降,而專有模型由于具有更長的上下文處理窗口,性能波動不大。這表明當(dāng)前模型在處理長視頻內(nèi)容時的能力有限。
“針”位置的影響方面,通過改變“針”在視頻中的位置,研究發(fā)現(xiàn)專有模型由于其較長的上下文窗口,能夠準(zhǔn)確回憶所有插入的信息,而開源模型則表現(xiàn)出在長序列中對中間信息的回憶不足。
這些分析結(jié)果不僅揭示了當(dāng)前視頻理解模型的優(yōu)勢和局限性,而且為未來的研究提供了寶貴的見解,有助于指導(dǎo)視頻理解技術(shù)的發(fā)展和改進(jìn)。
論文鏈接:https://arxiv.org/abs/2406.09367
項目鏈接:https://videoniah.github.io/
本文轉(zhuǎn)自 量子位 ,作者:量子位
