自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

考考大模型視頻理解能力,中科院人大百川提出新基準(zhǔn)合成框架

發(fā)布于 2024-6-21 09:27
瀏覽
0收藏

測試Gemini1.5 Pro、GPT-4o等多模態(tài)大模型的新基準(zhǔn)來了,針對視頻理解能力的那種。

直接在視頻內(nèi)容中插入多個無關(guān)的圖像或文本“針”,嚴(yán)格評估模型對時間理解的能力。


來看下面的栗子。


比如插入密碼詞“Alice”,讓模型找到這個密碼詞;插入蘋果圖片,讓模型解答這個水果是什么;又或者插入多個“針”,詢問模型插入針的順序是什么。

考考大模型視頻理解能力,中科院人大百川提出新基準(zhǔn)合成框架-AI.x社區(qū)

這就是來自中科院、人大、百川的研究團(tuán)隊聯(lián)合提出的利用合成視頻構(gòu)建視頻理解測試基準(zhǔn)的方法。


該方法名為VideoNIAH,可以解耦視頻內(nèi)容與其對應(yīng)的查詢-響應(yīng)對,通過插入無關(guān)的圖像或文本“針”來生成測試數(shù)據(jù),既保證了視頻來源的多樣性和查詢響應(yīng)的多樣性,還通過插入多個針來嚴(yán)格評估模型對時間理解的能力。


此外,使用與現(xiàn)實(shí)視頻內(nèi)容相對應(yīng)的查詢-響應(yīng)對可能存在數(shù)據(jù)泄露風(fēng)險,影響基準(zhǔn)測試的公平性,使用合成視頻生成方法可以有效避免這一問題。


研究團(tuán)隊利用VideoNIAH方法制作了一個能夠有效評估視頻模型的細(xì)粒度理解能力和時空建模能力,同時支持長上下文評估的合成視頻理解基準(zhǔn)VNBench,包含1350個樣本。

隨后對Gemini1.5 Pro、GPT-4o、GPT-4-turbo以及其它開源模型進(jìn)行了測試,并分析了一系列結(jié)果。


研究團(tuán)隊發(fā)現(xiàn),即使是GPT-4o等最先進(jìn)的專有模型,在需要檢測和追蹤視頻中特定空間區(qū)域內(nèi)的“針”等計數(shù)任務(wù)上的表現(xiàn)也不理想;在排序任務(wù)上,專有模型與開源模型之間的性能差距尤為顯著……

考考大模型視頻理解能力,中科院人大百川提出新基準(zhǔn)合成框架-AI.x社區(qū)

VNBench更多細(xì)節(jié)以及更多實(shí)驗結(jié)果我們接著往下看。

用VideoNIAH構(gòu)建新基準(zhǔn)

隨著視頻中心的MLLMs模型的提出,需要有更全面的基準(zhǔn)測試來評估這些模型在視頻理解方面的能力,包括細(xì)粒度理解、時空建模以及長上下文處理等。


傳統(tǒng)的視頻基準(zhǔn)測試通常需要基于目標(biāo)能力精心選擇視頻,并進(jìn)行繁瑣的查詢-響應(yīng)對標(biāo)注,以匹配特定視頻內(nèi)容。這個過程不僅挑戰(zhàn)重重,而且資源消耗巨大。

為了開發(fā)和評估視頻理解模型,需要一個既能夠擴(kuò)展到不同視頻源和長度,又能夠高效運(yùn)行的基準(zhǔn)測試框架。


研究團(tuán)隊提出了VideoNIAH。


如前文所述,VideoNIAH(Video Needle In A Haystack)創(chuàng)新性地將測試視頻內(nèi)容與其查詢-響應(yīng)對解耦,通過在原始視頻中插入無關(guān)的圖像/文本“針”(needles),并僅從這些針生成注釋。


這種方法不僅確保了視頻來源的多樣性和查詢響應(yīng)的多樣性,還通過插入多個針來嚴(yán)格評估模型對時間理解的能力。

考考大模型視頻理解能力,中科院人大百川提出新基準(zhǔn)合成框架-AI.x社區(qū)

利用VideoNIAH,研究者們構(gòu)建了一個全面的視頻基準(zhǔn)測試VNBench,包括檢索、排序和計數(shù)等任務(wù)。VNBench能夠有效評估視頻模型的細(xì)粒度理解能力和時空建模能力,同時支持長上下文評估。


VNBench的特點(diǎn)主要表現(xiàn)在以下三個方面:

“針”類型(Needle Type)的多樣性

  • 編輯內(nèi)幀(Edit):使用人為添加的字幕作為”針”,這些字幕被嵌入到視頻幀中,模擬了在視頻中尋找特定文本信息的場景。
  • 插入幀間(Insert):使用圖像作為”針”,這些圖像作為靜態(tài)片段插入到視頻幀之間,考察模型對視頻中靜態(tài)圖像的識別和記憶能力。
  • 級別劃分:根據(jù)圖像的可識別性分為兩個級別,第一級使用常見物體(如水果圖像),第二級使用更具挑戰(zhàn)性的地標(biāo)圖像/物體圖像,增加了任務(wù)的難度。

?

視頻”干草堆”(Video Haystack)的多樣性

  • 時間分布:VNBench使用的視頻”干草堆”來自不同的數(shù)據(jù)源,視頻時長從10秒到180秒不等,覆蓋了短、中、長三種不同的視頻長度,以評估模型對不同視頻長度的適應(yīng)能力。
  • 內(nèi)容覆蓋:視頻內(nèi)容包含多種場景,確保了評估的廣泛性和視頻源的多樣性。

?

查詢(Query)的多樣性

  • 檢索任務(wù):要求模型從視頻中檢索出特定的”針”,考察模型的細(xì)粒度理解和信息提取能力。
  • 排序任務(wù):要求模型識別并排序視頻中所有插入”針”的時間順序,考察模型對視頻時間動態(tài)和事件序列的理解能力。
  • 計數(shù)任務(wù):要求模型計算視頻中特定對象的出現(xiàn)次數(shù),包括對單個幀內(nèi)和跨幀的重復(fù)模式的識別和追蹤,考察模型在時空維度上的理解能力。
  • 任務(wù)分類:VNBench的三個任務(wù)類型分別對應(yīng)不同的視頻理解能力評估,檢索任務(wù)評估信息檢索能力,排序任務(wù)評估時間推理能力,計數(shù)任務(wù)評估對視頻內(nèi)容的長期記憶和模式識別能力。


通過這些設(shè)計,VNBench能夠全面地評估視頻理解模型在多樣化的視頻內(nèi)容和查詢條件下的性能,為視頻理解技術(shù)的研究提供了一個有力的基準(zhǔn)測試工具。

實(shí)驗及分析結(jié)果

在論文中,通過VNBench對視頻理解多模態(tài)大語言模型(MLLMs)進(jìn)行了一系列評估,分析結(jié)果揭示了以下幾個關(guān)鍵點(diǎn):

考考大模型視頻理解能力,中科院人大百川提出新基準(zhǔn)合成框架-AI.x社區(qū)

首先是專有模型與開源模型的性能差異。


專有模型(如Gemini 1.5 Pro和GPT-4系列)在大多數(shù)VNBench任務(wù)上的表現(xiàn)優(yōu)于開源模型。這表明專有模型可能擁有更優(yōu)越的視頻理解能力,這可能歸功于更大的模型參數(shù)和更全面的訓(xùn)練過程。


其次是任務(wù)難度與模型表現(xiàn)。


模型在單針短依賴任務(wù)(檢索任務(wù))上的表現(xiàn)普遍優(yōu)于多針長依賴任務(wù)(排序和計數(shù)任務(wù))。這表明當(dāng)前的視頻模型在處理需要長期依賴信息的任務(wù)時仍然面臨挑戰(zhàn)。


排序任務(wù)的性能差距方面,在排序任務(wù)上,專有模型與開源模型之間的性能差距尤為顯著。大多數(shù)開源模型在排序任務(wù)上幾乎無法完成任務(wù),這可能是由于它們在訓(xùn)練過程中忽視了時間序列建模的能力。


然后是計數(shù)任務(wù)的困難。即使是最先進(jìn)的專有模型,在計數(shù)任務(wù)上的表現(xiàn)也不理想。特別是在需要檢測和追蹤視頻中特定空間區(qū)域內(nèi)的“針”時(Counting-E-2任務(wù)),所有模型的表現(xiàn)都很差,這表明當(dāng)前的視頻模型在理解和建模視頻中的細(xì)粒度時空關(guān)系方面仍有不足。


此外,視頻上下文長度的影響方面,隨著視頻處理時長的增加,開源模型的性能顯著下降,而專有模型由于具有更長的上下文處理窗口,性能波動不大。這表明當(dāng)前模型在處理長視頻內(nèi)容時的能力有限。

考考大模型視頻理解能力,中科院人大百川提出新基準(zhǔn)合成框架-AI.x社區(qū)

“針”位置的影響方面,通過改變“針”在視頻中的位置,研究發(fā)現(xiàn)專有模型由于其較長的上下文窗口,能夠準(zhǔn)確回憶所有插入的信息,而開源模型則表現(xiàn)出在長序列中對中間信息的回憶不足。

考考大模型視頻理解能力,中科院人大百川提出新基準(zhǔn)合成框架-AI.x社區(qū)

這些分析結(jié)果不僅揭示了當(dāng)前視頻理解模型的優(yōu)勢和局限性,而且為未來的研究提供了寶貴的見解,有助于指導(dǎo)視頻理解技術(shù)的發(fā)展和改進(jìn)。


論文鏈接:https://arxiv.org/abs/2406.09367
項目鏈接:https://videoniah.github.io/


本文轉(zhuǎn)自 量子位 ,作者:量子位


原文鏈接:??https://mp.weixin.qq.com/s/HZZQ8Rp4xPmJGzhB238hOw??

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦