自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="2gu1e"><track id="2gu1e"><sub id="2gu1e"></sub></track></cite>

<sup id="2gu1e"><rt id="2gu1e"></rt></sup>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

考考大模型視頻理解能力，中科院人大百川提出新基準(zhǔn)合成框架

發(fā)布于 2024-6-21 09:27

瀏覽

0收藏

測試Gemini1.5 Pro、GPT-4o等多模態(tài)大模型的新基準(zhǔn)來了，針對視頻理解能力的那種。

直接在視頻內(nèi)容中插入多個無關(guān)的圖像或文本“針”，嚴(yán)格評估模型對時間理解的能力。

來看下面的栗子。

比如插入密碼詞“Alice”，讓模型找到這個密碼詞；插入蘋果圖片，讓模型解答這個水果是什么；又或者插入多個“針”，詢問模型插入針的順序是什么。

考考大模型視頻理解能力，中科院人大百川提出新基準(zhǔn)合成框架-AI.x社區(qū)

這就是來自中科院、人大、百川的研究團(tuán)隊聯(lián)合提出的利用合成視頻構(gòu)建視頻理解測試基準(zhǔn)的方法。

該方法名為VideoNIAH，可以解耦視頻內(nèi)容與其對應(yīng)的查詢-響應(yīng)對，通過插入無關(guān)的圖像或文本“針”來生成測試數(shù)據(jù)，既保證了視頻來源的多樣性和查詢響應(yīng)的多樣性，還通過插入多個針來嚴(yán)格評估模型對時間理解的能力。

此外，使用與現(xiàn)實(shí)視頻內(nèi)容相對應(yīng)的查詢-響應(yīng)對可能存在數(shù)據(jù)泄露風(fēng)險，影響基準(zhǔn)測試的公平性，使用合成視頻生成方法可以有效避免這一問題。

研究團(tuán)隊利用VideoNIAH方法制作了一個能夠有效評估視頻模型的細(xì)粒度理解能力和時空建模能力，同時支持長上下文評估的合成視頻理解基準(zhǔn)VNBench，包含1350個樣本。

隨后對Gemini1.5 Pro、GPT-4o、GPT-4-turbo以及其它開源模型進(jìn)行了測試，并分析了一系列結(jié)果。

研究團(tuán)隊發(fā)現(xiàn)，即使是GPT-4o等最先進(jìn)的專有模型，在需要檢測和追蹤視頻中特定空間區(qū)域內(nèi)的“針”等計數(shù)任務(wù)上的表現(xiàn)也不理想；在排序任務(wù)上，專有模型與開源模型之間的性能差距尤為顯著……

考考大模型視頻理解能力，中科院人大百川提出新基準(zhǔn)合成框架-AI.x社區(qū)

VNBench更多細(xì)節(jié)以及更多實(shí)驗結(jié)果我們接著往下看。

用VideoNIAH構(gòu)建新基準(zhǔn)

隨著視頻中心的MLLMs模型的提出，需要有更全面的基準(zhǔn)測試來評估這些模型在視頻理解方面的能力，包括細(xì)粒度理解、時空建模以及長上下文處理等。

傳統(tǒng)的視頻基準(zhǔn)測試通常需要基于目標(biāo)能力精心選擇視頻，并進(jìn)行繁瑣的查詢-響應(yīng)對標(biāo)注，以匹配特定視頻內(nèi)容。這個過程不僅挑戰(zhàn)重重，而且資源消耗巨大。

為了開發(fā)和評估視頻理解模型，需要一個既能夠擴(kuò)展到不同視頻源和長度，又能夠高效運(yùn)行的基準(zhǔn)測試框架。

研究團(tuán)隊提出了VideoNIAH。

如前文所述，VideoNIAH（Video Needle In A Haystack）創(chuàng)新性地將測試視頻內(nèi)容與其查詢-響應(yīng)對解耦，通過在原始視頻中插入無關(guān)的圖像/文本“針”（needles），并僅從這些針生成注釋。

這種方法不僅確保了視頻來源的多樣性和查詢響應(yīng)的多樣性，還通過插入多個針來嚴(yán)格評估模型對時間理解的能力。

考考大模型視頻理解能力，中科院人大百川提出新基準(zhǔn)合成框架-AI.x社區(qū)

利用VideoNIAH，研究者們構(gòu)建了一個全面的視頻基準(zhǔn)測試VNBench，包括檢索、排序和計數(shù)等任務(wù)。VNBench能夠有效評估視頻模型的細(xì)粒度理解能力和時空建模能力，同時支持長上下文評估。

VNBench的特點(diǎn)主要表現(xiàn)在以下三個方面：

“針”類型（Needle Type）的多樣性

編輯內(nèi)幀（Edit）：使用人為添加的字幕作為”針”，這些字幕被嵌入到視頻幀中，模擬了在視頻中尋找特定文本信息的場景。
插入幀間（Insert）：使用圖像作為”針”，這些圖像作為靜態(tài)片段插入到視頻幀之間，考察模型對視頻中靜態(tài)圖像的識別和記憶能力。
級別劃分：根據(jù)圖像的可識別性分為兩個級別，第一級使用常見物體（如水果圖像），第二級使用更具挑戰(zhàn)性的地標(biāo)圖像/物體圖像，增加了任務(wù)的難度。

?

視頻”干草堆”（Video Haystack）的多樣性

時間分布：VNBench使用的視頻”干草堆”來自不同的數(shù)據(jù)源，視頻時長從10秒到180秒不等，覆蓋了短、中、長三種不同的視頻長度，以評估模型對不同視頻長度的適應(yīng)能力。
內(nèi)容覆蓋：視頻內(nèi)容包含多種場景，確保了評估的廣泛性和視頻源的多樣性。

?

查詢（Query）的多樣性

檢索任務(wù)：要求模型從視頻中檢索出特定的”針”，考察模型的細(xì)粒度理解和信息提取能力。
排序任務(wù)：要求模型識別并排序視頻中所有插入”針”的時間順序，考察模型對視頻時間動態(tài)和事件序列的理解能力。
計數(shù)任務(wù)：要求模型計算視頻中特定對象的出現(xiàn)次數(shù)，包括對單個幀內(nèi)和跨幀的重復(fù)模式的識別和追蹤，考察模型在時空維度上的理解能力。
任務(wù)分類：VNBench的三個任務(wù)類型分別對應(yīng)不同的視頻理解能力評估，檢索任務(wù)評估信息檢索能力，排序任務(wù)評估時間推理能力，計數(shù)任務(wù)評估對視頻內(nèi)容的長期記憶和模式識別能力。

通過這些設(shè)計，VNBench能夠全面地評估視頻理解模型在多樣化的視頻內(nèi)容和查詢條件下的性能，為視頻理解技術(shù)的研究提供了一個有力的基準(zhǔn)測試工具。

實(shí)驗及分析結(jié)果

在論文中，通過VNBench對視頻理解多模態(tài)大語言模型（MLLMs）進(jìn)行了一系列評估，分析結(jié)果揭示了以下幾個關(guān)鍵點(diǎn)：

考考大模型視頻理解能力，中科院人大百川提出新基準(zhǔn)合成框架-AI.x社區(qū)

首先是專有模型與開源模型的性能差異。

專有模型（如Gemini 1.5 Pro和GPT-4系列）在大多數(shù)VNBench任務(wù)上的表現(xiàn)優(yōu)于開源模型。這表明專有模型可能擁有更優(yōu)越的視頻理解能力，這可能歸功于更大的模型參數(shù)和更全面的訓(xùn)練過程。

其次是任務(wù)難度與模型表現(xiàn)。

模型在單針短依賴任務(wù)（檢索任務(wù)）上的表現(xiàn)普遍優(yōu)于多針長依賴任務(wù)（排序和計數(shù)任務(wù)）。這表明當(dāng)前的視頻模型在處理需要長期依賴信息的任務(wù)時仍然面臨挑戰(zhàn)。

排序任務(wù)的性能差距方面，在排序任務(wù)上，專有模型與開源模型之間的性能差距尤為顯著。大多數(shù)開源模型在排序任務(wù)上幾乎無法完成任務(wù)，這可能是由于它們在訓(xùn)練過程中忽視了時間序列建模的能力。

然后是計數(shù)任務(wù)的困難。即使是最先進(jìn)的專有模型，在計數(shù)任務(wù)上的表現(xiàn)也不理想。特別是在需要檢測和追蹤視頻中特定空間區(qū)域內(nèi)的“針”時（Counting-E-2任務(wù)），所有模型的表現(xiàn)都很差，這表明當(dāng)前的視頻模型在理解和建模視頻中的細(xì)粒度時空關(guān)系方面仍有不足。

此外，視頻上下文長度的影響方面，隨著視頻處理時長的增加，開源模型的性能顯著下降，而專有模型由于具有更長的上下文處理窗口，性能波動不大。這表明當(dāng)前模型在處理長視頻內(nèi)容時的能力有限。

考考大模型視頻理解能力，中科院人大百川提出新基準(zhǔn)合成框架-AI.x社區(qū)

“針”位置的影響方面，通過改變“針”在視頻中的位置，研究發(fā)現(xiàn)專有模型由于其較長的上下文窗口，能夠準(zhǔn)確回憶所有插入的信息，而開源模型則表現(xiàn)出在長序列中對中間信息的回憶不足。

考考大模型視頻理解能力，中科院人大百川提出新基準(zhǔn)合成框架-AI.x社區(qū)

這些分析結(jié)果不僅揭示了當(dāng)前視頻理解模型的優(yōu)勢和局限性，而且為未來的研究提供了寶貴的見解，有助于指導(dǎo)視頻理解技術(shù)的發(fā)展和改進(jìn)。

論文鏈接：https://arxiv.org/abs/2406.09367
項目鏈接：https://videoniah.github.io/

本文轉(zhuǎn)自量子位，作者：量子位

原文鏈接:??https://mp.weixin.qq.com/s/HZZQ8Rp4xPmJGzhB238hOw??

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

港中文提出CLongEval中文基準(zhǔn)測試集，準(zhǔn)確評估大模型長上下文能力

zhangyannni ? 4898瀏覽 ? 0回復(fù)
中科院等：8項測試第一，遠(yuǎn)超知乎豆瓣小紅書

Crystalcxt ? 3677瀏覽 ? 0回復(fù)
極佳、中科院等9機(jī)構(gòu)聯(lián)合首發(fā) | 3萬字長文全面解析世界模型(內(nèi)容生成/自動駕駛等)

angel ? 5449瀏覽 ? 0回復(fù)
支持合成一分鐘高清視頻，華科等提出人類跳舞視頻生成新框架UniAnimate

輕薄滴假象 ? 2303瀏覽 ? 0回復(fù)
全模態(tài)預(yù)訓(xùn)練范式MiCo：理解任何模態(tài)并學(xué)習(xí)通用表示｜港中文&中科院

Crystalcxt ? 2610瀏覽 ? 0回復(fù)
Long-CLIP：無縫擴(kuò)展 CLIP 模型的長文本理解能力

amei2000go ? 4876瀏覽 ? 0回復(fù)
中科大提出UniMEL框架 | 革新知識圖譜，引領(lǐng)多模態(tài)實(shí)體鏈接新紀(jì)元

AI論文解讀 ? 3895瀏覽 ? 0回復(fù)
NVIDIA 聯(lián)合團(tuán)隊提出長視頻理解的前沿技術(shù)BREASE，新框架連接情節(jié)和語義

xuxiangda ? 3450瀏覽 ? 0回復(fù)
VideoLLaMB：創(chuàng)新開源框架，引領(lǐng)多模態(tài)長視頻理解

穿越時空111 ? 2227瀏覽 ? 0回復(fù)
矛盾之爭，AI合成數(shù)據(jù)可以騙過大模型嗎？中山大學(xué)聯(lián)合上海AI Lab提出合成檢測基準(zhǔn)LOKI

angel ? 2185瀏覽 ? 0回復(fù)
多模態(tài)大模型能力評測基準(zhǔn)全面綜述：理解、推理、生成、應(yīng)用、趨勢

十一月雨_55 ? 8183瀏覽 ? 0回復(fù)
探秘大語言模型數(shù)據(jù)合成能力：AgoraBench基準(zhǔn)測試全解析

十一月雨_55 ? 2177瀏覽 ? 0回復(fù)
王小川當(dāng)場自曝：為什么百川不做Sora；生命科學(xué)是下一個互聯(lián)網(wǎng)；大模型創(chuàng)業(yè)有兩大誤區(qū)；AGI5年后就會到來

51CTO技術(shù)棧 ? 2671瀏覽 ? 0回復(fù)
浙大&vivo提出CoMPaSS：文生圖空間理解能力暴漲！

angel ? 1769瀏覽 ? 0回復(fù)
RAG圈的DeepSeek，中科院DeepRAG讓大模型帶著“思考”檢索，性能提升21.99%

PaperAgent ? 2968瀏覽 ? 0回復(fù)
達(dá)摩院開源VideoLLaMA3：僅7B大小，視頻理解拿下SOTA | 在線可玩

Crystalcxt ? 1818瀏覽 ? 0回復(fù)
Tiktok多模態(tài)大模型最新研究：顯示序列建模提升視頻理解能力

海因斯DK ? 1951瀏覽 ? 0回復(fù)
中科院、百度提出新架構(gòu)：突破參數(shù)限制，實(shí)現(xiàn)高效推理

Aceryt ? 1455瀏覽 ? 0回復(fù)
百川智能兩位聯(lián)合創(chuàng)始人出走，一位正在走離職手續(xù)

51CTO技術(shù)棧 ? 1275瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

何愷明開辟分形圖像生成新范式！計算效率提高4000倍，首次實(shí)現(xiàn)高分辨率逐像素生成 2025-02-26 11:59:41發(fā)布
達(dá)摩院開源VideoLLaMA3：僅7B大小，視頻理解拿下SOTA | 在線可玩 2025-02-14 13:02:21發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：清華推出首個通用城市時空預(yù)測模型UniST，零樣本場景開箱即用｜KDD2024

下一篇： Claude3.5突然發(fā)布！GPT-4o不香了

社區(qū)精華內(nèi)容

目錄

<p id="4gh85"><li id="4gh85"></li></p>

<sub id="4gh85"><p id="4gh85"></p></sub>

<legend id="4gh85"><track id="4gh85"><dfn id="4gh85"></dfn></track></legend>