自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

NVIDIA 聯(lián)合團(tuán)隊(duì)提出長(zhǎng)視頻理解的前沿技術(shù)BREASE,新框架連接情節(jié)和語(yǔ)義

發(fā)布于 2024-9-4 11:57
瀏覽
0收藏

隨著互聯(lián)網(wǎng)和社交媒體平臺(tái)上視頻內(nèi)容的爆炸性增長(zhǎng),視頻理解技術(shù)的重要性日益凸顯。視頻理解不僅僅是對(duì)視頻內(nèi)容的簡(jiǎn)單分類(lèi)或標(biāo)簽化,而是深入分析視頻中的動(dòng)作、場(chǎng)景、情節(jié)和語(yǔ)義信息。這項(xiàng)技術(shù)在多個(gè)領(lǐng)域具有廣泛的應(yīng)用前景,包括視頻摘要、內(nèi)容檢索、內(nèi)容審核、版權(quán)保護(hù)和智能推薦等。

在信息時(shí)代,視頻理解技術(shù)扮演著越來(lái)越重要的角色。隨著視頻內(nèi)容的激增,如何有效地理解和處理這些內(nèi)容成為了一個(gè)關(guān)鍵問(wèn)題。視頻理解不僅僅是對(duì)視頻進(jìn)行分類(lèi)或標(biāo)注,而是需要深入分析視頻中的動(dòng)作、場(chǎng)景、情節(jié)和語(yǔ)義信息,這項(xiàng)技術(shù)在多個(gè)領(lǐng)域具有廣泛的應(yīng)用前景。

視頻摘要方面,通過(guò)自動(dòng)生成視頻摘要,用戶可以快速獲取視頻的核心內(nèi)容,節(jié)省時(shí)間和精力。這在新聞、教育和娛樂(lè)等領(lǐng)域尤為重要。內(nèi)容檢索方面,視頻理解技術(shù)可以幫助用戶通過(guò)視頻內(nèi)容進(jìn)行搜索和檢索,提高信息獲取的效率。例如,在大型視頻庫(kù)中快速找到相關(guān)視頻片段。內(nèi)容審核方面,自動(dòng)檢測(cè)和過(guò)濾不良內(nèi)容,保障平臺(tái)內(nèi)容的安全性。這對(duì)于社交媒體平臺(tái)和視頻分享網(wǎng)站尤為重要,可以有效防止不良信息的傳播。版權(quán)保護(hù)方面,通過(guò)識(shí)別和管理視頻內(nèi)容的版權(quán)信息,防止侵權(quán)行為的發(fā)生。這對(duì)于保護(hù)創(chuàng)作者的權(quán)益和維護(hù)市場(chǎng)秩序具有重要意義。智能推薦方面,根據(jù)用戶的觀看歷史和偏好,推薦相關(guān)視頻內(nèi)容,提升用戶體驗(yàn)。這在流媒體平臺(tái)和視頻分享網(wǎng)站中得到了廣泛應(yīng)用。

目前,大多數(shù)視頻理解研究主要集中在短視頻的處理上,這些方法通常依賴于卷積神經(jīng)網(wǎng)絡(luò)(CNN)和Transformer等模型。然而長(zhǎng)視頻理解面臨著更大的挑戰(zhàn),主要包括時(shí)間復(fù)雜性、語(yǔ)義理解和內(nèi)存計(jì)算限制等問(wèn)題。

長(zhǎng)視頻包含大量幀,處理這些幀需要高效的時(shí)間序列分析方法?,F(xiàn)有的方法在處理長(zhǎng)視頻時(shí),往往無(wú)法有效應(yīng)對(duì)時(shí)間復(fù)雜性的問(wèn)題。長(zhǎng)視頻通常包含復(fù)雜的敘事結(jié)構(gòu)和高層次的語(yǔ)義信息,需要對(duì)視頻中的高層次概念和敘事結(jié)構(gòu)進(jìn)行深刻理解。然而,現(xiàn)有的方法在語(yǔ)義理解方面表現(xiàn)不足。處理長(zhǎng)視頻需要大量的計(jì)算資源和內(nèi)存,現(xiàn)有方法在這方面往往表現(xiàn)不足,難以在實(shí)際應(yīng)用中推廣。

盡管一些研究嘗試將短視頻理解的方法擴(kuò)展到長(zhǎng)視頻,但這些方法通常未能充分考慮長(zhǎng)視頻的獨(dú)特特性,導(dǎo)致性能提升有限。例如,傳統(tǒng)的方法往往將長(zhǎng)視頻視為多個(gè)短視頻的簡(jiǎn)單拼接,忽略了長(zhǎng)視頻中情節(jié)和語(yǔ)義的連續(xù)性和復(fù)雜性。

為了填補(bǔ)現(xiàn)有方法在長(zhǎng)視頻理解中的空白,NVIDIA、國(guó)立臺(tái)灣大學(xué)和國(guó)立清華大學(xué)(中國(guó)臺(tái)灣)的聯(lián)合團(tuán)隊(duì)提出了一個(gè)新的框架——BREASE(BRidging Episodes And SEmantics)。該框架的設(shè)計(jì)靈感來(lái)自于人類(lèi)的認(rèn)知過(guò)程,旨在通過(guò)模擬情節(jié)記憶積累和語(yǔ)義知識(shí)的結(jié)合,更準(zhǔn)確地理解長(zhǎng)視頻內(nèi)容。

BREASE框架的主要目標(biāo)是開(kāi)發(fā)一個(gè)高效的情節(jié)壓縮器(Episodic COmpressor,ECO),能夠從微觀到半宏觀層面聚合關(guān)鍵表示,捕捉視頻中的動(dòng)作序列。ECO通過(guò)模擬人類(lèi)的情節(jié)記憶積累過(guò)程,有效地將視頻內(nèi)容分解為多個(gè)情節(jié)單元,從而提高模型的理解能力。此外,BREASE還提出了一個(gè)語(yǔ)義檢索器(Semantics reTRiever,SeTR),通過(guò)關(guān)注更廣泛的上下文,增強(qiáng)模型對(duì)視頻內(nèi)容的理解,顯著減少特征維度,同時(shí)保留相關(guān)的宏觀信息。SeTR通過(guò)提取視頻中的高層次語(yǔ)義信息,幫助模型更好地理解視頻的整體結(jié)構(gòu)和內(nèi)容。

通過(guò)這兩個(gè)關(guān)鍵組件,BREASE框架在多個(gè)長(zhǎng)視頻理解基準(zhǔn)上實(shí)現(xiàn)了最先進(jìn)的性能,顯著超越了現(xiàn)有方法。論文的研究目標(biāo)是通過(guò)BREASE框架,解決長(zhǎng)視頻理解中的時(shí)間復(fù)雜性、語(yǔ)義理解和內(nèi)存計(jì)算限制等問(wèn)題,為視頻理解技術(shù)的發(fā)展提供新的思路和方法。大量實(shí)驗(yàn)表明,BREASE 在零樣本和全監(jiān)督設(shè)置的多個(gè)長(zhǎng)視頻理解基準(zhǔn)中均實(shí)現(xiàn)了最佳性能。項(xiàng)目頁(yè)面和代碼位于:https://joslefaure.github.io/assets/html/hermes.html。

這項(xiàng)研究由來(lái)自不同機(jī)構(gòu)的專(zhuān)家團(tuán)隊(duì)合作完成,成員有來(lái)自國(guó)立臺(tái)灣大學(xué)的Gueter Josmy Faure、Jia-Fong Yeh、Hung-Ting Su和Winston H. Hsu,他們?cè)谝曨l理解和計(jì)算機(jī)視覺(jué)領(lǐng)域有著豐富的研究經(jīng)驗(yàn)。Winston H. Hsu不僅是國(guó)立臺(tái)灣大學(xué)的教授,還在Mobile Drive Technology擔(dān)任重要職務(wù),負(fù)責(zé)項(xiàng)目的整體協(xié)調(diào)和技術(shù)指導(dǎo)。來(lái)自NVIDIA的Min-Hung Chen,專(zhuān)注于深度學(xué)習(xí)和視頻理解技術(shù)的研究,為團(tuán)隊(duì)帶來(lái)了工業(yè)界的先進(jìn)技術(shù)和實(shí)踐經(jīng)驗(yàn)。國(guó)立清華大學(xué)的Shang-Hong Lai,專(zhuān)注于計(jì)算機(jī)視覺(jué)和圖像處理領(lǐng)域的研究,為團(tuán)隊(duì)提供了堅(jiān)實(shí)的學(xué)術(shù)支持。

這個(gè)多機(jī)構(gòu)合作團(tuán)隊(duì)結(jié)合了學(xué)術(shù)界和工業(yè)界的力量,致力于推進(jìn)長(zhǎng)視頻理解的研究。通過(guò)他們的共同努力,BREASE框架在長(zhǎng)視頻理解領(lǐng)域取得了顯著的進(jìn)展,為視頻理解技術(shù)的發(fā)展提供了新的思路和方法。

相關(guān)工作

在視頻理解領(lǐng)域,研究者們已經(jīng)在多個(gè)方向上取得了顯著進(jìn)展。

動(dòng)作識(shí)別是視頻理解中的一個(gè)核心任務(wù),主要關(guān)注在短視頻片段中識(shí)別特定的動(dòng)作。早期的研究主要依賴于卷積神經(jīng)網(wǎng)絡(luò)(CNN),例如使用3D卷積來(lái)捕捉視頻中的時(shí)空特征。隨著技術(shù)的發(fā)展,研究者們逐漸引入了時(shí)間卷積和其他更復(fù)雜的模型來(lái)提高識(shí)別精度。

近年來(lái),基于Transformer的模型在動(dòng)作識(shí)別中表現(xiàn)出色。例如,研究者們通過(guò)引入自注意力機(jī)制,使模型能夠更好地捕捉視頻中的長(zhǎng)距離依賴關(guān)系。這些模型在多個(gè)動(dòng)作識(shí)別基準(zhǔn)上取得了最先進(jìn)的性能,展示了其在處理復(fù)雜視頻數(shù)據(jù)方面的潛力。

視頻問(wèn)答(VQA)是視頻理解中的另一個(gè)重要任務(wù),旨在回答與視頻內(nèi)容相關(guān)的問(wèn)題。這需要模型對(duì)視頻中的視覺(jué)信息和文本信息有深刻的理解。為此,研究者們開(kāi)發(fā)了多個(gè)數(shù)據(jù)集,如ActivityNet-QA和MovieChat-1k,這些數(shù)據(jù)集為評(píng)估模型在視頻問(wèn)答任務(wù)中的表現(xiàn)提供了基準(zhǔn)。

在VQA任務(wù)中,模型不僅需要識(shí)別視頻中的物體和動(dòng)作,還需要理解視頻的上下文和敘事結(jié)構(gòu)。這通常涉及到多模態(tài)學(xué)習(xí),即結(jié)合視覺(jué)和文本信息進(jìn)行聯(lián)合建模。近年來(lái),隨著大規(guī)模預(yù)訓(xùn)練模型的出現(xiàn),VQA任務(wù)的性能得到了顯著提升。

與短視頻相比,長(zhǎng)視頻理解面臨著更多的挑戰(zhàn)。長(zhǎng)視頻通常包含復(fù)雜的敘事結(jié)構(gòu)和大量的幀,這使得處理和理解這些視頻變得更加困難。為了應(yīng)對(duì)這些挑戰(zhàn),研究者們開(kāi)發(fā)了多個(gè)專(zhuān)門(mén)用于長(zhǎng)視頻理解的數(shù)據(jù)集,如LVU、COIN、Breakfast和MovieChat。

傳統(tǒng)的方法往往將長(zhǎng)視頻視為多個(gè)短視頻的簡(jiǎn)單拼接,忽略了長(zhǎng)視頻中情節(jié)和語(yǔ)義的連續(xù)性和復(fù)雜性。為了更好地理解長(zhǎng)視頻,研究者們提出了多種方法,包括記憶技術(shù)和狀態(tài)空間模型(SSM),這些方法能夠更有效地處理長(zhǎng)時(shí)間跨度的視頻數(shù)據(jù)。

最近,大語(yǔ)言模型(LLM)在視頻理解中的應(yīng)用引起了廣泛關(guān)注。這些模型通過(guò)將視頻內(nèi)容轉(zhuǎn)化為文字,能夠更好地理解視頻的語(yǔ)義信息。例如,在視頻字幕生成、視頻問(wèn)答和動(dòng)作分類(lèi)等任務(wù)中,LLM展示了其強(qiáng)大的能力。

一些研究提出了使用記憶技術(shù)處理大量視頻內(nèi)容的框架,這些框架能夠有效地管理視頻中的時(shí)間依賴信息。此外,研究者們還探索了如何利用LLM進(jìn)行長(zhǎng)視頻理解,通過(guò)結(jié)合視覺(jué)和文本信息,進(jìn)一步提升模型的性能。

視頻理解領(lǐng)域的研究正在不斷發(fā)展,新的方法和技術(shù)不斷涌現(xiàn)。通過(guò)結(jié)合情節(jié)記憶和語(yǔ)義知識(shí),BREASE框架為長(zhǎng)視頻理解提供了一個(gè)新的思路,展示了其在處理復(fù)雜視頻數(shù)據(jù)方面的潛力。

方法

BREASE的設(shè)計(jì)理念

BREASE(BRidging Episodes And SEmantics)框架的設(shè)計(jì)靈感來(lái)自于人類(lèi)的認(rèn)知過(guò)程,旨在通過(guò)模擬情節(jié)記憶積累和語(yǔ)義知識(shí)的結(jié)合,更準(zhǔn)確地理解長(zhǎng)視頻內(nèi)容。該框架的核心理念是將視頻內(nèi)容分解為多個(gè)情節(jié)單元,并通過(guò)語(yǔ)義信息進(jìn)行強(qiáng)化,從而提高模型的理解能力。BREASE框架由多個(gè)模塊組成,每個(gè)模塊在視頻處理的不同階段發(fā)揮關(guān)鍵作用。

NVIDIA 聯(lián)合團(tuán)隊(duì)提出長(zhǎng)視頻理解的前沿技術(shù)BREASE,新框架連接情節(jié)和語(yǔ)義-AI.x社區(qū)

圖1:框架概述。逐窗口流式傳輸視頻,并使用凍結(jié)的ViT提取特征。每個(gè)窗口特征都由ECO(如圖左下所示)以在線方式處理,在此過(guò)程中丟棄冗余,并保留傳遞給情節(jié)Q-Former的視頻片段。視頻令牌庫(kù)包含每個(gè)窗口的特征,SeTR僅選擇高級(jí)信息傳遞到分層幀以對(duì)Q-Former進(jìn)行排序。然后將情節(jié)和高級(jí)表示連接起來(lái),然后饋送到凍結(jié)的LLM,LLM按照指令輸出文本。

視頻編碼的初步處理

BREASE框架的第一步是對(duì)視頻進(jìn)行編碼處理。為了處理任意長(zhǎng)度的視頻,首先需要指定要提取的幀數(shù),將視頻分割成若干不重疊的窗口。每個(gè)窗口的特征由ViT-G/14模型逐步編碼,提取出視頻數(shù)據(jù)的特征表示。這些特征表示將作為后續(xù)處理的輸入,為情節(jié)壓縮器(ECO)提供基礎(chǔ)數(shù)據(jù)。

情節(jié)壓縮器的工作機(jī)制

ECO(Episodic COmpressor)是BREASE框架中的關(guān)鍵組件之一,負(fù)責(zé)將視頻內(nèi)容分解為多個(gè)情節(jié)單元。ECO通過(guò)維護(hù)一個(gè)最大容量為E的記憶緩沖區(qū),接收窗口特征后,檢查緩沖區(qū)是否有足夠帶寬。如果有,則直接連接;否則進(jìn)行壓縮。ECO的核心是通過(guò)計(jì)算幀特征的余弦相似度,合并最相似的幀,直到滿足大小約束。這樣可以有效地減少冗余信息,保留視頻中的關(guān)鍵情節(jié)。

NVIDIA 聯(lián)合團(tuán)隊(duì)提出長(zhǎng)視頻理解的前沿技術(shù)BREASE,新框架連接情節(jié)和語(yǔ)義-AI.x社區(qū)

其中M是現(xiàn)有緩沖區(qū),F(xiàn)w表示w幀特征的傳入窗口,A是連接的緩沖區(qū)和新窗口,∥A?A的大小??偨Y(jié)方程式(2),Ai·Aj Ai Aj計(jì)算幀特征Ai和Aj之間的余弦相似度,arg-maxi?=j找到余弦相似度最高的幀對(duì),(Ai?+Aj?)2組合最相似的幀,A\Aj*刪除幀Aj*合并后的A。重復(fù)該過(guò)程,直到A的大小在允許的最大事件E范圍內(nèi),并且A成為新的緩沖區(qū)M′。

情節(jié)查詢變換器的作用

Episodic Q-Former使用與原始Q-Former相同的架構(gòu),通過(guò)自注意力和交叉注意力機(jī)制處理初始查詢和視覺(jué)表示。具體來(lái)說(shuō),Episodic Q-Former首先對(duì)初始查詢進(jìn)行自注意力處理,然后與ECO提供的視覺(jué)表示進(jìn)行交叉注意力處理。經(jīng)過(guò)這一過(guò)程,查詢被增強(qiáng),并通過(guò)類(lèi)似ECO的過(guò)程合并相似查詢,形成高信息密度的情節(jié)。這有助于在整個(gè)視頻中保持查詢的數(shù)量恒定,提高模型的處理效率。

語(yǔ)義檢索器的功能

SeTR(Semantics reTRiever)是BREASE框架中的另一個(gè)關(guān)鍵組件,負(fù)責(zé)從視頻特征中提取高層次的語(yǔ)義信息。SeTR通過(guò)歸一化特征、分組、計(jì)算相似度分?jǐn)?shù)并合并最相似的幀,減少幀數(shù),保留最相關(guān)的特征。具體來(lái)說(shuō),SeTR首先對(duì)視頻特征進(jìn)行歸一化處理,然后將幀分為兩組,計(jì)算兩組幀之間的相似度分?jǐn)?shù),并合并最相似的幀。這樣可以有效地減少特征維度,同時(shí)保留視頻中的關(guān)鍵語(yǔ)義信息。

將視頻表示轉(zhuǎn)化為自然語(yǔ)言輸出

在BREASE框架中,SeTR提取的語(yǔ)義表示通過(guò)層次化Q-Former處理后,與Episodic Q-Former的輸出連接,投射到大語(yǔ)言模型(如Vicuna-7B)的輸入空間。大語(yǔ)言模型根據(jù)提供的指令,生成所需的自然語(yǔ)言輸出。這一過(guò)程將視頻的視覺(jué)表示轉(zhuǎn)化為自然語(yǔ)言描述,使得模型能夠回答與視頻內(nèi)容相關(guān)的問(wèn)題,生成視頻字幕,或進(jìn)行其他形式的文本生成任務(wù)。

通過(guò)這些模塊的協(xié)同工作,BREASE框架能夠高效地處理和理解長(zhǎng)視頻內(nèi)容,顯著提高了視頻理解的性能和準(zhǔn)確性。

實(shí)驗(yàn)與結(jié)果

LVU和MovieChat數(shù)據(jù)集

在本研究中,BREASE框架的性能在兩個(gè)主要數(shù)據(jù)集上進(jìn)行了評(píng)估:LVU和MovieChat。LVU數(shù)據(jù)集專(zhuān)注于電影內(nèi)容和元數(shù)據(jù),提供了豐富的長(zhǎng)視頻分類(lèi)任務(wù)。MovieChat數(shù)據(jù)集則是一個(gè)新引入的數(shù)據(jù)集,專(zhuān)門(mén)用于長(zhǎng)視頻問(wèn)答任務(wù),涵蓋了電影中的對(duì)話和情節(jié)信息。這兩個(gè)數(shù)據(jù)集的選擇,旨在全面評(píng)估BREASE框架在不同長(zhǎng)視頻理解任務(wù)中的表現(xiàn)。

在不同數(shù)據(jù)集上的表現(xiàn)

在實(shí)驗(yàn)中,BREASE框架展示了其在長(zhǎng)視頻理解任務(wù)中的卓越性能。通過(guò)對(duì)LVU和MovieChat數(shù)據(jù)集的測(cè)試,BREASE框架在多個(gè)基準(zhǔn)上實(shí)現(xiàn)了最先進(jìn)的結(jié)果,顯著超越了現(xiàn)有方法。

NVIDIA 聯(lián)合團(tuán)隊(duì)提出長(zhǎng)視頻理解的前沿技術(shù)BREASE,新框架連接情節(jié)和語(yǔ)義-AI.x社區(qū)

表1:LVU數(shù)據(jù)集的SOTA比較:該表顯示了各種模型的前1精度。最高分以粗體突出顯示,次高分以下劃線突出顯示。與其他方法中觀察到的微小增量改進(jìn)不同,我們的模型表現(xiàn)出了顯著的性能飛躍,平均比其最接近的競(jìng)爭(zhēng)對(duì)手高出7.3%。

分類(lèi)準(zhǔn)確率的提升

在LVU數(shù)據(jù)集上,BREASE框架的表現(xiàn)尤為突出。實(shí)驗(yàn)結(jié)果顯示,BREASE在長(zhǎng)視頻分類(lèi)任務(wù)中的top-1分類(lèi)準(zhǔn)確率顯著提高了7.3%。這一顯著提升表明,BREASE框架在處理復(fù)雜電影內(nèi)容和元數(shù)據(jù)時(shí),能夠更好地捕捉和理解視頻中的關(guān)鍵情節(jié)和語(yǔ)義信息。

零樣本和完全監(jiān)督場(chǎng)景下的表現(xiàn)

在MovieChat數(shù)據(jù)集上,BREASE框架同樣表現(xiàn)出色。在零樣本模式下,BREASE的準(zhǔn)確率提高了14.9%,顯著超過(guò)了之前的最先進(jìn)方法。此外,在完全監(jiān)督場(chǎng)景下,BREASE框架通過(guò)對(duì)MovieChat訓(xùn)練集進(jìn)行一次訓(xùn)練,進(jìn)一步提升了模型的性能。這些結(jié)果表明,BREASE框架在處理長(zhǎng)視頻問(wèn)答任務(wù)時(shí),能夠有效地理解和回答與視頻內(nèi)容相關(guān)的問(wèn)題。

ECO和SeTR的重要性分析

為了進(jìn)一步驗(yàn)證BREASE框架中各個(gè)組件的重要性,研究團(tuán)隊(duì)進(jìn)行了多次消融實(shí)驗(yàn),重點(diǎn)分析了ECO和SeTR的作用。

在ECO的重要性實(shí)驗(yàn)中,結(jié)果表明,缺少ECO會(huì)導(dǎo)致模型性能顯著下降。具體來(lái)說(shuō),ECO通過(guò)有效地壓縮和聚合視頻中的情節(jié)信息,顯著提高了模型的理解能力。相比之下,使用隨機(jī)選擇特征或FIFO流式方法的替代策略,均未能達(dá)到ECO的效果。

在SeTR的重要性實(shí)驗(yàn)中,結(jié)果顯示,移除SeTR會(huì)導(dǎo)致準(zhǔn)確率下降5%。SeTR通過(guò)提取視頻中的高層次語(yǔ)義信息,幫助模型更好地理解視頻的整體結(jié)構(gòu)和內(nèi)容。相比之下,簡(jiǎn)單的方法如最大池化和平均池化效果不如SeTR。

通過(guò)這些消融實(shí)驗(yàn),研究團(tuán)隊(duì)驗(yàn)證了ECO和SeTR在BREASE框架中的關(guān)鍵作用,進(jìn)一步證明了BREASE框架在長(zhǎng)視頻理解任務(wù)中的卓越性能。

BREASE框架在LVU和MovieChat數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,展示了其在長(zhǎng)視頻理解任務(wù)中的強(qiáng)大能力。通過(guò)有效地結(jié)合情節(jié)記憶和語(yǔ)義信息,BREASE框架為長(zhǎng)視頻理解提供了一個(gè)新的思路,顯著提升了視頻理解的性能和準(zhǔn)確性。

討論

BREASE框架的創(chuàng)新點(diǎn)

BREASE框架在長(zhǎng)視頻理解領(lǐng)域引入了多項(xiàng)創(chuàng)新,顯著提升了模型的性能和理解能力。首先,BREASE通過(guò)模擬人類(lèi)的認(rèn)知過(guò)程,將視頻內(nèi)容分解為多個(gè)情節(jié)單元,并通過(guò)語(yǔ)義信息進(jìn)行強(qiáng)化。這種方法不僅提高了模型對(duì)視頻內(nèi)容的理解深度,還有效地減少了冗余信息。

Episodic COmpressor (ECO) 是BREASE框架中的關(guān)鍵組件之一。ECO通過(guò)維護(hù)一個(gè)記憶緩沖區(qū),動(dòng)態(tài)地壓縮和聚合視頻中的情節(jié)信息,保留了視頻中的關(guān)鍵情節(jié)。這種方法模擬了人類(lèi)的情節(jié)記憶積累過(guò)程,使得模型能夠更好地捕捉視頻中的動(dòng)作序列和情節(jié)變化。

Semantics reTRiever (SeTR) 則通過(guò)提取視頻中的高層次語(yǔ)義信息,增強(qiáng)了模型對(duì)視頻內(nèi)容的理解。SeTR通過(guò)歸一化特征、分組、計(jì)算相似度分?jǐn)?shù)并合并最相似的幀,減少了特征維度,同時(shí)保留了視頻中的關(guān)鍵語(yǔ)義信息。這種方法不僅提高了模型的處理效率,還增強(qiáng)了模型對(duì)視頻整體結(jié)構(gòu)和內(nèi)容的理解。

與現(xiàn)有方法的對(duì)比

在多個(gè)長(zhǎng)視頻理解基準(zhǔn)上,BREASE框架展示了其卓越的性能。與現(xiàn)有方法相比,BREASE在LVU和MovieChat數(shù)據(jù)集上的表現(xiàn)尤為突出。在LVU數(shù)據(jù)集上,BREASE的top-1分類(lèi)準(zhǔn)確率顯著提高了7.3%,展示了其在處理復(fù)雜電影內(nèi)容和元數(shù)據(jù)時(shí)的強(qiáng)大能力。在MovieChat數(shù)據(jù)集上,BREASE在零樣本模式下的準(zhǔn)確率提高了14.9%,顯著超過(guò)了之前的最先進(jìn)方法。這些結(jié)果表明,BREASE框架在處理長(zhǎng)視頻問(wèn)答任務(wù)時(shí),能夠有效地理解和回答與視頻內(nèi)容相關(guān)的問(wèn)題。

通過(guò)消融實(shí)驗(yàn),研究團(tuán)隊(duì)進(jìn)一步驗(yàn)證了ECO和SeTR在BREASE框架中的關(guān)鍵作用。結(jié)果顯示,缺少ECO會(huì)導(dǎo)致模型性能顯著下降,而移除SeTR則會(huì)導(dǎo)致準(zhǔn)確率下降5%。這些實(shí)驗(yàn)結(jié)果進(jìn)一步證明了BREASE框架在長(zhǎng)視頻理解任務(wù)中的卓越性能。

在實(shí)際應(yīng)用中的潛力

BREASE框架在實(shí)際應(yīng)用中具有廣泛的潛力。首先,在視頻摘要方面,BREASE可以自動(dòng)生成視頻摘要,幫助用戶快速獲取視頻的核心內(nèi)容,節(jié)省時(shí)間和精力。這在新聞、教育和娛樂(lè)等領(lǐng)域尤為重要。其次,在內(nèi)容檢索方面,BREASE可以通過(guò)視頻內(nèi)容進(jìn)行搜索和檢索,提高信息獲取的效率。例如,在大型視頻庫(kù)中快速找到相關(guān)視頻片段。

在內(nèi)容審核方面,BREASE可以自動(dòng)檢測(cè)和過(guò)濾不良內(nèi)容,保障平臺(tái)內(nèi)容的安全性。這對(duì)于社交媒體平臺(tái)和視頻分享網(wǎng)站尤為重要,可以有效防止不良信息的傳播。在版權(quán)保護(hù)方面,BREASE可以識(shí)別和管理視頻內(nèi)容的版權(quán)信息,防止侵權(quán)行為的發(fā)生。這對(duì)于保護(hù)創(chuàng)作者的權(quán)益和維護(hù)市場(chǎng)秩序具有重要意義。

此外,BREASE還可以用于智能推薦,根據(jù)用戶的觀看歷史和偏好,推薦相關(guān)視頻內(nèi)容,提升用戶體驗(yàn)。這在流媒體平臺(tái)和視頻分享網(wǎng)站中得到了廣泛應(yīng)用??偟膩?lái)說(shuō),BREASE框架為長(zhǎng)視頻理解提供了一個(gè)新的思路,展示了其在處理復(fù)雜視頻數(shù)據(jù)方面的強(qiáng)大能力和廣泛應(yīng)用前景。

參考資料:https://arxiv.org/pdf/2408.17443

本文轉(zhuǎn)載自??大噬元獸??,作者: FlerkenS ????

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦