Tiktok多模態(tài)大模型最新研究:顯示序列建模提升視頻理解能力
今天給大家介紹一篇視頻多模態(tài)大模型工作,這篇文章的核心是探索了在現(xiàn)有的SOTA視頻多模態(tài)大模型中,引入顯示的視頻時(shí)序建模提升模型的視頻理解能力。
論文標(biāo)題:Exploring the Role of Explicit Temporal Modeling in Multimodal Large Language Models for Video Understanding
下載地址:??https://arxiv.org/pdf/2501.16786??
1.研究背景
傳統(tǒng)的時(shí)間序列預(yù)測(cè)方法,都是最基礎(chǔ)的時(shí)間序列形式數(shù)據(jù)進(jìn)行建模的。然而,最近一些工作將文本信息、圖像信息等模態(tài)引入時(shí)間序列建模中。例如,將時(shí)間序列轉(zhuǎn)換成文本形式輸入到LLM,或者將時(shí)間序列轉(zhuǎn)換成圖像數(shù)據(jù)輸入圖像模型。
視頻多模態(tài)大模型一般都基于訓(xùn)練好的Large Language Model進(jìn)行擴(kuò)展,實(shí)現(xiàn)對(duì)視頻、圖像等數(shù)據(jù)的處理?,F(xiàn)有的兼容視頻模態(tài)的多模態(tài)大模型中,對(duì)于是否顯示考慮視頻各個(gè)幀的時(shí)序關(guān)系,有兩種處理方法。一種是隱式的建模,即將不同幀的圖片按順序拼接到一起,直接輸入到LLM中,希望利用LLM的時(shí)序建模能力隱式建模視頻時(shí)序關(guān)系。另一種方法是引入直接的時(shí)序建模模塊,將時(shí)序建模表征輸入LLM。
隱式時(shí)序建模無(wú)法充分建模視頻時(shí)序關(guān)系,因此本文研究了顯示建模視頻時(shí)序關(guān)系的方法,并提出了再視頻幀表征基礎(chǔ)上使用引入 Stackable Temporal Encoder建模視頻時(shí)序關(guān)系,在以LLaVA為基礎(chǔ)的SOTA視頻多模態(tài)大模型上取得顯著效果提升。
2.研究背景
首先介紹一下基礎(chǔ)的視頻多模態(tài)大模型結(jié)構(gòu)。以LLaVA為例,其基本結(jié)構(gòu)由一個(gè)LLM和一個(gè)視覺(jué)編碼器(如ViT)組成,視覺(jué)編碼器的表征通過(guò)MLP(Vision-Language Projector)映射后和文本token表征拼接到一起輸入到大模型。在訓(xùn)練方式上,采用Instruction Tuning進(jìn)行圖文的訓(xùn)練,同時(shí)也可以引入視頻-文本數(shù)據(jù)進(jìn)行訓(xùn)練,對(duì)視頻采用采樣幀的方式轉(zhuǎn)換成圖片的方式輸入到LLM。
本文的核心則是在上述架構(gòu)的基礎(chǔ)上,在視覺(jué)編碼器和MLP映射層之間加了一個(gè)對(duì)視頻進(jìn)行時(shí)序表征提取的模塊(Temporal Encoder),顯示的讓視頻表征能夠考慮到前后幀的時(shí)序關(guān)系。
Temporal Encoder模塊具體的結(jié)構(gòu)如下圖,是由多層卷積神經(jīng)網(wǎng)絡(luò)組成。每一層卷積神經(jīng)網(wǎng)絡(luò)設(shè)定了input幀數(shù)和output幀數(shù)的比例,根據(jù)這一比例通過(guò)滑動(dòng)窗口進(jìn)行單元的劃分,每個(gè)單元內(nèi)使用卷積建模單元內(nèi)連續(xù)幀之間的關(guān)系,生成考慮時(shí)序信息的視頻表征。每個(gè)卷積輸出多個(gè)channel,每個(gè)channel對(duì)應(yīng)一個(gè)維度的視頻表征。
具體的卷積計(jì)算邏輯如下。每一幀都對(duì)應(yīng)多個(gè)patch(共p個(gè)patch),每個(gè)patch對(duì)應(yīng)一個(gè)patch embedding(維度為d),形式如下:
其中需要定義好輸入的幀數(shù)(Tu)、輸出的幀數(shù)(To),根據(jù)輸出幀數(shù)、滑動(dòng)步數(shù)等來(lái)確定每層卷積輸出的channel數(shù)量,最后將每個(gè)卷積channel結(jié)果拼接到一起,還原對(duì)應(yīng)的目標(biāo)幀數(shù)。最終每一層輸出的維度如下:
3.實(shí)驗(yàn)效果
通過(guò)在現(xiàn)有的SOTA視頻多模態(tài)大模型LLaVA-OV和LLaVA-Video上的實(shí)驗(yàn)可以看出,引入了Temporal Encoder可以顯著的提升視頻理解任務(wù)上的效果。
本文轉(zhuǎn)載自??圓圓的算法筆記??
