自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

長(zhǎng)視頻理解新突破!Mamba混合架構(gòu)讓顯存消耗腰斬,處理10萬(wàn)視頻token不費(fèi)力

人工智能
本文介紹了Vamba模型,一種專為高效理解超長(zhǎng)視頻設(shè)計(jì)的Mamba-Transformer混合模型。該方法通過(guò)集成面向文本token的交叉注意力機(jī)制與面向視頻token的Mamba-2模塊更新策略,在顯著降低計(jì)算復(fù)雜度與顯存占用的同時(shí),實(shí)現(xiàn)了對(duì)長(zhǎng)、中、短視頻理解任務(wù)的性能提升。

Mamba混合架構(gòu)視頻模型來(lái)了,不再對(duì)視頻token進(jìn)行壓縮——

而是通過(guò)改進(jìn)模型架構(gòu)設(shè)計(jì)的方式提升模型在訓(xùn)練及推理預(yù)填充階段處理視頻token的效率。

圖片圖片

滑鐵盧大學(xué)陳文虎團(tuán)隊(duì)與多倫多大學(xué)、零一萬(wàn)物、向量學(xué)院以及M-A-P的研究人員提出了一種新的Mamba-Transformer混合模型Vamba。

圖片圖片

通過(guò)大量實(shí)驗(yàn)驗(yàn)證,研究團(tuán)隊(duì)發(fā)現(xiàn)Vamba在同等硬件條件下可處理的視頻幀數(shù)較傳統(tǒng)Transformer架構(gòu)提升4倍,訓(xùn)練內(nèi)存消耗降低50%以上,并且可實(shí)現(xiàn)單步訓(xùn)練速度的翻倍。

同時(shí),該方法完整保留了原始視頻的時(shí)空特征,避免傳統(tǒng)方法因降采樣或池化操作導(dǎo)致的關(guān)鍵動(dòng)作或場(chǎng)景的信息丟失。

在多個(gè)長(zhǎng)視頻的評(píng)價(jià)標(biāo)準(zhǔn)上,Vamba保持了高準(zhǔn)確率和出色的性能,尤其在LVBench長(zhǎng)視頻理解基準(zhǔn)上相較先前的高效長(zhǎng)視頻理解模型達(dá)到了約4.3%的性能提升。團(tuán)隊(duì)現(xiàn)已開(kāi)源Vamba模型的代碼、模型權(quán)重以及訓(xùn)練、推理腳本供研究社區(qū)進(jìn)一步探索與應(yīng)用。

核心方法

目前流行的多模態(tài)大語(yǔ)言模型多使用Transformer作為模型的基本結(jié)構(gòu),其中的因果注意力機(jī)制相對(duì)于輸入的token序列長(zhǎng)度存在二次時(shí)間/空間復(fù)雜度關(guān)系。

在長(zhǎng)視頻理解任務(wù)中,多模態(tài)大模型一般會(huì)將視頻轉(zhuǎn)化為一段極長(zhǎng)的token序列,因此這些模型往往需要高昂的訓(xùn)練或推理成本。舉例來(lái)說(shuō),一種較為流行的視頻編碼方式為使用CLIP或者SigLIP編碼器將視頻的每幀轉(zhuǎn)換為約196個(gè)token。

基于這種編碼方式,一個(gè)512幀的視頻輸入將會(huì)轉(zhuǎn)換為約10萬(wàn)個(gè)視頻token,從而造成極高的訓(xùn)練或推理復(fù)雜度?,F(xiàn)有方法在處理這個(gè)問(wèn)題時(shí),往往采用壓縮視頻token數(shù)量的模型設(shè)計(jì),即通過(guò)不同的壓縮機(jī)制合并或刪除一些非必要的視頻token并縮短視頻token序列長(zhǎng)度,從而降低多模態(tài)模型在長(zhǎng)視頻理解任務(wù)上的資源消耗。

盡管相關(guān)研究已經(jīng)取得了一定的進(jìn)展,這些高效的長(zhǎng)視頻理解模型仍然存在一個(gè)共同的問(wèn)題,即過(guò)度的視頻token序列壓縮可能會(huì)造成一定程度的信息損失。這使得目前的高效長(zhǎng)視頻理解模型在性能方面仍然與最頂級(jí)的模型存在一定差距。

Vamba的核心設(shè)計(jì)思路是將原本作用于整個(gè)視頻+文本序列的運(yùn)算成本高昂的因果自注意力運(yùn)算操作分解為兩個(gè)更為高效且協(xié)同操作的計(jì)算組件。

(1)在處理文字token的過(guò)程中,通過(guò)引入交叉注意力機(jī)制使文字token獲得視頻token的信息。此類操作的計(jì)算開(kāi)銷相比將文字與視頻同時(shí)經(jīng)由因果注意力模塊處理更為可控,同時(shí)確保文本語(yǔ)義與視覺(jué)信息的高效對(duì)齊。

(2)針對(duì)海量的視頻token,采用基于狀態(tài)空間模型(SSM)的Mamba-2模塊進(jìn)行序列建模。該模塊通過(guò)選擇性掃描機(jī)制,在保持了更新視頻token序列時(shí)可以檢索全局序列信息的同時(shí),將計(jì)算復(fù)雜度從Transformer的二次復(fù)雜度降至線性復(fù)雜度,從而突破了長(zhǎng)視頻序列的處理瓶頸。

如圖所示,對(duì)于文字token輸入,Vamba使用了因果自注意力機(jī)制和交叉注意力機(jī)制同時(shí)處理文字token,從而省去了視頻token在因果注意力模塊中所需要的計(jì)算成本。在此基礎(chǔ)上,Vamba使用Mamba-2模塊處理視頻token序列,從而既保持了對(duì)視頻序列的信息更新又將該操作所需要的復(fù)雜度控制在了線性范圍。

圖片圖片

研究團(tuán)隊(duì)通過(guò)不同幀數(shù)的視頻輸入,對(duì)Vamba與Transformer模型在訓(xùn)練與推理中的計(jì)算成本進(jìn)行了比較。對(duì)比發(fā)現(xiàn)Vamba在長(zhǎng)視頻/高幀數(shù)輸入的情景下(128幀及以上的視頻輸入),相比Transformer類模型達(dá)到了50%以上的運(yùn)行時(shí)間與顯存需求下降。同時(shí),Vamba可以準(zhǔn)確地描述視頻內(nèi)容,根據(jù)用戶輸入的問(wèn)題對(duì)視頻進(jìn)行分析,并作出相應(yīng)的回答。

圖片圖片

總結(jié)

本文介紹了Vamba模型,一種專為高效理解超長(zhǎng)視頻設(shè)計(jì)的Mamba-Transformer混合模型。

該方法通過(guò)集成面向文本token的交叉注意力機(jī)制與面向視頻token的Mamba-2模塊更新策略,在顯著降低計(jì)算復(fù)雜度與顯存占用的同時(shí),實(shí)現(xiàn)了對(duì)長(zhǎng)、中、短視頻理解任務(wù)的性能提升?;贚VBench等數(shù)據(jù)集的大量實(shí)驗(yàn)評(píng)估表明,Vamba在長(zhǎng)視頻理解任務(wù)中以4.3%的顯著優(yōu)勢(shì)超越了現(xiàn)有的高效長(zhǎng)視頻理解模型,并在多個(gè)分布各個(gè)視頻時(shí)常區(qū)間的基準(zhǔn)測(cè)試中展現(xiàn)出了卓越的競(jìng)爭(zhēng)力。

論文地址:https://arxiv.org/abs/2503.11579

項(xiàng)目主頁(yè):https://tiger-ai-lab.github.io/Vamba/

代碼倉(cāng)庫(kù):https://github.com/TIGER-AI-Lab/Vamba

模型權(quán)重:https://huggingface.co/TIGER-Lab/Vamba-Qwen2-VL-7B

責(zé)任編輯:武曉燕 來(lái)源: 量子位
相關(guān)推薦

2021-03-01 15:51:56

AVG視頻技術(shù)

2025-04-07 07:55:00

視頻訓(xùn)練生成

2021-11-29 15:05:31

Commvault

2025-02-27 09:39:49

2013-03-22 17:34:07

BlackBerry1BB10黑莓

2024-07-15 08:58:00

2024-03-11 00:50:00

AI框架數(shù)據(jù)

2025-03-10 08:47:00

模型AI訓(xùn)練

2010-05-12 19:40:09

2018-02-25 12:14:20

MITAI技術(shù)卡頓

2024-10-30 15:00:00

AI視頻模型

2025-01-15 13:40:00

2024-07-15 08:20:00

2025-02-19 11:28:00

2023-11-24 12:10:43

AI模型

2025-04-03 09:34:36

2023-11-16 16:33:43

谷歌人工智能

2021-03-16 14:35:16

架構(gòu)AI技術(shù)

2024-02-21 20:10:18

滾動(dòng)視頻網(wǎng)頁(yè)

2021-09-07 18:34:14

混合云架構(gòu)私有云云計(jì)算
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)