3B模型逆襲7B巨頭!Video-XL-Pro突破長(zhǎng)視頻理解極限,大海撈針準(zhǔn)確率超98%
3B模型超越Meta 7B模型,超長(zhǎng)視頻理解SOTA刷新了!
來(lái)自上海交通大學(xué)、北京智源研究院、特倫托大學(xué)的聯(lián)合研究團(tuán)隊(duì)推出了Video-XL-Pro,實(shí)現(xiàn)近一萬(wàn)幀視頻的單卡處理,大海撈針準(zhǔn)確率超98%。
現(xiàn)有的多模態(tài)大模型在超長(zhǎng)視頻訓(xùn)練和應(yīng)用中仍存在顯著瓶頸:一方面,難以大規(guī)模訓(xùn)練超長(zhǎng)視頻;另一方面,在處理長(zhǎng)視頻時(shí),仍然面臨性能差和效率低的雙重挑戰(zhàn)。
對(duì)此,Video-XL-Pro創(chuàng)新采用“重構(gòu)式token壓縮”技術(shù),并且使用較少的訓(xùn)練數(shù)據(jù),在多個(gè)基準(zhǔn)評(píng)測(cè)上超越了之前Meta發(fā)布的7B模型Apollo-7B,以及同尺寸的知名開源模型Qwen2.5-VL-3B、InternVL2.5-4B等,項(xiàng)目代碼,模型,訓(xùn)練數(shù)據(jù)均已開源。
模型結(jié)構(gòu)
Video-XL-Pro的核心在于其提出的重構(gòu)性token壓縮技術(shù)(ReCoT),該技術(shù)通過(guò)自監(jiān)督學(xué)習(xí)生成全面且緊湊的視頻token,顯著提升了視頻理解的效率和質(zhì)量。
ReCoT包含兩個(gè)關(guān)鍵組件:動(dòng)態(tài)token合成器(DTS)和語(yǔ)義引導(dǎo)掩碼(SGM)。
DTS通過(guò)輕量級(jí)的時(shí)空注意力塊對(duì)token進(jìn)行壓縮,有效捕捉視頻中的動(dòng)態(tài)運(yùn)動(dòng);而SGM則通過(guò)自適應(yīng)掩碼策略,減少冗余視覺(jué)token,從而優(yōu)化重構(gòu)學(xué)習(xí)過(guò)程。
這些創(chuàng)新設(shè)計(jì)使得模型在僅需3B參數(shù)的情況下,性能超越了許多7B參數(shù)的模型。
此外,為了增強(qiáng)模型對(duì)超長(zhǎng)視頻理解能力,模型還引入了查詢選擇器,使得在輸入上下文超過(guò)限制時(shí)模型能夠選擇性關(guān)注和查詢有關(guān)的片段。
為了進(jìn)一步提升訓(xùn)練效率,研究團(tuán)隊(duì)還提出了視頻數(shù)據(jù)集剪枝策略。
這些方法通過(guò)篩選高質(zhì)量視頻數(shù)據(jù),顯著降低了計(jì)算成本,同時(shí)保障模型的性能。
評(píng)測(cè)基準(zhǔn)
Video-XL-Pro選用多個(gè)主流視頻理解評(píng)測(cè)基準(zhǔn),對(duì)模型進(jìn)行了全面的評(píng)測(cè),對(duì)于長(zhǎng)視頻理解任務(wù),評(píng)測(cè)了LongVideoBench、MLVU、Video-MME,TempCompass和VNbench。
其中MLVU,VideoMME,LongVideoBench集中在評(píng)測(cè)模型的長(zhǎng)視頻理解能力。
VNbench則是兼顧長(zhǎng)視頻與短視頻,TempCompass則是評(píng)測(cè)模型在視頻中的時(shí)間理解能力。
如表1所示,Video-XL-Pro在多個(gè)主流的長(zhǎng)視頻評(píng)測(cè)基準(zhǔn)上展現(xiàn)了卓越性能。
在MLVU的Dev、Test,以及TempCompass上,VIdeo-XL-Pro均斬獲了第一名,不光超越同參數(shù)量的知名開源模型qwen2.5-VL-3B和internVL2.5-4B等,也超越了一眾7B模型,包括Meta發(fā)布的7B模型Apollo-7B等。
在VideoMME,LongVideoBench,Video-XL-Pro也超越了絕大部分同參數(shù)量模型,并達(dá)到與7B模型相當(dāng)?shù)乃疁?zhǔn)。
最后在VNbench上,VIdeo-XL-Pro也取得有競(jìng)爭(zhēng)力的結(jié)果,說(shuō)明模型在增強(qiáng)長(zhǎng)視頻理解能力的同時(shí),也能兼顧短視頻能力。
值得注意的是,VIdeo-XL-Pro只使用了相對(duì)較少的SFT數(shù)據(jù)(1M),低于Apollo的3.2M,遠(yuǎn)低于Qwen2.5-VL,InternVL2.5等知名開源模型,進(jìn)一步說(shuō)明了方法的有效性。
Video-XL-Pro還進(jìn)行了視頻「大海撈針」測(cè)試來(lái)評(píng)估其處理超長(zhǎng)上下文的能力。
得益于ReCot模塊和查詢選擇器的設(shè)計(jì),使得模型可以輸入極長(zhǎng)的上下文序列,在相同硬件條件下,模型可以以8192幀為輸入,達(dá)到了近99%的準(zhǔn)確率。
時(shí)間理解
為了更全面的評(píng)估模型性能,我們還選用了經(jīng)典時(shí)間評(píng)測(cè)基準(zhǔn)Charades-STA和最新的長(zhǎng)視頻時(shí)間評(píng)測(cè)基準(zhǔn)V-STaR。
V-STaR注重在極長(zhǎng)視頻中找出與問(wèn)題相關(guān)的片段,精準(zhǔn)回答片段時(shí)間范圍,現(xiàn)有開源模型在V-STaR中很難取得很好的成績(jī),即便是Qwen2.5-VL-7B,mIoU得分也僅為11.48。
Video-XL-Pro-3B在最新的V-STaR長(zhǎng)視頻時(shí)間基準(zhǔn)測(cè)試斬獲25.07的mIoU得分,在IoU>0.7時(shí)仍能達(dá)到15.58的準(zhǔn)確率,遠(yuǎn)上超越一眾知名開源模型,包括InternVL2.5-8B和Qwen2.5-VL-7B,并超越上一代冠軍Video-LLaMA3,展現(xiàn)了卓越的長(zhǎng)視頻時(shí)間理解能力,并且在Charades-STA上也有著不俗的表現(xiàn)。
總結(jié)
該工作提出了Video-XL-Pro模型,利用自監(jiān)督學(xué)習(xí)壓縮視覺(jué)標(biāo)記,使用相對(duì)少量數(shù)據(jù)下訓(xùn)練的3B模型就能獲得超越大多數(shù)7B模型的性能。
Video-XL-Pro在多個(gè)主流長(zhǎng)視頻理解基準(zhǔn)評(píng)測(cè)上表現(xiàn)優(yōu)異。
模型有望在多個(gè)長(zhǎng)視頻理解的應(yīng)用場(chǎng)景中展現(xiàn)出廣泛的應(yīng)用價(jià)值,成為得力的長(zhǎng)視頻理解助手。
目前,模型、代碼、訓(xùn)練數(shù)據(jù)均已開源,以促進(jìn)長(zhǎng)視頻理解社區(qū)的合作和發(fā)展。
論文鏈接:https://arxiv.org/abs/2503.18478
代碼鏈接:https://github.com/VectorSpaceLab/Video-XL/tree/main/Video-XL-Pro
模型鏈接:https://huggingface.co/MINT-SJTU/Video-XL-Pro-3B
訓(xùn)練數(shù)據(jù)鏈接:https://huggingface.co/datasets/MINT-SJTU/Video-XL-Pro-Training