達(dá)摩院開(kāi)源VideoLLaMA3:僅7B大小,視頻理解拿下SOTA | 在線可玩
7B大小的視頻理解模型中的新SOTA,來(lái)了!
它就是由達(dá)摩院出品的Video LLaMA 3,以圖像為中心構(gòu)建的新一代多模態(tài)視頻-語(yǔ)言模型。
在通用視頻理解、時(shí)間推理和長(zhǎng)視頻理解三個(gè)核心維度進(jìn)行評(píng)估的過(guò)程中,VideoLLaMA 3均取得優(yōu)異成績(jī),超越多數(shù)基線模型。
不僅如此,適用于端側(cè)的2B大小的Video LLaMA 3,在圖像理解上的表現(xiàn)也是較為出色。
在涵蓋文檔 / 圖表 / 場(chǎng)景文本理解、數(shù)學(xué)推理、多圖像理解和常識(shí)問(wèn)答等多個(gè)維度的基準(zhǔn)測(cè)試,如在InfoVQA中超越之前最好成績(jī),在MathVista數(shù)學(xué)推理任務(wù)上優(yōu)勢(shì)明顯。
VideoLLaMA 3以圖片為中心的設(shè)計(jì)理念貫穿于整個(gè)模型架構(gòu)和訓(xùn)練過(guò)程。
通過(guò)高質(zhì)量的圖片文本數(shù)據(jù)為視頻理解打下堅(jiān)實(shí)基礎(chǔ),僅使用3M視頻文本數(shù)據(jù),實(shí)現(xiàn)全面超越同參數(shù)量開(kāi)源模型的視頻理解能力。
在線可玩
目前,VideoLLaMA 3已經(jīng)在HuggingFace上提供了圖像、視頻理解的demo。
例如我們給一張《蒙娜麗莎的微笑》,并向VideoLLaMA 3提問(wèn):
Discuss the historical impact and the significance of this painting in the art world.
討論這幅畫在藝術(shù)界的歷史影響和意義。
VideoLLaMA 3的回答是這樣的:
《蒙娜麗莎》不僅是世界上最著名的畫作之一,也是藝術(shù)史上的重要作品。它創(chuàng)作于文藝復(fù)興時(shí)期,體現(xiàn)了該時(shí)期對(duì)人文主義的關(guān)注和古典學(xué)習(xí)的復(fù)興。列奧納多·達(dá)·芬奇的創(chuàng)新技術(shù),如在色彩和色調(diào)之間進(jìn)行柔和過(guò)渡的模糊手法,為這幅畫的神秘品質(zhì)做出了貢獻(xiàn)。幾個(gè)世紀(jì)以來(lái),《蒙娜麗莎》一直是一個(gè)迷人的主題,激發(fā)了無(wú)數(shù)的解釋和分析。它已成為西方文化的標(biāo)志,象征著藝術(shù)成就的頂峰,象征著視覺(jué)藝術(shù)對(duì)跨越時(shí)間和文化的觀眾的持久魅力。
再來(lái)看下視頻理解的demo,我們的問(wèn)題是:
What is unusual in the video?
視頻中有什么不尋常之處?
對(duì)此,VideoLLaMA 3表示:
這段視頻的不同尋常之處在于,它展示了熊這種典型的野生動(dòng)物,正在進(jìn)行一種類似人類的活動(dòng),比如在桌子上吃壽司。
VideoLLaMA 3回答可謂是非常簡(jiǎn)約且精準(zhǔn)了。
并且這個(gè)demo在HuggingFace上的操作也是極其簡(jiǎn)單,只需上傳圖片或視頻,再提出你的問(wèn)題即可。
怎么做到的?
VideoLLaMA 3的關(guān)鍵,在于它是一種以圖像為中心的訓(xùn)練范式。
這種范式主要包含四個(gè)關(guān)鍵內(nèi)容:
- 視覺(jué)編碼器適配:讓視覺(jué)編碼器能處理動(dòng)態(tài)分辨率圖像,用不同場(chǎng)景圖像提升其性能,使其能捕捉精細(xì)視覺(jué)細(xì)節(jié)。
- 視覺(jué)語(yǔ)言對(duì)齊:用豐富圖像文本數(shù)據(jù)為多模態(tài)理解打基礎(chǔ),利用多種數(shù)據(jù)增強(qiáng)空間推理能力,同時(shí)保留模型語(yǔ)言能力。
- 多任務(wù)微調(diào):用圖像文本問(wèn)答數(shù)據(jù)和視頻字幕數(shù)據(jù)微調(diào)模型,提升其遵循自然語(yǔ)言指令和多模態(tài)理解能力,為視頻理解做準(zhǔn)備。
- 視頻微調(diào):增強(qiáng)模型視頻理解和問(wèn)答能力,訓(xùn)練數(shù)據(jù)包含多種視頻及圖像、文本數(shù)據(jù)。
從框架設(shè)計(jì)來(lái)看,主要包含兩大內(nèi)容。
首先是任意分辨率視覺(jué)標(biāo)記化(AVT)。
這種方法突破了傳統(tǒng)固定分辨率限制,采用2D - RoPE替換絕對(duì)位置嵌入,讓視覺(jué)編碼器能處理不同分辨率圖像和視頻,保留更多細(xì)節(jié)。
其次是差分幀剪枝器(DiffFP)。
針對(duì)視頻數(shù)據(jù)冗余問(wèn)題,通過(guò)比較相鄰幀像素空間的1-范數(shù)距離,修剪冗余視頻標(biāo)記,提高視頻處理效率,減少計(jì)算需求。
除了框架之外,高質(zhì)量數(shù)據(jù)也對(duì)VideoLLaMA 3的性能起到了關(guān)鍵作用。
首先是高質(zhì)量圖像重新標(biāo)注數(shù)據(jù)集VL3Syn7M的構(gòu)建。
為給 VideoLLaMA 3 提供高質(zhì)量訓(xùn)練數(shù)據(jù),團(tuán)隊(duì)構(gòu)建了包含700萬(wàn)圖像-字幕對(duì)的VL3Syn7M數(shù)據(jù)集。
- Aspect Ratio Filtering(長(zhǎng)寬比過(guò)濾):圖像長(zhǎng)寬比可能影響模型特征提取。像一些長(zhǎng)寬比極端的圖像,過(guò)寬或過(guò)長(zhǎng),會(huì)使模型在處理時(shí)產(chǎn)生偏差。通過(guò)過(guò)濾,確保數(shù)據(jù)集中圖像長(zhǎng)寬比處于典型范圍,為后續(xù)準(zhǔn)確的特征提取奠定基礎(chǔ)。
- Aesthetic Score Filtering(美學(xué)評(píng)分過(guò)濾):利用美學(xué)評(píng)分模型評(píng)估圖像視覺(jué)質(zhì)量,舍棄低評(píng)分圖像。這一步能去除視覺(jué)效果差、構(gòu)圖不佳的圖像,減少噪聲干擾,保證模型學(xué)習(xí)到的圖像內(nèi)容和描述質(zhì)量更高,進(jìn)而提升模型生成優(yōu)質(zhì)描述的能力。
- Text-Image Similarity Calculation with Coarse Captioning(帶粗略字幕的文本-圖像相似度計(jì)算):先用 BLIP2 模型為圖像生成初始字幕,再借助CLIP模型計(jì)算文本 - 圖像相似度,剔除相似度低的圖像。這一操作確保剩余圖像內(nèi)容與描述緊密相關(guān),使模型學(xué)習(xí)到的圖文對(duì)更具可解釋性和代表性。
- Visual Feature Clustering(視覺(jué)特征聚類):運(yùn)用CLIP視覺(jué)模型提取圖像視覺(jué)特征,通過(guò)k-最近鄰(KNN)算法聚類,從每個(gè)聚類中心選取固定數(shù)量圖像。這樣既保證數(shù)據(jù)集多樣性,又維持語(yǔ)義類別的平衡分布,讓模型接觸到各類視覺(jué)內(nèi)容,增強(qiáng)其泛化能力。
- Image Re - caption(圖像重新標(biāo)注):對(duì)過(guò)濾和聚類后的圖像重新標(biāo)注。簡(jiǎn)短字幕由InternVL2-8B生成,詳細(xì)字幕則由InternVL2-26B完成。不同階段訓(xùn)練使用不同類型字幕,滿足模型多樣化學(xué)習(xí)需求。
其次是各訓(xùn)練階段的數(shù)據(jù)混合。
在VideoLLaMA 3的不同訓(xùn)練階段,數(shù)據(jù)混合策略為模型提供了豐富多樣的學(xué)習(xí)場(chǎng)景。此外,團(tuán)隊(duì)使用統(tǒng)一的數(shù)據(jù)組織形式以統(tǒng)一各個(gè)階段的訓(xùn)練。
- Vision Encoder Adaptation(視覺(jué)編碼器適配):此階段旨在增強(qiáng)模型對(duì)多樣場(chǎng)景的理解和特征提取能力,訓(xùn)練數(shù)據(jù)融合場(chǎng)景圖像、文檔識(shí)別圖像和少量場(chǎng)景文本圖像。
場(chǎng)景圖像來(lái)源廣泛,像VL3-Syn7M-short等,其中Object365和SA-1B數(shù)據(jù)集的引入增加了數(shù)據(jù)多樣性;場(chǎng)景文本圖像來(lái)自BLIP3-OCR,其文本內(nèi)容和簡(jiǎn)短重新標(biāo)注都作為字幕;文檔圖像選取自pdfa-eng-wds和idl-wds,文檔文本內(nèi)容按閱讀順序作為圖像字幕。
Vision-Language Alignment(視覺(jué)語(yǔ)言對(duì)齊):該階段使用高質(zhì)量數(shù)據(jù)微調(diào)模型,涵蓋場(chǎng)景圖像、場(chǎng)景文本圖像、文檔、圖表、細(xì)粒度數(shù)據(jù)以及大量高質(zhì)量純文本數(shù)據(jù)。
場(chǎng)景圖像整合多個(gè)數(shù)據(jù)集并重新標(biāo)注;場(chǎng)景文本圖像包含多種中英文數(shù)據(jù)集,并對(duì)LAION數(shù)據(jù)集中圖像篩選形成 Laion-OCR數(shù)據(jù)集,其字幕包含文本內(nèi)容和文本位置的邊界框注釋。
文檔圖像除常見(jiàn)數(shù)據(jù)集外,還加入手寫和復(fù)雜文檔數(shù)據(jù)集;圖表數(shù)據(jù)雖量少,但來(lái)自Chart-to-Text 數(shù)據(jù)集;細(xì)粒度數(shù)據(jù)包含區(qū)域字幕數(shù)據(jù)和帶框字幕數(shù)據(jù),增強(qiáng)模型對(duì)圖像細(xì)節(jié)的理解。
Multi-task Fine-tuning(多任務(wù)微調(diào)):用指令跟隨數(shù)據(jù)進(jìn)行指令微調(diào),數(shù)據(jù)混合覆蓋多種任務(wù)。
圖像數(shù)據(jù)分為一般、文檔、圖表 / 圖形、OCR、定位和多圖像六類,每類針對(duì)特定視覺(jué)理解方面。同時(shí)包含大量純文本數(shù)據(jù),提升模型處理涉及視覺(jué)和文本輸入的指令跟隨任務(wù)的能力。
視頻數(shù)據(jù)則結(jié)合常用高質(zhì)量視頻字幕數(shù)據(jù)集、少量問(wèn)答數(shù)據(jù),以及VideoLLaMA2的內(nèi)部數(shù)據(jù)和內(nèi)部時(shí)間定位數(shù)據(jù),增強(qiáng)模型視頻理解能力。
Video - centric Fine - tuning(視頻微調(diào)):此階段聚焦提升模型視頻理解能力,收集多個(gè)開(kāi)源數(shù)據(jù)集中帶注釋的視頻數(shù)據(jù),還通過(guò)合成特定方面的密集字幕和問(wèn)答對(duì)擴(kuò)展數(shù)據(jù)規(guī)模。
此外,引入流媒體視頻理解和時(shí)間定位特征,同時(shí)使用一定量的純圖像和純文本數(shù)據(jù),緩解模型災(zāi)難性遺忘問(wèn)題。
論文和demo地址放在下面了,感興趣的小伙伴可以去體驗(yàn)嘍~
論文地址:??https://arxiv.org/abs/2501.13106??
GitHub項(xiàng)目地址:??https://github.com/DAMO-NLP-SG/VideoLLaMA3/tree/main?tab=readme-ov-file??
圖像理解demo:??https://huggingface.co/spaces/lixin4ever/VideoLLaMA3-Image??
視頻理解demo:??https://huggingface.co/spaces/lixin4ever/VideoLLaMA3??
HuggingFace地址:??https://huggingface.co/collections/DAMO-NLP-SG/videollama3-678cdda9281a0e32fe79af15??
本文轉(zhuǎn)自量子位 ,作者:量子位
