北航推出TinyLLaVA-Video,有限計(jì)算資源優(yōu)于部分7B模型,代碼、模型、訓(xùn)練數(shù)據(jù)全開源
近年來,隨著多模態(tài)大模型的崛起,視頻理解技術(shù)取得了顯著進(jìn)展。但是目前主流的全開源視頻理解多模態(tài)模型普遍具有 7B 以上的參數(shù)量,這些模型往往采用復(fù)雜的架構(gòu)設(shè)計(jì),并依賴于大規(guī)模訓(xùn)練數(shù)據(jù)集。受限于高昂的計(jì)算資源成本,模型訓(xùn)練與定制化開發(fā)對(duì)于資源有限的科研人員而言仍存在顯著的門檻。
近日,北京航空航天大學(xué)的研究團(tuán)隊(duì)基于 TinyLLaVA_Factory 的原項(xiàng)目,推出小尺寸簡(jiǎn)易視頻理解框架 TinyLLaVA-Video,其模型,代碼以及訓(xùn)練數(shù)據(jù)全部開源。在計(jì)算資源需求顯著降低的前提下,訓(xùn)練出的整體參數(shù)量不超過 4B 的模型在多個(gè)視頻理解 benchmark 上優(yōu)于現(xiàn)有的 7B + 模型。同時(shí),由于 TinyLLaVA-Video 衍生自 Tinyllava_Factory 代碼庫(kù),因此項(xiàng)目仍然具有組件化與可擴(kuò)展性等優(yōu)點(diǎn),使用者可以根據(jù)自身需求進(jìn)行定制與拓展研究。
- 論文地址:https://arxiv.org/abs/2501.15513
- Github 項(xiàng)目:https://github.com/ZhangXJ199/TinyLLaVA-Video
全開源項(xiàng)目,支持定制與拓展
區(qū)別于眾多僅開源模型權(quán)重的項(xiàng)目,TinyLLaVA-Video 秉承了 TinyLLaVA_Factory 全面開源的理念。該項(xiàng)目不僅公開了完整的模型權(quán)重、訓(xùn)練代碼和訓(xùn)練數(shù)據(jù)集,也延續(xù)了原有的模塊化設(shè)計(jì)架構(gòu),研究人員可根據(jù)具體實(shí)驗(yàn)需求,靈活替換語言模型、視覺編碼器等核心組件,并可自定義訓(xùn)練策略。這種開放性設(shè)計(jì)不僅降低了小規(guī)模研究團(tuán)隊(duì)進(jìn)入視頻理解研究領(lǐng)域的門檻,還為未來的輕量級(jí)視頻理解模型的訓(xùn)練范式與架構(gòu)創(chuàng)新探索提供了實(shí)驗(yàn)平臺(tái)。
在模型架構(gòu)方面,TinyLLaVA-Video 沿用 LLaVA 類多模態(tài)模型常見的 Vision Tower+Connector+LLM 框架,并同樣保持預(yù)訓(xùn)練對(duì)齊與監(jiān)督微調(diào)的兩階段訓(xùn)練策略。項(xiàng)目中采用的所有預(yù)訓(xùn)練模型組件均遵循開源協(xié)議,包括如 Qwen2.5-3B 等語言模型和 SigLIP 等視覺編碼器此類核心模塊,確保了實(shí)驗(yàn)的可復(fù)現(xiàn)性,為研究者提供了可靠的基準(zhǔn)參考。同時(shí),研究人員可以方便地替換模型組件,更改訓(xùn)練策略,定制符合自身需求的視頻理解模型。
在訓(xùn)練數(shù)據(jù)方面,TinyLLaVA-Video 基于開源的 LLaVA-Video-178K 和 Valley 數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。同時(shí),為進(jìn)一步精簡(jiǎn)數(shù)據(jù)集,提高訓(xùn)練數(shù)據(jù)的質(zhì)量并控制計(jì)算資源成本,項(xiàng)目對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行了多步篩選與過濾,最終得到 397k 的預(yù)訓(xùn)練數(shù)據(jù)與 491k 的監(jiān)督微調(diào)數(shù)據(jù)。這使得研究者即便僅具備有限的計(jì)算資源,也能在合理的訓(xùn)練時(shí)間內(nèi)復(fù)現(xiàn)實(shí)驗(yàn)結(jié)果并開展進(jìn)一步研究。經(jīng)過處理的數(shù)據(jù)標(biāo)注信息(annotation)也已經(jīng)完整公開于 HuggingFace 平臺(tái),這也為后續(xù)研究提供了高質(zhì)量的數(shù)據(jù)基礎(chǔ)。
小尺寸簡(jiǎn)易框架,依然保持高性能
以往的視頻理解方法受限于語言模型的輸入長(zhǎng)度限制,往往面臨兩難選擇:要么通過設(shè)計(jì)復(fù)雜的模型架構(gòu)來處理長(zhǎng)序列信息,要么犧牲視頻信息的完整性而限制采樣幀數(shù)。因此,如何處理長(zhǎng)時(shí)序視覺序列,并平衡計(jì)算資源與性能之間的矛盾,成為輕量級(jí)視頻理解模型亟待解決的問題。
為在保持模型結(jié)構(gòu)輕量化的同時(shí)解決長(zhǎng)序列信息處理的問題,TinyLLaVA-Video 對(duì)于經(jīng)過 Vision Tower 處理后的整體視頻序列,使用簡(jiǎn)單的視頻級(jí) Resampler 作為 Connector 來對(duì)齊視覺和語言,從而能極大地減少輸入至語言模型的 Visual Token 的數(shù)量。這種處理方式可以使得模型支持靈活的視頻采樣策略,研究者可以根據(jù)視頻類型與使用需求進(jìn)行 fps 采樣或均勻幀采樣,設(shè)置不同的視頻采樣幀數(shù)。
雖然簡(jiǎn)化模型架構(gòu)并控制訓(xùn)練數(shù)據(jù)的規(guī)模,但是 TinyLLaVA-Video 的表現(xiàn)依然非常可觀。實(shí)驗(yàn)結(jié)果表明,整體參數(shù)不超過 4B 的模型在包含 MLVU、Video-MME 在內(nèi)的多個(gè)視頻理解基準(zhǔn)測(cè)試集上的表現(xiàn)優(yōu)于同等訓(xùn)練數(shù)據(jù)量級(jí)下的 7B + 模型,充分驗(yàn)證了該框架的有效性。
此外,該研究也進(jìn)行了大量實(shí)驗(yàn),系統(tǒng)性地探索了不同配置下的模型性能,包括選擇不同的語言模型、視覺編碼器以及采樣不同的幀數(shù)等設(shè)置的影響(實(shí)驗(yàn)設(shè)置與結(jié)果詳見技術(shù)報(bào)告)。這些實(shí)驗(yàn)結(jié)果揭示了在不同參數(shù)設(shè)定下,模型在視頻理解任務(wù)中的表現(xiàn),為研究者提供了優(yōu)化模型結(jié)構(gòu)的實(shí)證數(shù)據(jù)。這些探索不僅提升了 TinyLLaVA-Video 的適用性,也為后續(xù)研究提供了重要的參考依據(jù)。
TinyLLaVA-Video 的研究表明,小尺寸視頻理解模型在計(jì)算成本有限的環(huán)境下仍具有廣闊的發(fā)展空間。未來,計(jì)算資源有限的研究者們可以基于該工作,進(jìn)一步優(yōu)化模型結(jié)構(gòu)和訓(xùn)練策略,以推動(dòng)小尺寸視頻理解模型的持續(xù)發(fā)展,為資源受限環(huán)境下的多模態(tài)研究提供更多可能性。
TinyLLaVA 系列項(xiàng)目始終致力于在有限計(jì)算資源下研究小尺寸模型的訓(xùn)練與設(shè)計(jì)空間,堅(jiān)持完全開源原則,完整公開模型參數(shù)、源代碼及訓(xùn)練數(shù)據(jù)。同時(shí),項(xiàng)目采用模塊化設(shè)計(jì)理念,確保項(xiàng)目的可拓展性,方便資源有限的研究者們通過實(shí)踐來理解與探索多模態(tài)大模型。