Meta AI 發(fā)布 Apollo:視頻理解的新家族——LMM 大型多模態(tài)模型 原創(chuàng)
01、概述
近年來(lái),隨著多模態(tài)模型(LMMs)在文本和圖像處理任務(wù)上的進(jìn)步,視頻處理領(lǐng)域卻顯得有些“姍姍來(lái)遲”。與單一靜態(tài)數(shù)據(jù)相比,視頻集成了時(shí)間和空間維度的復(fù)雜性,對(duì)計(jì)算資源的要求更高。然而,現(xiàn)有方法通常沿用圖像處理模型的架構(gòu),或依賴簡(jiǎn)單的均勻幀采樣,這種方式難以有效捕捉視頻中的動(dòng)態(tài)與時(shí)間模式。此外,訓(xùn)練大規(guī)模視頻模型耗費(fèi)極大的計(jì)算資源,使得實(shí)驗(yàn)和創(chuàng)新受限。
為了解決這些問(wèn)題,Meta AI 和斯坦福大學(xué)的研究人員聯(lián)合推出了 Apollo —— 一款面向視頻內(nèi)容的多模態(tài)模型家族。Apollo 憑借創(chuàng)新設(shè)計(jì)、大幅提升效率,并為時(shí)間推理(Temporal Reasoning)與視頻問(wèn)答等任務(wù)設(shè)立了全新標(biāo)桿,為視頻理解領(lǐng)域注入了新動(dòng)能。
02、視頻多模態(tài)領(lǐng)域的里程碑:Apollo 家族亮相
Apollo 是專為視頻語(yǔ)言任務(wù)設(shè)計(jì)的多模態(tài)模型,其能力可以覆蓋長(zhǎng)達(dá)一小時(shí)的視頻內(nèi)容。該家族目前有三種參數(shù)規(guī)模版本:1.5B、3B 和 7B,為不同的應(yīng)用場(chǎng)景和計(jì)算需求提供靈活選擇。其設(shè)計(jì)目標(biāo)是以精益的計(jì)算成本,帶來(lái)強(qiáng)大的性能表現(xiàn)。
核心創(chuàng)新點(diǎn)
- 一致性擴(kuò)展:在小規(guī)模模型上的設(shè)計(jì)能夠無(wú)縫遷移至更大規(guī)模的模型,減少了大規(guī)模實(shí)驗(yàn)的成本。
- 幀率采樣技術(shù)(fps Sampling):相較傳統(tǒng)的均勻采樣,幀率采樣能夠更高效地保留視頻的動(dòng)態(tài)變化。
- 雙視覺(jué)編碼器(Dual Vision Encoders):SigLIP 擅長(zhǎng)空間理解,InternVideo2 則聚焦時(shí)間推理,二者結(jié)合提供了全面的視頻數(shù)據(jù)表征。
- ApolloBench 基準(zhǔn)測(cè)試套件:精簡(jiǎn)評(píng)估冗余項(xiàng),提供更詳盡的性能洞察。
03、Apollo 的技術(shù)亮點(diǎn)
Apollo 的每一項(xiàng)設(shè)計(jì)都針對(duì)視頻多模態(tài)領(lǐng)域的主要挑戰(zhàn)進(jìn)行優(yōu)化,通過(guò)獨(dú)特的策略實(shí)現(xiàn)視頻理解能力的突破。
1) 幀率采樣(fps Sampling)
幀率采樣突破了傳統(tǒng)均勻采樣的局限,能夠更精準(zhǔn)地捕捉時(shí)間序列中的動(dòng)態(tài)變化。例如,Apollo 可以理解視頻中動(dòng)作的速度、順序和邏輯,使其在時(shí)間推理任務(wù)中表現(xiàn)優(yōu)異。
2) 一致性擴(kuò)展(Scaling Consistency)
傳統(tǒng)大規(guī)模視頻模型的開(kāi)發(fā)往往需要高昂的資源投入,而 Apollo 的設(shè)計(jì)證明了,小規(guī)模模型(如 2B-4B 參數(shù))中的有效設(shè)計(jì)可以直接遷移到大規(guī)模模型(如 7B 參數(shù)),從而降低了開(kāi)發(fā)與訓(xùn)練的計(jì)算開(kāi)銷。
3) 雙視覺(jué)編碼器(Dual Vision Encoders)
Apollo 的架構(gòu)創(chuàng)新在于結(jié)合了兩種互補(bǔ)的編碼器:
- SigLIP:專注于視頻的空間維度,例如物體的細(xì)節(jié)與構(gòu)圖。
- InternVideo2:增強(qiáng)了對(duì)視頻時(shí)間軸的理解,比如動(dòng)作銜接和節(jié)奏。這種組合不僅彌補(bǔ)了單一編碼器的局限,還實(shí)現(xiàn)了視頻數(shù)據(jù)的平衡表征。
4) Token 重采樣(Token Resampling)
長(zhǎng)視頻的處理往往涉及大量數(shù)據(jù),而 Apollo 借助 Perceiver Resampler 模塊高效地縮減視頻 Token 數(shù)量,既減少了計(jì)算開(kāi)銷,又保留了關(guān)鍵信息。
5) 三階段優(yōu)化訓(xùn)練
Apollo 的訓(xùn)練分為三個(gè)階段:
- 先針對(duì)視頻數(shù)據(jù)微調(diào)視覺(jué)編碼器;
- 再與文本和圖像數(shù)據(jù)集進(jìn)行集成訓(xùn)練;
- 最后優(yōu)化多模態(tài)交互能力。
這種分階段的訓(xùn)練方式,使得模型的學(xué)習(xí)過(guò)程更加穩(wěn)定高效。
6) 多輪對(duì)話能力
Apollo 支持基于視頻內(nèi)容的多輪交互,例如視頻問(wèn)答和內(nèi)容分析。這一特性為打造視頻內(nèi)容的智能交互系統(tǒng)提供了新的可能性。
04、性能表現(xiàn):小模型超越大模型
Apollo 的卓越性能不僅體現(xiàn)在其設(shè)計(jì)理念上,更通過(guò)一系列基準(zhǔn)測(cè)試得到了驗(yàn)證。在多個(gè)評(píng)估任務(wù)中,Apollo 常常表現(xiàn)優(yōu)于參數(shù)規(guī)模更大的模型。
例如:
- Apollo-1.5B:在 Video-MME 和 MLVU 等任務(wù)中超越了許多規(guī)模為 4.2B 的模型,如 Phi-3.5-Vision。
- Apollo-7B:即使與參數(shù)量達(dá) 30B 的頂尖模型(如 Oryx-34B 和 VILA1.5-40B)相比,也表現(xiàn)出色。
05、ApolloBench:重新定義視頻-LMM 測(cè)試標(biāo)準(zhǔn)
與 Apollo 同時(shí)發(fā)布的還有專為視頻多模態(tài)任務(wù)設(shè)計(jì)的評(píng)估套件 ApolloBench。傳統(tǒng)基準(zhǔn)測(cè)試的一個(gè)問(wèn)題是任務(wù)設(shè)置重復(fù)冗余,而 ApolloBench 則通過(guò)去冗余設(shè)計(jì),提升了評(píng)估效率。此外,該測(cè)試套件覆蓋了更廣泛的視頻任務(wù)維度,為模型性能提供了更全面的洞察。
實(shí)際應(yīng)用:視頻理解的廣泛前景
Apollo 系列模型的出現(xiàn),不僅為學(xué)術(shù)研究提供了重要的技術(shù)支持,也在多個(gè)實(shí)際應(yīng)用場(chǎng)景中展現(xiàn)了潛力:
- 視頻問(wèn)答系統(tǒng):憑借多輪對(duì)話能力,Apollo 可以在視頻問(wèn)答和內(nèi)容理解中實(shí)現(xiàn)流暢交互。
- 內(nèi)容分析:為娛樂(lè)、教育和廣告領(lǐng)域提供精準(zhǔn)的視頻分析服務(wù)。
- 長(zhǎng)視頻處理:支持長(zhǎng)達(dá)一小時(shí)的視頻數(shù)據(jù)處理,適用于會(huì)議紀(jì)要生成、視頻摘要等復(fù)雜任務(wù)。
06、結(jié)語(yǔ)
Apollo 的問(wèn)世標(biāo)志著視頻多模態(tài)技術(shù)邁入新紀(jì)元。通過(guò)在幀率采樣、雙視覺(jué)編碼器等方面的深度創(chuàng)新,Apollo 不僅在效率和性能上樹(shù)立了標(biāo)桿,也為視頻理解技術(shù)的普及和應(yīng)用提供了更多可能性。無(wú)論是學(xué)術(shù)研究還是實(shí)際商業(yè)應(yīng)用,Apollo 都是一款兼具創(chuàng)新性和實(shí)用性的工具,其開(kāi)創(chuàng)性的設(shè)計(jì)為未來(lái)的多模態(tài)技術(shù)發(fā)展提供了全新視角。
參考:
本文轉(zhuǎn)載自公眾號(hào)Halo咯咯 作者:基咯咯
