Meta斯坦福全新多模態(tài)Apollo,60分鐘視頻輕松理解!7B性能超越30B
雖然語言和圖像語言建模進展迅速,但視頻多模態(tài)大模型(LMM)卻難以望其項背。
近日,Meta和斯坦福大學的團隊聯手,從評估基準、模型設計到開源模型, 做出了全方位的探索,創(chuàng)建ApolloBench用于解決視頻理解領域評估效率低下的問題, 提出了模型設計的拓展一致性,發(fā)現了驅動LMM性能的關鍵因素,開源了Apollo模型。
值得注意的是,Apollo-3B超越了幾乎所有的7B模型,而Apollo-7B變體則是7B模型中目前最佳的。
論文鏈接: https://arxiv.org/abs/2412.10360
項目網站: https://apollo-lmms.github.io
示例鏈接: https://huggingface.co/spaces/Apollo-LMMs/Apollo-3B…
模型鏈接: https://huggingface.co/Apollo-LMMs
現有的視頻問答基準的有效性如何?
視頻大型多模態(tài)模型(video-LMMs)的快速發(fā)展推動了眾多視頻問答基準的建立,其中包括Video-MME、MLVU、LongVideoBench等。雖然這些基準能夠進行全面評估,但也會帶來大量的資源密集和冗余。
該團隊通過篩選問題,確定了五大時態(tài)感知類別:時態(tài)OCR、第一視角、空間、感知和推理。
然后,將問題手動歸入這些類別中的每一類。從這些類別中選出了前400個問題,并對每個問題進行人工驗證,以驗證所選問題的正確性。
在ApolloBench上進行評估要快 41 倍,同時與現有基準高度相關(見圖1的右圖 ),并且受視頻感知的影響更大(圖1的左圖 )。
新提出的基準ApolloBench與所有測試過的基準都高度相關,這表明它能提供同樣有效的評估,同時計算效率更高。
圖1:基準分析。(左圖)當提供不同輸入模式時,開源 LMM 在各種視頻問題解答基準測試中的準確率:完整視頻(綠條)、視頻中的單幀(紅條)和不含任何視覺內容的純文本輸入(藍條)。(右圖)相關矩陣通過說明模型在不同基準上的表現之間的相關系數,顯示了基準之間的冗余度
圖1中的左圖的淺藍色陰影區(qū)域表示視頻和文本輸入之間的準確率差異,突出了視頻感知比單純的文本理解在多大程度上提高了性能;黃色陰影區(qū)域表示視頻和圖像輸入之間的差異,量化了視頻與靜態(tài)圖像相比所帶來的時間信息的額外優(yōu)勢。
圖1中右圖的矩陣中的每個單元格表示兩個基準在模型性能方面的密切程度。
拓展一致性:在模型設計中能做到多?。?/h3>
通過研究不同規(guī)模 LMM 的設計決策之間的相關性,發(fā)現規(guī)模 (約等于2-4B) 模型的設計決策與更大模型的設計決策高度相關(相關系數大于0.9),將這種現象稱為「規(guī)模一致性」(Scaling Consistency)(見下圖 2)。
圖2:擴展一致性
左圖展示7B和0.5B與其他規(guī)模的LLM的相關系數,表明7B模型的相關性隨著LLM規(guī)模的增大而增大,而在0.5B模型中沒有看到同樣的趨勢。
右圖展示0.5B\1.5B\4B模型與數據集規(guī)模的相關系數。相關系數在500K樣本左右開始趨于穩(wěn)定。
擴展一致性表明,在中等規(guī)模的模型(~ 2-4B)和數據集上做出的設計決策可以可靠地轉移到更大的模型上,即使在不同的模型族中也是如此。
數據集上做出的設計決策可以可靠地轉移到更大的模型上,甚至在不同的模型族中也是如此。這使研究人員無需進行大量的擴展研究就能做出明智的設計選擇。
擴展一致性,即可以在較小的模型和數據集上做出設計決策,并可靠地遷移到較大的模型和數據集上。
探索設計空間:什么影響高效的模型設計
1. 視頻采樣
為了評估幀速率與均勻采樣的影響,訓練了四個模型,分別均勻地8、16、32 或 64 幀采樣。
為了測試性能差異是由于測試還是訓練時的幀采樣不同造成的,對這些模型進行了均勻采樣和fps采樣評估。
與fps采樣相比,均勻幀采樣的性能始終低于fps采樣(圖3中的左圖)??梢钥闯觯@種性能差距并不是由于測試時采樣的幀數。因此得出結論,視頻的均勻幀采樣導致了訓練過程中的性能差距。
在模型訓練和推理過程中,fps采樣比均勻采樣更可取。
圖3:比較不同的取樣策略及其對性能的影響。(左圖)模型使用均勻采樣進行訓練和測試。(中圖)使用均勻采樣訓練模型,但使用fps采樣進行測試。(右圖)分析每秒幀數(fps) 和每秒token數(tps) 對總體性能的影響
圖3的左圖表明增加幀數可提高整體性能,但達不到fps采樣性能。當以恒定的幀頻進行訓練時,每秒的token數(tps)也可以通過token重采樣器來改變。
如圖3中的右圖所示,在tps 和fps之間似乎存在著一種短視頻和長視頻性能的折衷方法。在不同的幀速率下,每幀8-32個token的性能都很強。
tps和fps之間需要權衡,每幀8-32個token最為理想。
2. 視頻表示
在單編碼器設置中,與其他圖像/視頻編碼器相比,SigLIP-SO400M的性能最佳,這表明必須改進視頻編碼器才能取代圖像編碼器。
視頻編碼器僅在時態(tài)感知方面優(yōu)于圖像編碼器,這表明LLM在細粒度時態(tài)集成(如估計運動速度和方向)方面存在困難。
圖4:視覺編碼器。測試了InternVideo2、LanguageBind-Image/Video、V-JEPA、Video-MAE、SigLIP-SO400M和DINOv2及組合。(左圖)單一編碼器測試,(右圖)雙編碼器配置的性能
在單編碼器測試中,左圖顯示SigLIP-SO-400M 的整體性能最佳;與視頻編碼器相比,圖像編碼器在時態(tài)感知方面表現不佳。
右圖顯示語言監(jiān)督編碼器的表現優(yōu)于自我監(jiān)督編碼器;InternVideo2和SigLIP-SO-400M結合使用可獲得最佳的整體性能。
SigLIP-SO400M是用于視頻LMM的最佳單一編碼器。
將視頻編碼器和圖像編碼器結合起來可以抵消它們的局限性,因為圖像編碼器不對時間信息進行編碼,而視頻編碼器的空間表示能力較弱。
組合編碼器的性能始終優(yōu)于單編碼器的同類產品,其中InternVideo2+SigLIP-SO400M的總體性能最好,在ApolloBench中提高了~7%??梢园l(fā)現輸入幀數較少的視頻編碼器表現更佳,這可能是由于圖像-視頻傳輸效果更好。
將SigLIP-SO400M與InternVideo2結合使用,整體性能最佳。
3. 視頻token重采樣
相比于其他大模型,token重采樣在視頻 LMM 中更為重要,因為這直接影響到可處理的幀數,限制了視頻的最大長度。視頻token重采樣可以由文本引導(如使用 Q-Former)。
然而,這種方法并不能很好地適用于多輪對話,因為token會根據第一個問題向下采樣。還有許多人采用某種形式的平均匯聚(average pooling)。
作者測試了三種token重采樣方法:mlp上投影 + 平均匯聚、2D conv + 平均匯聚和感知器重采樣(perceiver resampling)。
如表1所示,感知重采樣(perceiver resampling)在所有指標上都優(yōu)于其他方法。
表1:視頻token重采樣方法。不同token重采樣技術在視頻-LMM 任務中的表現
在所有指標上,感知重采樣(perceiver resampling)都優(yōu)于其他方法。
在減少token/幀時,感知重采樣(perceiver resampling)出卓越的性能。
4. 視頻token集成
集成視頻和文本token是視頻 LMM 的關鍵設計選擇,因為它直接影響到模型處理和解釋多模態(tài)內容的效率。
為了確定最穩(wěn)健的集成策略,如表2所示,評估了四種集成策略:直接插入、分離token、文本時間戳以及將分離token與時間戳相結合。
可以看出,我們發(fā)現在視頻token之間添加任何文本或學習到的token都會在ApolloBench上帶來2-3%的改進。
表2:視頻token集成方法。將視頻token集成到文本序列的不同策略的性能
在每個片段前加入文本時間戳的整體性能最佳。
在來自不同幀或片段的視頻token之間添加token(文本、學習到的標簽等),足以實現高效的token集成。
多模態(tài)大模型的訓練
1. 訓練調度器
如表3所示, 作者系統地評估了不同訓練計劃對模型性能的影響,比較了單階段、兩階段和三階段訓練方案, 發(fā)現分三階段訓練模型的效果最好,緊隨其后的是兩階段的訓練調度策略。對于每種訓練調度策略,測試了三種超參數,并報告了其中最優(yōu)參數的結果。
表3:訓練調度器。評估的七種不同訓練計劃概覽,突出顯示了 LLM 和視覺編碼器在每個階段是凍結還是解凍,以及用于訓練的數據類型。
在不同的階段逐步解凍不同的組件,從而獲得卓越的模型訓練動態(tài)。
2. 訓練視頻解碼器
作者在表3中比較了在混合數據上訓練視覺編碼器還是完全在視頻數據上訓練視覺編碼器,以及對齊優(yōu)先的連接器是否能提高性能。
當LLM解凍時,使用文本、圖像、多圖像和視頻數據的混合數據。因此,如果視頻和LLM同時解凍,視覺編碼器將在圖像和視頻數據的組合上進行訓練。
可以發(fā)現,這將大大損害LMM性能。訓練編碼器提高了以自我為中心的推理性能,而其他指標則基本不受影響,這很可能是由于視覺-語言的細粒度配準得到了改善。
僅在視頻數據上對視頻編碼器進行微調可進一步提高整體性能,尤其是在推理和特定領域任務上。
3. 數據組合
在圖7中,研究了文本、圖像和視頻混合數據對視頻LMM性能的影響。
可以看出,在訓練組合中包含10~14%的文本數據對性能是必需的。這可能會減輕災難性遺忘。將文本數據的比例從14%提高到25%,或將其降低到7%以下,都會損害性能。
除了包含文本數據外,其余模式的混合比例最好略微偏重于視頻。這種平衡可以讓模型從更高質量、更多樣化的圖像數據中學習。
圖7:微調數據集的數據統計。(左)數據模式分類,包括文本、圖像、多圖像和視頻,說明微調數據集的構成。(中)視頻注釋類型的分布,突出顯示了對話、推理、第一視角、時態(tài)感知、OCR和字幕注釋的比例。(右圖)視頻時長直方圖,顯示了訓練數據集中時長的分布情況
Apollo模型評估
基于新的發(fā)現,團隊開發(fā)了一系列Apollo模型,其機構圖如下。
Apollo模型在多個基準數據集上進行了評估,其在視頻語言理解任務中的結果見表4。
此外, Apollo-7B可與參數超過30B的模型(如Oryx-34B和VILA1.5-40B 等)相媲美,甚至超越了參數超過30B的模型,如Oryx-34B和VILA1.5-40B。
例如,在MLVU基準上,Apollo-7B得分為70.9,以微弱優(yōu)勢超過Oryx-34B的70.8。
這證實了精心選擇的架構和訓練策略可以帶來實質性的改進,而無需求助于更大的模型規(guī)模。