從秒級到小時級:TikTok等發(fā)布首篇面向長視頻理解的多模態(tài)大語言模型全面綜述 精華
文章鏈接:https://arxiv.org/pdf/2409.18938
亮點直擊
- 追蹤并總結從圖像理解到長視頻理解的MM-LLMs的進展;
- 回顧了各種視覺理解任務之間的差異,并強調了長視頻理解中的挑戰(zhàn),包括更細粒度的時空細節(jié)、動態(tài)事件和長期依賴性;
- 詳細總結了MM-LLMs在理解長視頻方面的模型設計和訓練方法的進展;
- 比較了現有MM-LLMs在不同長度視頻理解基準上的表現,并討論了MM-LLMs在長視頻理解中的潛在未來方向。
將大語言模型(LLMs)與視覺編碼器的集成最近在視覺理解任務中顯示出良好的性能,利用它們理解和生成類人文本的固有能力進行視覺推理??紤]到視覺數據的多樣性,多模態(tài)大語言模型(MM-LLMs)在圖像、短視頻和長視頻理解的模型設計和訓練上存在差異。本論文集中討論長視頻理解與靜態(tài)圖像和短視頻理解之間的顯著差異和獨特挑戰(zhàn)。與靜態(tài)圖像不同,短視頻包含具有空間和事件內時間信息的連續(xù)幀,而長視頻則由多個事件組成,涉及事件之間和長期的時間信息。在本次調研中,旨在追蹤并總結從圖像理解到長視頻理解的MM-LLMs的進展?;仡櫫烁鞣N視覺理解任務之間的差異,并強調了長視頻理解中的挑戰(zhàn),包括更細粒度的時空細節(jié)、動態(tài)事件和長期依賴性。然后,詳細總結了MM-LLMs在理解長視頻方面的模型設計和訓練方法的進展。最后,比較了現有MM-LLMs在不同長度視頻理解基準上的表現,并討論了MM-LLMs在長視頻理解中的潛在未來方向。
引言
大語言模型(LLMs)通過擴大模型規(guī)模和訓練數據,展現了在理解和生成類人文本方面的卓越多功能性和能力。為了將這些能力擴展到視覺理解任務,提出了多種方法將LLMs與特定視覺模態(tài)編碼器集成,從而賦予LLMs視覺感知能力。單張圖像或多幀圖像被編碼為視覺tokens,并與文本tokens結合,以幫助多模態(tài)大語言模型(MM-LLMs)實現視覺理解。針對長視頻理解,MM-LLMs被設計為處理更多的視覺幀和多樣的事件,使其能夠應用于廣泛的現實場景,例如自動分析體育視頻、電影、監(jiān)控錄像和在具身AI中的自我中心視頻的精彩片段。例如,一臺機器人可以通過長時間的自我中心視頻學習如何制作咖啡。它需要分析長視頻中的關鍵事件,包括:1)每6盎司水測量1到2湯匙的咖啡粉;2)將水加入咖啡機的水箱;3)將咖啡粉放入濾網;4)啟動咖啡機并等待沖泡。建模具有復雜時空細節(jié)和依賴關系的長格式視頻仍然是一個挑戰(zhàn)性問題。
長視頻理解與其他視覺理解任務之間存在顯著差異。與僅關注靜態(tài)圖像空間內容的靜態(tài)圖像理解相比,短視頻理解還必須考慮連續(xù)幀變化中的事件內時間信息。此外,超過一分鐘的長視頻通常包含多個場景和視覺內容不同的事件, necessitating捕捉顯著的事件間和長期變化以實現有效理解。有效平衡有限數量的視覺tokens中的空間和時間細節(jié),對長視頻大語言模型(LV-LLMs)構成了相當大的挑戰(zhàn)。此外,不同于僅持續(xù)幾秒并包含數十個視覺幀的短視頻,長視頻往往涵蓋數千幀。因此,LV-LLMs必須能夠記憶并持續(xù)學習跨越數分鐘甚至數小時的視頻中的長期關聯。MM-LLMs在全面長視頻理解方面的進展,特別是在模型設計和訓練上,值得特別關注。
我們在圖2中總結了MM-LLMs在圖像、短視頻和長視頻理解方面的比較。除了上述討論的長視頻理解與其他視覺理解任務之間的繼承和發(fā)展關系外,LV-LLMs還建立在多圖像和短視頻MM-LLMs的進展之上,具有相似的視覺編碼器結構、LLM主干和跨模態(tài)連接器。為有效應對長視頻理解任務中新引入的挑戰(zhàn),LV-LLMs設計了更高效的長視頻級連接器,這些連接器不僅橋接跨模態(tài)表示,還將視覺tokens壓縮到可管理的數量。此外,通常還會結合時間感知模塊,以增強LV-LLMs中時間信息的捕獲。在預訓練和指令調優(yōu)中,視頻-文本對和視頻-指令數據對MM-LLMs處理圖像和視頻具有重要意義,因其共享空間感知和推理能力。長視頻訓練數據集對于時間跨模態(tài)語義對齊和捕獲長期相關性尤其有益,這對于LV-LLMs至關重要。本文調查將全面總結最近在模型設計和訓練方法上的進展,追蹤MM-LLMs從圖像到長視頻的演變。
近期關于視覺理解任務的調查通常采用單一視角,或從全局視角回顧MM-LLMs,或從局部視角關注圖像或視頻理解任務。雖然這些研究對研究主題進行了廣泛的回顧,但未討論不同任務和方法之間的開發(fā)和繼承關系。此外,現有關于視頻理解任務的評述往往更側重于一般視頻理解,而不是更具挑戰(zhàn)性的長視頻理解任務。超過一分鐘的長視頻被廣泛應用于教育、娛樂、交通等領域,迫切需要強大的模型進行全面的自動理解。我們的工作是較早從發(fā)展視角總結和討論長視頻理解任務的研究之一。
長視頻理解
由于長視頻理解與圖像或短視頻理解之間的固有差異,包括存在多個事件、更多幀以及動態(tài)場景,長視頻理解任務為視覺理解帶來了額外的挑戰(zhàn)。
視覺推理與理解
視覺推理要求模型理解和解釋視覺信息,并將多模態(tài)感知與常識理解相結合。主要有三種類型的視覺推理任務:視覺問答(VQA)、視覺描述(VC)或說明(VD)、以及視覺對話(VDia)。VQA涉及基于輸入的視覺數據和相關問題生成自然語言答案。VC和VD系統通常生成簡潔的自然語言句子,總結視覺數據的主要內容,或者對相應視覺數據進行詳細而全面的描述。VDia涉及多輪對話,由圍繞視覺內容的一系列問答對組成。
圖像理解。如圖3(a)所示,圖像理解任務涉及單張圖像用于各種視覺推理任務,如圖像標注和以圖像為中心的問題回答。這些任務僅關注空間信息,包括對全球視覺上下文的粗略理解和對局部視覺細節(jié)的細致理解。
短視頻理解。與僅涉及靜態(tài)視覺數據的圖像理解任務不同,短視頻理解還結合了來自多個視覺幀的時間信息。除了空間推理,事件內的時間推理和跨幀的時空推理在短視頻理解中發(fā)揮著至關重要的作用。
長視頻理解。長視頻通常持續(xù)數分鐘甚至數小時,通常由多個事件組成,與短視頻相比,包含更豐富的空間內容和時間變化。如圖3(c)所總結,長視頻理解不僅涉及空間和事件內的時間推理,還涉及事件間推理和來自不同視頻事件的長期推理。
長視頻理解的挑戰(zhàn)
與圖像和短視頻相比,長格式視頻為全面的視覺理解帶來了新的挑戰(zhàn),具體如下:
豐富的細粒度時空細節(jié)。長視頻涵蓋了廣泛的話題、場景和活動,包含了多樣的細節(jié),如物體、事件和屬性。與靜態(tài)圖像和具有多個相似幀的短視頻相比,這些細節(jié)更加豐富,使得長視頻理解更加具有挑戰(zhàn)性。例如,細粒度的空間問答可以在任何幀中引入,而時間問答可以在幀之間或幀內引入,以進行長視頻推理任務。用于長視頻理解的多模態(tài)大語言模型(MM-LLMs)必須從持續(xù)數分鐘甚至數小時的視頻幀中捕捉所有相關的細粒度時空細節(jié),同時使用有限數量的視覺tokens。
動態(tài)事件與場景轉換和內容變化。長視頻通常包含各種動態(tài)事件,場景和內容存在顯著差異。這些事件可能在語義上相關并且按照出現的順序進行時間協調,或者由于情節(jié)轉折而表現出顯著的語義差異。涉及多事件的事件間推理,對于準確理解內容至關重要。對于MM-LLMs來說,區(qū)分語義差異并在不同事件之間保持語義一致性是長視頻理解的關鍵。
長期關聯與依賴關系。長視頻通常包含跨越較長時間段的動作和事件。捕捉長期依賴關系并理解視頻不同部分之間在長期內的關聯是一個挑戰(zhàn)。針對圖像或短視頻設計的視頻大語言模型通常無法將當前事件與遠離當前時刻的過去或未來事件進行上下文化,也難以進行長期決策。
模型架構的進展
在本節(jié)中,我們討論了多模態(tài)大語言模型(MM-LLMs)從針對圖像的模型到針對長視頻的模型的進展,重點在于模型架構。正如圖4所示,針對圖像、短視頻和長視頻的MM-LLMs共享一個相似的結構,包括視覺編碼器、LLM主干和中介連接器。與圖像級連接器不同,視頻級連接器對于整合跨幀視覺信息至關重要。在長視頻大語言模型(LV-LLMs)中,連接器的設計更具挑戰(zhàn)性,需要高效壓縮大量視覺信息并融入時間知識以管理長期關聯。
視覺編碼器和LLM主干
MM-LLMs通常使用相似的視覺編碼器來提取視覺信息。早期MM-LLM方法中的LLM主干通常是通用的,而現有的LV-LLMs傾向于在實現中使用長上下文LLMs。
視覺編碼器。預訓練的視覺編碼器負責從原始視覺數據中捕獲視覺知識??偨Y于表1中,像CLIP-ViT-L/14、EVA-CLIP-ViT-G/14、OpenCLIP-ViT-bigG/14和SigLIP-SO400M等圖像編碼器被廣泛用于圖像和視頻目標LLMs。最近的研究表明,視覺表示(包括圖像分辨率、視覺tokens的大小和預訓練的視覺資源)在性能上比視覺編碼器的大小更為重要。
LLM主干。LLM是視覺理解系統的核心模塊,繼承了推理和決策能力的屬性。與封閉源的LLMs(如GPT-3/和Gemini-1.5)相比,各種開源LLMs在實現視覺LLMs中更為常見。這些包括Flan-T5、LLaMA、Vicuna、QWen、Mistral、Openflamingo、Yi和InternLM。
LLM的強度通常與視覺LLMs中的多模態(tài)能力優(yōu)越性相關。這意味著,對于相同規(guī)模的LLMs,語言能力更強的模型表現更好,而對于相同的LLMs,不同模型大小的情況,較大的模型往往產生更好的多模態(tài)性能。此外,長上下文LLMs將上下文長度擴展到數十萬個tokens,支持更廣泛的數據學習。最近的LV-LLMs有效地將LLM的長上下文理解能力轉移到視覺模態(tài)中。
模態(tài)接口
視覺編碼器與LLM之間的連接器充當模態(tài)接口,將視覺特征映射到語言特征空間。鑒于視覺數據源的多樣性,這些連接器可以分為圖像級、視頻級和長視頻級連接器。
圖像級連接器
圖像級連接器用于將圖像特征映射到語言空間,以處理原始視覺tokens,廣泛用于圖像目標和視頻目標的MM-LLMs。這些連接器可以分為三類:第一類直接使用單一線性層或多層感知器(MLP)將圖像特征映射到語言嵌入空間。然而,這種保留所有視覺tokens的方法不適合涉及多個圖像的視覺理解任務。為了解決保留所有視覺tokens的局限性,第二類采用各種基于池化的方法。這些方法包括空間池化、自適應池化、語義相似tokens合并和相鄰tokens平均。第三類利用跨注意力或基于transformer的結構,如Q-Former和Perceiver Resampler,用于圖像特征壓縮。Q-Former是一種輕量級transformer結構,采用一組可學習的查詢向量來提取和壓縮視覺特征。許多視覺LLMs(Dai et al., 2023;Li et al., 2023b;Ma et al., 2023a;Liu et al., 2024e)遵循BLIP-2,選擇基于Q-Former的連接器。其他視覺LLMs(Ma et al., 2023b;Jiang et al., 2024)則選擇Perceiver Resampler,通過提取補丁特征來降低計算負擔。
視頻級連接器
視頻級連接器用于提取順序視覺數據并進一步壓縮視覺特征。與圖像目標MM-LLMs中的圖像級連接器相比,視頻級連接器對于視頻目標MM-LLMs(包括LV-LLMs)至關重要。一些方法直接在輸入LLMs之前連接圖像tokens,使其對幀圖像數量敏感。用于圖像級連接器中的tokens壓縮的類似結構可以適應視頻級接口,如基于池化和基于transformer的結構。沿時間序列維度的池化是一種減少時間信息冗余的簡單方法。基于transformer的方法,如Video Q-Former和Video Perceiver,在提取視頻特征的同時減少數據復雜性。此外,基于3D卷積的方法可以從空間和時間維度提取和壓縮視覺數據。
長視頻級連接器
專為長視頻LLMs設計的連接器考慮了兩個特殊因素:高效的視覺信息壓縮以處理長格式視覺數據,以及時間感知設計以保留時間信息。高效壓縮視覺信息不僅需要減少輸入視覺tokens到可接受數量,還需保留長視頻中包含的完整時空細節(jié)。視頻中包含兩種數據冗余:幀內的空間數據冗余和幀間的時空數據冗余。一方面,空間數據冗余是在幀內區(qū)域級像素相同時產生的,這導致通過完整的視覺tokens表示冗余視覺幀時效率低下。為減少空間視頻數據冗余,LLaVA-Next系列方法合并相鄰幀的補丁tokens,而Chat-UniVi則合并相似幀的補丁tokens。另一方面,時空數據冗余包括跨幀像素冗余和運動冗余,其中這些冗余視頻幀之間的語義信息相似。為減少時空視頻冗余,MovieChat和MALMM在輸入LLMs之前合并幀特征,以提高幀相似性。除了減少冗余信息外,保留更多視頻時空細節(jié)對于準確的長視頻推理至關重要。為了平衡全局和局部視覺信息并支持更多幀輸入,SlowFast-LLaVA采用慢通道以低幀率提取特征,同時保留更多視覺tokens,并以較高幀率和較大空間池化步幅的快通道關注運動線索。
時間相關視覺數據
此外,時間相關的視覺數據高效管理長格式視頻中固有的時間和空間信息。時間感知設計可以增強視頻相關LLM的時間捕獲能力,這對于長視頻理解尤其有利。VTimeLLM和InternLM-XComposer-2.5(IXC-2.5)使用幀索引來增強時間關系。兩者的區(qū)別在于方法:VTimeLLM通過訓練包含幀索引的解碼文本來學習時間信息,而IXC-2.5則將幀索引與幀圖像上下文一起編碼。TimeChat和Momentor將時間信息直接注入幀特征中,以實現細粒度的時間信息捕獲。具體來說,TimeChat設計了一種時間感知幀編碼器,以提取與幀級別相應時間戳描述的視覺特征,而Momentor則利用時間感知模塊進行連續(xù)的時間編碼和解碼,將時間信息注入幀特征中。
模型訓練的進展
用于視覺理解的多模態(tài)LLMs由兩個主要階段組成:預訓練(PT)用于視覺與語言特征對齊,指令微調(IT)用于響應指令。
預訓練
MM-LLMs的視覺語言預訓練旨在使用文本配對數據將視覺特征與語言空間對齊。這包括對圖像、短視頻和長視頻文本數據集的預訓練。最初為專注于圖像的視覺LLMs引入的圖像文本預訓練,也廣泛應用于與視頻相關的理解任務。粗粒度的圖像文本對數據集,如COCO Captions和CC-3M,用于全球視覺語言對齊。細粒度的圖像文本數據集,如ShareGPT4V-PT,則用于局部空間語義對齊??紤]到短視頻語義內容的變化有限,短視頻文本配對數據集,如Webvid-2M,也可以類似地用于短視頻文本預訓練。類似地,長視頻文本預訓練對于捕獲長視頻的時間語義對齊非常重要。由于圖像文本和短視頻文本對中缺乏長期跨模態(tài)關聯,因此需要長視頻文本預訓練數據集,其中包含長視頻及其對應的文本描述。此外,如圖5(a)所示,長視頻中的場景和事件在幀之間變化顯著,因此需要事件級視覺語言對齊來進行長視頻文本預訓練,這與圖像文本和短視頻文本預訓練顯著不同。
指令微調
使用視覺語言源進行的指令微調使LLMs能夠遵循指令并生成類人文本。多模態(tài)視覺語言指令跟隨數據,包括圖像文本和視頻文本對,用于將多模態(tài)LLMs與人類意圖對齊,從而增強其完成現實任務的能力。
與預訓練階段類似,圖像文本指令微調也被應用于各種視覺理解任務,包括圖像、短視頻和長視頻理解任務。基本的基于圖像的指令跟隨數據集,如ShareGPT4V-Instruct和LLaVA-Instruct,為基本的空間推理和聊天能力提供高質量的指令微調數據。對于視頻相關的LLM,短視頻文本指令微調是必要的,以使多模態(tài)LLM能夠理解時間序列,這在Video-ChatGPT和VideoChat等模型中得以體現。短視頻LLM需要同時進行空間和事件內推理的指令,以理解短視頻的空間和小規(guī)模時間內容。然而,短視頻中有限的內容和語義變化不足以支持長視頻理解任務,因為長視頻的幀數更多且變化顯著。長視頻文本指令微調的引入旨在更好地捕獲和理解長視頻。除了空間和事件內推理指令外,事件間和長期推理指令對于全面理解長視頻也是必要的,如圖5(b)所示。在引入的長視頻指令格式數據集中,Long-VideoQA和Video-ChatGPT不具備時間意識,僅包含長視頻及其對應數據。VTimeLLM、TimeIT和Moment-10M具備時間意識,加入額外的時間信息以增強時間相關性。
評估、性能與分析
在本節(jié)中,我們將對不同長度視頻的流行評估數據集進行性能比較,并提供分析。比較從兩個角度進行:首先,我們評估視頻理解方法在視頻長度從秒到分鐘的任務上的表現;其次,我們特別比較超長視頻數據集(視頻長度從分鐘到小時)的性能。
視頻理解:秒到分鐘
如表2所示,我們總結了各種視覺LLM在開放式視頻問答基準測試上的一般視頻理解性能,包括TGIF-QA、MSVD-QA、MSRVTT-QA、NEXT-QA和ActivityNet-QA。此外,我們還考慮了VideoChatGPT引入的視頻生成性能基準,該基準評估視頻文本生成的五個方面:信息正確性(CI)、細節(jié)導向(DO)、上下文理解(CU)、時間理解(TU)和一致性(CO)。
視頻基準測試中長度少于1分鐘的,如TGIF-QA、MSVD-QA、MSRVTT-QA和NEXT-QA,通常用于短視頻理解。相比之下,長度超過一分鐘的基準測試,如ActivityNet-QA和基于ActivityNet-200的生成性能基準,則用于長視頻理解。
通過比較表2中的性能,我們可以得出以下結論:長視頻理解具有挑戰(zhàn)性,主要發(fā)現如下:(1)包含更多幀的視頻推理引入了更復雜的視覺信息,挑戰(zhàn)性更大。旨在支持長視頻的方法,如LongVA(Zhang et al., 2024d),在同一視頻數據集上與更少幀相比表現更好。然而,對于沒有專門設計用于長視頻的方法,如VideoLLaMA2,當輸入更多幀時,性能則下降。(2)在秒級視頻理解上表現良好的短視頻理解方法,往往在分鐘級中等長視頻理解上表現不佳,例如RED-VILLM和MiniGPT4-Video。長視頻理解方法在短視頻和中等長視頻基準測試上通常表現一致良好,例如ST-LLM、SlowFast-LLaVA、PLLaVA和
MovieChat。這種改善可能源于專門設計的長視頻理解方法更好地捕獲了時空信息。
視頻理解:分鐘到小時
為了解決長視頻的獨特特征,近年來引入了多個長視頻基準測試,視頻長度從幾百秒到幾千秒不等。EgoSchema和QVHighlights是為多選問答和高亮檢測而設計的長視頻理解數據集,要求訪問所有幀。VideoVista、MMBench-Video和MLVU涵蓋各種主題,并旨在進行細粒度能力評估。LongVideoBench引入了指稱推理問題,以解決長視頻中的單幀偏差問題。Video-MME和LVBench包含大量小時級視頻。Video-MME進一步將視頻分類為短、中、長三類,而LVBench旨在挑戰(zhàn)模型展示長期記憶和擴展理解能力。
如表3所示,我們進一步比較和分析長視頻理解方法的性能,特別總結它們在長度從幾百秒到幾千秒的長視頻基準測試上的表現。與第5.1節(jié)的發(fā)現不同,長視頻理解方法通常優(yōu)于短視頻理解方法。這表明,專門設計的強大視頻級連接器對于長視頻理解至關重要。此外,視頻長度較長的基準測試上的性能通常較差。例如,使用相同評估指標的VideoVista和MLVU、Video-MME和LVBench之間的方法性能隨著視頻長度的增加而下降。這表明,長視頻理解仍然是一個具有挑戰(zhàn)性的研究主題。
未來方向
如上所述,現有的長視頻理解方法的效果不如圖像或短視頻理解方法。為了滿足一個日益依賴AI的社會對越來越多和更長的多模態(tài)數據的需求,開發(fā)更強大的視覺大語言模型(LLM)以實現長視頻理解至關重要。以下考慮事項應予以重視。
更多長視頻訓練資源
現有的兩階段訓練流程——跨模態(tài)對齊預訓練和視覺語言格式指令調優(yōu)——廣泛用于訓練多模態(tài)LLM。然而,與常用的圖像-語言和短視頻-語言對比,缺乏細粒度的長視頻-語言訓練對。依賴圖像-語言和短視頻-語言資源的方法無法在預訓練階段捕捉長期關聯。此外,新引入的長視頻指令數據的視頻長度僅限于分鐘級,顯著限制了長視頻理解的有效推理應用場景。因此,需要創(chuàng)建具有更長(小時級)視頻和高質量注釋的長視頻-語言配對預訓練數據集和長視頻指令數據集。
更具挑戰(zhàn)性的長視頻理解基準測試
在前面的部分中總結了各種視頻理解基準測試,其中大多數是最近引入的。然而,這些基準主要集中在長視頻理解的一個或多個方面,例如,LongVideoBench用于長上下文交錯視頻理解,QVHighlights用于基于語言的視頻高亮理解,以及VideoVista和MLVU用于細粒度視頻理解。需要全面的長視頻基準測試,以覆蓋具有時間和語言的幀級和片段級推理,但目前尚未探索以全面評估通用的長視頻理解方法。此外,現有基準通常處于分鐘級,無法充分測試方法的長期能力。長視頻理解方法在處理大量連續(xù)視覺信息(例如小時級視頻)時,常常會遭遇災難性遺忘和時空細節(jié)的損失。最后,大多數現有的長視頻理解基準僅關注視覺模態(tài)。結合額外的音頻和語言等多模態(tài)數據,無疑會使長視頻理解任務受益。
強大而高效的框架
視頻的視覺大語言模型(LLM)需要支持更多的視覺幀,并在固定數量的視覺tokens下保留更多的視覺細節(jié)。在實現長視頻LLM時,有四個主要考慮因素:
- 選擇長上下文LLM作為基礎模型。以往的方法受到LLM上下文容量的限制,必須特別微調LLM以支持更多的tokens。最近的長上下文LLM,如QWen2、LLaMA-3.1和DeepSeek-V2(DeepSeek-AI, 2024),具有128K的上下文窗口長度,可用于長視頻LLM的設計。
- 更高效地壓縮視覺tokens,減少信息損失。一些現有方法面臨壓縮不足的問題,例如Chat-UniVi采用多尺度tokens合并,而LongVA僅合并相鄰tokens。其他方法則壓縮過多視覺信息,例如LLaMA-VID使用上下文和內容tokens,MA-LMM合并相似幀tokens,導致幀細節(jié)顯著損失。針對長視頻的新框架必須高效壓縮視覺tokens,以支持更多時間幀,并在全面的長視頻理解任務中保留更多時空細節(jié)。
- 結合額外的時間感知設計(Ren et al., 2024; Qian et al., 2024),通過整合時間信息增強視頻推理,從而提高長視頻理解性能中的時間信息提取能力。
- 利用能夠支持內存密集型長上下文訓練的基礎設施(Xue et al., 2024),提供在配備大量GPU設備時能夠輸入更多視覺數據的能力。
更多應用場景
使用大型模型的長視頻理解面臨多個關鍵挑戰(zhàn),以滿足更多長視頻應用的需求。上下文理解至關重要,因為長視頻需要模型在較長時間內保持時間一致性和上下文意識。實時處理對監(jiān)控、實時事件分析和具身AI等應用至關重要,需要開發(fā)能夠實時處理視頻流的低延遲模型。多模態(tài)整合是另一個前沿領域,因為長視頻通常包含音頻、文本和視覺信息。未來的模型應更好地整合這些模態(tài),以增強理解并提供對視頻內容的更全面分析。
結論
本文總結了視覺LLM從圖像到長視頻的進展?;趯D像理解、短視頻理解和長視頻理解任務差異的分析,我們識別了長視頻學習的關鍵挑戰(zhàn)。這些挑戰(zhàn)包括捕捉動態(tài)序列事件中的更細粒度時空細節(jié)和長期依賴關系,同時壓縮視覺信息,涉及場景轉換和內容變化。接著,我們介紹了從圖像LLM到長視頻LLM的模型架構和模型訓練的進展,旨在改善長視頻理解和推理。隨后,回顧了多種不同長度的視頻基準測試,并比較了各種方法在視頻理解上的表現。這一比較為長視頻理解的未來研究方向提供了洞見。本論文首次聚焦于長視頻LLM的發(fā)展與改進,以實現更好的長視頻理解。我們希望我們的工作能夠推動長視頻理解和推理的進步。
限制
本文回顧了關于綜合長視頻理解的文獻,包括方法、訓練數據集和基準測試。由于篇幅限制,省略了實時處理和多模態(tài)任務等詳細應用場景。我們將維護一個開源庫,并添加這些內容以補充我們的調查。性能比較基于先前論文和官方基準的最終結果,這些結果在訓練資源、策略和模型架構上存在差異,使得分析具體模型和訓練差異變得困難。計劃在公共基準上進行詳細的消融研究,以便對模型設計、訓練資源和方法進行更直接的分析。
本文轉自 AI生成未來 ,作者:Heqing Zou等
