【LLM】ShareGPT4Video:借助更優(yōu)質的標題提升視頻理解和生成能力
一、結論寫在前面
這篇論文來自:中國科學技術大學、香港中文大學、北京大學、上海 AI Lab。
論文推出了ShareGPT4Video系列,旨在通過密集且精確的標注促進大型視頻語言模型(LVLMs)的視頻理解和文本到視頻模型(T2VMs)的視頻生成。該系列包括:
1)ShareGPT4Video,包含4萬個GPT4V標注的密集視頻標注,這些視頻具有不同長度和來源,通過精心設計的數(shù)據過濾和標注策略開發(fā)。
2)ShareCaptioner-Video,一個高效且能力強大的任意視頻標注模型,由其標注了480萬個高質量美學視頻。
3)ShareGPT4Video-8B,一個簡單卻卓越的LVLM,在三個前沿視頻基準測試中達到了最先進(SOTA)性能。
為此,論文摒棄了不可擴展且成本高昂的人工標注者,發(fā)現(xiàn)使用GPT4V對視頻進行標注,采用簡單的多幀或幀連接輸入策略,會導致細節(jié)不足且有時時間上混亂的結果。論文認為設計高質量視頻標注策略的挑戰(zhàn)在于三個方面:1) 幀間精確的時間變化識別。2) 幀內詳細內容描述。3) 任意長度視頻的幀數(shù)可擴展性。
為此,論文精心設計了一種差異視頻標注策略,該策略穩(wěn)定、可擴展且高效,適用于生成任意分辨率、寬高比和長度的視頻標注?;诖耍撐臉嫿薙hareGPT4Video,包含4萬個高質量視頻,涵蓋廣泛類別,其標注涵蓋豐富的世界知識、物體屬性、攝像機運動,以及關鍵的、詳細且精確的事件時間描述?;赟hareGPT4Video,論文進一步開發(fā)了ShareCaptioner-Video,一個能夠高效生成任意視頻高質量標注的優(yōu)秀標注器。
論文通過它標注了480萬個具有美學吸引力的視頻,并在10秒文本到視頻生成任務中驗證了其有效性。對于視頻理解,論文驗證了ShareGPT4Video在幾種當前LVLM架構上的有效性,并展示了論文卓越的新LVLM ShareGPT4Video-8B。所有模型、策略和標注將開源,論文希望該項目能作為推動LVLMs和T2VMs社區(qū)進步的關鍵資源。
二、論文的簡單介紹
2.1 論文的背景
盡管視頻內容具有豐富的語義和時間信息,但現(xiàn)有數(shù)據中視頻通常只配有簡短的描述。這些簡短的描述限制了對視頻的深入理解以及視頻生成的可控性。雖然圖像-文本對話和文本到圖像生成任務中已認識到詳細描述的重要性,但在視頻理解和生成方面類似的努力仍然不足。
然而,創(chuàng)建大規(guī)模、高質量的視頻描述是一項挑戰(zhàn)性任務。即使是人類,為長視頻生成詳細的描述也是復雜且耗時的,這阻礙了大規(guī)模的標注工作。當前的開源大規(guī)模視覺語言模型(LVLMs)缺乏這種能力,而閉源API尚不支持視頻輸入。
論文認為,制定有效的視頻描述策略的挑戰(zhàn)源于三個基本方面:1) 幀間精確的時間變化識別:時間維度將視頻與圖像區(qū)分開來。不精確的時間描述會顯著降低視頻描述的質量,并在訓練模型時引起混淆。2) 幀內詳細內容的描述:詳細描述對于圖像與文本模態(tài)之間的對齊至關重要,對于視頻-文本對齊也同樣重要。3) 任意長度視頻的幀數(shù)可擴展性:在實際應用中,視頻的長度差異很大。理想的描述策略應能適應這種變化,并為任何長度的視頻生成適當?shù)拿枋觥?/p>
為此,論文提出了差分滑動窗口描述策略(DiffSW),該策略穩(wěn)定、可擴展且高效,適用于為任意視頻生成描述。DiffSW的核心理念是將所有幀到描述的任務轉化為差分描述任務。
2.2 ShareGPT4Video數(shù)據集
這里詳細闡述了如何構建ShareGPT4Video數(shù)據集。論文在圖2中詳細描述了整個過程。
圖2:生成高質量視頻-標題數(shù)據的流程。論文首先根據美學質量和內容復雜性選擇多樣化的視頻來源。接下來,論文使用基于語義的數(shù)據過濾來防止內容同質化。然后,論文應用語義感知的幀提取進行稀疏采樣,保持顯著的語義變化。最后,論文實施差異滑動窗口標題生成策略,利用GPT-4V生成詳細且時間上豐富的標題
2.2.1 數(shù)據收集
數(shù)據源選擇。為了服務于視頻理解和視頻生成任務,論文在收集過程中考慮視頻的美學質量和內容復雜性:
?論文首先考慮Panda-70M,這是一個從YouTube獲取的高分辨率視頻數(shù)據集,包含時長約一分鐘的片段。這個開放領域來源覆蓋了野生動物、烹飪、體育、新聞與電視節(jié)目、游戲與3D渲染等多樣領域。它通常包含復雜的內容和過渡,為理解各種現(xiàn)實世界場景提供了堅實基礎。
?然而,這些內容和過渡的復雜性對視頻生成領域提出了重大挑戰(zhàn)。為了解決這一問題,論文還從一些用戶上傳視頻網站獲取了大量美學上吸引人的視頻。這些視頻主要由風景和美學上令人愉悅的人類活動組成,涉及較少的過渡和更簡單的事件。
?最后,論文通過選擇來自Ego4D 和BDD100K 的視頻來補充論文的收集,填補自我中心人類活動和自動駕駛場景中的空白,確保論文的視頻來源盡可能多地涵蓋現(xiàn)實世界場景。
基于語義的數(shù)據過濾。盡管論文的字幕生成方法能夠支持較長時間的視頻,但由于視頻時長與數(shù)量之間的權衡,論文的收集主要集中在短于兩分鐘的視頻上。
?論文首先從選定的數(shù)據源中過濾掉超過兩分鐘的視頻,將兩分鐘內的視頻作為候選。隨后,論文引入了一種基于語義的數(shù)據過濾策略,以減少這些候選視頻之間的內容同質性,并保持最終視頻數(shù)據集的多樣性。該方法旨在從候選視頻池中選擇具有顯著主題差異的視頻,以構成論文的最終視頻集合。
?具體而言,論文首先使用Panda-Student 模型為每個候選視頻生成一個簡短的單句字幕,然后維護一個最終的視頻候選池。論文提供了偽代碼,如圖14所示。
2.2.2 視頻處理
論文開發(fā)了一種語義感知的關鍵幀提取方法,該方法在減少時間冗余和保持語義連貫性之間取得了平衡。
圖3:綜合視頻-標題數(shù)據集:(a) 該數(shù)據集涵蓋了廣泛的內容,包括野生動物、烹飪、體育、風景、以自我為中心的人類活動、自動駕駛場景等。(b) 數(shù)據集中的視頻長度從2秒到2分鐘不等。(c) 標題主要在200到400字之間,提供了豐富的時序信息,很好地服務于視頻理解和生成任務 。
2.2.3標題生成流程
文發(fā)現(xiàn)如果直接將所有幀輸入GPT4V,GPT4V難以穩(wěn)定生成具有正確時序關系的標題,并且隨著幀數(shù)的增加,其性能進一步惡化。另一方面,如果論文將所有幀合并成一張大圖,隨著幀數(shù)的增加,GPT4V會丟失更多細節(jié),如圖11-12所示。
差異滑動窗口字幕生成。為此,論文開發(fā)了一種差異滑動窗口字幕生成流程,用于為各種視頻生成高質量的字幕,并附帶詳細的時序描述。具體而言,每次輸入到圖像多模態(tài)模型的內容包括當前關鍵幀及其與前一關鍵幀的差異字幕。接著,論文引入了差異提示,引導GPT4V關注當前幀與前一幀之間的變化,如姿態(tài)、位置、攝像機角度等。此外,將前一幀的差異字幕作為補充上下文融入,提高了響應質量并減少了幻覺現(xiàn)象。這是因為圖像嵌入和文本字幕分別提供了圖像的顯式和隱式表示。差異字幕不僅增加了額外的上下文,還整合了來自兩幀之前的時序信息,進一步增強了模型的時序理解能力。最后,論文將所有差異字幕及其相應的時戳輸入到GPT4中。設計了一個特定的總結提示,指導大型語言模型生成具有精確時序動態(tài)和詳細空間信息的高質量視頻字幕。在實踐中,論文使用GPT-4-Turbo-04-09進行所有標注。
2.3 ShareCaptioner-Video
2.3.1 模型設計
論文使用收集的視頻字幕數(shù)據對IXC2-4KHD 進行微調,從而得到論文的ShareCaptioner-Video。為了靈活使用,論文對數(shù)據進行了重新組織,以支持以下功能:
圖 4:ShareCaptioner-Video 是一個具有以下功能的四合一出色視頻字幕模型:快速字幕生成、滑動字幕、剪輯總結以及提示重新字幕
1.快速字幕生成:該模型采用圖像網格格式進行直接視頻字幕生成,提供了適用于短視頻的快速生成速度。在實踐中,論文將視頻的所有關鍵幀連接成一個垂直拉長的圖像,并在字幕任務上對模型進行訓練。
2.滑動字幕:該模型支持以差分滑動窗口格式進行流式字幕生成,生成適用于長視頻的高質量字幕。與第2.3節(jié)中使用的字幕流程類似,論文將前一個差分字幕旁邊的兩個相鄰關鍵幀作為輸入,并訓練模型描述它們之間發(fā)生的事件。
3.剪輯總結:該模型可以快速總結來自ShareGPT4Video或經歷了差分滑動窗口字幕生成過程的視頻的任何剪輯,無需重新處理幀。論文將所有差分描述作為輸入,輸出為視頻字幕。
4.提示重新字幕:該模型可以重新表達用戶輸入的提示,這些用戶偏好特定的視頻生成區(qū)域,確?;诟哔|量視頻字幕數(shù)據訓練的T2VM在推理過程中與其訓練中保持格式對齊。在實踐中,論文使用GPT-4生成Sora風格的提示用于論文的密集字幕,并以相反的方式訓練重新字幕任務,即使用生成的提示作為輸入,密集字幕作為訓練目標。
2.3.2 字幕生成規(guī)模化
為了驗證論文的ShareCaptioner-Video在視頻字幕生成任務中的有效性,并進一步支持視頻生成領域的發(fā)展,論文利用它對大量審美吸引人的視頻進行了注釋。
2.4實驗
2.4.1 視頻理解
數(shù)據集和基準。為了全面探索論文高質量視頻字幕數(shù)據給LVLMs帶來的益處,論文在三個多模態(tài)視頻基準上對模型進行了全面評估。VideoBench從13個現(xiàn)有數(shù)據源(如MSVD-QA,MSRVTT-QA,Activitynet-QA等)中策劃了約15,000個跨10個評估維度的QA對。MVBench 旨在挑戰(zhàn)LVLMs處理視頻任務,這些任務不能通過單幀依賴有效解決,其包含了從11個公共視頻測試中派生出的4,000個QA對基準。TempCompass 特別評估了LVLMs在各種時間方面的微妙性能,如速度、方向和屬性變化。它包含410個視頻和7,540個精心收集的指令,強調時間理解和交互。
通過ShareGPT4Video提升當前LVLM的性能。論文驗證了ShareGPT4Video收集的高質量視頻字幕數(shù)據對于提升當前LVLM性能的有效性。為了公平和簡化,論文將ShareGPT4Video中與復雜場景相關的28K高質量視頻字幕數(shù)據(包括Panda-70M 、Ego4D [18]和BDD100K )整合,以同等數(shù)量替換VideoChatGPT-100K 對話數(shù)據中的字幕數(shù)據。然后,論文使用默認的訓練設置和超參數(shù)訓練VideoLLaVA 和LLaMA-VID。如表1所示,ShareGPT4Video在不同的LVLM架構和規(guī)模上持續(xù)提高了視頻與語言模態(tài)之間的對齊。具體而言,集成高質量字幕后,VideoLLaVA-7B在三個全面的多模態(tài)視頻基準測試上平均性能提升了1.1,而LLaMA-VID-7B和LLaMA-VID-13B分別實現(xiàn)了平均2.0和2.3的提升。論文高質量的視頻字幕數(shù)據特別有助于LVLM在需要復雜時間理解的基準測試上實現(xiàn)顯著的性能提升,例如TempCompass 。
ShareGPT4Video-8B。為了獲得最終的ShareGPT4Video-8B模型,論文從LLaVA-Next-8B [26]圖像多模態(tài)模型開始。與之前的LVLM方法一致,論文遵循lG-VLM策略,從每個視頻中均勻采樣16幀,并將這些幀排列成4x4的圖像網格,以形成訓練和推理的輸入。對于訓練數(shù)據,論文首先從各種教學視頻到文本數(shù)據集中收集153K的VQA數(shù)據來構建論文的基準。這一收集包括來自VideoChatGPT的13K對話數(shù)據和140K問答對,其中45K數(shù)據點來自CLEVRER ,8K來自EGO-QA ,34K來自NextQA ,53K來自TGIF-Transition 。然后,這些VQA數(shù)據與28K視頻字幕數(shù)據結合,形成一個包含181K樣本的綜合訓練數(shù)據集。
如表3、4、5所示,論文展示了論文的ShareGPT4Video-8B模型(由論文的ShareGPT4Video數(shù)據集增強)與現(xiàn)有最先進的LVLMs之間的定量比較。值得注意的是,與之前的LVLMs相比,論文的ShareGPT4Video-8B在所有三個綜合基準測試中均取得了最優(yōu)性能。具體而言,得益于ShareGPT4Video提供的豐富時間信息,論文的ShareGPT4Video-8B模型在TempCompass基準上實現(xiàn)了令人印象深刻的平均準確率61.59%。這比之前表現(xiàn)最佳的LVLM,VideoLLaVA-7B提高了11.6%。此外,盡管VideoBench和MVBench基準從各種現(xiàn)有視頻數(shù)據集中收集了多樣化的QA數(shù)據,論文在這兩個基準上均取得了穩(wěn)健的性能,平均準確率分別超過之前的最先進水平2.7%和8.2%。
關于標題質量和ViT的消融研究。基于ShareGPT4Video-8B,論文研究了標題質量和可學習的視覺編碼器如何影響模態(tài)對齊。如表2所示,在VQA數(shù)據之上引入簡短的標題可能不會帶來顯著的性能提升。由于模態(tài)對齊不佳,它甚至可能在某些基準上降低性能。比較表2中的第一、第二和第四行,得益于論文高質量標題數(shù)據理解時間序列所帶來的顯著性能提升是顯而易見的。此外,在訓練時使用詳細標題解鎖視覺編碼器有助于更好地實現(xiàn)LVLMs的模態(tài)對齊。
2.4.2 視頻字幕生成
為了驗證ShareCapitoner-Video的能力,論文通過人類偏好投票定量比較了ShareCapitoner-Video與GPT4V之間的視頻字幕質量。如表7顯示,其性能與GPT4V相當。圖9中還展示了定性結果。更多詳情,請參閱附錄A.4節(jié)。
表3:與TempCompass上的SOTA方法進行比較。盡管競爭對手使用了更大的訓練數(shù)據或更多的參數(shù),但擁有70億參數(shù)的ShareGPT4Video-8B在20個維度中的19個維度上超越了競爭對手。最佳結果以粗體顯示,次佳結果以下劃線標出
表 4:在 VideoBench 上與 SOTA 方法的比較。 表示論文使用公開檢查點進行評估的結果。最佳結果以粗體顯示,次佳結果以下劃線顯示
表 5:與MVBench上的SOTA方法的比較。表示論文使用公共檢查點的評估結果。最佳結果加粗,次佳結果下劃線*
2.4.3 視頻生成
模型設置。為了驗證高質量字幕在T2VMs領域的有效性,論文使用ShareCaptioner-Video和Panda-Student 分別為450萬個65幀視頻和30萬個221幀視頻生成高質量且簡短的視頻字幕。遵循Open-Sora-Plan [25]中概述的流程,論文對預訓練的T2VM進行了微調,以生成高保真度10秒視頻。作為比較,論文對具有相同數(shù)量視頻-簡短字幕對的基線模型進行了微調。
定性分析。如圖5所示,T2VM在ShareCaptioner-Video生成的高質量詳細字幕輔助下,能夠準確遵循詳細提示,并在語義內容和相機運動控制方面表現(xiàn)出卓越的控制能力。生成的視頻展示了復雜而生動的畫面。相比之下,當提供簡短字幕時,T2VM難以遵循復雜的生成提示,導致結果不佳。
論文標題:ShareGPT4Video: Improving Video Understanding and Generation with Better Captions
論文鏈接:??https://arxiv.org/pdf/2406.04325??
論文項目地址:??https://sharegpt4video.github.io/??
本文轉載自?? AI帝國??,作者: 無影寺
