百萬級(jí)高質(zhì)量視頻數(shù)據(jù)集發(fā)布,登頂抱抱臉數(shù)據(jù)集排行榜,中科大&上海AI Lab等出品
中科大、上海AI實(shí)驗(yàn)室等組成的ShareGPT4V團(tuán)隊(duì),推出了新的視頻數(shù)據(jù)集,登頂HuggingFace排行榜!
數(shù)據(jù)集涵蓋了3000小時(shí)的高質(zhì)量視頻數(shù)據(jù),而且還配有高質(zhì)量的文字描述。
利用這一數(shù)據(jù)集,團(tuán)隊(duì)重新測試了北大的Open-Sora-Plan,發(fā)現(xiàn)視頻生成質(zhì)量獲得了顯著提升。
作者認(rèn)為,無論是視頻理解還是視頻生成任務(wù),都離不開詳細(xì)高質(zhì)量的視頻-字幕數(shù)據(jù)。
利用GPT-4v的視覺能力,團(tuán)隊(duì)得到了4萬條(共291小時(shí))帶有標(biāo)注的視頻數(shù)據(jù),生成的描述包含了豐富的世界知識(shí)。
在此基礎(chǔ)之上,團(tuán)隊(duì)得到了能自動(dòng)生成視頻描述的模型,從而將數(shù)據(jù)規(guī)模拓展到了480萬條、近3000小時(shí)。
目前該項(xiàng)目已開源,論文登上了6月7日的抱抱臉Daily Papers榜首,同時(shí)數(shù)據(jù)集本身也成功登頂VQA類數(shù)據(jù)集榜單。
為視頻生成高質(zhì)量描述
視頻多模態(tài)領(lǐng)域中,閉源商業(yè)模型一直處于斷層領(lǐng)先的地位,而研究者們認(rèn)為,這種領(lǐng)先優(yōu)勢,離不開詳細(xì)高質(zhì)量的視頻-字幕數(shù)據(jù)。
因此,該研究團(tuán)隊(duì)致力于為視頻獲取大量詳細(xì)而精確的字幕,提升大型視頻語言模型的視頻理解能力和文生視頻模型的視頻生成能力。
經(jīng)過分析,研究者們認(rèn)為,用現(xiàn)有的閉源模型生成高質(zhì)量視頻描述的挑戰(zhàn)有三個(gè)方面——
- 一是清晰地理解幀間的時(shí)序變化;
- 二是詳細(xì)準(zhǔn)確地描述幀內(nèi)內(nèi)容;
- 另外,對(duì)任意長度視頻的可擴(kuò)展性也是一大難點(diǎn)。
為此,研究者們精心設(shè)計(jì)了一種描述策略,先來看看它的效果。
針對(duì)這段16秒的視頻,作者得到了以下的描述(共270詞):
△原文為英文,中文為機(jī)翻,僅供參考
這種策略叫做差分滑窗視頻描述(Differential Sliding-Window Captioning, DiffSW),可以穩(wěn)定且高效地為任意分辨率、寬高比和長度的視頻生成高質(zhì)量描述。
具體而言,研究者們每次送入GPT-4V的輸入是當(dāng)前關(guān)鍵幀、上一關(guān)鍵幀,以及上一關(guān)鍵幀對(duì)應(yīng)的差分描述。
這樣做的目的是讓GPT-4V通過觀察兩幀之間的時(shí)間與空間變化,總結(jié)出當(dāng)前幀相對(duì)于上一幀的重要空間、時(shí)序變化,也就是當(dāng)前幀與上一幀對(duì)應(yīng)的差分描述。
最終,所有差分描述會(huì)連同時(shí)間戳一起送入GPT4中,從而總結(jié)出最終的關(guān)于整個(gè)視頻的高質(zhì)量字幕。
具體的操作過程,可以通過下面這段視頻感受一下:
通過這一方法,研究者們推出了大型“視頻-文本描述”數(shù)據(jù)集——ShareGPT4Video數(shù)據(jù)集,其中包括4萬條(共291小時(shí))由GPT-4V標(biāo)注的視頻數(shù)據(jù)。
這些數(shù)據(jù)涵蓋了廣泛的類別,生成的描述包含豐富的世界知識(shí)、對(duì)象屬性、攝像機(jī)運(yùn)動(dòng),以及詳細(xì)和精確的事件時(shí)間描述。
描述文本的字?jǐn)?shù)主要在200-400之間,提供了豐富的時(shí)間信息,可以很好地完成視頻理解和生成任務(wù)。
為了進(jìn)一步擴(kuò)大數(shù)據(jù)集規(guī)模,以及便于開源社區(qū)在自有數(shù)據(jù)上的使用,在ShareGPT4Video數(shù)據(jù)集的基礎(chǔ)上,研究者們進(jìn)一步設(shè)計(jì)開發(fā)了ShareCaptioner-Video,一個(gè)能夠有效地為任意視頻生成高質(zhì)量描述的多功能多模態(tài)大模型。
ShareCaptioner-Video是一款四合一的特殊視頻描述模型,具有滑動(dòng)窗口生成視頻描述、快速生成視頻描述、視頻片段對(duì)應(yīng)描述整合,以及提示詞生成詳細(xì)描述四種功能。
具體而言,滑窗視頻描述功能可以擔(dān)任GPT-4V收集標(biāo)注數(shù)據(jù)中的全部角色,并且通過滑窗的方式來產(chǎn)生差分描述并匯總出最終的字幕。
快速視頻描述功能則是把所有關(guān)鍵幀沿豎直方向拼成一張長圖一次性產(chǎn)生最終的字幕,在略微犧牲性能的情況下大幅提升標(biāo)注速度。
視頻片段總結(jié)功能則可以在對(duì)完整視頻進(jìn)行一次滑窗描述后,對(duì)其中任意的視頻片段直接總結(jié)出字幕而不需要再次進(jìn)行滑窗描述過程。
在得到了優(yōu)異的視頻描述模型后,研究者們用它進(jìn)一步標(biāo)注了480萬條,總時(shí)長3000小時(shí)的豐富的視頻數(shù)據(jù)。
這些視頻具有較高的美學(xué)評(píng)分以及較少的轉(zhuǎn)場效果,可以進(jìn)一步為視頻生成任務(wù)服務(wù),其具體構(gòu)成如下:
讓視頻理解和視頻生成模型更好
在視頻理解方面,研究者們首先通過簡單的等量替換實(shí)驗(yàn),驗(yàn)證了ShareGPT4Video數(shù)據(jù)集在幾種當(dāng)前LVLM架構(gòu)上的有效性。
研究者們把VideoChatGPT數(shù)據(jù)集中的100K視頻訓(xùn)練數(shù)據(jù)中的與詳細(xì)caption相關(guān)的28K數(shù)據(jù),等量替換成了ShareGPT4Video數(shù)據(jù)集中的子集。
結(jié)果立竿見影,從下表可以看到,通過簡單的數(shù)據(jù)替換,僅僅是字幕數(shù)據(jù)質(zhì)量上的提升,便可以一致地為不同架構(gòu)、不同規(guī)模的視頻理解多模態(tài)大模型帶來顯著的性能增益。
之后,研究者們自主收集了153K的視頻VQA數(shù)據(jù),并結(jié)合ShareGPT4Video數(shù)據(jù)集中與視頻理解相關(guān)的28K高質(zhì)量字幕數(shù)據(jù),提出了新的LVLM ShareGPT4Video-8B。
僅需8卡以及5個(gè)小時(shí)的訓(xùn)練開銷,該模型就能在多項(xiàng)Benchmark上取得優(yōu)異的結(jié)果。
下圖中,從上到下依次為TempCompass、 VideoBench和MVBench上的性能對(duì)比。
即使是在最近新出現(xiàn)的幾個(gè)視頻理解基準(zhǔn)上,ShareGPT4Video-8B也可以在7B參數(shù)規(guī)模上一致地展現(xiàn)出具有競爭力的性能。
下圖從左到右依次展示了LongVideoBench、Video-MME與MMBench-Video數(shù)據(jù)集上的性能對(duì)比。
在視頻生成方面,研究者們基于Open-Sora-Plan項(xiàng)目簡單直接地驗(yàn)證了詳細(xì)的字幕數(shù)據(jù)對(duì)于文生視頻模型的幫助。
下圖中,第一行的結(jié)果是使用了短字幕數(shù)據(jù)訓(xùn)練出的文生視頻模型得到的,第二行的結(jié)果是使用了ShareCaptioner-Video標(biāo)注的高質(zhì)量字幕數(shù)據(jù)訓(xùn)練出的文生視頻模型得到的。
可以看到,使用詳細(xì)的字幕數(shù)據(jù),可以讓文生視頻模型具備優(yōu)異的鏡頭移動(dòng)控制以及語義內(nèi)容控制能力。
論文地址:
???https://arxiv.org/abs/2406.04325v1???項(xiàng)目主頁:
??https://ShareGPT4Video.github.io/??GitHub:
https://github.com/ShareGPT4Omni/ShareGPT4Video?
本文轉(zhuǎn)自 量子位 ,作者:量子位
