還得是抖音,字節(jié)推出豎屏視頻理解數(shù)據(jù)集,入選CVPR2024
短視頻在當(dāng)下社交媒體逐漸成為主導(dǎo)的視頻格式。傳統(tǒng)視頻處理技術(shù)和研究一般都專注于橫屏視頻的理解和解析,而豎屏視頻因其拍攝手法和內(nèi)容重點(diǎn)不同,展示出與橫屏視頻數(shù)據(jù)不同的特性。
針對(duì)這一不同,字節(jié)跳動(dòng)技術(shù)團(tuán)隊(duì)發(fā)布了專注于豎屏視頻理解的數(shù)據(jù)集,提出了多個(gè)針對(duì)豎屏視頻處理的技術(shù)點(diǎn)以及一個(gè)初始方案。這項(xiàng)研究對(duì)準(zhǔn)確的豎屏視頻理解和基礎(chǔ)技術(shù)架構(gòu)有較為重要的意義,論文已入選 CVPR2024。
視頻 demo 展示、數(shù)據(jù)特性演示以及豎屏視頻類別分類,請(qǐng)見(jiàn) https://mingfei.info/PMV
論文地址:https://arxiv.org/abs/2312.13746
視頻分類作為基礎(chǔ)的計(jì)算機(jī)視覺(jué)技術(shù),對(duì)視頻內(nèi)容的分類、特征提取,以及推薦等有著重要的作用。豎屏視頻是目前社交媒體平臺(tái)上主導(dǎo)的短視頻格式,受到用戶的廣泛青睞。而豎屏的視頻分類技術(shù)在目前的研究中鮮有關(guān)注,為了激發(fā)這一領(lǐng)域的研究,團(tuán)隊(duì)提出了一個(gè)專用的數(shù)據(jù)集 PortraitMode-400,包含真實(shí)的視頻數(shù)據(jù)和 400 個(gè)結(jié)構(gòu)化的類別標(biāo)簽。
進(jìn)一步,通過(guò)自建數(shù)據(jù)和公開(kāi)數(shù)據(jù)子集實(shí)驗(yàn),團(tuán)隊(duì)初步展示了橫屏數(shù)據(jù)和豎屏數(shù)據(jù)之間的不同,和獨(dú)特的先驗(yàn)分布,并針對(duì)不同的技術(shù)點(diǎn)進(jìn)行實(shí)驗(yàn),提出了針對(duì)豎屏視頻處理的技術(shù)方案。
團(tuán)隊(duì)首先從公開(kāi)數(shù)據(jù) Kinetics-700 中抽取包含豎屏視頻數(shù)量的子集 S100-PM,并對(duì)應(yīng)的抽取同等數(shù)量的橫屏視頻得到 S100-LM。團(tuán)隊(duì)分別在 S100-PM 和 S100-LM 上訓(xùn)練兩個(gè)相同的模型(不含任何預(yù)訓(xùn)練),并在相同的測(cè)試集上進(jìn)行公平測(cè)試,以觀察豎屏和橫屏視頻所含的不同數(shù)據(jù)特性。
如下方所示,以上半為例,團(tuán)隊(duì)將 S100-PM 訓(xùn)練的模型在豎屏測(cè)試集上做滑窗測(cè)試(16x9 個(gè)不重疊的均勻分布的滑窗)得到 Probing-P,同樣的可以得到 S100-LM 訓(xùn)練模型的測(cè)試結(jié)果 Probing-L。為了觀察 S100-PM 模型對(duì) S100-LM 模型的優(yōu)勢(shì),團(tuán)隊(duì)做差值圖得到 c 圖,黃色框 1 表示此位置豎屏訓(xùn)練的模型以大于 9 個(gè)點(diǎn)的差值顯著優(yōu)于橫屏訓(xùn)練的模型。同樣的,團(tuán)隊(duì)可以得到下半所示的差值圖,S100-LM 訓(xùn)練模型在橫屏中下區(qū)域的準(zhǔn)確率低于 S100-PM 訓(xùn)練模型。
可以觀察得到,在確保所有訓(xùn)練和測(cè)試條件一致的情況下,訓(xùn)練數(shù)據(jù)的不同帶來(lái)準(zhǔn)確率空間分布上的顯著差異,而且差值呈啞鈴狀分布。
橫屏與豎屏視頻的不同,說(shuō)明豎屏視頻是一種不同于以往數(shù)據(jù)的新視頻格式,有著不同的數(shù)據(jù)特性。為了進(jìn)一步推動(dòng)領(lǐng)域研究,團(tuán)隊(duì)提出了數(shù)據(jù)集 PortraitMode-400,通過(guò)自底向上的方式綜合大量的熱門(mén)搜索詞,人工篩查和提取得到 400 個(gè)包含顯著動(dòng)作內(nèi)容的類別集合,涵蓋從飲食運(yùn)動(dòng)到休閑娛樂(lè)等等領(lǐng)域。每個(gè)類別包含至少 100 個(gè)公開(kāi)的豎屏視頻鏈接,并已通過(guò)人工審查的方式確保數(shù)據(jù)的高質(zhì)量可用。
此外,團(tuán)隊(duì)還真對(duì)豎屏視頻數(shù)據(jù)的不同特性進(jìn)行實(shí)驗(yàn),以期提出一套合理有效的技術(shù)方案。為此,團(tuán)隊(duì)利用不同的模型類別,如 CNN(X3D)、Transformer(MViT v2)、Hyrid-Transformer(Uniformer)在豎屏數(shù)據(jù)上進(jìn)行廣泛實(shí)驗(yàn)。團(tuán)隊(duì)發(fā)現(xiàn),與傳統(tǒng)橫屏數(shù)據(jù)處理相比,豎屏數(shù)據(jù)對(duì)數(shù)據(jù)預(yù)處理有著不一樣的傾向。
如下圖上半所示,在 CNN 模型下傾向于 Inception-style 方案,而在 Transformer 類模型下傾向于 shorter-side resize 方案。進(jìn)一步的,團(tuán)隊(duì)發(fā)現(xiàn)更好的保持原始視頻在訓(xùn)練時(shí)的長(zhǎng)寬比,可以在同等測(cè)試條件下獲得更好的準(zhǔn)確率。
如下半所示,隨著采樣框長(zhǎng)寬比增大,Transformer 類模型表現(xiàn)逐漸增強(qiáng),而 CNN 模型表現(xiàn)相反。這些實(shí)驗(yàn)現(xiàn)象表明了,豎屏數(shù)據(jù)不同于橫屏數(shù)據(jù)的特性;提供了不同模型架構(gòu)下的訓(xùn)練偏好設(shè)置。
最后,團(tuán)隊(duì)還在時(shí)間信息顯著性、音頻模態(tài)重要性等方面進(jìn)行了實(shí)驗(yàn)。發(fā)現(xiàn)時(shí)間信息的加入和音頻模態(tài)的引入,都可以對(duì)豎屏數(shù)據(jù)的準(zhǔn)確率帶來(lái)不小的提升,展示了在相關(guān)領(lǐng)域的研究空間和可能性。
應(yīng)用落地和展望
視頻分類作為基礎(chǔ)的計(jì)算機(jī)視覺(jué)技術(shù),對(duì)視頻內(nèi)容的分類、特征提取,以及推薦等有著重要的作用。針對(duì)豎屏視頻的專門(mén)研究可以進(jìn)一步推動(dòng)相關(guān)技術(shù)的發(fā)展,增強(qiáng)內(nèi)容推薦等關(guān)鍵能力,進(jìn)一步激發(fā)豎屏領(lǐng)域的其他類型研究,如生成等。
本文轉(zhuǎn)自 機(jī)器之心 ,作者:機(jī)器之心
