自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

還得是抖音,字節(jié)推出豎屏視頻理解數(shù)據(jù)集,入選CVPR2024

人工智能 新聞
字節(jié)跳動(dòng)技術(shù)團(tuán)隊(duì)發(fā)布了專注于豎屏視頻理解的數(shù)據(jù)集,提出了多個(gè)針對(duì)豎屏視頻處理的技術(shù)點(diǎn)以及一個(gè)初始方案。

想了解更多AIGC的內(nèi)容,請(qǐng)?jiān)L問(wèn):

51CTO AI.x社區(qū)

http://www.scjtxx.cn/aigc/

短視頻在當(dāng)下社交媒體逐漸成為主導(dǎo)的視頻格式。傳統(tǒng)視頻處理技術(shù)和研究一般都專注于橫屏視頻的理解和解析,而豎屏視頻因其拍攝手法和內(nèi)容重點(diǎn)不同,展示出與橫屏視頻數(shù)據(jù)不同的特性。

針對(duì)這一不同,字節(jié)跳動(dòng)技術(shù)團(tuán)隊(duì)發(fā)布了專注于豎屏視頻理解的數(shù)據(jù)集,提出了多個(gè)針對(duì)豎屏視頻處理的技術(shù)點(diǎn)以及一個(gè)初始方案。這項(xiàng)研究對(duì)準(zhǔn)確的豎屏視頻理解和基礎(chǔ)技術(shù)架構(gòu)有較為重要的意義,論文已入選 CVPR2024。

視頻 demo 展示、數(shù)據(jù)特性演示以及豎屏視頻類別分類,請(qǐng)見 https://mingfei.info/PMV

論文地址:https://arxiv.org/abs/2312.13746

視頻分類作為基礎(chǔ)的計(jì)算機(jī)視覺技術(shù),對(duì)視頻內(nèi)容的分類、特征提取,以及推薦等有著重要的作用。豎屏視頻是目前社交媒體平臺(tái)上主導(dǎo)的短視頻格式,受到用戶的廣泛青睞。而豎屏的視頻分類技術(shù)在目前的研究中鮮有關(guān)注,為了激發(fā)這一領(lǐng)域的研究,團(tuán)隊(duì)提出了一個(gè)專用的數(shù)據(jù)集 PortraitMode-400,包含真實(shí)的視頻數(shù)據(jù)和 400 個(gè)結(jié)構(gòu)化的類別標(biāo)簽。

進(jìn)一步,通過(guò)自建數(shù)據(jù)和公開數(shù)據(jù)子集實(shí)驗(yàn),團(tuán)隊(duì)初步展示了橫屏數(shù)據(jù)和豎屏數(shù)據(jù)之間的不同,和獨(dú)特的先驗(yàn)分布,并針對(duì)不同的技術(shù)點(diǎn)進(jìn)行實(shí)驗(yàn),提出了針對(duì)豎屏視頻處理的技術(shù)方案。

團(tuán)隊(duì)首先從公開數(shù)據(jù) Kinetics-700 中抽取包含豎屏視頻數(shù)量的子集 S100-PM,并對(duì)應(yīng)的抽取同等數(shù)量的橫屏視頻得到 S100-LM。團(tuán)隊(duì)分別在 S100-PM 和 S100-LM 上訓(xùn)練兩個(gè)相同的模型(不含任何預(yù)訓(xùn)練),并在相同的測(cè)試集上進(jìn)行公平測(cè)試,以觀察豎屏和橫屏視頻所含的不同數(shù)據(jù)特性。

如下方所示,以上半為例,團(tuán)隊(duì)將 S100-PM 訓(xùn)練的模型在豎屏測(cè)試集上做滑窗測(cè)試(16x9 個(gè)不重疊的均勻分布的滑窗)得到 Probing-P,同樣的可以得到 S100-LM 訓(xùn)練模型的測(cè)試結(jié)果 Probing-L。為了觀察 S100-PM 模型對(duì) S100-LM 模型的優(yōu)勢(shì),團(tuán)隊(duì)做差值圖得到 c 圖,黃色框 1 表示此位置豎屏訓(xùn)練的模型以大于 9 個(gè)點(diǎn)的差值顯著優(yōu)于橫屏訓(xùn)練的模型。同樣的,團(tuán)隊(duì)可以得到下半所示的差值圖,S100-LM 訓(xùn)練模型在橫屏中下區(qū)域的準(zhǔn)確率低于 S100-PM 訓(xùn)練模型。

可以觀察得到,在確保所有訓(xùn)練和測(cè)試條件一致的情況下,訓(xùn)練數(shù)據(jù)的不同帶來(lái)準(zhǔn)確率空間分布上的顯著差異,而且差值呈啞鈴狀分布。

圖片

橫屏與豎屏視頻的不同,說(shuō)明豎屏視頻是一種不同于以往數(shù)據(jù)的新視頻格式,有著不同的數(shù)據(jù)特性。為了進(jìn)一步推動(dòng)領(lǐng)域研究,團(tuán)隊(duì)提出了數(shù)據(jù)集 PortraitMode-400,通過(guò)自底向上的方式綜合大量的熱門搜索詞,人工篩查和提取得到 400 個(gè)包含顯著動(dòng)作內(nèi)容的類別集合,涵蓋從飲食運(yùn)動(dòng)到休閑娛樂(lè)等等領(lǐng)域。每個(gè)類別包含至少 100 個(gè)公開的豎屏視頻鏈接,并已通過(guò)人工審查的方式確保數(shù)據(jù)的高質(zhì)量可用。

此外,團(tuán)隊(duì)還真對(duì)豎屏視頻數(shù)據(jù)的不同特性進(jìn)行實(shí)驗(yàn),以期提出一套合理有效的技術(shù)方案。為此,團(tuán)隊(duì)利用不同的模型類別,如 CNN(X3D)、Transformer(MViT v2)、Hyrid-Transformer(Uniformer)在豎屏數(shù)據(jù)上進(jìn)行廣泛實(shí)驗(yàn)。團(tuán)隊(duì)發(fā)現(xiàn),與傳統(tǒng)橫屏數(shù)據(jù)處理相比,豎屏數(shù)據(jù)對(duì)數(shù)據(jù)預(yù)處理有著不一樣的傾向。

如下圖上半所示,在 CNN 模型下傾向于 Inception-style 方案,而在 Transformer 類模型下傾向于 shorter-side resize 方案。進(jìn)一步的,團(tuán)隊(duì)發(fā)現(xiàn)更好的保持原始視頻在訓(xùn)練時(shí)的長(zhǎng)寬比,可以在同等測(cè)試條件下獲得更好的準(zhǔn)確率。

如下半所示,隨著采樣框長(zhǎng)寬比增大,Transformer 類模型表現(xiàn)逐漸增強(qiáng),而 CNN 模型表現(xiàn)相反。這些實(shí)驗(yàn)現(xiàn)象表明了,豎屏數(shù)據(jù)不同于橫屏數(shù)據(jù)的特性;提供了不同模型架構(gòu)下的訓(xùn)練偏好設(shè)置。

圖片

圖片

最后,團(tuán)隊(duì)還在時(shí)間信息顯著性、音頻模態(tài)重要性等方面進(jìn)行了實(shí)驗(yàn)。發(fā)現(xiàn)時(shí)間信息的加入和音頻模態(tài)的引入,都可以對(duì)豎屏數(shù)據(jù)的準(zhǔn)確率帶來(lái)不小的提升,展示了在相關(guān)領(lǐng)域的研究空間和可能性。

圖片

應(yīng)用落地和展望

視頻分類作為基礎(chǔ)的計(jì)算機(jī)視覺技術(shù),對(duì)視頻內(nèi)容的分類、特征提取,以及推薦等有著重要的作用。針對(duì)豎屏視頻的專門研究可以進(jìn)一步推動(dòng)相關(guān)技術(shù)的發(fā)展,增強(qiáng)內(nèi)容推薦等關(guān)鍵能力,進(jìn)一步激發(fā)豎屏領(lǐng)域的其他類型研究,如生成等。

想了解更多AIGC的內(nèi)容,請(qǐng)?jiān)L問(wèn):

51CTO AI.x社區(qū)

http://www.scjtxx.cn/aigc/

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2024-04-22 17:05:40

火山引擎抖音4K修復(fù)影片

2024-07-30 13:42:57

2024-06-24 09:33:01

2020-10-26 09:57:06

CIO首席信息官IT

2024-12-25 15:42:39

視頻數(shù)據(jù)實(shí)時(shí)直播

2020-12-02 09:42:42

PythonApp抖音視頻

2023-04-19 16:47:09

抖音機(jī)器學(xué)習(xí)

2022-07-13 16:42:35

黑產(chǎn)反作弊風(fēng)險(xiǎn)

2020-10-13 15:20:25

微信短視頻PK抖音

2024-07-18 21:21:29

2022-05-06 15:14:20

視頻數(shù)據(jù)

2022-06-06 12:19:08

抖音功耗優(yōu)化Android 應(yīng)用

2021-06-28 05:19:32

抖音電腦

2023-02-27 22:41:44

Python水印短視頻

2024-04-10 06:59:34

2024-04-07 08:35:00

錄用論文

2023-09-04 19:19:36

語(yǔ)言模型LLM

2021-04-14 14:28:14

Python點(diǎn)攢抖音
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)