自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

近千片段、25種類別,阿里等開源遮擋場景的視頻實例分割數(shù)據(jù)集

新聞 前端
最近,來自阿里、華中科大、牛津等機構(gòu)的研究者公開了一個針對強遮擋場景的大型視頻實例分割數(shù)據(jù)集 OVIS。實驗表明,該數(shù)據(jù)集非常適合用來衡量算法對于遮擋場景的處理能力。

最近,來自阿里、華中科大、牛津等機構(gòu)的研究者公開了一個針對強遮擋場景的大型視頻實例分割數(shù)據(jù)集 OVIS。實驗表明,該數(shù)據(jù)集非常適合用來衡量算法對于遮擋場景的處理能力。

對于被遮擋的物體,人類能夠根據(jù)時序上下文來識別,定位和追蹤被遮擋的物體,甚至能腦補出物體被遮住的部分,那么現(xiàn)有的深度學(xué)習(xí)方法對遮擋場景的處理能力如何呢?

為了探究這個問題,來自阿里、華中科大、牛津等多個機構(gòu)的研究者構(gòu)建了一個針對強遮擋場景的大型視頻實例分割數(shù)據(jù)集 Occluded Video Instance Segmentation (OVIS)。

論文地址:https://arxiv.org/abs/2102.01558

項目主頁:http://songbai.site/ovis/

視頻實例分割 (Video Instance Segmentation, VIS) 要求算法能檢測、分割、跟蹤視頻里的所有物體。與現(xiàn)有 VIS 數(shù)據(jù)集相比,OVIS最主要的特點就是視頻里存在大量的多種多樣的遮擋。因此,OVIS 很適合用來衡量算法對于遮擋場景的處理能力。

實驗表明,現(xiàn)有方法并不能在強遮擋場景下取得令人滿意的結(jié)果,相比于廣泛使用的 YouTube-VIS 數(shù)據(jù)集,幾乎所有算法在 OVIS 上的指標都下降了一半以上。

OVIS 數(shù)據(jù)集簡介

研究者一共采集了近萬段視頻,并最終從中挑選出了 901 段遮擋嚴重、運動較多、場景復(fù)雜的片段,每段視頻都至少有兩個相互遮擋的目標對象。其中大部分視頻分辨率為 1920x1080,時長在 5s 到 60s 之間。他們按每 5 幀標注一幀的密度進行了高質(zhì)量標注,最終得到了 OVIS 數(shù)據(jù)集。

OVIS 共包含 25 種生活中常見的類別,如下圖所示,其中包括人、交通工具以及動物。這些類別的目標往往處于運動狀態(tài),因而也更容易發(fā)生嚴重的遮擋。此外,OVIS 的 25 個類別都可以在大型的圖片級實例分割數(shù)據(jù)集(MS COCO、LVIS、Pascal VOC 等)中找到,以方便研究人員進行模型的遷移和數(shù)據(jù)的復(fù)用。

近千片段、25種類別,阿里等開源遮擋場景的視頻實例分割數(shù)據(jù)集

OVIS 數(shù)據(jù)集特性

OVIS 包含 5223 個目標對象的 296k 個高質(zhì)量 mask 標注。相比先前的 Youtube-VIS 數(shù)據(jù)集,OVIS 擁有更多的 mask 和更多的目標對象。研究者犧牲了一定的視頻段數(shù)來標注更長更復(fù)雜的視頻,以讓它更具挑戰(zhàn)性。

與先前其他 VIS 數(shù)據(jù)集相比,OVIS 最大的特點在于嚴重的遮擋。為了量化遮擋的嚴重程度,研究者提出了一個指標mean Bounding-box Overlap Rate (mBOR)來粗略地反映遮擋程度。mBOR 指圖像中邊界框重疊部分的面積占所有邊界框面積的比例。從下表中可以看出,相比于 YouTube-VIS,OVIS 有著更嚴重的遮擋。

值得注意的是,除去上面提到的基礎(chǔ)數(shù)據(jù)統(tǒng)計量,OVIS 在視頻時長、物體可見時長、每幀物體數(shù)、每段視頻物體數(shù)等統(tǒng)計量上都顯著高于 YouTube-VIS,這與實際場景更為相近,同時也進一步提高了 OVIS 的難度。

近千片段、25種類別,阿里等開源遮擋場景的視頻實例分割數(shù)據(jù)集

可視化

OVIS 數(shù)據(jù)集中包含多種不同的遮擋類型,按遮擋程度可分為部分遮擋和完全遮擋;按被遮擋場景可分為被其他目標對象遮擋、被背景遮擋以及被圖片邊界遮擋。不同類型的遮擋可能同時存在,物體之間的遮擋關(guān)系也比較復(fù)雜。

如下圖視頻片段中,兩只熊既互相部分遮擋,有時也會被樹(背景)遮擋。

近千片段、25種類別,阿里等開源遮擋場景的視頻實例分割數(shù)據(jù)集

又如下圖視頻片段中,綠車和藍車分別逐漸被白車和紫車完全遮擋,后來又逐漸出現(xiàn)在視野中。

近千片段、25種類別,阿里等開源遮擋場景的視頻實例分割數(shù)據(jù)集

從下圖可視化片段中也可以看出 OVIS 的標注質(zhì)量很高,研究者對籠子網(wǎng)格、動物毛發(fā)都做了精細的標注。

近千片段、25種類別,阿里等開源遮擋場景的視頻實例分割數(shù)據(jù)集

更多可視化片段參見項目主頁。

實驗

研究者在 OVIS 上嘗試了 5 種開源的現(xiàn)有算法,結(jié)果如下表所示??梢钥吹?OVIS 非常具有挑戰(zhàn)性。使用同樣的評價指標,MaskTrack R-CNN 在 Youtube-VIS 驗證集上 mAP 能達到 30.3,在 OVIS 驗證集上只有 10.9;SipMask 的 mAP 也從 Youtube-VIS 上的 32.5 下降到了 OVIS 上的 10.3。5 個現(xiàn)有算法中,STEm-Seg 在 OVIS 上效果最好,但也只得到了 13.8 的 mAP。

近千片段、25種類別,阿里等開源遮擋場景的視頻實例分割數(shù)據(jù)集

總結(jié)

研究者針對遮擋場景下的視頻實例分割任務(wù)構(gòu)建了一個大型數(shù)據(jù)集 OVIS。作為繼 YouTube-VIS 之后的第二個視頻實例分割 benchmark,OVIS 主要被設(shè)計用于衡量模型處理遮擋場景的能力。實驗表明 OVIS 數(shù)據(jù)集給現(xiàn)有算法帶來了巨大的挑戰(zhàn)。未來還將把 OVIS 推廣至視頻物體分割 (VOS) 以及視頻全景分割 (VPS) 等場景,期待 OVIS 能夠啟發(fā)更多研究人員進行復(fù)雜場景下視頻理解的研究。

更多細節(jié)請見論文。 

責任編輯:張燕妮 來源: 機器之心Pro
相關(guān)推薦

2022-05-06 15:14:20

視頻數(shù)據(jù)

2020-07-27 10:23:10

開源技術(shù) 數(shù)據(jù)

2019-02-26 09:42:14

開源技術(shù) 趨勢

2013-06-28 11:29:15

云計算數(shù)據(jù)Hadoop

2023-07-26 08:48:36

AForge庫.NET

2022-04-02 06:30:31

安全工具開源保護系統(tǒng)

2023-08-21 14:09:17

2023-08-26 07:22:44

出碼率MP3算法

2021-10-08 10:02:50

鴻蒙HarmonyOS應(yīng)用

2014-04-16 00:21:48

Office 365微軟公有云

2017-08-01 23:44:25

數(shù)據(jù)分析數(shù)據(jù)科學(xué)數(shù)據(jù)

2024-07-01 12:55:50

2010-07-26 14:21:25

SQL Server數(shù)

2019-11-14 15:30:34

JavaScript代碼前端

2024-07-30 10:51:51

2020-01-03 10:24:06

Python 開發(fā)編程語言

2021-09-16 15:05:39

鴻蒙HarmonyOS應(yīng)用

2013-10-23 14:13:00

2021-06-07 14:05:53

物聯(lián)網(wǎng)IOT物聯(lián)網(wǎng)技術(shù)

2024-07-11 11:07:41

點贊
收藏

51CTO技術(shù)棧公眾號