計算機(jī)視覺項(xiàng)目:10個高質(zhì)量開源數(shù)據(jù)集發(fā)布
計算機(jī)視覺正在加速行業(yè)中幾乎每個領(lǐng)域的發(fā)展。 在計算機(jī)視覺技術(shù)的幫助下,組織正在徹底改變機(jī)器以前的工作方式。 現(xiàn)在,全球各地的大型技術(shù)都在利用計算機(jī)視覺技術(shù)領(lǐng)域,例如醫(yī)療保健和自動駕駛等。 為了建立強(qiáng)大的計算機(jī)視覺深度學(xué)習(xí)模型,必須在訓(xùn)練階段應(yīng)用高質(zhì)量的數(shù)據(jù)集。

在本文中,我們將列出10個可用于Computer Vision項(xiàng)目的高質(zhì)量數(shù)據(jù)集。
1 | CIFAR-10

CIFAR-10是Alex Krizhevsky,Vinod Nair和Geoffrey Hinton收集的一種流行的計算機(jī)視覺數(shù)據(jù)集。 該數(shù)據(jù)集用于對象識別,由10類60,000張32×32彩色圖像組成,每類6,000張圖像。 它分為五個訓(xùn)練批次和一個測試批次,每個批次具有10,000張圖像,這意味著有50,000個訓(xùn)練圖像和10,000個測試圖像。
2 | Cityscapes

Cityscapes是Computer Vision項(xiàng)目的開源大規(guī)模數(shù)據(jù)集,其中包含來自50個不同城市的街道場景中記錄的各種立體視頻序列。它包括5,000個幀的高質(zhì)量像素級注釋,以及20,000個弱注釋幀的較大集合。 該數(shù)據(jù)集主要用于訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)和評估視覺算法對語義城市場景理解的主要任務(wù)的性能。
3 | Fashion MNIST

Fashion-MNIST是用于Computer Vision的圖像數(shù)據(jù)集,包含60,000個示例的訓(xùn)練集和10,000個示例的測試集。 在此數(shù)據(jù)集中,每個示例都是一個28×28灰度圖像,與來自10個類別的標(biāo)簽關(guān)聯(lián)。 有一個基于Scikit-learn的自動基準(zhǔn)測試系統(tǒng),該系統(tǒng)涵蓋129個具有不同參數(shù)的分類器。
4 | ImageNet

ImageNet是計算機(jī)視覺項(xiàng)目最受歡迎的數(shù)據(jù)集之一,它提供了一個可訪問的圖像數(shù)據(jù)庫,該數(shù)據(jù)庫根據(jù)WordNet層次結(jié)構(gòu)進(jìn)行組織。WordNet中有超過100,000個同義詞集,其中ImageNet提供平均1,000個圖像來說明WordNet中的每個同義詞集。 它為WordNet層次結(jié)構(gòu)中的大多數(shù)概念提供了數(shù)千萬個干凈排序的圖像。
5| IMDB-Wiki Dataset

IMDB-Wiki數(shù)據(jù)集是使用性別和年齡標(biāo)簽進(jìn)行訓(xùn)練的最大的開放式人臉圖像數(shù)據(jù)集之一。此數(shù)據(jù)集中總共有523,051張面部圖像,其中從IMDB的20,284名名人和維基百科的62,328名名人獲得了460,723張面部圖像。
6 | Kinetics-700

Kinetics-700是YouTube視頻URL的大規(guī)模高質(zhì)量數(shù)據(jù)集,其中包括各種以人為中心的動作。 數(shù)據(jù)集包括大約650,000個視頻剪輯,涵蓋700個人類動作類,每個動作類至少包含600個視頻剪輯。 在這里,每個剪輯持續(xù)約10秒鐘,并標(biāo)有一個類別。
7 | MS Coco

COntext中的COCO或Common Objects是大規(guī)模的對象檢測,分割和字幕數(shù)據(jù)集。 數(shù)據(jù)集包含91個對象類型的照片,這些照片易于識別,并且在328k圖像中總共有250萬個帶標(biāo)簽的實(shí)例。
8| MPII Human Pose Dataset

MPII Human Pose數(shù)據(jù)集用于評估關(guān)節(jié)式人體姿勢估計。 該數(shù)據(jù)集包含約25K圖像,其中包含超過4萬名帶注釋的人體關(guān)節(jié)的人。 在這里,每張圖片都是從YouTube視頻中提取的,并帶有未標(biāo)注幀之前的an和an。 總體而言,數(shù)據(jù)集涵蓋410種人類活動,并且每個圖像都帶有活動標(biāo)簽。
9| Open Images
此Open Images數(shù)據(jù)集是現(xiàn)有的最大的帶有對象位置注釋的數(shù)據(jù)集之一。 它由大約900萬幅圖像組成,這些圖像帶有圖像級標(biāo)簽,對象邊界框,對象分割蒙版和視覺關(guān)系。 數(shù)據(jù)集包含190萬幅圖像上600個對象類別的1600萬個邊界框。
10| The 20BN-something-something Dataset V2

20BN-Something-Something數(shù)據(jù)集是大量帶有密集標(biāo)簽的視頻剪輯的集合,這些視頻剪輯向人們展示了人類對日常對象執(zhí)行的預(yù)定義基本動作。 它是由大量的人群工作人員創(chuàng)建的,它允許ML模型對物理世界中發(fā)生的基本動作有更細(xì)致的了解。 視頻總數(shù)包括220,847,其中168,913是訓(xùn)練集,24,777是驗(yàn)證集,27,157是測試集。
Model Play是面向全球開發(fā)者的AI模型資源平臺,內(nèi)置多樣化AI模型,與鈦靈AIX(一款集計算機(jī)視覺與智能語音交互兩大核心功能為一體的人工智能硬件)結(jié)合,基于Google開源神經(jīng)網(wǎng)絡(luò)架構(gòu)及算法,構(gòu)建自主遷移學(xué)習(xí)功能,無需寫代碼,通過選擇圖片、定義模型和類別名稱即可完成AI模型訓(xùn)練。
