機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺(jué)的20大圖像數(shù)據(jù)集
本文轉(zhuǎn)載自公眾號(hào)“讀芯術(shù)”(ID:AI_Discovery)。
計(jì)算機(jī)視覺(jué)使得計(jì)算機(jī)能夠理解圖像和視頻的內(nèi)容,其目標(biāo)是能夠如同人體視覺(jué)系統(tǒng)一樣,自動(dòng)完成任務(wù)。計(jì)算機(jī)視覺(jué)任務(wù)包括圖像采集、處理和分析。圖像數(shù)據(jù)以不同的形式呈現(xiàn),如視頻序列、多機(jī)位成像,或是來(lái)自醫(yī)學(xué)掃描儀的多維數(shù)據(jù)。本文就將介紹一些適用于機(jī)器學(xué)習(xí)訓(xùn)練的數(shù)據(jù)集。
(1) Labelme:由麻省理工學(xué)院計(jì)算機(jī)科學(xué)和人工智能實(shí)驗(yàn)室(CSAIL)共同創(chuàng)建的大型數(shù)據(jù)集,包含187240張圖像、62197張帶注釋的圖像和658992個(gè)帶標(biāo)簽的對(duì)象。
(2) ImageNet:新算法的實(shí)際圖像數(shù)據(jù)集,根據(jù)WordNet層次結(jié)構(gòu)進(jìn)行組織,層次結(jié)構(gòu)中的每個(gè)節(jié)點(diǎn)都由成百上千的圖像描述。
(3) LSUN:場(chǎng)景理解,附帶許多輔助任務(wù)(房間布局估計(jì)、顯著性預(yù)測(cè)等)。
(4) MS COCO:COCO是一個(gè)大規(guī)模的對(duì)象檢測(cè)、分割和說(shuō)明的數(shù)據(jù)集,包含200000張以上帶標(biāo)簽的圖像??捎糜趯?duì)象分割、上下文中的識(shí)別等等。
(5) 哥倫比亞大學(xué)圖像庫(kù):COIL100數(shù)據(jù)集包含100個(gè)不同的對(duì)象,以360°全角度成像。
(6) Visual Genome:是一個(gè)數(shù)據(jù)集兼知識(shí)庫(kù),旨在將結(jié)構(gòu)化圖像概念與語(yǔ)言聯(lián)系起來(lái)。該數(shù)據(jù)集是包含108077張圖像說(shuō)明的詳細(xì)視覺(jué)知識(shí)庫(kù)。
(7) Lego Bricks:包含大約12700張16種不同樂(lè)高積木的圖片,按文件夾分類,用Blender進(jìn)行計(jì)算機(jī)渲染。
(8) 谷歌開放圖像:在知識(shí)共享(Creative Commons)的支持下,900萬(wàn)張圖像的URL“已經(jīng)用跨越6000多個(gè)類別的標(biāo)簽進(jìn)行了注釋”。

(9) Youtube-8M:由數(shù)百萬(wàn)個(gè)YouTube視頻ID組成的大規(guī)模標(biāo)簽數(shù)據(jù)集,包含超過(guò)3800個(gè)視覺(jué)實(shí)體的注釋。
(10) Labelled Faces in the Wild:包含13000張帶標(biāo)簽的人臉圖像,旨在開發(fā)人臉識(shí)別相關(guān)應(yīng)用。
(11) 斯坦福犬類數(shù)據(jù)集:包含20580張圖像和120個(gè)犬類品種,每個(gè)類別大概150張圖像。
(12) Places:以場(chǎng)景為主的數(shù)據(jù)庫(kù),包含205個(gè)場(chǎng)景類別和250萬(wàn)個(gè)帶有類別標(biāo)簽的圖像。
(13) CelebFaces:擁有超過(guò)200000張名人圖像的人臉數(shù)據(jù)集,每張都有40個(gè)屬性注釋。

(14) Flowers:在英國(guó)常見(jiàn)的花卉圖像數(shù)據(jù)集,由102個(gè)不同類別組成。每個(gè)花卉類別由40到258張不同姿態(tài)和光線變化的圖像組成。
(15) Plant Image Analysis:跨越100多萬(wàn)張植物圖像的數(shù)據(jù)集的集合??梢詮?1種植物中選擇。
(16) Home Objects:包含家庭中隨機(jī)對(duì)象的數(shù)據(jù)集,主要來(lái)自廚房、浴室和客廳,分為訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集。
(17) CIFAR-10:由60000張32×32彩色圖像組成的大型圖像數(shù)據(jù)集,分為10類。數(shù)據(jù)集分為五個(gè)訓(xùn)練批次和一個(gè)測(cè)試批次,每個(gè)批次包含10000張圖像。
(18) CompCars:包含163款汽車品牌,共有1716種車型,每種車型都標(biāo)有五個(gè)屬性,包括最大速度、排量、車門數(shù)量、座椅數(shù)量和汽車類型。
(19) 室內(nèi)場(chǎng)景識(shí)別數(shù)據(jù)集:這是一個(gè)非常獨(dú)特的數(shù)據(jù)集。因?yàn)榇蠖鄶?shù)場(chǎng)景識(shí)別模型在室外發(fā)揮更好,所以該數(shù)據(jù)集很有用。包含67個(gè)室內(nèi)類別,共15620張圖片。
(20) VisualQA:VQA數(shù)據(jù)集包含265,016張圖像的開放性問(wèn)題。這些問(wèn)題需要對(duì)視覺(jué)和語(yǔ)言的理解。對(duì)于每張圖像,至少有3個(gè)問(wèn)題,每個(gè)問(wèn)題至少有10個(gè)答案。