TensorFlow非常出色的30個機(jī)器學(xué)習(xí)數(shù)據(jù)集
本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請至雷鋒網(wǎng)官網(wǎng)申請授權(quán)。
TensorFlow是由谷歌大腦的研究人員創(chuàng)建、最大的機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)的開源數(shù)據(jù)庫之一。它是一個端到端平臺,適合完全沒有經(jīng)驗(yàn)的初學(xué)者和有經(jīng)驗(yàn)的數(shù)據(jù)科學(xué)家。TensorFlow庫包括工具、預(yù)訓(xùn)練模型、機(jī)器學(xué)習(xí)教程以及一整套公開數(shù)據(jù)集。為了幫助你找到所需的訓(xùn)練數(shù)據(jù),本文將簡單介紹一些TensorFlow中用于機(jī)器學(xué)習(xí)的大型數(shù)據(jù)集。我們將以下數(shù)據(jù)集的列表分為圖像、視頻、音頻和文本。
TensorFlow圖像數(shù)據(jù)集
1. CelebA:明星臉屬性數(shù)據(jù)集(CelebA)是最大的公開可用的人臉圖像數(shù)據(jù)集,其中包含200,000多個名人圖像。
每個圖像包括5個面部標(biāo)注和40個二進(jìn)制屬性標(biāo)注。
2. Downsampling Imagenet:該數(shù)據(jù)集是為密度估計(jì)和生成性建模任務(wù)而建立的。它包括了130多萬張物體、場景、車輛、人物等圖像。這些圖像有兩種分辨率規(guī)格:32×32和64×64。
3. Lsun—Lsun是一個大規(guī)模的圖像數(shù)據(jù)集,創(chuàng)建該數(shù)據(jù)集是為了幫助訓(xùn)練模型進(jìn)行場景理解。該數(shù)據(jù)集包含超過900萬張圖像,按場景類別劃分,如臥室、教室和餐廳。
4. Bigearthnet—Bigearthnet是另一個大規(guī)模數(shù)據(jù)集,它包含來自Sentinel-2衛(wèi)星的航空圖像。每張圖像覆蓋了1.2公里×1.2公里的一片地面。該數(shù)據(jù)集中有43個類別不平衡的標(biāo)簽。
5. Places 365—顧名思義,Places 365包含180多萬張不同地方或場景的圖片。其中一些類別包括辦公室、碼頭和別墅。Places 365是用于場景識別任務(wù)的最大數(shù)據(jù)集之一。
6. Quickdraw位圖—Quickdraw數(shù)據(jù)集是由Quickdraw玩家社區(qū)繪制的圖像集合。它包含500萬張圖紙,跨越345個類別。這個版本的Quickdraw數(shù)據(jù)集包括28×28的灰度圖像。
7. SVHN Cropped—街景房號(SVHN)是為訓(xùn)練數(shù)字識別算法,由斯坦福大學(xué)建立的TensorFlow數(shù)據(jù)集。它包含60萬個真實(shí)世界的、被裁剪成32×32像素的圖像數(shù)據(jù)實(shí)例。
8. VGGFace2—最大的人臉圖像數(shù)據(jù)集之一,VGGFace2包含從谷歌搜索引擎下載的圖像。數(shù)據(jù)集中的人臉在年齡、姿勢和種族上都有所不同。每個類別平均有362張圖像。
9. COCO—由谷歌、FAIR、加州理工學(xué)院等合作者制作,是世界上最大的標(biāo)簽圖像數(shù)據(jù)集之一。它是為物體檢測、分割和圖像字幕任務(wù)而建立的。
通過cocodataset.org
數(shù)據(jù)集包含330,000張圖像,其中20萬張有標(biāo)簽。在所有圖像中,共包含了80個類別的150萬個對象實(shí)例。
10. Open Images Challenge 2019—包含約900萬張圖像,該數(shù)據(jù)集是網(wǎng)上最大的、標(biāo)注的圖像數(shù)據(jù)集之一。這些圖像包含圖像級標(biāo)簽、對象邊界框和對象分割掩碼,以及他們之間的視覺關(guān)系。
11. Open Images V4—這個數(shù)據(jù)集是上述Open Images數(shù)據(jù)集的另一個迭代。V4版本中包含了600個不同物體類別的1460萬個邊界框。這些邊界框是由人類標(biāo)注者手動繪制的。
12. AFLW2K3D—該數(shù)據(jù)集包含2000張面部圖像,均有3D面部真實(shí)標(biāo)注。它的創(chuàng)建是為了評估3D面部標(biāo)注檢測模型。
視頻數(shù)據(jù)集
13. UCF101—來自中央佛羅里達(dá)大學(xué),UCF101是為訓(xùn)練動作識別模型而建立的視頻數(shù)據(jù)集。該數(shù)據(jù)集有101個動作類別的13320個視頻,。
14. BAIR Robot Pushing—來自伯克利人工智能研究,BAIR Robot Pushing包含44000個機(jī)器人推的動作的示例視頻。
15. Moving MNIST—這個數(shù)據(jù)集是MNIST基準(zhǔn)數(shù)據(jù)集的一個變體。Moving MNIST包含10,000個視頻。
每個視頻都顯示了在64×64大小的幀內(nèi)2個手寫數(shù)字的移動過程。
16. EMNIST—擴(kuò)展的MNIST數(shù)據(jù)集,包含了原始MNIST數(shù)據(jù)集轉(zhuǎn)換成28 x 28像素大小的圖片。
TensorFlow音頻數(shù)據(jù)集
17. CREMA-D—為情感識別任務(wù)而創(chuàng)建,CREMA-D由語音情感表達(dá)組成。 該數(shù)據(jù)集包含由年齡,種族和性別不同的91位演員表達(dá)的7,442個音頻剪輯。
18. Librispeech—Librispeech是一個簡單的音頻數(shù)據(jù)集,它包含1000小時的英語語音,這些語音來自LibriVox項(xiàng)目的有聲讀物。它被用于訓(xùn)練聲學(xué)模型和語言模型。
19. Libritts—這個數(shù)據(jù)集包含約585小時的英語語音,是在Google Brain團(tuán)隊(duì)成員的協(xié)助下準(zhǔn)備的。Libritts最初是為Text-to-speech(TTS)研究設(shè)計(jì)的,但可以用于各種語音識別任務(wù)。
20. TED-LIUM—TED-LIUM是一個包含110多個小時的英語TED演講的數(shù)據(jù)集。 所有的演講內(nèi)容都已被轉(zhuǎn)錄。
21. VoxCeleb—VoxCeleb是為演講者識別任務(wù)而建立的大型音頻數(shù)據(jù)集,包含來自1,251位演講者的150,000多個音頻樣本。
文本數(shù)據(jù)集
22. C4(Common Crawl's Web Crawl Corpus)—Common Crawl是一個開放源碼的網(wǎng)頁數(shù)據(jù)庫。它包含了超過40種語言、跨越7年的數(shù)據(jù)。
23. Civil Comments—這個數(shù)據(jù)集是由來自50個英文新聞網(wǎng)站的180多萬條公眾評論構(gòu)成的。
24. IRC Disentanglement—這個TensorFlow數(shù)據(jù)集包括來自Ubuntu IRC頻道的77000多條評論。每個樣本的元數(shù)據(jù)包括消息ID和時間戳。
25. Lm1b—被稱為語言模型基準(zhǔn),這個數(shù)據(jù)集包含10億個單詞。它最初是為了衡量統(tǒng)計(jì)語言建模的進(jìn)展。
26. SNLI—斯坦福自然語言推理數(shù)據(jù)集是一個包含57萬個人類寫作句子對的語料庫。所有的句對都經(jīng)過人工標(biāo)注,類別是均衡的。
27.e-SNLI—這個數(shù)據(jù)集是上面提到的SNLI的擴(kuò)展,它包含了原始數(shù)據(jù)集的57萬個句子對,分類為:包含、矛盾和中性。
28. MultiNLI—仿照SNLI數(shù)據(jù)集,MultiNLI包含433,000個句子對,都有尾部信息注釋。
29. Wiki40b—這個大規(guī)模的數(shù)據(jù)集包括40種不同語言的維基百科文章。這些數(shù)據(jù)已經(jīng)被清理,其中的非內(nèi)容部分以及結(jié)構(gòu)化對象已經(jīng)被去掉。
30. Yelp極性評論—這個數(shù)據(jù)集包含598,000條高度極性的Yelp評論。它們是從2015年Yelp數(shù)據(jù)集挑戰(zhàn)賽中的數(shù)據(jù)提取出來的。
雖然上述數(shù)據(jù)集是機(jī)器學(xué)習(xí)中最大、最廣泛使用的一些TensorFlow數(shù)據(jù)集,但TensorFlow庫是龐大的,并在不斷擴(kuò)展。請?jiān)L問TensorFlow網(wǎng)站,了解更多關(guān)于該平臺如何幫助您構(gòu)建自己的模型的信息。