ML能用上的實用數(shù)據(jù)集
機器學習數(shù)據(jù)集
機器學習中重要的一步是創(chuàng)建或?qū)ふ液线m的數(shù)據(jù)來訓練和檢驗算法。使用好的數(shù)據(jù)集可以幫助你規(guī)避或發(fā)現(xiàn)算法中的錯誤,改善程序的結(jié)果。在多數(shù)情況下,創(chuàng)建自己的數(shù)據(jù)集是一件費時的事。本文會向介紹一些有用的數(shù)據(jù)集,用于文本分類和圖像分類問題。
文本分類
本節(jié)將介紹一些用于普通文本分類任務的數(shù)據(jù)集,如垃圾信息檢測、情感分析和文檔主題分類。
• 垃圾信息 – 非垃圾信息
垃圾信息過濾任務在文本分類中很常見,因此,用于這類任務的數(shù)據(jù)集很多。
SMS 垃圾短信語料庫
SMS 垃圾短信語料庫由兩類文本信息組成,每個短信都被標記為垃圾信息或正常信息。這個數(shù)據(jù)集有大(1002條正常信息,322條垃圾信息)、小(1002條正常信息,82條垃圾信息)兩種版本可下載。
Enron 數(shù)據(jù)集
如果想研究垃圾電子郵件過濾,你可能會對 Enron 數(shù)據(jù)集感興趣,該數(shù)據(jù)集收集了成千上萬的郵件,都被分為垃圾郵件和正常郵件。有未處理和經(jīng)過預處理的版本可供下載。
其它你可能會感興趣的垃圾郵件分類的數(shù)據(jù)集有:SpamAssassin 公共郵件語料庫、TREC 公共垃圾郵件語料庫 、Spambase 數(shù)據(jù)集。
• 情感分析
可通過機器學習解決的另一個任務是文本情感分析,其中一個例子就是判斷文本對某個主題陳述的是支持意見還是反對意見。
Twitter 情感分析訓練語料庫
如果你對推文(tweet)的情感分類感興趣,Twitter 情感分析訓練語料庫可能是你需要的。它由超過 100 萬條 tweets 組成,存于一個 .csv 文件中,每條語料都被標記為支持(1)或反對(0)。
影評數(shù)據(jù)集
影評數(shù)據(jù)集包含更復雜的文本,收集了 1,000 條正面影評和 1,000 條負面影評,未處理的 .html 文件形式和已處理的文本形式皆可獲得。這個數(shù)據(jù)集的一部分作為語句集,還被標記了主觀或客觀的標簽。
更多關(guān)于情感分類的更好用的數(shù)據(jù)集被整理形成一個列表,放在 Kavita Ganesan 的博客中。
• 主題分類
文檔主題分類是一個復雜的問題。根據(jù)待研究的文檔種類不同,所需的合適的數(shù)據(jù)集也不相同。一個經(jīng)常研究的案例是報刊文章的分類。
20 Newsgroups
20 Newsgroups 數(shù)據(jù)集包含大約 20,000 份文檔,幾乎平均分布于 20 個類別。數(shù)據(jù)被分為訓練集和測試集。這些新聞組有些密切相關(guān),而另一些毫不相關(guān)。數(shù)據(jù)集中的新聞組如下:
20 newsgroups 數(shù)據(jù)集的組織形式,資源: http://qwone.com/~jason/20Newsgroups/
路透社-21578
一個經(jīng)常使用的用于評估文本分類算法的數(shù)據(jù)集是路透社-21578, 它由出現(xiàn)在 1987 年路透社新聞專線中的文本組成,由路透社公司員工整理。通常只是使用這個數(shù)據(jù)集的一些子集,作為類別不均勻分布的文檔使用。通常情況下,使用最頻繁的文檔只占了10或90個類別。
在 Ana Cardoso Cachopo 的主頁提供了一個很有用的收集單標記文本的數(shù)據(jù)集,不僅可以找到有用數(shù)據(jù)的概覽,還提供了數(shù)據(jù)集的可讀版本和預處理版本,可以為你省去很多時間和麻煩。
圖像分類
這一節(jié)將介紹一些在用機器學習解決圖像分類問題時有用的數(shù)據(jù)集,列出的數(shù)據(jù)集從簡單的手寫數(shù)字,到復雜物體的圖像,會對學習圖像分類和測試算法很有幫助。
• 數(shù)字和字母
MNIST
MNIST 數(shù)據(jù)集是學習圖像分類經(jīng)常使用的數(shù)據(jù)集,包含上千張從 0 到 9 的手寫數(shù)字的小二進制圖像,劃分為訓練集和測試集??梢詮?YannLeCun 的網(wǎng)站下載 IDX 文件格式,如果你想使用 png 格式的圖像做數(shù)據(jù),可以從這找到轉(zhuǎn)化的版本。
MNIST 數(shù)據(jù)集摘錄
Chars74K
另一個可通過機器學習解決的任務是字符識別,基于這個目的,可以用 Chars74K 數(shù)據(jù)集可用來訓練和測試。它擁有超過 74,000 張字母和數(shù)字圖像,被分成 64 個不同的種類。字母都是手寫體,通過自然圖片和電腦字體獲得。由于種類更多,并且數(shù)據(jù)是彩色圖像,這個數(shù)據(jù)集比 MNIST 集復雜得多。
Chars74K 數(shù)據(jù)集摘錄, 資源: http://www.ee.surrey.ac.uk/CVSSP/demos/chars74k/Samples/english.png
• 人臉
正面人臉圖像
正面人臉圖像數(shù)據(jù)集是為評估圖像中正面人臉識別程序而建立的,包含人的圖像以及通過 x、y 坐標給出的人臉在圖片中的位置信息。這里可以下載該數(shù)據(jù)集。
正面人臉圖像數(shù)據(jù)集摘錄
復雜場景中標記人臉
面部檢測中經(jīng)常使用的數(shù)據(jù)集是復雜場景中標記人臉數(shù)據(jù)集,擁有從網(wǎng)絡(luò)中收集的超過 13,000 張圖片。很多人不止一次出現(xiàn)在數(shù)據(jù)集中的圖片中,對面部識別評估很有用。
復雜場景中標記人臉數(shù)據(jù)集摘錄
• 動物
Oxford-IIIT 寵物數(shù)據(jù)集
如果你在找大規(guī)模的貓狗數(shù)據(jù)集,你可以看看牛津- IIIT寵物數(shù)據(jù)集,有 37 個包含不同種類貓狗的類別,每個類別有 200 張圖片。與很多其它數(shù)據(jù)集不同,它的圖片的大小不一,更酷的是這個數(shù)據(jù)集不僅提供圖像,還有動物的面部位置信息,以及圖像的前景、背景信息(見下圖)。
牛津-IIIT 寵物數(shù)據(jù)集示例, 資源: http://www.robots.ox.ac.uk/~vgg/data/pets/
KTH-ANIMALS
如果你需要更普遍的動物數(shù)據(jù)集,KTH-ANIMALS 值得一看。它可以從這下載,提供了 19 種不同類別的圖像。每一類有大約 100 張不同大小的圖片,和 牛津-IIIT 寵物數(shù)據(jù)集一樣,也提供了前景、背景信息。
KTH-Animals 數(shù)據(jù)集概覽,資源: http://www.csc.kth.se/~att/Site/Animals.html
• 各種物體
CIFAR-10 and CIFAR-100
對于更高級的圖像分類應用,你可能對 CIFAR 數(shù)據(jù)集感興趣。這些數(shù)據(jù)集包含大小為 32×32 像素的彩色圖像,可以從 Alex Krizhevsky 的網(wǎng)站下載。
CIFAR-10 數(shù)據(jù)集由 60,000 張圖片組成,平均分布于 10 個種類。如果你需要擁有更多種類的更復雜的數(shù)據(jù)集,你可以使用 CIFAR-100 數(shù)據(jù)集,它提供了100個類,20個超類的圖片。
CIFAR-10 數(shù)據(jù)集摘錄,資源: https://www.cs.toronto.edu/~kriz/cifar.html
這兩個 CIFAR 數(shù)據(jù)集都有 python、matlab 或二進制版本提供下載。如果你更喜歡用 png 圖像作為數(shù)據(jù),可以使用這個工具進行轉(zhuǎn)換。
STL-10
CIFAR 數(shù)據(jù)集提供的圖片很小,因此如果你想使用更高分辨率的圖片,STL-10 數(shù)據(jù)集可能更吸引你。這個數(shù)據(jù)集包含 10 個類的標記圖片,與 CIFAR-10 數(shù)據(jù)集相似,但是圖像大小有 96×96 像素。每個類含有較少的標記樣例,但卻有很大的未標記圖像集,可以用作非監(jiān)督訓練。
STL-10 數(shù)據(jù)集摘錄, 資源: https://cs.stanford.edu/~acoates/stl10/images.png