從菜鳥到老司機(jī),數(shù)據(jù)科學(xué)的17個(gè)必用數(shù)據(jù)集推薦
數(shù)據(jù)集可謂是數(shù)據(jù)科學(xué)的練兵場,不管是對(duì)菜鳥入門還是老司機(jī)上路,能找到一個(gè)好用的數(shù)據(jù)集無異于如虎添翼。以下是雷鋒網(wǎng)整理編譯的 17 個(gè)常用數(shù)據(jù)集,并列舉了適用的典型問題,從菜鳥到老司機(jī),總有一款適合你。
菜鳥入門
1. Iris 數(shù)據(jù)集
在模式識(shí)別文獻(xiàn)中,Iris 數(shù)據(jù)集恐怕是最通用也是最簡單的數(shù)據(jù)集了。要學(xué)習(xí)分類技術(shù),Iris 數(shù)據(jù)集絕對(duì)是最方便的途徑。如果你之前從未接觸過數(shù)據(jù)科學(xué)這一概念,從這里開始一定沒錯(cuò),因?yàn)樵摂?shù)據(jù)集只有 4 列 150 行。
典型問題:在可用屬性基礎(chǔ)上預(yù)測(cè)花的類型。
2. 泰坦尼克數(shù)據(jù)集
泰坦尼克數(shù)據(jù)集也是全球數(shù)據(jù)科學(xué)殿堂中出鏡率最高的數(shù)據(jù)集之一。借助一些教程和指導(dǎo),泰坦尼克數(shù)據(jù)集可以讓你深入了解數(shù)據(jù)科學(xué)。通過對(duì)類別、數(shù)字、文本等數(shù)據(jù)的結(jié)合,你能從該數(shù)據(jù)集中總結(jié)出最瘋狂的想法。該數(shù)據(jù)集更重視分類問題,共有 12 列 891 行。
典型問題:預(yù)測(cè)泰坦尼克號(hào)上生還的幸存者人數(shù)。
3. 貸款預(yù)測(cè)數(shù)據(jù)集
在所有行業(yè)中,最為倚重?cái)?shù)據(jù)分析技術(shù)的就是保險(xiǎn)業(yè)。貸款預(yù)測(cè)數(shù)據(jù)集可以讓保險(xiǎn)公司對(duì)即將面對(duì)的挑戰(zhàn)、選擇的應(yīng)對(duì)方式和影響有一個(gè)清晰的認(rèn)識(shí)。與泰坦尼克數(shù)據(jù)集相同,它也是一個(gè)分類問題,該數(shù)據(jù)集共有 13 列 615 行。
典型問題:預(yù)測(cè)貸款申請(qǐng)能否得到批準(zhǔn)。
4. 大市場銷售數(shù)據(jù)集
零售業(yè)也是數(shù)據(jù)分析技術(shù)的重度使用者之一,它們可以利用分析數(shù)據(jù)來優(yōu)化整個(gè)商業(yè)流程。利用數(shù)據(jù)科學(xué)技術(shù),管理人員可以準(zhǔn)確的完成產(chǎn)品分配、庫存管理、供貨和打包等復(fù)雜流程。這一數(shù)據(jù)集的名字已經(jīng)透露出了它的屬性,它就是商店的交易記錄,主要解決回歸問題。該數(shù)據(jù)集共有 12 列 8523 行。
典型問題:預(yù)測(cè)銷售情況。
5. 波士頓數(shù)據(jù)集
該數(shù)據(jù)集也是模式識(shí)別文獻(xiàn)中的典型數(shù)據(jù)集,該數(shù)據(jù)集得名是因?yàn)椴ㄊ款D的房地產(chǎn)行業(yè),同時(shí)它也是一個(gè)回歸問題。該數(shù)據(jù)集共有 14 列 8506 行。因此,即使你手上的筆記本電腦性能較弱也能 Hold 住該數(shù)據(jù)集。
典型問題:預(yù)測(cè)房屋售價(jià)的中間值。
進(jìn)階級(jí)別
1. 人類活動(dòng)識(shí)別
該數(shù)據(jù)集是由 30 個(gè)受試人智能手機(jī)內(nèi)置的傳感器收集的。許多機(jī)器學(xué)習(xí)課程中該數(shù)據(jù)集是學(xué)生聯(lián)手的重要助手。該數(shù)據(jù)集屬于多標(biāo)記分類問題,共有 561 列 10299 行。
典型問題:預(yù)測(cè)人類活動(dòng)的類別。
2. “黑五”數(shù)據(jù)集
該數(shù)據(jù)集主要是由零售店的交易記錄組成的,它在數(shù)據(jù)集界資格很老,可以幫助商家了解自己商店每天的購物體驗(yàn)。“黑五”數(shù)據(jù)集也是個(gè)回歸問題,它共有 12 列 550069 行。
典型問題:預(yù)測(cè)消費(fèi)者購物量。
3. 文本挖掘數(shù)據(jù)集
該數(shù)據(jù)集包含航空公司飛行數(shù)據(jù)中關(guān)于航空安全問題的報(bào)告,屬于多標(biāo)記分類的高維問題,雷鋒網(wǎng)了解到它共有 30438 列 21519 行。
典型問題:根據(jù)標(biāo)簽為文檔分類。
4. 訪問歷史數(shù)據(jù)集
該數(shù)據(jù)即來源于美國的一個(gè)單車分享服務(wù),想掌握它,你必須擁有專業(yè)的數(shù)據(jù)整理技巧。該數(shù)據(jù)集 2010 年第四季度開始每季度都會(huì)總結(jié)出一個(gè)新文檔,每個(gè)文檔則擁有 7 列。它屬于典型的分類問題。
典型問題:預(yù)測(cè)用戶的類型。
5. 百萬歌曲數(shù)據(jù)集
是不是覺得很新奇,原來這項(xiàng)技術(shù)還能用在娛樂業(yè)啊。該數(shù)據(jù)集能幫你完成回歸問題,它包括 515345 個(gè)觀察值和 90 個(gè)變量。不過,這還只是百萬首歌曲數(shù)據(jù)庫中的一個(gè)小子集。
典型問題:預(yù)測(cè)發(fā)行歌曲的最佳年份。
6. 人口收入數(shù)據(jù)集
該數(shù)據(jù)集屬于非平衡數(shù)據(jù)分類和機(jī)器學(xué)習(xí)問題。眾多周知,機(jī)器學(xué)習(xí)在解決非平衡問題上效果顯著,它可以執(zhí)行癌癥和欺詐檢測(cè)等任務(wù)。該數(shù)據(jù)集共有 14 列 48842 行。
典型問題:預(yù)測(cè)美國人的收入階層。
7. 電影鏡頭數(shù)據(jù)集
利用該數(shù)據(jù)集,你能搭建一個(gè)推薦引擎。同時(shí),該數(shù)據(jù)集也是數(shù)據(jù)科學(xué)行業(yè)的老兵之一,它可運(yùn)用在許多領(lǐng)域。它數(shù)據(jù)相當(dāng)龐大,共有 4000 部電影和 6000 多位用戶發(fā)出的超過 100 萬個(gè)評(píng)分。
典型問題:為用戶推薦新電影。
老司機(jī)級(jí)別
1. 數(shù)字定義數(shù)據(jù)集
該數(shù)據(jù)集能讓你學(xué)習(xí)、分析并認(rèn)識(shí)圖片中的各種元素,它就是相機(jī)中圖片和面部識(shí)別的技術(shù)基礎(chǔ)。該數(shù)據(jù)技術(shù)與數(shù)字識(shí)別問題,共有 28×28 大小的圖片 7 千張,大小為 31MB。
典型問題:在圖片中定義數(shù)字。
2. Yelp 數(shù)據(jù)集
該數(shù)據(jù)集誕生于著名的 Yelp 數(shù)據(jù)集挑戰(zhàn)賽第 8 輪。它由 20 萬張圖片組稱,3 個(gè) json 文檔的大小都達(dá)到了 2 GB。這些圖片包含了 4 個(gè)不同國家 10 大城市本地企業(yè)的信息,你需要通過文化、季節(jié)、數(shù)據(jù)挖掘、社交圖挖掘和類別推斷等方式來洞察復(fù)雜的數(shù)據(jù)。
典型問題:從圖片中找亮點(diǎn)。
3. ImageNet 數(shù)據(jù)集
ImageNet數(shù)據(jù)集可以運(yùn)用在多種問題中,包括目標(biāo)檢測(cè)、定位、分類和屏幕解析。眼下,其圖片引擎中共有 1419 萬多張圖片,容量達(dá)到了 140GB ,你可以任選圖片并圍繞其打造自己的項(xiàng)目。
典型問題:問題的解決要圍繞下載的圖片展開。
4. KDD 1999 數(shù)據(jù)集
說到數(shù)據(jù)集,KDD Cup 這一大名可不能不提,它是世界上首個(gè)國際知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘競賽。KDD 1999 數(shù)據(jù)集屬于分類問題,它共包含 48 列和 400 萬行,文檔體積約為 1.2GB 。
典型問題:判斷網(wǎng)絡(luò)入侵探測(cè)器是否完成了任務(wù)。
5. 芝加哥犯罪數(shù)據(jù)集
如今,能否 Hold 住大型的數(shù)據(jù)集已經(jīng)是檢驗(yàn)數(shù)據(jù)專家是否合格的試金石了。許多數(shù)據(jù)分析公司不再依靠簡單的模型,它們開始使用完整的數(shù)據(jù)。通過該數(shù)據(jù)集,你能掌握大量在自己電腦上分析大型數(shù)據(jù)集的經(jīng)驗(yàn)。想解決這一問題不難,但學(xué)會(huì)數(shù)據(jù)管理并不容易。芝加哥犯罪數(shù)據(jù)集中共有 600 萬個(gè)觀察值,屬于典型的多標(biāo)記分類問題。
典型問題:預(yù)測(cè)犯罪的類型。