自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

從菜鳥到老司機(jī),數(shù)據(jù)科學(xué)的17個(gè)必用數(shù)據(jù)集推薦

大數(shù)據(jù)
數(shù)據(jù)集可謂是數(shù)據(jù)科學(xué)的練兵場,不管是對(duì)菜鳥入門還是老司機(jī)上路,能找到一個(gè)好用的數(shù)據(jù)集無異于如虎添翼。以下是雷鋒網(wǎng)整理編譯的 17 個(gè)常用數(shù)據(jù)集,并列舉了適用的典型問題,從菜鳥到老司機(jī),總有一款適合你。

[[177122]]

數(shù)據(jù)集可謂是數(shù)據(jù)科學(xué)的練兵場,不管是對(duì)菜鳥入門還是老司機(jī)上路,能找到一個(gè)好用的數(shù)據(jù)集無異于如虎添翼。以下是雷鋒網(wǎng)整理編譯的 17 個(gè)常用數(shù)據(jù)集,并列舉了適用的典型問題,從菜鳥到老司機(jī),總有一款適合你。

菜鳥入門

1. Iris 數(shù)據(jù)集

在模式識(shí)別文獻(xiàn)中,Iris 數(shù)據(jù)集恐怕是最通用也是最簡單的數(shù)據(jù)集了。要學(xué)習(xí)分類技術(shù),Iris 數(shù)據(jù)集絕對(duì)是最方便的途徑。如果你之前從未接觸過數(shù)據(jù)科學(xué)這一概念,從這里開始一定沒錯(cuò),因?yàn)樵摂?shù)據(jù)集只有 4 列 150 行。

典型問題:在可用屬性基礎(chǔ)上預(yù)測(cè)花的類型。

2. 泰坦尼克數(shù)據(jù)集

泰坦尼克數(shù)據(jù)集也是全球數(shù)據(jù)科學(xué)殿堂中出鏡率最高的數(shù)據(jù)集之一。借助一些教程和指導(dǎo),泰坦尼克數(shù)據(jù)集可以讓你深入了解數(shù)據(jù)科學(xué)。通過對(duì)類別、數(shù)字、文本等數(shù)據(jù)的結(jié)合,你能從該數(shù)據(jù)集中總結(jié)出最瘋狂的想法。該數(shù)據(jù)集更重視分類問題,共有 12 列 891 行。

典型問題:預(yù)測(cè)泰坦尼克號(hào)上生還的幸存者人數(shù)。

3. 貸款預(yù)測(cè)數(shù)據(jù)集

在所有行業(yè)中,最為倚重?cái)?shù)據(jù)分析技術(shù)的就是保險(xiǎn)業(yè)。貸款預(yù)測(cè)數(shù)據(jù)集可以讓保險(xiǎn)公司對(duì)即將面對(duì)的挑戰(zhàn)、選擇的應(yīng)對(duì)方式和影響有一個(gè)清晰的認(rèn)識(shí)。與泰坦尼克數(shù)據(jù)集相同,它也是一個(gè)分類問題,該數(shù)據(jù)集共有 13 列 615 行。

典型問題:預(yù)測(cè)貸款申請(qǐng)能否得到批準(zhǔn)。

4. 大市場銷售數(shù)據(jù)集

零售業(yè)也是數(shù)據(jù)分析技術(shù)的重度使用者之一,它們可以利用分析數(shù)據(jù)來優(yōu)化整個(gè)商業(yè)流程。利用數(shù)據(jù)科學(xué)技術(shù),管理人員可以準(zhǔn)確的完成產(chǎn)品分配、庫存管理、供貨和打包等復(fù)雜流程。這一數(shù)據(jù)集的名字已經(jīng)透露出了它的屬性,它就是商店的交易記錄,主要解決回歸問題。該數(shù)據(jù)集共有 12 列 8523 行。

典型問題:預(yù)測(cè)銷售情況。

5. 波士頓數(shù)據(jù)集

該數(shù)據(jù)集也是模式識(shí)別文獻(xiàn)中的典型數(shù)據(jù)集,該數(shù)據(jù)集得名是因?yàn)椴ㄊ款D的房地產(chǎn)行業(yè),同時(shí)它也是一個(gè)回歸問題。該數(shù)據(jù)集共有 14 列 8506 行。因此,即使你手上的筆記本電腦性能較弱也能 Hold 住該數(shù)據(jù)集。

典型問題:預(yù)測(cè)房屋售價(jià)的中間值。

進(jìn)階級(jí)別

1. 人類活動(dòng)識(shí)別

該數(shù)據(jù)集是由 30 個(gè)受試人智能手機(jī)內(nèi)置的傳感器收集的。許多機(jī)器學(xué)習(xí)課程中該數(shù)據(jù)集是學(xué)生聯(lián)手的重要助手。該數(shù)據(jù)集屬于多標(biāo)記分類問題,共有 561 列 10299 行。

典型問題:預(yù)測(cè)人類活動(dòng)的類別。

2. “黑五”數(shù)據(jù)集

該數(shù)據(jù)集主要是由零售店的交易記錄組成的,它在數(shù)據(jù)集界資格很老,可以幫助商家了解自己商店每天的購物體驗(yàn)。“黑五”數(shù)據(jù)集也是個(gè)回歸問題,它共有 12 列 550069 行。

典型問題:預(yù)測(cè)消費(fèi)者購物量。

3. 文本挖掘數(shù)據(jù)集

該數(shù)據(jù)集包含航空公司飛行數(shù)據(jù)中關(guān)于航空安全問題的報(bào)告,屬于多標(biāo)記分類的高維問題,雷鋒網(wǎng)了解到它共有 30438 列 21519 行。

典型問題:根據(jù)標(biāo)簽為文檔分類。

4. 訪問歷史數(shù)據(jù)集

該數(shù)據(jù)即來源于美國的一個(gè)單車分享服務(wù),想掌握它,你必須擁有專業(yè)的數(shù)據(jù)整理技巧。該數(shù)據(jù)集 2010 年第四季度開始每季度都會(huì)總結(jié)出一個(gè)新文檔,每個(gè)文檔則擁有 7 列。它屬于典型的分類問題。

典型問題:預(yù)測(cè)用戶的類型。

5. 百萬歌曲數(shù)據(jù)集

是不是覺得很新奇,原來這項(xiàng)技術(shù)還能用在娛樂業(yè)啊。該數(shù)據(jù)集能幫你完成回歸問題,它包括 515345 個(gè)觀察值和 90 個(gè)變量。不過,這還只是百萬首歌曲數(shù)據(jù)庫中的一個(gè)小子集。

典型問題:預(yù)測(cè)發(fā)行歌曲的最佳年份。

6. 人口收入數(shù)據(jù)集

該數(shù)據(jù)集屬于非平衡數(shù)據(jù)分類和機(jī)器學(xué)習(xí)問題。眾多周知,機(jī)器學(xué)習(xí)在解決非平衡問題上效果顯著,它可以執(zhí)行癌癥和欺詐檢測(cè)等任務(wù)。該數(shù)據(jù)集共有 14 列 48842 行。

典型問題:預(yù)測(cè)美國人的收入階層。

7. 電影鏡頭數(shù)據(jù)集

利用該數(shù)據(jù)集,你能搭建一個(gè)推薦引擎。同時(shí),該數(shù)據(jù)集也是數(shù)據(jù)科學(xué)行業(yè)的老兵之一,它可運(yùn)用在許多領(lǐng)域。它數(shù)據(jù)相當(dāng)龐大,共有 4000 部電影和 6000 多位用戶發(fā)出的超過 100 萬個(gè)評(píng)分。

典型問題:為用戶推薦新電影。

老司機(jī)級(jí)別

1. 數(shù)字定義數(shù)據(jù)集

該數(shù)據(jù)集能讓你學(xué)習(xí)、分析并認(rèn)識(shí)圖片中的各種元素,它就是相機(jī)中圖片和面部識(shí)別的技術(shù)基礎(chǔ)。該數(shù)據(jù)技術(shù)與數(shù)字識(shí)別問題,共有 28×28 大小的圖片 7 千張,大小為 31MB。

典型問題:在圖片中定義數(shù)字。

2. Yelp 數(shù)據(jù)集

該數(shù)據(jù)集誕生于著名的 Yelp 數(shù)據(jù)集挑戰(zhàn)賽第 8 輪。它由 20 萬張圖片組稱,3 個(gè) json 文檔的大小都達(dá)到了 2 GB。這些圖片包含了 4 個(gè)不同國家 10 大城市本地企業(yè)的信息,你需要通過文化、季節(jié)、數(shù)據(jù)挖掘、社交圖挖掘和類別推斷等方式來洞察復(fù)雜的數(shù)據(jù)。

典型問題:從圖片中找亮點(diǎn)。

3. ImageNet 數(shù)據(jù)集

ImageNet數(shù)據(jù)集可以運(yùn)用在多種問題中,包括目標(biāo)檢測(cè)、定位、分類和屏幕解析。眼下,其圖片引擎中共有 1419 萬多張圖片,容量達(dá)到了 140GB ,你可以任選圖片并圍繞其打造自己的項(xiàng)目。

典型問題:問題的解決要圍繞下載的圖片展開。

4. KDD 1999 數(shù)據(jù)集

說到數(shù)據(jù)集,KDD Cup 這一大名可不能不提,它是世界上首個(gè)國際知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘競賽。KDD 1999 數(shù)據(jù)集屬于分類問題,它共包含 48 列和 400 萬行,文檔體積約為 1.2GB 。

典型問題:判斷網(wǎng)絡(luò)入侵探測(cè)器是否完成了任務(wù)

5. 芝加哥犯罪數(shù)據(jù)集

如今,能否 Hold 住大型的數(shù)據(jù)集已經(jīng)是檢驗(yàn)數(shù)據(jù)專家是否合格的試金石了。許多數(shù)據(jù)分析公司不再依靠簡單的模型,它們開始使用完整的數(shù)據(jù)。通過該數(shù)據(jù)集,你能掌握大量在自己電腦上分析大型數(shù)據(jù)集的經(jīng)驗(yàn)。想解決這一問題不難,但學(xué)會(huì)數(shù)據(jù)管理并不容易。芝加哥犯罪數(shù)據(jù)集中共有 600 萬個(gè)觀察值,屬于典型的多標(biāo)記分類問題。

典型問題:預(yù)測(cè)犯罪的類型。

責(zé)任編輯:未麗燕 來源: 36大數(shù)據(jù)
相關(guān)推薦

2011-08-17 15:23:37

iPhone開發(fā)Objective-CCocoa Touch

2015-10-20 09:30:49

菜鳥數(shù)據(jù)科學(xué)家養(yǎng)成

2019-09-30 09:10:11

Python編程語言數(shù)據(jù)科學(xué)

2020-04-29 13:40:32

數(shù)據(jù)集數(shù)據(jù)科學(xué)冠狀病毒

2020-06-10 07:54:11

PythonSQL數(shù)據(jù)科學(xué)

2019-01-08 16:25:42

數(shù)據(jù)科學(xué)機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

2021-04-16 09:55:20

數(shù)據(jù)科學(xué)數(shù)據(jù)編程語言

2022-06-23 13:31:21

數(shù)據(jù)科學(xué)機(jī)器學(xué)習(xí)

2015-08-26 13:11:54

數(shù)據(jù)Python

2024-08-29 10:16:48

2019-03-07 09:30:45

數(shù)據(jù)科學(xué)數(shù)據(jù)分析數(shù)據(jù)科學(xué)家

2018-11-01 08:49:28

數(shù)據(jù)科學(xué)數(shù)據(jù)科學(xué)工具數(shù)據(jù)分析

2019-08-05 11:01:24

2015-11-10 10:11:32

ios開發(fā)工具效率

2018-07-23 14:53:44

Python數(shù)據(jù)科學(xué)函數(shù)

2019-12-05 17:52:12

人工智能機(jī)器人網(wǎng)絡(luò)安全

2018-06-27 10:45:12

數(shù)據(jù)Python程序

2022-11-23 10:31:54

2022-06-28 10:58:21

工具Java

2022-05-27 08:40:27

java工具
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)