自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

24個提高知識和技能極限的機器學(xué)習(xí)項目

人工智能 機器學(xué)習(xí)
數(shù)據(jù)科學(xué)(機器學(xué)習(xí))項目為你提供了一種有前途的方式來啟動你在該領(lǐng)域的職業(yè)。你不僅可以通過應(yīng)用它來學(xué)習(xí)數(shù)據(jù)科學(xué),還可以在自己的簡歷上展示一些項目!

 

介紹

數(shù)據(jù)科學(xué)(機器學(xué)習(xí))項目為你提供了一種有前途的方式來啟動你在該領(lǐng)域的職業(yè)。你不僅可以通過應(yīng)用它來學(xué)習(xí)數(shù)據(jù)科學(xué),還可以在自己的簡歷上展示一些項目!

如今,招聘人員通過他/她的工作來評估應(yīng)聘者的潛力,而不是將重點放在認(rèn)證上。如果你沒有什么東西可以告訴他們,那也沒關(guān)系!這是大多數(shù)人掙扎和錯過的地方。

你以前可能曾處理過幾個問題,但是如果你無法使其表現(xiàn)得那么好且易于解釋,那么究竟有什么人會知道你的能力呢?這些項目將為你提供幫助。想想你將花費在這些項目上的時間,例如培訓(xùn)課程。練習(xí)花費的時間越多,你就會變得更好!

我們確保為你提供不同領(lǐng)域的各種問題。我們認(rèn)為,每個人都必須學(xué)習(xí)如何巧妙地處理大量數(shù)據(jù),因此其中包括大型數(shù)據(jù)集。另外,我們確保所有數(shù)據(jù)集都是開放的并且可以自由訪問。

24個提高知識和技能極限的機器學(xué)習(xí)項目

 

有用的信息

為了幫助你確定從何處開始,我們將該列表分為3個級別,即:

  1. 初級: 此級別包含相當(dāng)容易使用的數(shù)據(jù)集,并且不需要復(fù)雜的數(shù)據(jù)科學(xué)技術(shù)。你可以使用基本回歸或分類算法來解決它們。而且,這些數(shù)據(jù)集有足夠的開放教程來幫助你入門。
  2. 中級:此級別包含本質(zhì)上更具挑戰(zhàn)性的數(shù)據(jù)集。它由中型和大型數(shù)據(jù)集組成,需要一些認(rèn)真的模式識別技能。此外,功能工程將在這里有所作為。機器學(xué)習(xí)技術(shù)的使用沒有限制;陽光下的一切都可以使用。
  3. 高級:此級別最適合理解高級主題(如神經(jīng)網(wǎng)絡(luò),深度學(xué)習(xí),推薦系統(tǒng)等)的人員。此處還提供了高維數(shù)據(jù)集。另外,這是時候發(fā)揮創(chuàng)造力了。查看最佳數(shù)據(jù)科學(xué)家將其帶入他們的工作和代碼的創(chuàng)造力。

目錄

  1. 初級 虹膜數(shù)據(jù) 貸款預(yù)測數(shù)據(jù) Bigmart銷售數(shù)據(jù) 波士頓住房數(shù)據(jù) 時間序列分析數(shù)據(jù) 葡萄酒質(zhì)量數(shù)據(jù) Turkiye學(xué)生評估數(shù)據(jù) 身高體重數(shù)據(jù)
  2. 中級 黑色星期五數(shù)據(jù) 人類活動識別數(shù)據(jù) 暹羅比賽數(shù)據(jù) 行程記錄數(shù)據(jù) 百萬首歌曲數(shù)據(jù) 人口普查收入數(shù)據(jù) 電影鏡頭數(shù)據(jù) Twitter分類數(shù)據(jù)
  3. 高級 識別你的數(shù)字 城市聲音分類 Vox名人資料 ImageNet數(shù)據(jù) 芝加哥犯罪數(shù)據(jù) 印度演員數(shù)據(jù)的年齡檢測 推薦引擎數(shù)據(jù) VisualQA數(shù)據(jù)

初級

1.虹膜數(shù)據(jù)集

24個提高知識和技能極限的機器學(xué)習(xí)項目

 

這可能是模式識別文獻中最通用、最簡單、資源最豐富的數(shù)據(jù)集。沒有什么比虹膜數(shù)據(jù)集學(xué)習(xí)分類技術(shù)更簡單的了。如果你是全新的數(shù)據(jù)科學(xué)學(xué)習(xí)生,這將成為你的起點。數(shù)據(jù)只有150行4列。

問題:根據(jù)可用屬性預(yù)測花朵的類別。

開始:獲取數(shù)據(jù):https://archive.ics.uci.edu/ml/datasets/Iris

教程:http://www.slideshare.net/thoi_gian/iris-data-analysis-with-r

讓我們看一下Iris數(shù)據(jù),并在下面的“實時編碼”窗口中構(gòu)建一個Logistic回歸模型。

https://id.analyticsvidhya.com/auth/login/?next=https://www.analyticsvidhya.com/blog/2018/05/24-ultimate-data-science-projects-to-boost-your-knowledge-and-skills

2.貸款預(yù)測數(shù)據(jù)集

[[351877]]

 

在所有行業(yè)中,保險領(lǐng)域是分析和數(shù)據(jù)科學(xué)方法最大的用途之一。該數(shù)據(jù)集使你可以從保險公司的數(shù)據(jù)集中進行操作,那里面臨著哪些挑戰(zhàn),使用了什么策略,哪些變量影響了結(jié)果等等。這是一個分類問題。數(shù)據(jù)有615行和13列。

問題:預(yù)測貸款是否會獲得批準(zhǔn)。

開始:獲取數(shù)據(jù):https://datahack.analyticsvidhya.com/contest/practice-problem-loan-prediction-iii/

教程:https://www.analyticsvidhya.com/blog/2016/01/complete-tutorial-learn-data-science-python-scratch-2/

讓我們看一下“貸款”數(shù)據(jù)并在下面的“實時編碼”窗口中構(gòu)建一個Logistic回歸模型。

https://id.analyticsvidhya.com/auth/login/?next=https://www.analyticsvidhya.com/blog/2018/05/24-ultimate-data-science-projects-to-boost-your-knowledge-and-skills

3. Bigmart銷售數(shù)據(jù)集

[[351878]]

 

零售是另一個廣泛使用分析來優(yōu)化業(yè)務(wù)流程的行業(yè)。使用數(shù)據(jù)科學(xué)技術(shù)可以巧妙地處理諸如產(chǎn)品放置,庫存管理,自定義報價,產(chǎn)品捆綁等任務(wù)。顧名思義,該數(shù)據(jù)包含銷售商店的交易記錄。這是一個回歸問題。數(shù)據(jù)具有12個變量的8523行。

問題:預(yù)測商店的銷售額。

開始:獲取數(shù)據(jù):https://datahack.analyticsvidhya.com/contest/practice-problem-big-mart-sales-iii/

教程:https://www.analyticsvidhya.com/blog/2016/02/bigmart-sales-solution-top-20/

讓我們看一下Big Mart銷售數(shù)據(jù),并在下面的“實時編碼”窗口中構(gòu)建線性回歸模型。

https://id.analyticsvidhya.com/auth/login/?next=https://www.analyticsvidhya.com/blog/2018/05/24-ultimate-data-science-projects-to-boost-your-knowledge-and-skills

4.波士頓住房數(shù)據(jù)集

[[351879]]

 

這是模式識別文獻中另一個流行的數(shù)據(jù)集。數(shù)據(jù)集來自美國波士頓的房地產(chǎn)行業(yè)。這是一個回歸問題。數(shù)據(jù)具有506行和14列。因此,這是一個相當(dāng)小的數(shù)據(jù)集,你可以在其中嘗試任何技術(shù)而不必?fù)?dān)心筆記本電腦的內(nèi)存被過度使用。

問題:預(yù)測業(yè)主占有的房屋的價值中值。

開始:獲取數(shù)據(jù):https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html

教程:https://www.analyticsvidhya.com/blog/2015/11/started-machine-learning-ms-excel-xl-miner/

5.時間序列分析數(shù)據(jù)集

[[351880]]

 

時間序列是數(shù)據(jù)科學(xué)中最常用的技術(shù)之一。它具有廣泛的應(yīng)用程序——天氣預(yù)報,預(yù)測銷售,分析逐年趨勢等。此數(shù)據(jù)集特定于時間序列,而此處的挑戰(zhàn)是以一種運輸方式預(yù)測交通量。數(shù)據(jù)具有行和列。

問題:以新的運輸方式預(yù)測交通量。

開始:獲取數(shù)據(jù):https://datahack.analyticsvidhya.com/contest/practice-problem-time-series-2/

教程:https://trainings.analyticsvidhya.com/courses/course-v1:AnalyticsVidhya+TS_101+TS_term1/about

6.葡萄酒質(zhì)量數(shù)據(jù)集

[[351881]]

 

這是數(shù)據(jù)科學(xué)初學(xué)者中最受歡迎的數(shù)據(jù)集之一。它分為2個數(shù)據(jù)集。你可以對此數(shù)據(jù)執(zhí)行回歸和分類任務(wù)。它將測試你在不同領(lǐng)域的理解能力——異常檢測,特征選擇和不平衡數(shù)據(jù)。該數(shù)據(jù)集中有4898行和12列。

問題:預(yù)測葡萄酒的質(zhì)量。

開始:獲取數(shù)據(jù):https://archive.ics.uci.edu/ml/datasets/Wine+Quality

教程:https://web.stanford.edu/~ilker/doc/wine_Stats315A.pdf

7. Turkiye學(xué)生評估數(shù)據(jù)集

[[351882]]

 

該數(shù)據(jù)集基于學(xué)生針對不同課程填寫的評估表。它具有不同的屬性,包括出勤率,難度,每個評估問題的得分等。這是一個無監(jiān)督的學(xué)習(xí)問題。數(shù)據(jù)集有5820行和33列。

問題:使用分類和聚類技術(shù)來處理數(shù)據(jù)。

開始:獲取數(shù)據(jù):https://archive.ics.uci.edu/ml/datasets/Wine+Qualityhttps://archive.ics.uci.edu/ml/datasets/Turkiye+Student+Evaluation

教程:https://sanghosuh.github.io/research/LA_EdMining_SanghoSuh.pdf

8.身高和體重數(shù)據(jù)集

[[351883]]

 

這是一個相當(dāng)簡單的問題,非常適合剛開始使用數(shù)據(jù)科學(xué)的人們。這是一個回歸問題。數(shù)據(jù)集具有25,000行和3列(索引,高度和權(quán)重)。

問題:預(yù)測一個人的身高或體重。

開始:獲取數(shù)據(jù):http://wiki.stat.ucla.edu/socr/index.php/SOCR_Data_Dinov_020108_HeightsWeights

教程:https://www3.nd.edu/~steve/computing_with_data/2_Motivation/motivate_ht_wt.html

中級

1.黑色星期五數(shù)據(jù)集

[[351884]]

 

該數(shù)據(jù)集包含在零售商店捕獲的銷售交易。這是一個經(jīng)典的數(shù)據(jù)集,可從多種購物體驗中探索和擴展你的特殊工程技能以及日常理解能力。這是一個回歸問題。數(shù)據(jù)集具有550,069行和12列。

問題: 預(yù)測購買金額。

開始:獲取數(shù)據(jù):https://datahack.analyticsvidhya.com/contest/black-friday/

教程:https://discuss.analyticsvidhya.com/t/black-friday-data-hack-reveal-your-approach/5986

2.人類活動識別數(shù)據(jù)集

[[351885]]

 

該數(shù)據(jù)集是從通過嵌入式智能慣性傳感器啟用的智能手機捕獲的30個人物的記錄中收集的。許多機器學(xué)習(xí)課程將這些數(shù)據(jù)用于教學(xué)目的。輪到你了。這是一個多分類問題。數(shù)據(jù)集有10,299行和561列。

問題:預(yù)測人類的活動類別。

開始:獲取數(shù)據(jù):http://archive.ics.uci.edu/ml/datasets/Human+Activity+Recognition+Using+Smartphones

教程:https://rstudio-pubs-static.s3.amazonaws.com/291850_859937539fb14c37b0a311db344a6016.html

3.文本挖​掘數(shù)據(jù)集

24個提高知識和技能極限的機器學(xué)習(xí)項目

 

該數(shù)據(jù)集最初來自2007年舉行的暹羅文字采礦比賽。該數(shù)據(jù)包含描述某些飛行中出現(xiàn)的問題的航空安全報告。這是一個多分類的高維問題。它具有21,519行和30,438列。

問題:根據(jù)文檔的標(biāo)簽對文檔進行分類。

開始:獲取數(shù)據(jù):http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/multilabel.html#siam-competition2007

教程:https://wtlab.um.ac.ir/images/e-library/text_mining/Survey%20of%20Text%20Mining%202%20.pdf

4.行程歷史數(shù)據(jù)集

24個提高知識和技能極限的機器學(xué)習(xí)項目

 

該數(shù)據(jù)集來自美國的自行車共享服務(wù)。此數(shù)據(jù)集要求你鍛煉專業(yè)數(shù)據(jù)處理技能。該數(shù)據(jù)從2010年第四季度開始按季度提供。每個文件有7列。這是一個分類問題。

問題:預(yù)測用戶類別。

開始:獲取數(shù)據(jù):https://www.capitalbikeshare.com/trip-history-data

教程:https://www.analyticsvidhya.com/blog/2015/06/solution-kaggle-competition-bike-sharing-demand/

5.百萬首歌曲數(shù)據(jù)集

[[351886]]

 

你知道數(shù)據(jù)科學(xué)也可以用于娛樂行業(yè)嗎?自己動手吧!該數(shù)據(jù)集提出了回歸任務(wù)。它由5,15,345個觀測值和90個變量組成。但是,這只是大約一百萬首歌曲的原始數(shù)據(jù)數(shù)據(jù)庫的一小部分 。

問題:預(yù)測歌曲的發(fā)行年份。

開始:獲取數(shù)據(jù):http://archive.ics.uci.edu/ml/datasets/YearPredictionMSD

教程:http://www-personal.umich.edu/~yjli/content/projectreport.pdf

6.人口普查收入數(shù)據(jù)集

24個提高知識和技能極限的機器學(xué)習(xí)項目

 

這是一個不平衡的分類,是一個經(jīng)典的機器學(xué)習(xí)問題。你知道,機器學(xué)習(xí)已廣泛用于解決不平衡的問題,例如癌癥檢測,欺詐檢測等?,F(xiàn)在是時候自己動手了。數(shù)據(jù)集具有48,842行和14列。

問題:預(yù)測美國人口的收入等級。

開始:獲取數(shù)據(jù):http://archive.ics.uci.edu/ml/machine-learning-databases/census-income-mld/

教程:https://cseweb.ucsd.edu/~jmcauley/cse190/reports/sp15/048.pdf

7.電影鏡頭數(shù)據(jù)集

[[351887]]

 

你是否已建立推薦系統(tǒng)?這是你的機會!該數(shù)據(jù)集是數(shù)據(jù)科學(xué)行業(yè)中最受歡迎和引用最多的數(shù)據(jù)集之一。它有各種尺寸。在這里,我使用了相當(dāng)小的尺寸。它在4,000部電影中獲得6,000名用戶的100萬收視率。

問題:向用戶推薦新電影。

開始:獲取數(shù)據(jù):http://grouplens.org/datasets/movielens/1m/

教程:https://www.analyticsvidhya.com/blog/2016/06/quick-guide-build-recommendation-engine-python/

8. Twitter分類數(shù)據(jù)集

[[351888]]

 

使用Twitter數(shù)據(jù)已成為情感分析問題不可或缺的一部分。如果你想在這一領(lǐng)域為自己開拓一片天地,那么你將很樂于應(yīng)對該數(shù)據(jù)集帶來的挑戰(zhàn)。數(shù)據(jù)集大小為3MB,具有31,962條推文。

問題:識別哪些是仇恨推特,哪些不是。

開始:獲取數(shù)據(jù):https://datahack.analyticsvidhya.com/contest/practice-problem-twitter-sentiment-analysis/

教程:https://github.com/abdulfatir/twitter-sentiment-analysis

高級

1.確定你的位數(shù)數(shù)據(jù)集

[[351889]]

 

該數(shù)據(jù)集使你可以研究,分析和識別圖像中的元素。這就是相機使用圖像識別來檢測你的臉的方式!現(xiàn)在輪到你構(gòu)建和測試該技術(shù)了。這是一個數(shù)字識別問題。該數(shù)據(jù)集包含7,000張28 X 28大小的圖像,總計31MB。

問題:識別圖像中的數(shù)字。

開始:獲取數(shù)據(jù):https://datahack.analyticsvidhya.com/contest/practice-problem-identify-the-digits/

教程:https://www.analyticsvidhya.com/blog/2016/10/an-introduction-to-implementing-neural-networks-using-tensorflow/

2.城市聲音分類

[[351890]]

 

當(dāng)你開始機器學(xué)習(xí)之旅時,你會遇到簡單的機器學(xué)習(xí)問題,例如泰坦尼克號生存預(yù)測。但是,對于現(xiàn)實生活中的問題,你仍然沒有足夠的練習(xí)。因此,此練習(xí)問題旨在向你介紹常規(guī)分類情況下的音頻處理。該數(shù)據(jù)集包含10個類別的8,732個城市聲音的聲音摘錄。

問題:從音頻中分類聲音的類型。

開始:獲取數(shù)據(jù):https://datahack.analyticsvidhya.com/contest/practice-problem-urban-sound-classification/

教程:https://www.analyticsvidhya.com/blog/2017/08/audio-voice-processing-deep-learning/

3. Vox名人數(shù)據(jù)集

24個提高知識和技能極限的機器學(xué)習(xí)項目

 

音頻處理正迅速成為深度學(xué)習(xí)的重要領(lǐng)域,因此這是另一個具有挑戰(zhàn)性的問題。此數(shù)據(jù)集用于大規(guī)模的說話人識別,包含從YouTube視頻中提取的名人所說的單詞。這是用于分離和識別語音的有趣用例。數(shù)據(jù)包含1,251位名人所說的100,000次講話。

問題:找出聲音屬于哪個名人。

開始:獲取數(shù)據(jù):http://www.robots.ox.ac.uk/~vgg/data/voxceleb/

教程:https://www.robots.ox.ac.uk/~vgg/publications/2017/Nagrani17/nagrani17.pdf

4. ImageNet數(shù)據(jù)集

24個提高知識和技能極限的機器學(xué)習(xí)項目

 

ImageNet提供了各種問題,包括對象檢測,定位,分類和屏幕解析。所有圖像均可免費獲得。你可以搜索任何類型的圖像并圍繞該圖像構(gòu)建項目。截止到目前,該圖像引擎已經(jīng)擁有超過1500萬張多種形狀的圖像,大小高達140GB。

問題:要解決的問題取決于你下載的圖像類型。

開始:獲取數(shù)據(jù):http://image-net.org/download-imageurls

教程:http://image-net.org/download-imageurls

5.芝加哥犯罪數(shù)據(jù)集

[[351892]]

 

如今,每位數(shù)據(jù)科學(xué)家都希望能夠處理大型數(shù)據(jù)集。當(dāng)公司在整個數(shù)據(jù)集上具有計算能力時,他們不再喜歡使用樣本。該數(shù)據(jù)集為你提供了在本地計算機上處​​理大型數(shù)據(jù)集所需的實際經(jīng)驗。問題很容易,但是數(shù)據(jù)管理才是關(guān)鍵!該數(shù)據(jù)集具有600萬個觀測值。這是一個多分類問題。

問題:預(yù)測犯罪類型。

開始:獲取數(shù)據(jù): https://data.cityofchicago.org/Public-Safety/Crimes-2001-to-present/ijzp-q8t2

教程:http://nathanwayneholt.com/mathematicalmodeling/ChicagoCrimesReport.pdf

6.印度演員年齡數(shù)據(jù)集

[[351893]]

 

對于任何深度學(xué)習(xí)愛好者來說,這都是一個吸引人的挑戰(zhàn)。數(shù)據(jù)集包含數(shù)千個印度演員的圖像,你的任務(wù)是確定他們的年齡。手動選擇所有圖像,并從視頻幀中裁剪所有圖像,這導(dǎo)致了比例,姿勢,表情,年齡,分辨率,遮擋和化妝具有高度的可變性。訓(xùn)練集中有19,906張圖像,測試集中有6,636張圖像。

問題:預(yù)測演員的年齡。

開始:獲取數(shù)據(jù):http://image-net.org/download-imageurls

教程:https://www.analyticsvidhya.com/blog/2017/06/hands-on-with-deep-learning-solution-for-age-detection-practice-problem/

7.推薦引擎數(shù)據(jù)集

[[351894]]

 

這是一個高級推薦系統(tǒng)的挑戰(zhàn)。在這個實踐問題中,將為你提供程序員的數(shù)據(jù)和他們先前已解決的問題,以及他們解決該特定問題所花費的時間。作為數(shù)據(jù)科學(xué)家,你建立的模型將幫助在線評委決定下一級的問題推薦給用戶。

問題:根據(jù)用戶的當(dāng)前狀態(tài),預(yù)測解決問題所需的時間。

開始:獲取數(shù)據(jù):https://datahack.analyticsvidhya.com/contest/practice-problem-recommendation-engine/

8. VisualQA數(shù)據(jù)集

24個提高知識和技能極限的機器學(xué)習(xí)項目

 

VisualQA是一個數(shù)據(jù)集,其中包含有關(guān)圖像的開放式問題。這些問題需要有對計算機視覺和語言的理解。這個問題有一個自動的評估指標(biāo)。數(shù)據(jù)集包含265,016張圖像,每張圖像3個問題,每個問題10個真實答案。

問題:使用深度學(xué)習(xí)技術(shù)回答有關(guān)圖像的開放性問題。

開始:獲取數(shù)據(jù):http://www.visualqa.org/

教程:https://arxiv.org/abs/1708.02711

尾注

在上面列出的24個數(shù)據(jù)集中,你應(yīng)該首先找到一個與你的技能組匹配的數(shù)據(jù)集。如果你是機器學(xué)習(xí)的初學(xué)者,請避免從一開始就使用高級數(shù)據(jù)集。不要咬一個超過你咀嚼能力的東西,不要對仍然要做的事情感到不知所措。相反,應(yīng)專注于逐步取得進展。

完成2-3個項目后,在簡歷和GitHub個人資料上展示它們(非常重要?。H缃?,許多招聘人員通過檢查GitHub個人資料來招聘候選人。你的動機不應(yīng)該是完成所有項目,而應(yīng)根據(jù)要解決的問題,領(lǐng)域和數(shù)據(jù)集大小挑選出一些項目。 

 

 

 

 

責(zé)任編輯:龐桂玉 來源: 今日頭條
相關(guān)推薦

2020-06-14 14:48:23

機器學(xué)習(xí)Python

2017-10-24 06:12:50

機器學(xué)習(xí)數(shù)據(jù)集編程

2020-11-02 00:27:31

云端云計算機器學(xué)習(xí)

2020-03-05 21:40:49

Javascript前端

2020-03-05 08:58:42

JavaScript語言開發(fā)

2014-12-23 14:57:42

開源項目機器學(xué)習(xí)

2019-07-15 09:37:03

數(shù)據(jù)庫MySQL技術(shù)

2020-11-13 15:29:21

機器學(xué)習(xí)數(shù)據(jù)技術(shù)

2020-09-28 12:42:17

機器學(xué)習(xí)語言GitHub

2020-11-02 15:49:35

機器學(xué)習(xí)技術(shù)云計算

2011-07-27 17:22:10

mysql極限測試索引

2022-08-20 19:12:22

編程竅門

2021-11-06 10:53:07

機器學(xué)習(xí)機器人AI

2022-11-04 08:11:25

人工智能機器學(xué)習(xí)軟件

2021-03-01 11:39:34

機器學(xué)習(xí)深度學(xué)習(xí)人工智能

2019-03-19 14:20:58

Linux在機器學(xué)習(xí)腳本

2022-02-07 00:05:49

機器學(xué)習(xí)GitHub工具

2021-02-07 09:26:55

機器學(xué)習(xí)建筑能源ML

2024-02-26 14:34:53

2024-04-08 07:00:00

機器學(xué)習(xí)
點贊
收藏

51CTO技術(shù)棧公眾號