從何開始學(xué)習(xí)數(shù)據(jù)科學(xué)?小哥用親身經(jīng)歷告訴你如何少走彎路
大數(shù)據(jù)文摘出品
來源:medium
編譯:徐玲、Aileen
幾天前,我開始考慮如果必須重新開始學(xué)習(xí)機器學(xué)習(xí)和數(shù)據(jù)科學(xué),我將從哪里開始?有趣的是,我如今想象的路徑與我剛開始時實際走的路徑完全不同。
我知道我們每個人都以不同的方式學(xué)習(xí)。有些人喜歡視頻,有些人只喜歡看書,很多人需要參加付費課程去感受更多的壓力。沒關(guān)系,重要的是真的去學(xué)習(xí)并且享受其中。
如果我不得不重新開始學(xué)習(xí)數(shù)據(jù)科學(xué),從我自身的角度為了能夠更好地學(xué)習(xí),我設(shè)計了一下這條道路,供大家參考。
如你所見,我最喜歡的學(xué)習(xí)方法是從簡單入手,逐漸研究復(fù)雜的內(nèi)容。這意味著從實際示例開始,然后轉(zhuǎn)向更抽象的概念。
一、Kaggle微課程
我知道從這里開始可能很奇怪,許多人希望從最沉重的基礎(chǔ)和數(shù)學(xué)視頻開始,以充分了解每種ML模型背后發(fā)生的事情。但是從我的角度出發(fā),從實用和具體的角度出發(fā)有助于更好地了解整個情況。
此外,每門小課程需要只大約4個小時才能完成,因此預(yù)先設(shè)定達(dá)到這些小目標(biāo)會增加額外的動力。
1. Python
如果你熟悉Python,則可以跳過此部分。在這里,你將學(xué)習(xí)基本的Python概念,這些概念將幫助你開始學(xué)習(xí)數(shù)據(jù)科學(xué)。雖然關(guān)于Python的很多事情對你來說仍然是個謎,但是隨著我們的前進,你將通過實踐學(xué)習(xí)它。
價格:免費
鏈接:https://www.kaggle.com/learn/python
2. Pandas
Pandas將為我們提供開始使用Python處理數(shù)據(jù)的技能。我認(rèn)為4小時的微課程和實際示例足以使人們對可以做的事情有一個概念。
價格:免費
鏈接:https://www.kaggle.com/learn/pandas
3. 數(shù)據(jù)可視化
數(shù)據(jù)可視化也許是最被低估的技能之一,但它也是最重要的技能之一。它將使你完全了解要使用的數(shù)據(jù)。
價格:免費
鏈接:https://www.kaggle.com/learn/data-visualization
4. 機器學(xué)習(xí)入門
令人興奮的部分開始了!你將學(xué)習(xí)基本的概念,以開始訓(xùn)練機器學(xué)習(xí)模型。這些在未來之路上至關(guān)重要的概念,你必須了解的非常清楚。
價格:免費
鏈接:https://www.kaggle.com/learn/intro-to-machine-learning
5. 中級機器學(xué)習(xí)
這是對前面的補充,但是在這里,你將第一次使用分類變量,并處理數(shù)據(jù)中的空字段。
價格:免費
鏈接:https://www.kaggle.com/learn/intermediate-machine-learning
應(yīng)該清楚的是,這5個微課程不是線性過程,你可能必須在它們之間反反復(fù)復(fù)才可以記住這些概念。當(dāng)你在Pandas上工作時,你可能必須回到Python課程以記住你學(xué)到的一些知識,或者轉(zhuǎn)到pandas文檔以了解在“機器學(xué)習(xí)入門”課程中看到的新功能。所有這一切都很好,真正的學(xué)習(xí)就是這樣發(fā)生的。
現(xiàn)在,如果你意識到前5門課程將為你提供進行探索性數(shù)據(jù)分析(exploratory data analysis,EDA)和創(chuàng)建基礎(chǔ)模型(以后你將可以對其進行改進)的必要技能,因此,現(xiàn)在是開始簡單的Kaggle競賽并將你學(xué)到的知識付諸實踐的最佳時機。
二、Kaggle競賽
1. 泰坦尼克號
在這里,你將把在入門課程中學(xué)到的知識付諸實踐。剛開始時可能有點嚇人,不要關(guān)心是否在排行榜中排名第一,而是學(xué)習(xí)。在本競賽中,你將學(xué)習(xí)有關(guān)這類問題的分類和相關(guān)指標(biāo),例如精度(precision),召回率(recall)和準(zhǔn)確性(accuracy)。
鏈接:https://www.kaggle.com/c/titanic
2. 房價
在本競賽中,你將應(yīng)用回歸模型并了解諸如RMSE之類的相關(guān)指標(biāo)。
鏈接:https://www.kaggle.com/c/home-data-for-ml-course
至此,你已經(jīng)具有豐富的實踐經(jīng)驗,并且會覺得自己可以解決很多問題,但很有可能是你不完全了解所使用的每種分類和回歸算法背后的情況。因此,這是我們必須學(xué)習(xí)所學(xué)知識的基礎(chǔ)的原因。
三、可以參考的書籍和課程
許多課程都是從這里開始的,但是至少我以前做過一些實踐性的工作后,我才能更好地吸收這些信息。
1. 《數(shù)據(jù)科學(xué)從零開始(Data Science from Scratch)》
此時,我們將暫時將自己與pandas,scikit-learn和其他Python庫分開,以務(wù)實的方式了解這些算法“背后”的知識。
這本書讀起來很輕松,它帶了每個主題的Python示例,并且沒有太多數(shù)學(xué)運算。我們想了解算法的原理,但是從實踐的角度來看,我們不想因閱讀大量密集的數(shù)學(xué)符號而灰心。
價格:26美元
如果你學(xué)到這里,我會說你很有能力從事數(shù)據(jù)科學(xué)工作,并且了解了解決方案背后的基本原理。因此,在這里我建議你繼續(xù)參加更復(fù)雜的Kaggle競賽,參加論壇討論并探索在其他參與者解決方案中發(fā)現(xiàn)的新方法。
2. 在線課程:吳恩達(dá)《機器學(xué)習(xí)》
在這里,我們將看到許多我們已經(jīng)學(xué)到的東西,但是我們將觀看該領(lǐng)域一位引領(lǐng)者的解釋,他的方法將更加數(shù)學(xué)化,因此這將是深入理解我們模型的絕佳方法。
價格:不帶證書免費,帶證書79美元
鏈接:https://www.coursera.org/learn/machine-learning
3. 《統(tǒng)計學(xué)習(xí)的要素(The elements of Statisitcal Learning )》
繁重的數(shù)學(xué)部分現(xiàn)在才開始。
(想象一下,如果我們從一開始學(xué)習(xí)數(shù)據(jù)科學(xué)就讀這本書,那將一直是一條多么艱難的道路!我們可能會早早的就放棄了。)
價格:60美元,斯坦福網(wǎng)頁上有官方免費版本:
https://web.stanford.edu/~hastie/ElemStatLearn/printings/ESLII_print12.pdf
4. 在線課程:吳恩達(dá)《深度學(xué)習(xí)》
此時,你可能已經(jīng)讀到過深度學(xué)習(xí)和使用過某些深度學(xué)習(xí)模型。但是在這里,我們將學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的基礎(chǔ),它們是如何實現(xiàn)和應(yīng)用現(xiàn)有的不同體系結(jié)構(gòu)的。
價格:49美元/月
鏈接:https://www.deeplearning.ai/deep-learning-specialization/
至此,之后的路很大程度上取決于你自己的興趣,你可以專注于回歸和時間序列問題,或者可以更深入地學(xué)習(xí)深度學(xué)習(xí)。
相關(guān)報道:
https://towardsdatascience.com/if-i-had-to-start-learning-data-science-again-how-would-i-do-it-78a72b80fd93
【本文是51CTO專欄機構(gòu)大數(shù)據(jù)文摘的原創(chuàng)譯文,微信公眾號“大數(shù)據(jù)文摘( id: BigDataDigest)”】