疫情期間自我提升指南:十大資源,為你鋪平數(shù)據(jù)科學(xué)家之路!
大數(shù)據(jù)文摘出品
來源:medium
編譯:徐玲、馬莉、武帥
疫情在家太無聊,網(wǎng)課自然是打發(fā)時間又能自我提升的不二之選。在眾多學(xué)科中,數(shù)據(jù)科學(xué)又可說是有趣又實(shí)用的典范了。
可是,光光coursera上能找到的數(shù)據(jù)科學(xué)課程就要數(shù)以百計(jì)。我們要如何選擇合適的課程?又應(yīng)該選擇怎樣的學(xué)習(xí)順序呢?
今天,文摘菌就為你帶來了十大資源,更為你安排好了學(xué)習(xí)順序。
從小白起步級,到大師進(jìn)階級,涵蓋十分廣泛。即便你已有了一定的數(shù)據(jù)科學(xué)基礎(chǔ),也能找到合適的學(xué)習(xí)資源。
一起來看吧!
Python 3 編程專業(yè)課
和Python 2.7說再見!
首先,你需要一門編程語言。密歇根大學(xué)的這門專業(yè)課是有關(guān)學(xué)習(xí)如何使用Python,并創(chuàng)建自己的內(nèi)容。
課程鏈接:https://www.coursera.org/specializations/python-3-programming
你將學(xué)習(xí)編程基礎(chǔ),如變量、條件、循環(huán);并逐步接觸一些中間素材,如關(guān)鍵字變量、列表理解、lambda表達(dá)式和類繼承。
借助Python應(yīng)用數(shù)據(jù)科學(xué),先學(xué)習(xí)后理解
在充分理解機(jī)器學(xué)習(xí)之前,我們需要先體驗(yàn)一番。
這門《借助Python應(yīng)用數(shù)據(jù)科學(xué)》(Applied Data Science with Python)介紹了許多你應(yīng)當(dāng)了解的現(xiàn)代機(jī)器學(xué)習(xí)方法。無需理解太多,你就可以獲得構(gòu)建自己模型的工具。
課程鏈接:https://www.coursera.org/specializations/data-science-python
這門進(jìn)階的專業(yè)課程是面向具有相關(guān)基礎(chǔ)的學(xué)習(xí)者。學(xué)習(xí)者需要具有基本的python或其他語言編程背景,希望通過使用流行的python工具包(如:pandas、matplotlib、scikit-learn、nltk和networkx),應(yīng)用統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、信息可視化、文本分析和社交網(wǎng)絡(luò)分析技術(shù),從而對他們手頭的數(shù)據(jù)能夠有所了解。
機(jī)器學(xué)習(xí)理論與基礎(chǔ)
學(xué)完上述課程,你就已經(jīng)入門了。
恭喜!你學(xué)到了不少東西,也知道了如何去實(shí)現(xiàn)。
但是,你還不完全理解隱含在這些模型背后的數(shù)學(xué)原理。
你需要理解clf.fit背后的東西。是時候面對現(xiàn)實(shí)了。除非你了解模型背后的數(shù)學(xué)原理,否則沒人會拿你當(dāng)回事。
你不理解它,你就不可能改進(jìn)它。
因此,我想你重磅推薦吳恩達(dá)老師的《機(jī)器學(xué)習(xí)》。它包含了許多機(jī)器學(xué)習(xí)算法背后的數(shù)學(xué)原理。
課程鏈接:https://www.coursera.org/learn/machine-learning
我認(rèn)為這門課是你的“必修課程”,因?yàn)槭沁@門課激勵我進(jìn)入這個領(lǐng)域,而且吳恩達(dá)老師(Andrew Ng)是一位偉大的老師。另外,這也是我剛轉(zhuǎn)入數(shù)據(jù)科學(xué)領(lǐng)域自學(xué)的第一門課。
這門課程什么都有:回歸,分類,異常檢測,推薦系統(tǒng),神經(jīng)網(wǎng)絡(luò)等等,還有很多很棒的建議。
學(xué)習(xí)統(tǒng)計(jì)推斷
“事實(shí)是不變的,統(tǒng)計(jì)數(shù)據(jù)則是易變的。”——馬克.吐溫
《推斷統(tǒng)計(jì)導(dǎo)論》(Inferential Statistics Intro)由Mine Çetinkaya-Rundel教授,沒有比她這門課更簡要的了。
課程鏈接:https://www.coursera.org/learn/inferential-statistics-intro
她是一位好老師,清晰簡潔地講解了統(tǒng)計(jì)推斷的基礎(chǔ)內(nèi)容。當(dāng)然了,這也是一門必修課程。
你將會學(xué)到假設(shè)檢驗(yàn)、置信區(qū)間、以及數(shù)值數(shù)據(jù)和分類數(shù)據(jù)的統(tǒng)計(jì)推斷方法。
學(xué)習(xí)數(shù)據(jù)科學(xué)的SQL基礎(chǔ)知識
SQL是所有數(shù)據(jù)ETL流程的核心。
雖然我們覺得創(chuàng)建模型和提出不同的假設(shè)更有成就感,但也不可輕視數(shù)據(jù)轉(zhuǎn)換的作用。
而且,由于SQL在數(shù)據(jù)ETL流程和準(zhǔn)備任務(wù)中無處不在,因此每個人都應(yīng)該了解一點(diǎn)SQL,至少是有用的。
SQL也已成為使用Apache Spark等大數(shù)據(jù)工具的實(shí)際標(biāo)準(zhǔn)。加州大學(xué)戴維斯分校(UC Davis)的《SQL specialization》課程會講解有關(guān)SQL的基礎(chǔ)知識以及如何使用SQL進(jìn)行分布式計(jì)算。
課程鏈接:https://www.coursera.org/specializations/learn-sql-basics-data-science
課程簡介:通過具有數(shù)據(jù)科學(xué)應(yīng)用程序的四個難度遞增的SQL項(xiàng)目,你將學(xué)習(xí)諸如SQL基礎(chǔ)知識,數(shù)據(jù)整理,SQL分析,AB測試,使用Apache Spark進(jìn)行分布式計(jì)算等主題。
高級機(jī)器學(xué)習(xí)
在更大的舞臺上,填鴨式教育一無所用。
你可能不同意這一點(diǎn),但到目前為止,我們所做的一切都是填鴨式學(xué)習(xí)。數(shù)據(jù)是結(jié)構(gòu)化的,數(shù)學(xué)原理是簡單的。但之前的努力并沒有白費(fèi),它為我們的下一步發(fā)展奠定了基礎(chǔ)。由Kaggle機(jī)器學(xué)習(xí)的頂尖高手和歐洲核子研究組織(法語為Conseil Européenn pour la Recherche Nucléaire,通常簡稱為CERN)的科學(xué)家們共同開發(fā)的《高級機(jī)器學(xué)習(xí) 專項(xiàng)課程》(Advanced Machine Learning specialization),采用另一種學(xué)習(xí)方法,幫助你學(xué)習(xí)許多難懂的概念并了解機(jī)器學(xué)習(xí)的前世今生。
課程鏈接:https://www.coursera.org/specializations/aml
課程簡介:該專項(xiàng)課程介紹了深度學(xué)習(xí),強(qiáng)化學(xué)習(xí),自然語言理解,計(jì)算機(jī)視覺和貝葉斯方法。Kaggle機(jī)器學(xué)習(xí)的頂尖高手和CERN的科學(xué)家們將分享他們在解決現(xiàn)實(shí)問題中所獲得的寶貴經(jīng)驗(yàn),從而更好地幫助你從理論過渡到現(xiàn)實(shí)。
深度學(xué)習(xí)
深度學(xué)習(xí)是大勢所趨。
吳恩達(dá)老師帶著新課《深度學(xué)習(xí) 專項(xiàng)課程》(Deep Learning Specialization)回來了,干貨滿滿,待君細(xì)品。
課程鏈接:https://www.coursera.org/specializations/deep-learning
吳恩達(dá)老師擅長化繁為簡,能夠以簡潔易懂的方式來解釋晦澀復(fù)雜的概念。他的方法不同于網(wǎng)上的其他教程,對于理解基礎(chǔ)概念大有裨益,因此我希望它能夠逐漸流行開來。
課程簡介:你將學(xué)習(xí)深度學(xué)習(xí)的基礎(chǔ)知識,了解如何構(gòu)建神經(jīng)網(wǎng)絡(luò),學(xué)習(xí)如何領(lǐng)導(dǎo)成功的機(jī)器學(xué)習(xí)項(xiàng)目。你還會學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、長短期記憶網(wǎng)絡(luò)(LSTM)、Adam優(yōu)化算法、Dropout原理、批規(guī)范化(BN)、Xavier/He初始化等。你將要研究的案例包括醫(yī)療保健,自動駕駛,手語閱讀,音樂生成,和自然語言處理等領(lǐng)域。
Pytorch,讓Python火力全開!
我通常從不提倡學(xué)習(xí)一種工具,但是,Pytorch真香!了解Pytorch,就意味著你可以閱讀許多當(dāng)今論文中的代碼部分,你說它香不香?對于深度學(xué)習(xí)的研究人員來說,Pytorch已經(jīng)成為默認(rèn)的編程語言,更何況它還是開源免費(fèi)的呢。
你可以通過《利用Pytorch構(gòu)建深度神經(jīng)網(wǎng)絡(luò)》(Deep Neural Networks with Pytorch) 這門課程系統(tǒng)地學(xué)習(xí)Pytorch。
課程鏈接:https://www.coursera.org/learn/deep-neural-networks-with-pytorch
課程簡介:該課程將從Pytorch的張量和自動微分包講起。其次,每個部分將涵蓋不同的模型,這些模型依賴于諸如線性回歸、邏輯回歸或softmax回歸等基礎(chǔ)知識。然后是前饋深度神經(jīng)網(wǎng)絡(luò),包含不同的激活函數(shù),歸一化和dropout層。接著將介紹卷積神經(jīng)網(wǎng)絡(luò)和遷移學(xué)習(xí)。最后,還將介紹其他幾種深度學(xué)習(xí)方法。
AWS機(jī)器學(xué)習(xí)入門
構(gòu)建出色的機(jī)器學(xué)習(xí)系統(tǒng)時需要考慮很多因素。但是通常而言,作為數(shù)據(jù)科學(xué)家,我們只需擔(dān)心項(xiàng)目的特定部分即可。
但是,我們是否曾經(jīng)考慮過擁有模型后將如何部署模型?
我見過很多機(jī)器學(xué)習(xí)項(xiàng)目,但其中許多注定要失敗,因?yàn)樗鼈儚囊婚_始就沒有一個固定的生產(chǎn)計(jì)劃。
擁有一個良好的平臺并了解該平臺如何部署機(jī)器學(xué)習(xí)應(yīng)用程序,將對現(xiàn)實(shí)生產(chǎn)大有幫助。 這門《AWS機(jī)器學(xué)習(xí)入門》(Getting Started with AWS Machine Learning)課程就可以幫你實(shí)現(xiàn)這個想法。
課程鏈接:https://www.coursera.org/learn/aws-machine-learning
本課程將教會你:如何使用帶有內(nèi)置算法和Jupyter Notebook實(shí)例的Amazon SageMaker構(gòu)建、訓(xùn)練和部署模型。
如何使用Amazon AI服務(wù)(如Amazon Comprehend,Amazon Rekognition,Amazon Translate等)構(gòu)建智能應(yīng)用程序。
數(shù)據(jù)結(jié)構(gòu)和算法
算法。沒錯,你需要它們。
算法和數(shù)據(jù)結(jié)構(gòu)是數(shù)據(jù)科學(xué)不可或缺的一部分。盡管我們大多數(shù)數(shù)據(jù)科學(xué)家在學(xué)習(xí)時都沒有學(xué)習(xí)正確的算法課程,但它們是必不可少的。
許多公司在聘用數(shù)據(jù)科學(xué)家的面試過程中都會詢問數(shù)據(jù)結(jié)構(gòu)和算法。
數(shù)據(jù)結(jié)構(gòu)與算法需要你付出相當(dāng)多的時間與精力進(jìn)行研究,因此切不可輕視,這畢竟是程序員的內(nèi)功!
我發(fā)現(xiàn)學(xué)習(xí)算法的最佳資源之一是加州大學(xué)圣地亞哥分校的《數(shù)據(jù)結(jié)構(gòu)與算法 專項(xiàng)課程》
課程鏈接:https://www.coursera.org/specializations/data-structures-algorithms
課程簡介:你將學(xué)習(xí)解決各種計(jì)算問題的算法技術(shù),并將以你選擇的編程語言實(shí)現(xiàn)大約100種算法編碼問題。沒有其他任何一門在線算法課程可以為你提供如此豐富的編程實(shí)踐,這些東西你可能會在下次面試中遇到。
學(xué)無止境
希望這些資源可以幫助大家在數(shù)據(jù)科學(xué)這條路上走得更遠(yuǎn)!如果有推薦資源,也歡迎在評論區(qū)分享哦。
相關(guān)報(bào)道:
https://towardsdatascience.com/top-10-resources-to-become-a-data-scientist-in-2020-99a315194701
【本文是51CTO專欄機(jī)構(gòu)大數(shù)據(jù)文摘的原創(chuàng)譯文,微信公眾號“大數(shù)據(jù)文摘( id: BigDataDigest)”】