學(xué)好機(jī)器學(xué)習(xí)和大數(shù)據(jù)必備的6本好書(shū)!
機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)是復(fù)雜而相互關(guān)聯(lián)的概念。要想讓自己在技術(shù)緊跟趨勢(shì),你必須消耗大量的時(shí)間進(jìn)行知識(shí)的更新。
日復(fù)一日的重復(fù)勞動(dòng)不等于學(xué)習(xí),這樣仍有可能掉隊(duì)。
所以一方面我們需要學(xué)習(xí)新知識(shí),一方面保持實(shí)操經(jīng)驗(yàn)。這樣的技能組合,才能幫助你在行業(yè)中取得成功。
盡管互聯(lián)網(wǎng)上存在大量的學(xué)習(xí)資源,但對(duì)于信息的選擇并不是一件容易的事情,所以,選擇幾本優(yōu)秀的書(shū)籍尤為重要。
這里我們精選出六本好書(shū),助你學(xué)好機(jī)器學(xué)習(xí)和大數(shù)據(jù)科學(xué)!
1. Machine Learning Yearning 認(rèn)識(shí)機(jī)器學(xué)習(xí),吳恩達(dá)著

現(xiàn)代數(shù)據(jù)技術(shù),大數(shù)據(jù)和數(shù)據(jù)科學(xué)過(guò)程開(kāi)發(fā)和生產(chǎn)精確的機(jī)器學(xué)習(xí)系統(tǒng)不是什么新東西了。雖然它們不是同義詞,但是它們之間息息相關(guān),因此,如果你在數(shù)據(jù)行業(yè)工作,那么提高對(duì)機(jī)器學(xué)習(xí)的理解和認(rèn)識(shí)很有必要。
你可以從這本優(yōu)秀的書(shū)籍中學(xué)到一些見(jiàn)解,例如應(yīng)該多長(zhǎng)時(shí)間收集一次培訓(xùn)數(shù)據(jù),如何使用端口到端口的深度學(xué)習(xí)以及如何利用你正在創(chuàng)建的系統(tǒng)來(lái)共享數(shù)據(jù)和統(tǒng)計(jì)信息。
2. Hadoop: The Definitive Guide 權(quán)威指南,Tom White著

Apache Hadoop 是用于處理和管理大量數(shù)據(jù)的主要框架。任何從事編程或數(shù)據(jù)科學(xué)工作的人都熟悉這個(gè)平臺(tái),因?yàn)樗情_(kāi)發(fā)可擴(kuò)展系統(tǒng)最有效的方法之一。
恰好專家 Hadoop 顧問(wèn)和 Apache 軟件基金會(huì)成員 Tom White 寫(xiě)了一本明確的指南,里面包含了許多獨(dú)到的見(jiàn)解和有用的資源。大數(shù)據(jù)學(xué)習(xí)扣qun: 74零零加4yi3八一更重要的是,它將引導(dǎo)你完成使用Hadoop 集群的整個(gè)過(guò)程和設(shè)置。
另外,Apache Spark 也是你可以花點(diǎn)時(shí)間學(xué)習(xí)的另一個(gè)重要平臺(tái)。
3. Predictive Analytics 分析預(yù)測(cè),Eric Siegel著

本書(shū)詳細(xì)解釋了如何獲取大多數(shù)形式的數(shù)據(jù)和信息,并將其轉(zhuǎn)化為可操作的預(yù)測(cè)或見(jiàn)解。關(guān)鍵是要幫助專業(yè)的人員更好地了解他們的客戶。你將學(xué)習(xí)如何識(shí)別他們購(gòu)買(mǎi)的產(chǎn)品和服務(wù),他們?cè)L問(wèn)的地點(diǎn),與他們共鳴的內(nèi)容等等。
數(shù)據(jù)科學(xué)家的工作是用未經(jīng)過(guò)濾的原始數(shù)據(jù)來(lái)確定可用的趨勢(shì)和模式。本書(shū)不僅可以幫助你做到這一點(diǎn),而且還可以提出必要的預(yù)測(cè)算法來(lái)改進(jìn)未來(lái)的操作和流程,可以說(shuō)是預(yù)測(cè)分析的圣經(jīng)。
4. Storytelling With Data 用數(shù)據(jù)講故事,KoleNussbaumer Knaflic著

這是一本權(quán)威的可視化指南,可以讓你了解應(yīng)該如何處理你收集的所有有用的數(shù)據(jù)。許多見(jiàn)解適用于常用技術(shù),對(duì)于業(yè)界人士很有幫助。是業(yè)內(nèi)任何人都必備的重要閱讀物,甚至行業(yè)外人士也合適一讀。
簡(jiǎn)而言之,本書(shū)涉及大量數(shù)據(jù)的組織和提取。這意味著過(guò)濾掉大量不明確的數(shù)據(jù),改進(jìn)數(shù)據(jù)收集流程,并提出相關(guān)的和實(shí)際的數(shù)據(jù)可視化。
5. Inflection Point 拐點(diǎn),Scott Stawski著

本書(shū)副標(biāo)題為 “How the Convergence of Cloud, Mobility, Apps and Data Will Shape the Future of Business(云、移動(dòng)性、應(yīng)用程序和數(shù)據(jù)的融合如何影響行業(yè)的未來(lái))”,這本書(shū)對(duì)于了解當(dāng)前數(shù)據(jù)分析和云計(jì)算行業(yè)的發(fā)展勢(shì)頭十分必要。
特別值得注意的是,Stawski直接關(guān)注原始數(shù)據(jù)的存儲(chǔ)、挖掘系統(tǒng)、如何部署以及如何進(jìn)行實(shí)際應(yīng)用。
它不僅僅是一個(gè)理論指南,還揭示了實(shí)際的工作系統(tǒng),并描述了如何使它們適應(yīng)你的企業(yè)。
最重要的一點(diǎn)是,你能夠從本書(shū)中清楚了解如何在企業(yè)中部署這些工具和平臺(tái)。
6. An Introduction to Statistical Learning With Applications in R 基于R語(yǔ)言的統(tǒng)計(jì)學(xué)習(xí)導(dǎo)論,Gareth James等著

統(tǒng)計(jì)學(xué)習(xí)和相關(guān)的方法是數(shù)據(jù)科學(xué)工作所必需的。這本教科書(shū)能夠幫助從本科生到博士生了解這些概念。
另外,它也提供了很好的R語(yǔ)言算法,有詳細(xì)的解釋和演練。這樣做的原因是,你可以在練習(xí)數(shù)據(jù)科學(xué)的時(shí)候把它作為一個(gè)直接的資源,特別是在學(xué)習(xí)階段。
這是一本好書(shū),值得定期回顧,這些概念和信息對(duì)于日常應(yīng)用也是實(shí)用的。