大數(shù)據(jù)入門學(xué)習(xí)必讀好書推薦,請(qǐng)收藏!
身處于一個(gè)大數(shù)據(jù)時(shí)代,大數(shù)據(jù)無疑是近期最時(shí)髦的詞匯了。
不管是云計(jì)算、社交網(wǎng)絡(luò),還是物聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)和智慧城市,都要與大數(shù)據(jù)搭上聯(lián)系。
隨著云計(jì)算、移動(dòng)互聯(lián)網(wǎng)和物聯(lián)網(wǎng)等新一代信息技術(shù)的創(chuàng)新和應(yīng)用普及。學(xué)習(xí)大數(shù)據(jù),除了網(wǎng)課,一些經(jīng)典的技術(shù)書籍是非常實(shí)用且有幫助的。
為了跟上技術(shù)更迭的節(jié)奏,不落人后,合適的方式是繼續(xù)刷新自己的知識(shí),同時(shí)保持上手的經(jīng)驗(yàn)。在這行業(yè)中要取得成功,需要豐富的項(xiàng)目經(jīng)驗(yàn)和技能組合。盡管網(wǎng)上有大量的資源,我們?nèi)砸獙iT推薦一些好的實(shí)體書籍。
大數(shù)據(jù)書單
《Machine Learning Yearning》
by 吳恩達(dá)
由現(xiàn)代數(shù)據(jù),大數(shù)據(jù)和數(shù)據(jù)科學(xué)開發(fā)并生產(chǎn)出的機(jī)器學(xué)習(xí)系統(tǒng)已經(jīng)不是什么秘密。雖然它們不一定是同義詞,但卻是互相關(guān)聯(lián)的,因此如果你在數(shù)據(jù)行業(yè)工作,那么提高對(duì)機(jī)器學(xué)習(xí)的理解和認(rèn)識(shí)是個(gè)不錯(cuò)的想法。
《數(shù)據(jù)之巔》
by涂子沛
這本書中,從小數(shù)據(jù)時(shí)代到大數(shù)據(jù)的崛起,作者以宏大的歷史觀、文化觀、大數(shù)據(jù)觀,給我們描繪了一幅數(shù)據(jù)科學(xué)、智慧文化的全景圖。
《為數(shù)據(jù)而生》
by周濤
書中分別闡述在大數(shù)據(jù)1.0、大數(shù)據(jù)2.0和大數(shù)據(jù)3.0時(shí)代下,相對(duì)應(yīng)的數(shù)據(jù)分析需要做到分析、外化、集成。作者提供了一套基本的大數(shù)據(jù)分析框架:確定問題和指標(biāo), 清洗數(shù)據(jù), 特征提取和選擇, 模型訓(xùn)練, 模型融合。
《智能時(shí)代》
by吳軍
回顧了科學(xué)研究發(fā)展的四個(gè)范式,用實(shí)例證明了數(shù)據(jù)在科學(xué)發(fā)現(xiàn)中的位置。這本書作者分七章從不同角度對(duì)大數(shù)據(jù)進(jìn)行介紹,分別以技術(shù)和思維方式的改變?yōu)橹骶€,從工業(yè)革命這個(gè)角度嵌入,順理成章的延伸出大數(shù)據(jù)與智能化,但是沒有將過多筆墨放在技術(shù)的深究上,而是選擇從應(yīng)用層面體現(xiàn)大數(shù)據(jù)的理念。大數(shù)據(jù)應(yīng)用則會(huì)滲透到各行各業(yè),這正是作者的用心之處。
這本書作者分七章從不同角度對(duì)大數(shù)據(jù)進(jìn)行介紹,分別以技術(shù)和思維方式的改變?yōu)橹骶€,從工業(yè)革命這個(gè)角度嵌入,順理成章的延伸出大數(shù)據(jù)與智能化,但是沒有將過多筆墨放在技術(shù)的深究上,而是選擇從應(yīng)用層面體現(xiàn)大數(shù)據(jù)的理念。大數(shù)據(jù)應(yīng)用則會(huì)滲透到各行各業(yè),這正是作者的用心之處。
《Hadoop:權(quán)威指南》
by Tom White
Apache Hadoop是用于處理和管理大量數(shù)據(jù)的主要框架。任何從事編程或數(shù)據(jù)科學(xué)工作的人都有必要熟悉這個(gè)平臺(tái)。事實(shí)上,這是開發(fā)可擴(kuò)展系統(tǒng)最有效的方法之一。身為Hadoop顧問和Apache軟件基金會(huì)成員的Tom White寫了這本標(biāo)準(zhǔn)指南,其中包羅作者的個(gè)人見解和一些有用的資源。更重要的是,它將引導(dǎo)你完成Hadoop的設(shè)置并且過一遍整體流程。
Apache Spark是你可能需要花時(shí)間學(xué)習(xí)的另一個(gè)重要平臺(tái)。
《預(yù)測(cè)分析》
by Eric Siegel
本書詳細(xì)解釋了如何獲取多種形式的數(shù)據(jù)和信息,并將其轉(zhuǎn)化為可實(shí)施的預(yù)測(cè)或見解的方法。本書的核心目的是幫助專業(yè)的人員更好地了解他們的受眾。你將學(xué)會(huì)如何識(shí)別他們購買的產(chǎn)品和服務(wù),訪問的地點(diǎn),與他們產(chǎn)生共鳴的內(nèi)容等等。
眾所周知,數(shù)據(jù)科學(xué)家的工作是查看未經(jīng)過濾的原始數(shù)據(jù),并發(fā)現(xiàn)可用的趨勢(shì)和模式。本書不僅可以幫助你做到這一點(diǎn),而且還提出必要的預(yù)測(cè)算法來改進(jìn)未來的操作和流程。本書可以算是預(yù)測(cè)分析的圣經(jīng)。
《大拐點(diǎn)》
by Scott Stawski
本書對(duì)于了解當(dāng)前數(shù)據(jù)分析和云計(jì)算行業(yè)的發(fā)展勢(shì)頭十分有幫助。特別值得注意的是,Stawski主要關(guān)注原始數(shù)據(jù)存儲(chǔ)和挖掘系統(tǒng)、如何部署以及在現(xiàn)實(shí)世界中的使用情況。
它不僅是一個(gè)理論指南,還揭示了實(shí)際的工作系統(tǒng),并且提到如何把相應(yīng)模式套用到你的企業(yè)或公司。更重要的一點(diǎn)是,你可以從本書中清楚了解如何在組織內(nèi)部署這些工具和平臺(tái)。
《統(tǒng)計(jì)學(xué)習(xí)導(dǎo)論·基于R應(yīng)用》
by Gareth James等人
統(tǒng)計(jì)學(xué)習(xí)和相關(guān)的方法是數(shù)據(jù)科學(xué)工作所必需的概念。這本教科書旨在幫助每個(gè)人——從本科到博士,了解這些統(tǒng)計(jì)概念。
當(dāng)然,它也提供了一些很好的R-lab與練習(xí),其中有詳細(xì)的解釋和攻略。你可以在學(xué)習(xí)階段直接用它來練習(xí)數(shù)據(jù)科學(xué)。他還能在你的日常應(yīng)用中作為工具書反復(fù)查閱。
《R語言預(yù)測(cè)實(shí)戰(zhàn)》
by游皓麟
R語言橫跨了金融、生物、醫(yī)學(xué)、互聯(lián)網(wǎng)等多個(gè)領(lǐng)域,主要用于統(tǒng)計(jì)、建模及可視化。由于上手快、效率高,備受技術(shù)人員青睞。預(yù)測(cè)是大數(shù)據(jù)挖掘的主要作用之一,借助R語言來做大數(shù)據(jù)預(yù)測(cè),可以兼具效率與價(jià)值于一身。
市面上為數(shù)不多的系統(tǒng)講解R語言預(yù)測(cè)專題的書籍,可以get到做R語言預(yù)測(cè)時(shí)的基本步驟和方法思路,還有更多技術(shù)細(xì)節(jié)
《商業(yè)中的數(shù)據(jù)分析》
by Foster Provost, Tom Fawcett
本書由著名數(shù)據(jù)科學(xué)專家Foster Provost和Tom Fawcett撰寫,介紹了數(shù)據(jù)科學(xué)的基本原理,讓你從收集的數(shù)據(jù)中提取有用的知識(shí)和業(yè)務(wù)價(jià)值所需的“數(shù)據(jù)分析思維”,并可幫助你了解當(dāng)今使用的許多數(shù)據(jù)挖掘技術(shù)。
這本書有趣的地方,是會(huì)特別標(biāo)記出較困難的技術(shù)部分,并深入淺出的介紹數(shù)據(jù)挖掘中的重要的幾個(gè)概念:分類,聚類和回歸。更重要的是書中包含了這些概念在商務(wù)上的的直接應(yīng)用。
《數(shù)據(jù)科學(xué)實(shí)戰(zhàn)》
by Cathy O'Neil, Rachel Schutt
這本以哥倫比亞大學(xué)的數(shù)據(jù)科學(xué)入門課為基礎(chǔ),包含了Google,Microsoft和eBay等公司的數(shù)據(jù)科學(xué)家的經(jīng)驗(yàn),通過介紹案例研究和他們使用的代碼的經(jīng)歷,分享了新的算法,方法和模型。
如果你熟悉線性代數(shù),概率和統(tǒng)計(jì),并具有編程經(jīng)驗(yàn),本書是你對(duì)數(shù)據(jù)科學(xué)的理想介紹。主題包括:統(tǒng)計(jì)推斷、探索性數(shù)據(jù)分析和數(shù)據(jù)科學(xué)過程算法、垃圾郵件過濾器、樸素貝葉斯和數(shù)據(jù)處理邏輯回歸、財(cái)務(wù)建模、推薦引擎和因果關(guān)系數(shù)據(jù)可視化、社交網(wǎng)絡(luò)和數(shù)據(jù)新聞、數(shù)據(jù)工程、MapReduce。
《Show Me the Numbers》
by Stephen Few
在BI產(chǎn)業(yè)有30多年的經(jīng)驗(yàn)之后,Stephen Few并不針對(duì)哪一種可視化工具進(jìn)行鉆研,而是從更高層次的去討論,什么圖形該怎么使用,來傳達(dá)什么樣的訊息是最有效的,以及數(shù)據(jù)分析產(chǎn)業(yè)的發(fā)展與趨勢(shì)。
這本書中,他介紹了可視化的起源和背后的應(yīng)用,為讀者提供實(shí)際的設(shè)計(jì)指導(dǎo),針對(duì)不同數(shù)據(jù)使用者的不同使用場(chǎng)景給出建議,在一些現(xiàn)在流行卻有潛在問題的可視化設(shè)計(jì)上做出改進(jìn)。
《精益數(shù)據(jù)分析》
by Alistair Croll / Benjamin Yoskovitz
本書延續(xù)了新創(chuàng)企業(yè)文化中MVP(Most Valuable Product)概念和商業(yè)畫布架構(gòu),展示了如何利用數(shù)據(jù)的方式,分析六個(gè)產(chǎn)業(yè)中(電子商務(wù)、SaaS、免費(fèi)移動(dòng)應(yīng)用、媒體網(wǎng)站、用戶生成內(nèi)容與雙邊市場(chǎng))的數(shù)據(jù),驗(yàn)證創(chuàng)業(yè)者自己的設(shè)想、找到真正的客戶、打造能賺錢的產(chǎn)品,以及提升企業(yè)知名度。
有趣的地方是,就算新創(chuàng)企業(yè)的數(shù)據(jù)沒有成熟企業(yè)來的多,作者認(rèn)為每種不同的產(chǎn)業(yè)仍有必須關(guān)注的指標(biāo)數(shù)字。根據(jù)這些數(shù)字新創(chuàng)公司可以更有效的管理和拓展生意。