年薪百萬的大數(shù)據(jù)開發(fā)工程師的入門書單
你們是不是都聽過一句話:谷歌比你自己更了解你?
事實上,這句話并不是毫無根據(jù),我們周邊的一切無不體現(xiàn)數(shù)據(jù)的重要性,你想想,我們對自己的看法會受到多種主觀和客觀的因素影響,但谷歌卻沒有這些限制,而且掌握你所有的客觀數(shù)據(jù),而這些龐大的數(shù)據(jù)來源則得益于智能手機、網(wǎng)購記錄、健身追蹤器等
大數(shù)據(jù)開發(fā)工程師是當今技術(shù)行業(yè)中***的工作之一。事實上,如今這些專家供不應求,如果你打算在大數(shù)據(jù)領(lǐng)域開展職業(yè)生涯,不妨先看看這些書,在本文中,我羅列了云計算、大數(shù)據(jù)、Hadoop和Apache Spark的***書籍,希望對大家有幫助
云計算
1、《讓云落地》
本書很適合正在糾結(jié)如何選擇云服務(wù)的信息化從業(yè)人員,有意避開了那些與產(chǎn)品或供應商相關(guān)的細節(jié),側(cè)重于架構(gòu)師及架構(gòu)涉及各方應當解決的各種挑戰(zhàn),通過對具體問題的分析和案例講解,向讀者提供了大量可供參考的設(shè)計決策,并對所有云架構(gòu)中都必須應對的重點領(lǐng)域進行了強調(diào)說明。
不過,本書仍停留在理論和理念操作層面,在工程操作層面缺少模型以及度量機制,對業(yè)務(wù)選型的操作層面缺少指導性建議。
2、《云計算與分布式系統(tǒng):從并行處理到物聯(lián)網(wǎng)》
本書是一本完整講述云計算與分布式系統(tǒng)基本理論及其應用的教材。適合完全不了解云計算的人,書中從現(xiàn)代分布式模型概述開始,介紹了并行、分布式與云計算系統(tǒng)的設(shè)計原理、系統(tǒng)體系結(jié)構(gòu)和創(chuàng)新應用,并通過開源應用和商業(yè)應用例子,闡述了如何為科研、電子商務(wù)、社會網(wǎng)絡(luò)和超級計算等創(chuàng)建高性能、可擴展的、可靠的系統(tǒng)。
3、《云計算:概念、技術(shù)與架構(gòu)》
云計算的基礎(chǔ)讀物,圖文并茂,對云計算的概念解釋的很清楚,是一本很好的入門讀物。涉及云計算領(lǐng)域的各個方面,涵蓋了很多基本概念,共包含五個部分,***部分到第四部分主要涵蓋了云計算基礎(chǔ)、云計算機制、云計算架構(gòu)以及云計算使用等內(nèi)容,第五部分即附錄給出了案例研究結(jié)論。
大數(shù)據(jù)架構(gòu)
4、《大數(shù)據(jù)架構(gòu)商業(yè)之路:從業(yè)務(wù)需求到技術(shù)方案》
本書通過一個虛擬的互聯(lián)網(wǎng)O2O創(chuàng)業(yè)故事,來逐步展開介紹創(chuàng)業(yè)各個階段可能遇到的大數(shù)據(jù)課題、業(yè)務(wù)需求,以及相對應的技術(shù)方案,甚至是實踐解析;讓讀者身臨其境,一起來探尋大數(shù)據(jù)的奧秘。對于各個技術(shù)點講解很想詳細,內(nèi)容很豐富,可以對大數(shù)據(jù)的架構(gòu)和業(yè)務(wù)有一個全面的了解,適合技術(shù)管理人員和架構(gòu)師
5、《大數(shù)據(jù)之路:阿里巴巴大數(shù)據(jù)實踐》
阿里多年的技術(shù)積累的產(chǎn)出,而且由阿里技術(shù)大牛撰寫,本書分為四個部分,數(shù)據(jù)技術(shù)篇、數(shù)據(jù)模型篇、數(shù)據(jù)管理篇、數(shù)據(jù)應用篇,是阿里巴巴分享對大數(shù)據(jù)的認知,與生態(tài)伙伴共創(chuàng)數(shù)據(jù)智能的重要基石。相信能對讀者有很大的啟發(fā)
6、《大數(shù)據(jù)架構(gòu)師指南》
本書用通俗易懂的語言將一些高大上的理論知識講解的非常透徹,并且還配有具體的例子講解,旨在幫助讀者在最短的時間內(nèi),系統(tǒng)地把握大數(shù)據(jù)相關(guān)的技術(shù)框架,建立系統(tǒng)架構(gòu)級別的技術(shù)思考能力與原則。通過閱讀本書,您將可以迅速建立大數(shù)據(jù)技術(shù)架構(gòu)相關(guān)的知識與脈絡(luò)。
7、《架構(gòu)真經(jīng)》
本書給出了一系列規(guī)則,每個規(guī)則圍繞著不同的主題展開討論。大部分的規(guī)則聚焦在技術(shù)上,少數(shù)規(guī)則涉及一些關(guān)鍵的思維或流程問題,每個規(guī)則對構(gòu)建可擴展的產(chǎn)品都是至關(guān)重要的,這些規(guī)則在深度和焦點上都有所不同。
8、《企業(yè)IT架構(gòu)轉(zhuǎn)型之道》
又一本阿里巴巴出品的書,本書從阿里巴巴啟動中臺戰(zhàn)略說起,詳細闡述了共享服務(wù)理念給企業(yè)業(yè)務(wù)發(fā)展帶來的業(yè)務(wù)價值。接著會分享阿里巴巴在建設(shè)共享服務(wù)體系時如何進行技術(shù)框架的選擇,哪些重要的技術(shù)平臺支撐起了共享服務(wù)體系,這也是迄今為止對阿里巴巴集團中間件體系對外最全面系統(tǒng)的介紹。
Hadoop
9、《Hadoop權(quán)威指南》
Apache Hadoop是一個用Java語言實現(xiàn)的軟件框架,,是Google的重要基石。本書內(nèi)容豐富,展示了如何使用Hadoop構(gòu)建可靠、可伸縮的分布式系統(tǒng),程序員可從中探索如何分析海量數(shù)據(jù)集,管理員可以了解如何建立與運行Hadoop集群。.
10、《Hadoop實戰(zhàn)》
分為3個部分,深入淺出地介紹了Hadoop框架、編寫和運行Hadoop數(shù)據(jù)處理程序所需的實踐技能及Hadoop之外更大的生態(tài)系統(tǒng)。適合需要處理大量離線數(shù)據(jù)的云計算程序員、架構(gòu)師和項目經(jīng)理。
11、《Hadoop技術(shù)內(nèi)幕》
“Hadoop技術(shù)內(nèi)幕”共兩冊,分別從源代碼的角度對“Common+HDFS”和“MapReduce的架構(gòu)設(shè)計和實現(xiàn)原理”進行了極為詳細的分析。
首先介紹了MapReduce的設(shè)計理念和編程模型,然后從源代碼的角度深入分析了RPC框架、客戶端、JobTracker、TaskTracker和Task等MapReduce運行時環(huán)境的架構(gòu)設(shè)計與實現(xiàn)原理,***從實際應用的角度深入講解了Hadoop的性能優(yōu)化、安全機制、多用戶作業(yè)調(diào)度器和下一代MapReduce框架等高級主題和內(nèi)容。
Spark
12、《Spark大數(shù)據(jù)處理——技術(shù)、應用與性能優(yōu)化》
作為一個基于內(nèi)存計算的大數(shù)據(jù)并行計算框架,Spark不僅很好地解決了數(shù)據(jù)的實時處理問題,而且保證了高容錯性和高可伸縮性。本書系統(tǒng)、全面、詳細講解Spark的各項功能使用、原理機制、技術(shù)細節(jié)、應用方法、性能優(yōu)化,以及BDAS生態(tài)系統(tǒng)的相關(guān)技術(shù)。
13、《深入理解Spark核心思想與源碼分析》
本書結(jié)合大量圖和示例,對Spark的架構(gòu)、部署模式和工作模塊的設(shè)計理念、實現(xiàn)源碼與使用技巧進行了深入的剖析與解讀。前面章節(jié)總結(jié)概括基本搭建和原理架構(gòu)等,后面章節(jié)從SparkContext,BlockManager, Memstore以及上層的任務(wù)提交,RDD模式等模塊的開發(fā)和實踐進行講解,介紹的比較具體。
14、《圖解Spark:核心技術(shù)與案例實戰(zhàn)》
以Spark 2.0 版本為基礎(chǔ)進行編寫,全面介紹了Spark 核心及其生態(tài)圈組件技術(shù)。主要內(nèi)容包括Spark 生態(tài)圈、實戰(zhàn)環(huán)境搭建、編程模型和內(nèi)部重要模塊的分析,重點介紹了消息通信框架、作業(yè)調(diào)度、容錯執(zhí)行、監(jiān)控管理、存儲管理以及運行框架,同時還介紹了Spark 生態(tài)圈相關(guān)組件。
15、《Spark快速大數(shù)據(jù)分析》
本書由 Spark 開發(fā)者及核心成員共同打造,講解了網(wǎng)絡(luò)大數(shù)據(jù)時代應運而生的、能高效迅捷地分析處理數(shù)據(jù)的工具——Spark,它帶領(lǐng)讀者快速掌握用 Spark 收集、計算、簡化和保存海量數(shù)據(jù)的方法,學會交互、迭代和增量式分析,解決分區(qū)、數(shù)據(jù)本地化和自定義序列化等問題。