自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Spark與Hadoop兩大技術(shù)趨勢解

大數(shù)據(jù) Hadoop Spark
說到大數(shù)據(jù)分析,16年基本被Spark與Hadoop霸屏,到底是什么樣的魔力讓它們足以引起大數(shù)據(jù)世界的波動,未來又會如何發(fā)展呢?

開源數(shù)據(jù)集如今深受開發(fā)者喜愛,比如谷歌的Images dataset數(shù)據(jù)集,YouTube-8M數(shù)據(jù)集等。通過對數(shù)據(jù)集里的數(shù)據(jù)進行分析,可以發(fā)現(xiàn)許多隱藏信息,比如客戶喜好、未知相關(guān)性,市場趨勢以及其他有用的商業(yè)信息。大數(shù)據(jù)分析對企業(yè)降低成本,準(zhǔn)確掌握市場趨勢,更快完成產(chǎn)品迭代十分有用。說到大數(shù)據(jù)分析,16年基本被Spark與Hadoop霸屏,到底是什么樣的魔力讓它們足以引起大數(shù)據(jù)世界的波動,未來又會如何發(fā)展呢?

Apache Spark

Apache Spark起源于加州大學(xué)伯克利分校,對于復(fù)雜分析來說是一個十分不錯的開源處理引擎。Spark提供了一個全面、統(tǒng)一的框架用于管理各種有著不同性質(zhì)(文本數(shù)據(jù)、圖表數(shù)據(jù)等)的數(shù)據(jù)集和數(shù)據(jù)源(批量數(shù)據(jù)或?qū)崟r的流數(shù)據(jù))的大數(shù)據(jù)處理的需求。每一個Spark應(yīng)用程序,都由一個驅(qū)動程序組成,運行用戶的main函數(shù),并且在一個集群上執(zhí)行各種并行操作。

Spark提供的主要的抽象概念是具備容錯能力的彈性分布式數(shù)據(jù)集,一個覆蓋整個集群的只讀多重數(shù)據(jù)項集。彈性分布式數(shù)據(jù)集(RDD)幫助實現(xiàn)交互式算法,通過多次訪問數(shù)據(jù)集,實現(xiàn)交互式數(shù)據(jù)分析,應(yīng)用延遲可以有不同程度上的減少,機器學(xué)習(xí)系統(tǒng)訓(xùn)練算法的交互性是使用Apache Spark的初始動力。以下是對Apache Spark的分析,看看是哪些特性使Apache Spark如此火熱吧。

1、快速處理

大數(shù)據(jù)的處理速度至關(guān)重要,Apache Spark通過減少磁盤讀寫次數(shù),降低磁盤I/O,使Hadoop集群上的應(yīng)用程序操作比內(nèi)存中快一百倍,比磁盤快十倍。

2、易用,支持多種語言

Spark允許使用Java,Sacla甚至Python進行快速編寫。開發(fā)人員不僅可以使用熟悉的編程語言也可以運行這些應(yīng)用程序。Spark本身自帶了一個超過80個高階操作符集合。而且還可以用它在shell中以交互式地查詢數(shù)據(jù)。

3、支持復(fù)雜分析

除了Map和Reduce操作之外,Spark還支持SQL查詢,流數(shù)據(jù),機器學(xué)習(xí)和圖表數(shù)據(jù)處理,此外,用戶可以把所有這些功能都放在一個工作流中使用也可以單獨使用。

4、實時流式處理

Apache Spark支持實時流式處理,它可以在進行數(shù)據(jù)操作的同時使用Spark Streaming。

5、與現(xiàn)有Hadoop及其上的數(shù)據(jù)整合

Spark可以在Hadoop Yarn集群管理器上獨立操作,包括讀取Hadoop上的數(shù)據(jù)。該特性使Spark十分適用于現(xiàn)有純Hadoop應(yīng)用程序的遷移。

6、基于Hadoop的多核服務(wù)器

大部分企業(yè)逐漸從昂貴的大型機和數(shù)據(jù)倉庫平臺向基于Hadoop的多核服務(wù)器轉(zhuǎn)型。Hadoop是一個由java語言編寫而成的開源分布式系統(tǒng)基礎(chǔ)架構(gòu),其支持分布式環(huán)境中的大型數(shù)據(jù)集的存儲和處理操作。很多公司都將Hadoop作為其大數(shù)據(jù)平臺進行使用。

Hadoop

Hadoop是由Apache基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。用戶可以在不了解分布式底層細(xì)節(jié)的情況下,開發(fā)分布式程序。充分利用集群的威力進行高速運算和存儲。

[[174355]]

1、低成本的數(shù)據(jù)存儲

與一體機、商用數(shù)據(jù)倉庫以及QlikView、Yonghong Z-Suite等數(shù)據(jù)集市相比,Hadoop是開源的,項目的軟件成本因此會大大降低。

2、高效

Hadoop可以運行分析算法,因為它被設(shè)計用來處理各種形式的大數(shù)據(jù)。在Hadoop上進行數(shù)據(jù)分析可以使分析更高效,Hadoop能夠在節(jié)點之間動態(tài)地移動數(shù)據(jù),并保證各個節(jié)點的動態(tài)平衡,因此處理速度非???。

3、批量數(shù)據(jù)處理

Hadoop框架最核心的設(shè)計就是:HDFS和MapReduce。HDFS為海量的數(shù)據(jù)提供了存儲,則MapReduce為海量的數(shù)據(jù)提供了計算。HDFS是Hadoop的一大創(chuàng)舉,分布式存儲使文件存放在眾多節(jié)點上,只需要一個節(jié)點去記錄文件的元數(shù)據(jù)信息(主要是文件的位置),訪問文件時先訪問元數(shù)據(jù)節(jié)點,獲取文件所在的位置, 然后在獲取文件即可。此外,MapReduce也可以做大數(shù)據(jù)處理,即以價值為導(dǎo)向,對大數(shù)據(jù)加工、挖掘和優(yōu)化等各種處理。其思想就是“分而治之”,將大任務(wù)分成若干小任務(wù)處理。

4、與數(shù)據(jù)倉庫相輔相成

有很多數(shù)據(jù)集被從數(shù)據(jù)倉庫卸到Hadoop平臺上,或者一些新的數(shù)據(jù)會直接到Hadoop中。企業(yè)無非就是希望有一個好的平臺來存儲、處理、分析數(shù)據(jù),以支持可以被集成在不同級別的不同用例。

5、物聯(lián)網(wǎng)和Hadoop

據(jù)預(yù)測,未來20年物聯(lián)網(wǎng)對全球GDP的貢獻將會增長10到15萬億美元左右。物聯(lián)網(wǎng)的核心是流和大數(shù)據(jù)。Hadoop被用來進行多事務(wù)數(shù)據(jù)存儲,數(shù)據(jù),統(tǒng)計算法和機器學(xué)習(xí)指出基于歷史數(shù)據(jù)分析得到未來趨勢的可能性。對過去進行分析是了解未來很好的一個途徑,通過預(yù)測分析,未來的物聯(lián)網(wǎng)世界將更加純粹。

未來怎么走?

技術(shù)的變革、更新?lián)Q代,本身是好事,但很多時候,人才的培養(yǎng)跟不上技術(shù)變革的腳步。即便是最先進的學(xué)府可能都還未來得及更換教科書,這時對企業(yè)來說,新技術(shù)帶來的超高性價比就顯得毫無意義了,因為相應(yīng)的人力成本在上升。

有些人很喜歡及時更新知識儲備,認(rèn)為新技術(shù)的出現(xiàn)會取代舊技術(shù)。但各有各的好,新歡不一定敵得過舊愛,要看需求,別跟風(fēng)。不過,越是Spark、Hadoop炒得火熱,理性思考的人就越少,很多人只是浮于表面,這對技術(shù)的發(fā)展十分不利。

責(zé)任編輯:武曉燕 來源: it168網(wǎng)站
相關(guān)推薦

2015-03-27 11:23:33

2024-01-22 16:08:38

2016-01-13 14:54:50

京東京東大腦

2021-05-06 09:25:43

DDoS攻擊網(wǎng)絡(luò)攻擊網(wǎng)絡(luò)安全

2015-07-09 09:34:24

2009-11-30 16:55:10

微軟合作Novell

2010-04-14 14:22:09

網(wǎng)絡(luò)安全服務(wù)技術(shù)

2016-03-07 09:42:17

SDNNFV

2015-04-16 13:17:58

2011-07-01 10:42:51

IIS解析漏洞

2025-03-20 11:28:34

2009-04-01 20:40:55

2012-05-24 09:29:28

虛擬化ESG服務(wù)器虛擬化

2011-04-28 15:27:20

激光打印LED打印

2019-01-10 08:41:50

生物識別身份驗證指紋

2011-08-10 08:55:28

項目失敗

2010-07-15 14:25:06

Perl時間函數(shù)

2011-06-21 10:48:43

網(wǎng)絡(luò)布線布線電磁

2010-05-04 14:30:45

Oracle數(shù)據(jù)

2017-08-31 11:59:48

語音
點贊
收藏

51CTO技術(shù)棧公眾號