自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大數(shù)據(jù)處理為何選擇Spark,而不是Hadoop

大數(shù)據(jù) Hadoop Spark
Spark是一個(gè)用來實(shí)現(xiàn)快速而通用的集群計(jì)算的平臺(tái)。在速度方面,Spark擴(kuò)展了廣泛使用的MapReduce計(jì)算模型,而且高效地支持更多計(jì)算模式,包括交互式查詢和流處理。

Spark是一個(gè)用來實(shí)現(xiàn)快速而通用的集群計(jì)算的平臺(tái)。在速度方面,Spark擴(kuò)展了廣泛使用的MapReduce計(jì)算模型,而且高效地支持更多計(jì)算模式,包括交互式查詢和流處理。

一.基礎(chǔ)知識(shí)

1.Spark

Spark是一個(gè)用來實(shí)現(xiàn)快速而通用的集群計(jì)算的平臺(tái)。

在速度方面,Spark擴(kuò)展了廣泛使用的MapReduce計(jì)算模型,而且高效地支持更多計(jì)算模式,包括交互式查詢和流處理。

Spark項(xiàng)目包含多個(gè)緊密集成的組件。Spark的核心是一個(gè)對由很多計(jì)算任務(wù)組成的、運(yùn)行在多個(gè)工作機(jī)器或者是一個(gè)計(jì)算集群上的應(yīng)用進(jìn)行調(diào)度、分發(fā)以及監(jiān)控的計(jì)算引擎。

 

\
Spark的各個(gè)組件

2.Hadoop

Hadoop是一個(gè)由Apache基金會(huì)所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。

用戶可以在不了解分布式底層細(xì)節(jié)的情況下,開發(fā)分布式程序。充分利用集群的威力進(jìn)行高速運(yùn)算和存儲(chǔ)。

Hadoop的框架最核心的設(shè)計(jì)就是:HDFS和MapReduce。HDFS為海量的數(shù)據(jù)提供了存儲(chǔ),則MapReduce為海量的數(shù)據(jù)提供了計(jì)算。

二.大數(shù)據(jù)處理選擇

根據(jù)Spark和Hadoop的基礎(chǔ)知識(shí),我們了解Spark和Hadoop都 可以進(jìn)行大數(shù)據(jù)處理,那我們?nèi)绾芜x擇處理平臺(tái)呢?

1.處理速度和性能

Spark擴(kuò)展了廣泛使用的MapReduce計(jì)算模型,其中Spark有個(gè)Directed Acyclic Graph(DAG有向無環(huán)圖)執(zhí)行引擎,支持循環(huán)數(shù)據(jù)流和內(nèi)存計(jì)算。

Hadoop是磁盤級計(jì)算,進(jìn)行計(jì)算時(shí),都需要從磁盤讀或者寫數(shù)據(jù),同時(shí)整個(gè)計(jì)算模型需要網(wǎng)絡(luò)傳輸,導(dǎo)致MapReduce具有高延遲的致命弱點(diǎn)。

據(jù)統(tǒng)計(jì),基于Spark內(nèi)存的計(jì)算速度比Hadoop MapReduce快100倍以上,基于磁盤的計(jì)算速度也要快10倍以上。

2.開發(fā)難易度

Spark提供多語言(包括Scala、Java、Python)API,能夠快速實(shí)現(xiàn)應(yīng)用,相比MapReduce更簡潔的代碼,安裝部署也無需復(fù)雜配置。使用API可以輕松地構(gòu)建分布式應(yīng)用,同時(shí)也可以使用Scala和Python腳本進(jìn)行交互式編程。

3.兼容性

Spark提供了一個(gè)強(qiáng)大的技術(shù)棧,基于”One Stack to rule them all”的理念實(shí)現(xiàn)一體化、多元化的大數(shù)據(jù)處理平臺(tái),輕松應(yīng)對大數(shù)據(jù)處理的查詢語言Spark SQL、機(jī)器學(xué)習(xí)工具M(jìn)Llib、圖計(jì)算工具GraphX、實(shí)時(shí)流處理工具Spark Streaming無縫連接。

Hadoop的技術(shù)棧則相對獨(dú)立復(fù)雜,各個(gè)框架都是獨(dú)立的系統(tǒng),給集成帶來了很大的復(fù)雜和不確定性。

4.相互集成性

Spark可以運(yùn)行在Hadoop集群管理Yarn上,這使得Spark可以讀取Hadoop的任何數(shù)據(jù)。同時(shí)它也能讀取HDFS、HBase、Hive、Cassandra以及任何Hadoop數(shù)據(jù)源。

責(zé)任編輯:未麗燕 來源: 網(wǎng)絡(luò)大數(shù)據(jù)
相關(guān)推薦

2022-05-02 17:34:25

大數(shù)據(jù)數(shù)據(jù)分析

2021-07-20 15:37:37

數(shù)據(jù)開發(fā)大數(shù)據(jù)Spark

2015-05-05 11:18:18

大數(shù)據(jù)Hadoop技術(shù)處理

2011-09-01 15:12:43

SQL ServerHadoop

2019-07-22 10:45:31

2011-12-08 09:56:14

Hadoop

2012-05-31 14:37:10

Hadoop大數(shù)據(jù)

2017-05-05 09:53:34

Hadoop大數(shù)據(jù)處理

2015-03-30 10:48:17

大數(shù)據(jù)大數(shù)據(jù)處理Hadoop

2017-05-11 11:00:11

大數(shù)據(jù)Hadoop數(shù)據(jù)處理

2018-04-03 10:33:15

大數(shù)據(jù)

2017-09-06 17:05:54

大數(shù)據(jù)處理流程處理框架

2014-12-02 09:49:12

Spark大數(shù)據(jù)

2018-07-25 15:31:51

SparkFlink大數(shù)據(jù)

2017-05-11 17:36:50

2013-12-27 16:15:11

Hadoop大數(shù)據(jù)處理

2013-12-30 10:40:12

大數(shù)據(jù)處理大數(shù)據(jù)Hadoop

2018-12-07 14:50:35

大數(shù)據(jù)數(shù)據(jù)采集數(shù)據(jù)庫

2020-11-02 15:56:04

大數(shù)據(jù)數(shù)據(jù)庫技術(shù)

2012-07-02 13:23:12

諾基亞微軟
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號