自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

深度:Hadoop對Spark五大維度正面比拼報告！

作者：佚名 2018-06-04 11:28:49

大數(shù)據(jù) Hadoop Spark

為了增加混淆，Spark和Hadoop經(jīng)常與位于HDFS，Hadoop文件系統(tǒng)中的Spark處理數(shù)據(jù)一起工作。但是，它們都是獨立個體，每一個體都有自己的優(yōu)點和缺點以及特定的商業(yè)案例。本文將從以下幾個角度對Spark和Hadoop進(jìn)行對比：體系結(jié)構(gòu)，性能，成本，安全性和機(jī)器學(xué)習(xí)。

每年，市場上都會出現(xiàn)種種不同的數(shù)據(jù)管理規(guī)模、類型與速度表現(xiàn)的分布式系統(tǒng)。在這些系統(tǒng)中，Spark和hadoop是獲得***關(guān)注的兩個。然而該怎么判斷哪一款適合你?

如果想批處理流量數(shù)據(jù)，并將其導(dǎo)入HDFS或使用Spark Streaming是否合理?如果想要進(jìn)行機(jī)器學(xué)習(xí)和預(yù)測建模，Mahout或MLLib會更好地滿足您的需求嗎?

為了增加混淆，Spark和Hadoop經(jīng)常與位于HDFS，Hadoop文件系統(tǒng)中的Spark處理數(shù)據(jù)一起工作。但是，它們都是獨立個體，每一個體都有自己的優(yōu)點和缺點以及特定的商業(yè)案例。

本文將從以下幾個角度對Spark和Hadoop進(jìn)行對比：體系結(jié)構(gòu)，性能，成本，安全性和機(jī)器學(xué)習(xí)。

什么是Hadoop?

Hadoop在2006年開始成為雅虎項目，隨后成為***的Apache開源項目。它是一種通用的分布式處理形式，具有多個組件：

HDFS(分布式文件系統(tǒng))，它將文件以Hadoop本機(jī)格式存儲，并在集群中并行化;

YARN，協(xié)調(diào)應(yīng)用程序運(yùn)行時的調(diào)度程序;

MapReduce，實際并行處理數(shù)據(jù)的算法。

Hadoop使用Java搭建，可通過多種編程語言訪問，用于通過Thrift客戶端編寫MapReduce代碼(包括Python)。

除了這些基本組件外，Hadoop還包括：

Sqoop，它將關(guān)系數(shù)據(jù)移入HDFS;
Hive，一種類似SQL的接口，允許用戶在HDFS上運(yùn)行查詢;
Mahout，機(jī)器學(xué)習(xí)。

除了將HDFS用于文件存儲之外，Hadoop現(xiàn)在還可以配置為使用S3存儲桶或Azure blob作為輸入。

它可以通過Apache發(fā)行版開源，也可以通過Cloudera(規(guī)模和范圍***的Hadoop供應(yīng)商)，MapR或HortonWorks等廠商提供。

什么是Spark?

Spark是一個較新的項目，最初于2012年在加州大學(xué)伯克利分校的AMPLab開發(fā)。它也是一個***Apache項目，專注于在群集中并行處理數(shù)據(jù)，但***的區(qū)別在于它在內(nèi)存中運(yùn)行。

鑒于Hadoop讀取和寫入文件到HDFS，Spark使用稱為RDD，彈性分布式數(shù)據(jù)集的概念處理RAM中的數(shù)據(jù)。 Spark可以以獨立模式運(yùn)行，Hadoop集群可用作數(shù)據(jù)源，也可以與Mesos一起運(yùn)行。在后一種情況下，Mesos主站將取代Spark主站或YARN以進(jìn)行調(diào)度。

Spark是圍繞Spark Core搭建的，Spark Core是驅(qū)動調(diào)度，優(yōu)化和RDD抽象的引擎，并將Spark連接到正確的文件系統(tǒng)(HDFS，S3，RDBM或Elasticsearch)。有幾個庫在Spark Core上運(yùn)行，包括Spark SQL，它允許在分布式數(shù)據(jù)集上運(yùn)行類似SQL的命令，用于機(jī)器學(xué)習(xí)的MLLib，用于圖形問題的GraphX以及允許連續(xù)流式傳輸?shù)牧魇絺鬏斢涗洈?shù)據(jù)。

Spark有幾個API。原始界面是用Scala編寫的，基于數(shù)據(jù)科學(xué)家的大量使用，還添加了Python和R端點。 Java是編寫Spark作業(yè)的另一種選擇。

Databricks由也Spark創(chuàng)始人Matei Zaharia創(chuàng)建的，致力于提供基于 Spark 的云服務(wù)，可用于數(shù)據(jù)集成，數(shù)據(jù)管道等任務(wù)

1. 架構(gòu)

Hadoop

首先，所有傳入HDFS的文件都被分割成塊。根據(jù)配置的塊大小和復(fù)制因子，每個塊在整個群集中被復(fù)制指定的次數(shù)。該信息被傳遞給NameNode，它跟蹤整個集群中的所有內(nèi)容。 NameNode將這些文件分配給一些數(shù)據(jù)節(jié)點，然后將這些文件寫入其中。 2012年實施高可用性，允許NameNode故障轉(zhuǎn)移到備份節(jié)點上，以跟蹤群集中的所有文件。

MapReduce算法位于HDFS之上，由JobTracker組成。一旦應(yīng)用程序以其中一種語言編寫，Hadoop接受JobTracker，然后分配工作(可包括計算單詞和清理日志文件的任何內(nèi)容)，以便在存儲在Hive倉庫中的數(shù)據(jù)之上運(yùn)行HiveQL查詢)到偵聽其他節(jié)點的TaskTracker。

YARN分配JobTracker加速并監(jiān)控它們的資源，以提高效率。然后將所有來自MapReduce階段的結(jié)果匯總并寫入HDFS中的磁盤。

Spark

除了計算在內(nèi)存中執(zhí)行并在那里存儲直到用戶積極保存它們之外，Spark處理的工作方式與Hadoop類似。最初，Spark從HDFS，S3或其他文件存儲中的文件讀取到名為SparkContext的已建立機(jī)制。除此之外，Spark創(chuàng)建了一個名為RDD或彈性分布式數(shù)據(jù)集的結(jié)構(gòu)，它表示一組可并行操作的元素的不可變集合。

隨著RDD和相關(guān)操作的創(chuàng)建，Spark還創(chuàng)建了一個DAG或有向無環(huán)圖，以便可視化DAG中的操作順序和操作之間的關(guān)系。每個DAG都有階段和步驟;通過這種方式，它與SQL中的解釋計劃類似。

您可以對RDD執(zhí)行轉(zhuǎn)換，中間步驟，操作或最終步驟。給定轉(zhuǎn)換的結(jié)果進(jìn)入DAG，但不會保留到磁盤，但操作的結(jié)果會將內(nèi)存中的所有數(shù)據(jù)保留到磁盤。

Spark中的一個新抽象是DataFrames，它是在Spark 2.0中作為RDD的配套接口開發(fā)的。這兩者非常相似，但DataFrames將數(shù)據(jù)組織成命名列，類似于Python的熊貓或R包。這使得它們比RDD更方便用戶，RDD沒有類似的一系列列級標(biāo)題引用。 SparkSQL還允許用戶像關(guān)系數(shù)據(jù)存儲中的SQL表一樣查詢DataFrame。

2. 性能

發(fā)現(xiàn)Spark在內(nèi)存中運(yùn)行速度快100倍，在磁盤上運(yùn)行速度快10倍。在十分之一的機(jī)器上，它也被用于對100 TB數(shù)據(jù)進(jìn)行排序，比Hadoop MapReduce快3倍。特別發(fā)現(xiàn)Spark在機(jī)器學(xué)習(xí)應(yīng)用中更快，例如樸素貝葉斯和k-means。

由處理速度衡量的Spark性能已經(jīng)發(fā)現(xiàn)比Hadoop更優(yōu)，原因如下：

每次運(yùn)行MapReduce任務(wù)的選定部分時，Spark都不會受到輸入輸出問題的束縛。事實證明，應(yīng)用程序的速度要快得多
Spark的DAG可以在步驟之間進(jìn)行優(yōu)化。 Hadoop在MapReduce步驟之間沒有任何周期性連接，這意味著在該級別不會發(fā)生性能調(diào)整。

但是，如果Spark與其他共享服務(wù)在YARN上運(yùn)行，則性能可能會降低并導(dǎo)致RAM開銷內(nèi)存泄漏。出于這個原因，如果用戶有批處理的用例，Hadoop被認(rèn)為是更高效的系統(tǒng)。

3. 成本

Spark和Hadoop都可以作為開源Apache項目免費(fèi)獲得，這意味著您可以以零安裝成本運(yùn)行它。但是，重要的是要考慮總體擁有成本，其中包括維護(hù)，硬件和軟件購買以及雇用了解群集管理的團(tuán)隊。內(nèi)部安裝的一般經(jīng)驗法則是Hadoop需要更多的磁盤內(nèi)存，而Spark需要更多的內(nèi)存，這意味著設(shè)置Spark集群可能會更加昂貴。此外，由于Spark是較新的系統(tǒng)，因此它的專家更為***，而且成本更高。另一種選擇是使用供應(yīng)商進(jìn)行安裝，例如Cloudera for Hadoop或Spark for DataBricks，或使用AWS在云中運(yùn)行EMR / Mapreduce流程。

由于Hadoop和Spark是串聯(lián)運(yùn)行的，即使在配置為在安裝Spark的情況下運(yùn)行的EMR實例上，也可以將提取定價比較分離出來。對于非常高級別的比較，假設(shè)您為Hadoop選擇計算優(yōu)化的EMR群集，最小實例c4.large的成本為每小時0.026美元。 Spark最小的內(nèi)存優(yōu)化集群每小時成本為0.067美元。因此，Spark每小時更昂貴，但對計算時間進(jìn)行優(yōu)化，類似的任務(wù)應(yīng)該在Spark集群上花費(fèi)更少的時間。

4. 安全性

Hadoop具有高度容錯性，因為它旨在跨多個節(jié)點復(fù)制數(shù)據(jù)。每個文件都被分割成塊，并在許多機(jī)器上復(fù)制無數(shù)次，以確保如果單臺機(jī)器停機(jī)，可以從別處的其他塊重建文件。

Spark的容錯主要是通過RDD操作來實現(xiàn)的。最初，靜態(tài)數(shù)據(jù)存儲在HDFS中，通過Hadoop的體系結(jié)構(gòu)進(jìn)行容錯。隨著RDD的建立，譜系也是如此，它記住了數(shù)據(jù)集是如何構(gòu)建的，并且由于它是不可變的，如果需要可以從頭開始重建?？鏢park分區(qū)的數(shù)據(jù)也可以基于DAG跨數(shù)據(jù)節(jié)點重建。數(shù)據(jù)在執(zhí)行器節(jié)點之間復(fù)制，如果執(zhí)行器和驅(qū)動程序之間的節(jié)點或通信失敗，通?？赡軙p壞數(shù)據(jù)。

Spark和Hadoop都可以支持Kerberos身份驗證，但Hadoop對HDFS具有更加細(xì)化的安全控制。 Apache Sentry是一個用于執(zhí)行細(xì)粒度元數(shù)據(jù)訪問的系統(tǒng)，是另一個專門用于HDFS級別安全性的項目。

Spark的安全模型目前很少，但允許通過共享密鑰進(jìn)行身份驗證。

5. 機(jī)器學(xué)習(xí)

Hadoop使用Mahout來處理數(shù)據(jù)。 Mahout包括集群，分類和基于批處理的協(xié)作過濾，所有這些都在MapReduce之上運(yùn)行。目前正在逐步推出支持Scala支持的DSL語言Samsara，允許用戶進(jìn)行內(nèi)存和代數(shù)操作，并允許用戶編寫自己的算法。

Spark有一個機(jī)器學(xué)習(xí)庫MLLib，用于內(nèi)存迭代機(jī)器學(xué)習(xí)應(yīng)用程序。它可用于Java，Scala，Python或R，包括分類和回歸，以及通過超參數(shù)調(diào)整構(gòu)建機(jī)器學(xué)習(xí)管道的能力。

總結(jié)

那么它是Hadoop還是Spark?這些系統(tǒng)是目前市場上處理數(shù)據(jù)最重要的兩個分布式系統(tǒng)。 Hadoop主要用于使用MapReduce范例的大規(guī)模磁盤操作，而Spark則是一種更靈活，但成本更高的內(nèi)存處理架構(gòu)。兩者都是Apache的***項目，經(jīng)常一起使用，并且有相似之處，但在決定使用它們時，了解每個項目的特征是非常重要的。

責(zé)任編輯：未麗燕來源：網(wǎng)絡(luò)大數(shù)據(jù)

Hadoop Spark 數(shù)據(jù)

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="4mebm"></sub>

<bdo id="4mebm"></bdo>