自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Spark 和 Hadoop 是朋友不是敵人

大數(shù)據(jù) Hadoop Spark
6月15日,IBM 宣布計(jì)劃大規(guī)模投資 Spark 相關(guān)技術(shù),此項(xiàng)聲明會(huì)促使越來越多的工程師學(xué)習(xí) Spark 技術(shù),并且大量的企業(yè)也會(huì)采用 Spark 技術(shù)。

 

6月15日,IBM 宣布計(jì)劃大規(guī)模投資 Spark 相關(guān)技術(shù),此項(xiàng)聲明會(huì)促使越來越多的工程師學(xué)習(xí) Spark 技術(shù),并且大量的企業(yè)也會(huì)采用 Spark 技術(shù)。

Spark 投資的良性循環(huán)會(huì)使 Spark 技術(shù)發(fā)展更加成熟,并且可以從整個(gè)大數(shù)據(jù)環(huán)境中獲益。然而,Spark 的快速增長(zhǎng)給人們一個(gè)奇怪且固執(zhí)的誤解:Spark 將取代 Hadoop,而不是作為 Hadoop 的補(bǔ)充。這樣的誤解可以從類似“旨在比下 Hadoop 的新軟件”和“企業(yè)將放棄大數(shù)據(jù)技術(shù) Hadoop”的標(biāo)題中看出來。

作為一個(gè)長(zhǎng)期的大數(shù)據(jù)實(shí)踐者,雅虎投資 Hadoop 的早期倡導(dǎo)者,一個(gè)為企業(yè)提供大數(shù)據(jù)服務(wù)的公司的 CEO ,我想在這篇文章中提出幾個(gè)明確的觀點(diǎn)。

Spark 和 Hadoop 會(huì)和諧相處。

越來越多的企業(yè)選擇 Hadoop 做大數(shù)據(jù)平臺(tái),而 Spark 是運(yùn)行于 Hadoop 頂層的內(nèi)存處理方案。Hadoop ***的用戶 —— 包括 eBay 和雅虎 —— 都在 Hadoop 集群中運(yùn)行著 Spark。Cloudera 和 Hortonworks 將 Spark 列為他們 Hadoop 發(fā)行的一部分。自從我們推出 Spark 之后,用戶一直在使用著 Spark。

將 Spark 置于和 Hadoop 對(duì)立的位置,就好像是說你的新電動(dòng)汽車看起來很高級(jí),所以你的車就不需要充電一樣。如果電動(dòng)汽車真的普及的話,那只會(huì)帶來更多的用電需求。

為什么這么迷惑呢?現(xiàn)在的 Hadoop 包括兩個(gè)主要的組件。***個(gè)是大規(guī)模儲(chǔ)存系統(tǒng),叫做 Hadoop Distributed File System (HDFS),它以低功耗、高性能的方式儲(chǔ)存數(shù)據(jù),并且能優(yōu)化大數(shù)據(jù)的種類和讀取速度。第二個(gè)是一個(gè)計(jì)算引擎,叫做 YARN,它能在儲(chǔ)存在 HDFS 上的數(shù)據(jù)頂層運(yùn)行大規(guī)模并行程序。

YARN 可以承載任何數(shù)量的程序框架。原始的框架是 MapReduce,它由谷歌發(fā)明,用于處理大規(guī)模頁(yè)面抓取。Spark 是另一個(gè)類似的框架,另一個(gè)新的框架叫做 Tez。當(dāng)人們談?wù)?Spark“干掉”Hadoop 時(shí),他們往往指的是程序員更喜歡將 Spark 用在老的 MapReduce 框架上。

然而,MapReduce 不等同于 Hadoop。MapReduce 只是 Hadoop 集群處理數(shù)據(jù)的多種方式之一。Spark 可以是替代品。說得更寬點(diǎn),商業(yè)分析師 —— 持續(xù)增長(zhǎng)的大數(shù)據(jù)從業(yè)者 —— 會(huì)避免使用這兩個(gè)對(duì)于程序員來說十分低端的框架。相反,他們會(huì)使用更高級(jí)的語言,例如 SQL ,來讓 Hadoop 更容易訪問。

在過去的四年中,基于 Hadoop 的大數(shù)據(jù)技術(shù)達(dá)到了***的創(chuàng)新水平。我們已經(jīng)從 SQL 批處理轉(zhuǎn)向互動(dòng):從單一框架(MapReduce)轉(zhuǎn)到多框架(MapReduce、Spark 等等)。

我們已經(jīng)看到了 HDFS 優(yōu)異的性能和安全性的改善,并且我們還看到了頂層工具的井噴 , 例如 Datameer、H20Tableau。大量不同領(lǐng)域的數(shù)據(jù)科學(xué)家和商業(yè)用戶使這些大數(shù)據(jù)工具變得更為易用。

Spark 對(duì)于 Hadoop 來說不是挑戰(zhàn),也不是來取代 Hadoop 的。相反,Hadoop 是 Spark 成長(zhǎng)發(fā)展的基礎(chǔ)。我們希望兩個(gè)組織都能有長(zhǎng)足的發(fā)展,并且成為將數(shù)據(jù)資產(chǎn)轉(zhuǎn)化為可執(zhí)行商業(yè)計(jì)劃的最有活力的平臺(tái)。

 
責(zé)任編輯:王雪燕 來源: TechCrunch
相關(guān)推薦

2010-05-11 17:09:52

Google蘋果

2009-08-10 10:14:50

思科錢伯斯

2023-07-18 15:04:51

2024-06-13 13:13:52

2015-07-23 14:29:28

大數(shù)據(jù)sparkhadoop

2010-01-28 09:54:29

喬布斯

2016-03-09 14:35:42

HadoopSpark數(shù)據(jù)處理

2018-01-22 08:33:28

SparkHadoop計(jì)算

2015-06-12 10:39:07

數(shù)據(jù)中心

2014-04-15 10:46:38

CIOCSO企業(yè)安全

2019-07-17 13:25:03

SparkHadoop架構(gòu)

2018-05-10 09:51:39

Spark內(nèi)存Hadoop

2021-09-08 15:02:28

人工智能AIRFID

2021-12-14 09:56:51

HadoopSparkKafka

2017-03-06 09:40:39

OpenStack SHadoopSpark

2021-09-06 08:50:49

服務(wù)Dubbo參數(shù)

2017-04-19 11:17:48

SparkHadoopMapReduce

2016-02-26 10:20:17

HadoopSpark大數(shù)據(jù)項(xiàng)目

2024-07-18 15:03:56

2013-12-19 09:42:34

程序員趣聞
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)