Spark 和 Hadoop 是朋友不是敵人
6月15日,IBM 宣布計(jì)劃大規(guī)模投資 Spark 相關(guān)技術(shù),此項(xiàng)聲明會(huì)促使越來越多的工程師學(xué)習(xí) Spark 技術(shù),并且大量的企業(yè)也會(huì)采用 Spark 技術(shù)。
Spark 投資的良性循環(huán)會(huì)使 Spark 技術(shù)發(fā)展更加成熟,并且可以從整個(gè)大數(shù)據(jù)環(huán)境中獲益。然而,Spark 的快速增長(zhǎng)給人們一個(gè)奇怪且固執(zhí)的誤解:Spark 將取代 Hadoop,而不是作為 Hadoop 的補(bǔ)充。這樣的誤解可以從類似“旨在比下 Hadoop 的新軟件”和“企業(yè)將放棄大數(shù)據(jù)技術(shù) Hadoop”的標(biāo)題中看出來。
作為一個(gè)長(zhǎng)期的大數(shù)據(jù)實(shí)踐者,雅虎投資 Hadoop 的早期倡導(dǎo)者,一個(gè)為企業(yè)提供大數(shù)據(jù)服務(wù)的公司的 CEO ,我想在這篇文章中提出幾個(gè)明確的觀點(diǎn)。
Spark 和 Hadoop 會(huì)和諧相處。
越來越多的企業(yè)選擇 Hadoop 做大數(shù)據(jù)平臺(tái),而 Spark 是運(yùn)行于 Hadoop 頂層的內(nèi)存處理方案。Hadoop ***的用戶 —— 包括 eBay 和雅虎 —— 都在 Hadoop 集群中運(yùn)行著 Spark。Cloudera 和 Hortonworks 將 Spark 列為他們 Hadoop 發(fā)行的一部分。自從我們推出 Spark 之后,用戶一直在使用著 Spark。
將 Spark 置于和 Hadoop 對(duì)立的位置,就好像是說你的新電動(dòng)汽車看起來很高級(jí),所以你的車就不需要充電一樣。如果電動(dòng)汽車真的普及的話,那只會(huì)帶來更多的用電需求。
為什么這么迷惑呢?現(xiàn)在的 Hadoop 包括兩個(gè)主要的組件。***個(gè)是大規(guī)模儲(chǔ)存系統(tǒng),叫做 Hadoop Distributed File System (HDFS),它以低功耗、高性能的方式儲(chǔ)存數(shù)據(jù),并且能優(yōu)化大數(shù)據(jù)的種類和讀取速度。第二個(gè)是一個(gè)計(jì)算引擎,叫做 YARN,它能在儲(chǔ)存在 HDFS 上的數(shù)據(jù)頂層運(yùn)行大規(guī)模并行程序。
YARN 可以承載任何數(shù)量的程序框架。原始的框架是 MapReduce,它由谷歌發(fā)明,用于處理大規(guī)模頁(yè)面抓取。Spark 是另一個(gè)類似的框架,另一個(gè)新的框架叫做 Tez。當(dāng)人們談?wù)?Spark“干掉”Hadoop 時(shí),他們往往指的是程序員更喜歡將 Spark 用在老的 MapReduce 框架上。
然而,MapReduce 不等同于 Hadoop。MapReduce 只是 Hadoop 集群處理數(shù)據(jù)的多種方式之一。Spark 可以是替代品。說得更寬點(diǎn),商業(yè)分析師 —— 持續(xù)增長(zhǎng)的大數(shù)據(jù)從業(yè)者 —— 會(huì)避免使用這兩個(gè)對(duì)于程序員來說十分低端的框架。相反,他們會(huì)使用更高級(jí)的語言,例如 SQL ,來讓 Hadoop 更容易訪問。
在過去的四年中,基于 Hadoop 的大數(shù)據(jù)技術(shù)達(dá)到了***的創(chuàng)新水平。我們已經(jīng)從 SQL 批處理轉(zhuǎn)向互動(dòng):從單一框架(MapReduce)轉(zhuǎn)到多框架(MapReduce、Spark 等等)。
我們已經(jīng)看到了 HDFS 優(yōu)異的性能和安全性的改善,并且我們還看到了頂層工具的井噴 , 例如 Datameer、H20 和 Tableau。大量不同領(lǐng)域的數(shù)據(jù)科學(xué)家和商業(yè)用戶使這些大數(shù)據(jù)工具變得更為易用。
Spark 對(duì)于 Hadoop 來說不是挑戰(zhàn),也不是來取代 Hadoop 的。相反,Hadoop 是 Spark 成長(zhǎng)發(fā)展的基礎(chǔ)。我們希望兩個(gè)組織都能有長(zhǎng)足的發(fā)展,并且成為將數(shù)據(jù)資產(chǎn)轉(zhuǎn)化為可執(zhí)行商業(yè)計(jì)劃的最有活力的平臺(tái)。