Apache Spark的R語言前端:SparkR
Spark是一個開源的集群計算系統(tǒng),用于快速數據分析,包括快速運行和快速寫操作。Spark 是一種與Hadoop相似的開源云計算系統(tǒng),但是兩者之間還存在一些不同之處,這些有用的不同之處使 Spark 在某些工作負載方面表現得更加優(yōu)越,換句話說,Spark啟用了內存分布數據集,除了能夠提供交互式查詢外,它還可以優(yōu)化迭代工作負載。
Spark架構
Spark 是在Scala語言中實現的,它將Scala用作其應用程序框架。與Hadoop不同,Spark 和 Scala 能夠緊密集成,其中的Scala可以像操作本地集合對象一樣輕松地操作分布式數據集。
盡管創(chuàng)建 Spark是為了支持分布式數據集上的迭代作業(yè),但是實際上它是對 Hadoop 的補充,可以在 Hadoo 文件系統(tǒng)中并行運行。通過名為Mesos的第三方集群框架可以支持此行為。Spark 由加州大學伯克利分校 AMP 實驗室 (Algorithms, Machines, and People Lab) 開發(fā),可用來構建大型的、低延遲的數據分析應用程序。
運行SparkR
- library(SparkR) sc <- sparkR.init(master="local")