Spark 1.2 發(fā)布,開(kāi)源集群計(jì)算系統(tǒng)
Spark 1.2 發(fā)布,此版本包括 172 位貢獻(xiàn)者和超過(guò) 1000 個(gè) commits。
此版本包括
- Spark 核心操作和性能改進(jìn);
- 添加新的網(wǎng)絡(luò)傳輸子系統(tǒng),進(jìn)行了較大的改進(jìn);
- Spark SQL 引入了一個(gè)外部數(shù)據(jù)源的支持,支持 Hive13;
- 動(dòng)態(tài)分區(qū);
- fixed-precision decimal type;
- MLlib 添加了一個(gè)新的面向管道包 (spark.ml),組合多個(gè)算法;
- Spark Streaming 添加了一個(gè) Python API,提前寫錯(cuò)誤容錯(cuò)日志;
- GraphX 正式脫離 Alpha 版本,引入了一個(gè)穩(wěn)定的 API。
更多內(nèi)容請(qǐng)看發(fā)行說(shuō)明,現(xiàn)已提供下載。
Spark 是一種與 Hadoop 相似的開(kāi)源集群計(jì)算環(huán)境,但是兩者之間還存在一些不同之處,這些有用的不同之處使 Spark 在某些工作負(fù)載方面表現(xiàn)得更加優(yōu)越,換句話說(shuō),Spark 啟用了內(nèi)存分布數(shù)據(jù)集,除了能夠提供交互式查詢外,它還可以優(yōu)化迭代工作負(fù)載。
Spark 是在 Scala 語(yǔ)言中實(shí)現(xiàn)的,它將 Scala 用作其應(yīng)用程序框架。與 Hadoop 不同,Spark 和 Scala 能夠緊密集成,其中的 Scala 可以像操作本地集合對(duì)象一樣輕松地操作分布式數(shù)據(jù)集。
盡管創(chuàng)建 Spark 是為了支持分布式數(shù)據(jù)集上的迭代作業(yè),但是實(shí)際上它是對(duì) Hadoop 的補(bǔ)充,可以在 Hadoo 文件系統(tǒng)中并行運(yùn)行。通過(guò)名為 Mesos 的第三方集群框架可以支持此行為。Spark 由加州大學(xué)伯克利分校 AMP 實(shí)驗(yàn)室 (Algorithms, Machines, and People Lab) 開(kāi)發(fā),可用來(lái)構(gòu)建大型的、低延遲的數(shù)據(jù)分析應(yīng)用程序。