利用 Spark 進(jìn)行數(shù)據(jù)分析和性能改進(jìn)
作者:佚名
Spark 是一種前景無限的大數(shù)據(jù)分析解決方案,專為使用內(nèi)存處理的高效集群計(jì)算而開發(fā)。其目標(biāo)使用模型包括整合了迭代式算法的模型(也就是說,能夠受益于將數(shù)據(jù)保留在內(nèi)存之中,而非將其推送到楊恩較高的文件系統(tǒng)的模型)。 在動(dòng)手嘗試這些練習(xí)之前,請(qǐng)務(wù)必理解 Spark 的集群計(jì)算方法及其與 Hadoop 的不同之處。請(qǐng)閱讀最近發(fā)表的一篇相關(guān)文章 Spark,一種快速數(shù)據(jù)分析替代方案,以便了解 Spark 的背景知識(shí)和使用方法。
責(zé)任編輯:凌云
來源:
IBMDW