Databricks連城:Spark打造一體化大數(shù)據(jù)流水線(xiàn)
2014年7月25日-26日,由51CTO傳媒主辦的2014 WOT全球軟件技術(shù)峰會(huì)在北京富力萬(wàn)麗酒店召開(kāi)。秉承專(zhuān)注技術(shù)、服務(wù)技術(shù)人員的理念,自2012年以來(lái),WOT品牌峰會(huì)成功舉辦了三屆,積累了大量的技術(shù)專(zhuān)家資源,獲得了廣大IT從業(yè)者和技術(shù)愛(ài)好者的一致認(rèn)可,成為了業(yè)界重要的技術(shù)分享交流平臺(tái)以及人脈拓展平臺(tái)。
本次會(huì)議分為8個(gè)技術(shù)主題,分別是:數(shù)據(jù)庫(kù)技術(shù)與應(yīng)用,互聯(lián)網(wǎng)架構(gòu)分析,高效的技術(shù)團(tuán)隊(duì),敏捷開(kāi)發(fā),實(shí)時(shí)計(jì)算與數(shù)據(jù)分析,移動(dòng)應(yīng)用,自動(dòng)化運(yùn)維,開(kāi)源技術(shù)。51CTO作為本次峰會(huì)的主辦方,將全程視頻、圖文直播報(bào)道這場(chǎng)數(shù)據(jù)的盛宴。
作為實(shí)時(shí)計(jì)算與數(shù)據(jù)分析專(zhuān)場(chǎng)“干貨分享”的講師, Databricks工程師連城先生為我們帶來(lái)了主題為《Spark SQL:一體化大數(shù)據(jù)流水線(xiàn)的重要拼圖》的主題演講。分享了Spark技術(shù)在大數(shù)據(jù)分析中的應(yīng)用現(xiàn)狀及展望。
連城老師目前專(zhuān)注于以Spark為主的大數(shù)據(jù)分析系統(tǒng),Spark SQL為Spark提供了原生的SQL關(guān)系查詢(xún)能力,并進(jìn)一步增強(qiáng)了Spark操縱結(jié)構(gòu)化數(shù)據(jù)的能力。演講伊始,連城率先分享了當(dāng)今大數(shù)據(jù)的問(wèn)題以及數(shù)據(jù)分析流程,通常的做法是在hadoop之上刻畫(huà)框架。因此所有流程是基于HDFS,所得到的是有效的數(shù)據(jù)處理結(jié)果占比全部數(shù)據(jù)處理的比例并不高。
基于Spark的統(tǒng)一的大數(shù)據(jù)分析組件
彈性分布式數(shù)據(jù)集可以有效地解決這一問(wèn)題,Spark開(kāi)源實(shí)現(xiàn)高速、兼容性、接口易用、程序精簡(jiǎn)等優(yōu)勢(shì)。
以上是51CTO.com記者從一線(xiàn)為您帶來(lái)的精彩報(bào)道。后續(xù)我們還有更加精彩的獨(dú)家報(bào)道,敬請(qǐng)關(guān)注。