自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<legend id="lxgq1"><track id="lxgq1"></track></legend>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

Spark1.2新特性概述

作者：陳超 2014-12-23 10:07:30

云計(jì)算服務(wù)器 Spark

Spark Contributor、Spark布道者陳超通過本文總結(jié)了Spark 1.2版本的新特性，其中包括Spark Core、Spark Streaming、MLlib、GraphX、Spark SQL等方面，方便大家了解學(xué)習(xí)。

Spark1.2 居然真的在12月份發(fā)布了，我表示略感意外，我一直以為稍微跳個(gè)票要到明年一月初才能發(fā)的。這次更新有172個(gè)開發(fā)者參與，并且有1000多個(gè)commits。這真是一個(gè)了不起的數(shù)字。本次版本給我們帶來了很多新特性，并且也有不少的性能優(yōu)化點(diǎn)。我說幾個(gè)比較重要的吧。

Spark Core：

1、在傳大量數(shù)據(jù)的情況下，communication manager終于換成netty-based的實(shí)現(xiàn)了。之前的實(shí)現(xiàn)慢的要死是因?yàn)槊看味家獜拇疟P讀到內(nèi)核，再到用戶態(tài)，再回到內(nèi)核態(tài)進(jìn)入網(wǎng)卡，現(xiàn)在用zerocopy來實(shí)現(xiàn)了。(想起來沒,Kafka也是用的這個(gè))。

2、shuffle manager換成sort based了，在shuffle數(shù)據(jù)比較大的時(shí)候，性能會(huì)有提升。不過也有不少人認(rèn)為這個(gè)Hadoop的sort是一樣的，微博上也有人提出了這一點(diǎn)，本想回復(fù)解釋時(shí)，發(fā)現(xiàn)連城已經(jīng)回復(fù)了。其實(shí)目前Spark的sort只是按照Partition key排序，Partition內(nèi)部目前是不排序的，不過就算內(nèi)部要排序，也是比較容易實(shí)現(xiàn)的。而Hadoop是按照每個(gè)Partition內(nèi)的每個(gè)KV排序的。

Spark Streaming :

終于“號(hào)稱”支持fully H/A模式了。以前當(dāng)driver掛掉的時(shí)候，可能會(huì)丟失掉一小部分?jǐn)?shù)據(jù)。現(xiàn)在加上一層WAL(write ahead log),好多地方都在用這玩意兒，還記得HBase的write path嗎？每次寫到memstore之前都會(huì)寫到一個(gè)叫HLog的地方，以防止數(shù)據(jù)丟失?；氐竭@個(gè)問題，每次receiver收到數(shù)據(jù)后都會(huì)存在hdfs上，這樣即使driver掛掉，當(dāng)它重啟起來后，還是可以接著處理。當(dāng)然WAL的實(shí)現(xiàn)也還是那樣子，到driver重啟后，要recover data，并且也要clean掉那些過時(shí)的數(shù)據(jù)。

當(dāng)然，我還要特別提醒下 unreliable receivers和reliable receivers這兩個(gè)事情，有興趣的自己去看下什么個(gè)情況吧。

MLlib:

這里最重大的改變應(yīng)該是Pipeline了，很多從事機(jī)器學(xué)習(xí)的朋友肯定會(huì)有興趣的。MLlib的老大祥瑞在北京已經(jīng)談過這個(gè)了，這里不展開，需要指出的是，目前MLlib是用SchemaRDD來代表數(shù)據(jù)集的。也就是說，打通了Spark SQL與MLlib間的通道。話說在一起吃飯時(shí)我揪著祥瑞談了一些DataBricks Cloud的事情，沒問MLlib的事情，就知道他回來度個(gè)假，PR已經(jīng)急劇增加了。

GraphX：

國內(nèi)這塊用的比較多的要數(shù)淘寶明風(fēng)他們團(tuán)隊(duì)了。更多詳情，請(qǐng)咨詢淘寶技術(shù)部，哈哈，開玩笑的。這一版本最引人注意的應(yīng)該是給出了stable api，這意味著你們不用擔(dān)心現(xiàn)在寫的代碼以后還要由于API的變化而改動(dòng)了。插播廣告，下周杭州Spark Meetup，會(huì)有GraphX的一個(gè)精彩主題。

Spark SQL：

把這塊放***的原因是，Spark SQL真是太火了，所以你們要提PR就趕快提，趕快響應(yīng)，趕快merge，不然保不準(zhǔn)在短時(shí)間內(nèi)就給你來個(gè)conflict。這版本最重要的特性毫無疑問應(yīng)該屬于external data source吧，套用連城PPT上的一句話，push predicates to datasource, 什么意思呢，譬如你要從HBase取數(shù)據(jù)后做一些篩選，一般我們需要把數(shù)據(jù)從HBase全取出來后在Spark引擎中篩選，現(xiàn)在呢，你可以把這個(gè)步驟推到Data Source端，讓你在取數(shù)據(jù)的時(shí)候就可以篩選。當(dāng)然，這塊肯定還會(huì)有很大的改動(dòng)。

另一點(diǎn)必須要指出，我以前在很多場(chǎng)合都提醒大家，Spark SQL中緩存表一定要用cacheTable(“tableName”)這種形式，否則無法享受到列式存儲(chǔ)帶來的一系列好處，但是很多朋友仍然采用rdd.cache這種原生的方式來緩存，社區(qū)也意識(shí)到這樣不行，所以現(xiàn)在無論是cacheTable還是直接cache，都是表達(dá)相同的語義，都能享受到列式存儲(chǔ)帶來的好處。

就寫到這里，本版本改動(dòng)較大，希望大家盡早升級(jí)。

原文鏈接：http://mp.weixin.qq.com/s?__biz=MjM5NTc2MTg3Mw==&mid=201641685&idx=1&sn=1b75be3d774bb3f26b6714674dbefc64&scene=2&from=timeline&isappinstalled=0#rd

責(zé)任編輯：Ophira 來源： scala

Spark Spark 1.2

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<sub id="tmxpq"></sub>

^{<sub id="tmxpq"></sub>}