自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Spark1.2新特性概述

云計(jì)算 服務(wù)器 Spark
Spark Contributor、Spark布道者陳超通過本文總結(jié)了Spark 1.2版本的新特性,其中包括Spark Core、Spark Streaming、MLlib、GraphX、Spark SQL等方面,方便大家了解學(xué)習(xí)。

[[124991]]

Spark1.2 居然真的在12月份發(fā)布了,我表示略感意外,我一直以為稍微跳個(gè)票要到明年一月初才能發(fā)的。這次更新有172個(gè)開發(fā)者參與,并且有1000多個(gè)commits。這真是一個(gè)了不起的數(shù)字。本次版本給我們帶來了很多新特性,并且也有不少的性能優(yōu)化點(diǎn)。我說幾個(gè)比較重要的吧。

Spark Core:

1、在傳大量數(shù)據(jù)的情況下,communication manager終于換成netty-based的實(shí)現(xiàn)了。之前的實(shí)現(xiàn)慢的要死是因?yàn)槊看味家獜拇疟P讀到內(nèi)核,再到用戶態(tài),再回到內(nèi)核態(tài)進(jìn)入網(wǎng)卡,現(xiàn)在用zerocopy來實(shí)現(xiàn)了。(想起來沒,Kafka也是用的這個(gè))。

2、shuffle manager換成sort based了,在shuffle數(shù)據(jù)比較大的時(shí)候,性能會(huì)有提升。不過也有不少人認(rèn)為這個(gè)Hadoop的sort是一樣的,微博上也有人提出了這一點(diǎn),本想回復(fù)解釋時(shí),發(fā)現(xiàn)連城已經(jīng)回復(fù)了。其實(shí)目前Spark的sort只是按照Partition key排序,Partition內(nèi)部目前是不排序的,不過就算內(nèi)部要排序,也是比較容易實(shí)現(xiàn)的。而Hadoop是按照每個(gè)Partition內(nèi)的每個(gè)KV排序的。

Spark Streaming :

終于“號(hào)稱”支持fully H/A模式了。以前當(dāng)driver掛掉的時(shí)候,可能會(huì)丟失掉一小部分?jǐn)?shù)據(jù)。現(xiàn)在加上一層WAL(write ahead log),好多地方都在用這玩意兒,還記得HBase的write path嗎?每次寫到memstore之前都會(huì)寫到一個(gè)叫HLog的地方,以防止數(shù)據(jù)丟失?;氐竭@個(gè)問題,每次receiver收到數(shù)據(jù)后都會(huì)存在hdfs上,這樣即使driver掛掉,當(dāng)它重啟起來后,還是可以接著處理。當(dāng)然WAL的實(shí)現(xiàn)也還是那樣子,到driver重啟后,要recover data,并且也要clean掉那些過時(shí)的數(shù)據(jù)。

當(dāng)然,我還要特別提醒下 unreliable receivers和reliable receivers這兩個(gè)事情,有興趣的自己去看下什么個(gè)情況吧。

MLlib:

這里最重大的改變應(yīng)該是Pipeline了,很多從事機(jī)器學(xué)習(xí)的朋友肯定會(huì)有興趣的。MLlib的老大祥瑞在北京已經(jīng)談過這個(gè)了,這里不展開,需要指出的是,目前MLlib是用SchemaRDD來代表數(shù)據(jù)集的。也就是說,打通了Spark SQL與MLlib間的通道。話說在一起吃飯時(shí)我揪著祥瑞談了一些DataBricks Cloud的事情,沒問MLlib的事情,就知道他回來度個(gè)假,PR已經(jīng)急劇增加了。

GraphX:

國內(nèi)這塊用的比較多的要數(shù)淘寶明風(fēng)他們團(tuán)隊(duì)了。更多詳情,請(qǐng)咨詢淘寶技術(shù)部,哈哈,開玩笑的。這一版本最引人注意的應(yīng)該是給出了stable api,這意味著你們不用擔(dān)心現(xiàn)在寫的代碼以后還要由于API的變化而改動(dòng)了。插播廣告,下周杭州Spark Meetup,會(huì)有GraphX的一個(gè)精彩主題。

Spark SQL:

把這塊放***的原因是,Spark SQL真是太火了,所以你們要提PR就趕快提,趕快響應(yīng),趕快merge,不然保不準(zhǔn)在短時(shí)間內(nèi)就給你來個(gè)conflict。這版本最重要的特性毫無疑問應(yīng)該屬于external data source吧,套用連城PPT上的一句話,push predicates to datasource, 什么意思呢,譬如你要從HBase取數(shù)據(jù)后做一些篩選,一般我們需要把數(shù)據(jù)從HBase全取出來后在Spark引擎中篩選,現(xiàn)在呢,你可以把這個(gè)步驟推到Data Source端,讓你在取數(shù)據(jù)的時(shí)候就可以篩選。當(dāng)然,這塊肯定還會(huì)有很大的改動(dòng)。

另一點(diǎn)必須要指出,我以前在很多場(chǎng)合都提醒大家,Spark SQL中緩存表一定要用cacheTable(“tableName”)這種形式,否則無法享受到列式存儲(chǔ)帶來的一系列好處,但是很多朋友仍然采用rdd.cache這種原生的方式來緩存,社區(qū)也意識(shí)到這樣不行,所以現(xiàn)在無論是cacheTable還是直接cache,都是表達(dá)相同的語義,都能享受到列式存儲(chǔ)帶來的好處。

就寫到這里,本版本改動(dòng)較大,希望大家盡早升級(jí)。

原文鏈接:http://mp.weixin.qq.com/s?__biz=MjM5NTc2MTg3Mw==&mid=201641685&idx=1&sn=1b75be3d774bb3f26b6714674dbefc64&scene=2&from=timeline&isappinstalled=0#rd

責(zé)任編輯:Ophira 來源: scala
相關(guān)推薦

2010-10-08 09:54:30

IBM AIX 7

2009-07-30 14:55:43

ASP.NET 2.0

2010-07-20 10:19:06

Wine 1.2

2011-05-20 09:35:22

JDK7

2010-03-05 08:56:14

JSFUnit 1.2

2017-11-13 08:44:19

Android Stu移動(dòng)數(shù)據(jù)庫Kotlin

2011-03-15 09:33:18

SQL Server 集成服務(wù)

2010-07-07 14:30:22

SQL Server

2014-12-22 09:57:27

Spark分布式數(shù)據(jù)集大數(shù)據(jù)

2009-06-19 11:38:15

JavaFX 1.2

2009-10-20 15:06:40

綜合布線產(chǎn)品

2009-07-30 15:17:16

ASP.NET 2.0

2009-06-03 16:10:34

OpenSolaris

2010-01-15 18:30:50

VB.NET Dlli

2024-09-11 09:30:58

IDEA工具編程

2014-07-15 14:48:26

Java8

2010-06-03 17:02:15

2021-02-22 11:51:15

Java開發(fā)代碼

2009-01-16 10:01:57

MySQL復(fù)制特性測(cè)試

2013-03-05 09:35:54

Linux
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)