自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

對(duì)Spark的那些【魔改】

大數(shù)據(jù) Spark
這兩年做 streamingpro 時(shí),不可避免的需要對(duì)Spark做大量的增強(qiáng)。就如同我之前吐槽的,Spark大量使用了new進(jìn)行對(duì)象的創(chuàng)建,導(dǎo)致里面的實(shí)現(xiàn)基本沒(méi)有辦法進(jìn)行替換。

前言

這兩年做 streamingpro 時(shí),不可避免的需要對(duì)Spark做大量的增強(qiáng)。就如同我之前吐槽的,Spark大量使用了new進(jìn)行對(duì)象的創(chuàng)建,導(dǎo)致里面的實(shí)現(xiàn)基本沒(méi)有辦法進(jìn)行替換。

對(duì)Spark的那些【魔改】

比如SparkEnv里有個(gè)屬性叫closureSerializer,是專門做任務(wù)的序列化反序列化的,當(dāng)然也負(fù)責(zé)對(duì)函數(shù)閉包的序列化反序列化。我們看看內(nèi)部是怎么實(shí)現(xiàn)的:

  1. val serializer = instantiateClassFromConf[Serializer]( 
  2.       "spark.serializer""org.apache.spark.serializer.JavaSerializer"
  3.     logDebug(s"Using serializer: ${serializer.getClass}"
  4.  
  5.     val serializerManager = new SerializerManager(serializer, conf, ioEncryptionKey) 
  6.  
  7.     val closureSerializer = new JavaSerializer(conf) 
  8.  
  9. val envInstance = new SparkEnv( 
  10. ..... 
  11.  closureSerializer, .... 

這里直接new了一個(gè)JavaSerializer,并不能做配置。如果不改源碼,你沒(méi)有任何辦法可以替換掉掉這個(gè)實(shí)現(xiàn)。同理,如果我想替換掉Executor的實(shí)現(xiàn),基本也是不可能的。

今年有兩個(gè)大地方涉及到了對(duì)Spark的【魔改】,也就是不通過(guò)改源碼,使用原有發(fā)型包,通過(guò)添加新代碼的方式來(lái)對(duì)Spark進(jìn)行增強(qiáng)。

二層RPC的支持

我們知道,在Spark里,我們只能通過(guò)Task才能touch到Executor?,F(xiàn)有的API你是沒(méi)辦法直接操作到所有或者指定部分的Executor。比如,我希望所有Executor都加載一個(gè)資源文件,現(xiàn)在是沒(méi)辦法做到的。為了能夠?qū)xecutor進(jìn)行直接的操作,那就需要建立一個(gè)新的通訊層。那具體怎么做呢?

首先,在Driver端建立一個(gè)Backend,這個(gè)比較簡(jiǎn)單,

  1. class PSDriverBackend(sc: SparkContext) extends Logging { 
  2.  
  3.   val conf = sc.conf 
  4.   var psDriverRpcEndpointRef: RpcEndpointRef = null 
  5.  
  6.   def createRpcEnv = { 
  7.     val isDriver = sc.env.executorId == SparkContext.DRIVER_IDENTIFIER 
  8.     val bindAddress = sc.conf.get(DRIVER_BIND_ADDRESS) 
  9.     val advertiseAddress = sc.conf.get(DRIVER_HOST_ADDRESS) 
  10.     var port = sc.conf.getOption("spark.ps.driver.port").getOrElse("7777").toInt 
  11.     val ioEncryptionKey = if (sc.conf.get(IO_ENCRYPTION_ENABLED)) { 
  12.       Some(CryptoStreamUtils.createKey(sc.conf)) 
  13.     } else { 
  14.       None 
  15.     } 
  16.     logInfo(s"setup ps driver rpc env: ${bindAddress}:${port} clientMode=${!isDriver}"
  17.     var createSucess = false 
  18.     var count = 0 
  19.     val env = new AtomicReference[RpcEnv]() 
  20.     while (!createSucess && count < 10) { 
  21.       try { 
  22.         env.set(RpcEnv.create("PSDriverEndpoint", bindAddress, port, sc.conf, 
  23.           sc.env.securityManager, clientMode = !isDriver)) 
  24.         createSucess = true 
  25.       } catch { 
  26.         case e: Exception => 
  27.           logInfo("fail to create rpcenv", e) 
  28.           count += 1 
  29.           port += 1 
  30.       } 
  31.     } 
  32.     if (env.get() == null) { 
  33.       logError(s"fail to create rpcenv finally with attemp ${count} "
  34.     } 
  35.     env.get() 
  36.   } 
  37.  
  38.   def start() = { 
  39.     val env = createRpcEnv 
  40.     val pSDriverBackend = new PSDriverEndpoint(sc, env) 
  41.     psDriverRpcEndpointRef = env.setupEndpoint("ps-driver-endpoint", pSDriverBackend) 
  42.   } 
  43.  

這樣,你可以理解為在Driver端啟動(dòng)了一個(gè)PRC Server。要運(yùn)行這段代碼也非常簡(jiǎn)單,直接在主程序里運(yùn)行即可:

  1. // parameter server should be enabled by default 
  2.     if (!params.containsKey("streaming.ps.enable") || params.get("streaming.ps.enable").toString.toBoolean) { 
  3.       logger.info("ps enabled..."
  4.       if (ss.sparkContext.isLocal) { 
  5.         localSchedulerBackend = new LocalPSSchedulerBackend(ss.sparkContext) 
  6.         localSchedulerBackend.start() 
  7.       } else { 
  8.         logger.info("start PSDriverBackend"
  9.         psDriverBackend = new PSDriverBackend(ss.sparkContext) 
  10.         psDriverBackend.start() 
  11.       } 
  12.     } 

這里我們需要實(shí)現(xiàn)local模式和cluster模式兩種。

Driver啟動(dòng)了一個(gè)PRC Server,那么Executor端如何啟動(dòng)呢?Executor端似乎沒(méi)有任何一個(gè)地方可以讓我啟動(dòng)一個(gè)PRC Server? 其實(shí)有的,只是非常trick,我們知道Spark是允許自定義Metrics的,并且會(huì)調(diào)用用戶實(shí)現(xiàn)的metric特定的方法,我們只要開發(fā)一個(gè)metric Sink,在里面啟動(dòng)RPC Server,騙過(guò)Spark即可。具體時(shí)下如下:

  1. class PSServiceSink(val property: Properties, val registry: MetricRegistry, 
  2.                     securityMgr: SecurityManager) extends Sink with Logging { 
  3.   def env = SparkEnv.get 
  4.  
  5.   var psDriverUrl: String = null 
  6.   var psExecutorId: String = null 
  7.   var hostname: String = null 
  8.   var cores: Int = 0 
  9.   var appId: String = null 
  10.   val psDriverPort = 7777 
  11.   var psDriverHost: String = null 
  12.   var workerUrl: Option[String] = None 
  13.   val userClassPath = new mutable.ListBuffer[URL]() 
  14.  
  15.   def parseArgs = { 
  16.     //val runtimeMxBean = ManagementFactory.getRuntimeMXBean(); 
  17.     //var argv = runtimeMxBean.getInputArguments.toList 
  18.     var argv = System.getProperty("sun.java.command").split("\\s+").toList 
  19.  
  20.    ..... 
  21.     psDriverHost = host 
  22.     psDriverUrl = "spark://ps-driver-endpoint@" + psDriverHost + ":" + psDriverPort 
  23.   } 
  24.  
  25.   parseArgs 
  26.  
  27.   def createRpcEnv = { 
  28.     val isDriver = env.executorId == SparkContext.DRIVER_IDENTIFIER 
  29.     val bindAddress = hostname 
  30.     val advertiseAddress = "" 
  31.     val port = env.conf.getOption("spark.ps.executor.port").getOrElse("0").toInt 
  32.     val ioEncryptionKey = if (env.conf.get(IO_ENCRYPTION_ENABLED)) { 
  33.       Some(CryptoStreamUtils.createKey(env.conf)) 
  34.     } else { 
  35.       None 
  36.     } 
  37.     //logInfo(s"setup ps driver rpc env: ${bindAddress}:${port} clientMode=${!isDriver}"
  38.     RpcEnv.create("PSExecutorBackend", bindAddress, port, env.conf, 
  39.       env.securityManager, clientMode = !isDriver) 
  40.   } 
  41.  
  42.   override def start(): Unit = { 
  43.  
  44.     new Thread(new Runnable { 
  45.       override def run(): Unit = { 
  46.         logInfo(s"delay PSExecutorBackend 3s"
  47.         Thread.sleep(3000) 
  48.         logInfo(s"start PSExecutor;env:${env}"
  49.         if (env.executorId != SparkContext.DRIVER_IDENTIFIER) { 
  50.           val rpcEnv = createRpcEnv 
  51.           val pSExecutorBackend = new PSExecutorBackend(env, rpcEnv, psDriverUrl, psExecutorId, hostname, cores) 
  52.           PSExecutorBackend.executorBackend = Some(pSExecutorBackend) 
  53.           rpcEnv.setupEndpoint("ps-executor-endpoint", pSExecutorBackend) 
  54.         } 
  55.       } 
  56.     }).start() 
  57.  
  58.   } 
  59. ... 

到這里,我們就能成功啟動(dòng)RPC Server,并且連接上Driver中的PRC Server。現(xiàn)在,你就可以在不修改Spark 源碼的情況下,盡情的寫通訊相關(guān)的代碼了,讓你可以更好的控制Executor。

比如在PSExecutorBackend 實(shí)現(xiàn)如下代碼:

  1. override def receiveAndReply(context: RpcCallContext): PartialFunction[Any, Unit] = { 
  2.     case Message.TensorFlowModelClean(modelPath) => { 
  3.       logInfo("clean tensorflow model"
  4.       TFModelLoader.close(modelPath) 
  5.       context.reply(true
  6.     } 
  7.     case Message.CopyModelToLocal(modelPath, destPath) => { 
  8.       logInfo(s"copying model: ${modelPath} -> ${destPath}"
  9.       HDFSOperator.copyToLocalFile(destPath, modelPath, true
  10.       context.reply(true
  11.     } 
  12.   } 

接著你就可以在Spark里寫如下的代碼調(diào)用了:

  1. val psDriverBackend = runtime.asInstanceOf[SparkRuntime].psDriverBackend psDriverBackend.psDriverRpcEndpointRef.send(Message.TensorFlowModelClean("/tmp/ok")) 

是不是很酷。

修改閉包的序列化方式

Spark的任務(wù)調(diào)度開銷非常大。對(duì)于一個(gè)復(fù)雜的任務(wù),業(yè)務(wù)邏輯代碼執(zhí)行時(shí)間大約是3-7ms,但是整個(gè)spark運(yùn)行的開銷大概是1.3s左右。

經(jīng)過(guò)詳細(xì)dig發(fā)現(xiàn),sparkContext里RDD轉(zhuǎn)化時(shí),會(huì)對(duì)函數(shù)進(jìn)行clean操作,clean操作的過(guò)程中,默認(rèn)會(huì)檢查是不是能序列化(就是序列化一遍,沒(méi)拋出異常就算可以序列化)。而序列化成本相當(dāng)高(默認(rèn)使用的JavaSerializer并且對(duì)于函數(shù)和任務(wù)序列化,是不可更改的),單次序列化耗時(shí)就達(dá)到200ms左右,在local模式下對(duì)其進(jìn)行優(yōu)化,可以減少600ms左右的請(qǐng)求時(shí)間。

當(dāng)然,需要申明的是,這個(gè)是針對(duì)local模式進(jìn)行修改的。那具體怎么做的呢?

我們先看看Spark是怎么調(diào)用序列化函數(shù)的,首先在SparkContext里,clean函數(shù)是這樣的:

  1. private[spark] def clean[F <: AnyRef](f: F, checkSerializable: Boolean = true): F = { 
  2.     ClosureCleaner.clean(f, checkSerializable) 
  3.     f 
  4.   } 

調(diào)用的是ClosureCleaner.clean方法,該方法里是這么調(diào)用學(xué)序列化的:

  1. try { 
  2.       if (SparkEnv.get != null) { 
  3.         SparkEnv.get.closureSerializer.newInstance().serialize(func) 
  4.       } 
  5.     } catch { 
  6.       case ex: Exception => throw new SparkException("Task not serializable", ex) 
  7.     } 

SparkEnv是在SparkContext初始化的時(shí)候創(chuàng)建的,該對(duì)象里面包含了closureSerializer,該對(duì)象通過(guò)new JavaSerializer創(chuàng)建。既然序列化太慢,又因?yàn)槲覀兤鋵?shí)是在Local模式下,本身是可以不需要序列化的,所以我們這里想辦法把closureSerializer的實(shí)現(xiàn)替換掉。正如我們前面吐槽,因?yàn)樵赟park代碼里寫死了,沒(méi)有暴露任何自定義的可能性,所以我們又要魔改一下了。

首先,我們新建一個(gè)SparkEnv的子類:

  1. class WowSparkEnv( 
  2.                    ....) extends SparkEnv( 

接著實(shí)現(xiàn)一個(gè)自定義的Serializer:

  1. class LocalNonOpSerializerInstance(javaD: SerializerInstance) extends SerializerInstance { 
  2.  
  3.   private def isClosure(cls: Class[_]): Boolean = { 
  4.     cls.getName.contains("$anonfun$"
  5.   } 
  6.  
  7.   override def serialize[T: ClassTag](t: T): ByteBuffer = { 
  8.     if (isClosure(t.getClass)) { 
  9.       val uuid = UUID.randomUUID().toString 
  10.       LocalNonOpSerializerInstance.maps.put(uuid, t.asInstanceOf[AnyRef]) 
  11.       ByteBuffer.wrap(uuid.getBytes()) 
  12.     } else { 
  13.       javaD.serialize(t) 
  14.     } 
  15.  
  16.   } 
  17.  
  18.   override def deserialize[T: ClassTag](bytes: ByteBuffer): T = { 
  19.     val s = StandardCharsets.UTF_8.decode(bytes).toString() 
  20.     if (LocalNonOpSerializerInstance.maps.containsKey(s)) { 
  21.       LocalNonOpSerializerInstance.maps.remove(s).asInstanceOf[T] 
  22.     } else { 
  23.       bytes.flip() 
  24.       javaD.deserialize(bytes) 
  25.     } 
  26.  
  27.   } 
  28.  
  29.   override def deserialize[T: ClassTag](bytes: ByteBuffer, loader: ClassLoader): T = { 
  30.     val s = StandardCharsets.UTF_8.decode(bytes).toString() 
  31.     if (LocalNonOpSerializerInstance.maps.containsKey(s)) { 
  32.       LocalNonOpSerializerInstance.maps.remove(s).asInstanceOf[T] 
  33.     } else { 
  34.       bytes.flip() 
  35.       javaD.deserialize(bytes, loader) 
  36.     } 
  37.   } 
  38.  
  39.   override def serializeStream(s: OutputStream): SerializationStream = { 
  40.     javaD.serializeStream(s) 
  41.   } 
  42.  
  43.   override def deserializeStream(s: InputStream): DeserializationStream = { 
  44.     javaD.deserializeStream(s) 
  45.   } 

接著我們需要再封裝一個(gè)LocalNonOpSerializer,

  1. class LocalNonOpSerializer(conf: SparkConf) extends Serializer with Externalizable { 
  2.   val javaS = new JavaSerializer(conf) 
  3.  
  4.   override def newInstance(): SerializerInstance = { 
  5.     new LocalNonOpSerializerInstance(javaS.newInstance()) 
  6.   } 
  7.  
  8.   override def writeExternal(out: ObjectOutput): Unit = Utils.tryOrIOException { 
  9.     javaS.writeExternal(out
  10.   } 
  11.  
  12.   override def readExternal(in: ObjectInput): Unit = Utils.tryOrIOException { 
  13.     javaS.readExternal(in
  14.   } 

現(xiàn)在,萬(wàn)事俱備,只欠東風(fēng)了,我們?cè)趺床拍馨堰@些代碼讓Spark運(yùn)行起來(lái)。具體做法非常魔幻,實(shí)現(xiàn)一個(gè)enhance類:

  1. def enhanceSparkEnvForAPIService(session: SparkSession) = { 
  2.       val env = SparkEnv.get 
  3.    //創(chuàng)建一個(gè)新的WowSparkEnv對(duì)象,然后將里面的Serializer替換成我們自己的LocalNonOpSerializer 
  4.     val wowEnv = new WowSparkEnv( 
  5.  ..... 
  6.       new LocalNonOpSerializer(env.conf): Serializer, 
  7.  ....) 
  8.     // 將SparkEnv object里的實(shí)例替換成我們的 
  9.     //WowSparkEnv 
  10.     SparkEnv.set(wowEnv) 
  11.   //但是很多地方在SparkContext啟動(dòng)后都已經(jīng)在使用之前就已經(jīng)生成的SparkEnv,我們需要做些調(diào)整 
  12. //我們先把之前已經(jīng)啟動(dòng)的LocalSchedulerBackend里的scheduer停掉 
  13.     val localScheduler = session.sparkContext.schedulerBackend.asInstanceOf[LocalSchedulerBackend] 
  14.  
  15.     val scheduler = ReflectHelper.field(localScheduler, "scheduler"
  16.  
  17.     val totalCores = localScheduler.totalCores 
  18.     localScheduler.stop() 
  19.  
  20.   //創(chuàng)建一個(gè)新的LocalSchedulerBackend 
  21.     val wowLocalSchedulerBackend = new WowLocalSchedulerBackend(session.sparkContext.getConf, scheduler.asInstanceOf[TaskSchedulerImpl], totalCores) 
  22.     wowLocalSchedulerBackend.start() 
  23.  //把SparkContext里的_schedulerBackend替換成我們的實(shí)現(xiàn) 
  24.     ReflectHelper.field(session.sparkContext, "_schedulerBackend", wowLocalSchedulerBackend) 
  25.   } 

完工。

其實(shí)還有很多

比如在Spark里,Python Worker默認(rèn)一分鐘沒(méi)有被使用是會(huì)被殺死的,但是在StreamingPro里,這些python worker因?yàn)槎家虞d模型,所以啟動(dòng)成本是非常高的,殺了之后再啟動(dòng)就沒(méi)辦法忍受了,通過(guò)類似的方式進(jìn)行魔改,從而使得空閑時(shí)間是可配置的。如果大家感興趣,可以翻看StreamingPro相關(guān)代碼。

責(zé)任編輯:未麗燕 來(lái)源: 簡(jiǎn)書
相關(guān)推薦

2019-11-13 15:46:56

硬件CPU主板

2017-03-02 17:40:20

Linux移動(dòng)存儲(chǔ)設(shè)備

2022-09-23 13:57:11

xxl-job任務(wù)調(diào)度中間件

2018-10-31 15:36:02

CPU優(yōu)點(diǎn)缺點(diǎn)

2017-12-25 10:40:01

Python單例字典模塊

2021-06-06 19:03:25

SQL大數(shù)據(jù)Spark

2021-04-30 07:33:58

微軟Android系統(tǒng)Surface Duo

2017-06-21 08:39:20

SparkScalaHDFS

2016-11-07 16:06:43

大數(shù)據(jù)SparkImpala

2021-12-13 17:53:19

谷歌Transformer技術(shù)

2021-07-26 08:49:27

Windows 11操作系統(tǒng)微軟

2022-04-18 11:05:36

開源github代碼庫(kù)

2023-06-13 07:06:30

RTX顯存位公版卡

2022-01-26 20:01:24

管理工具knife4j

2024-04-15 07:50:00

AI架構(gòu)

2018-03-01 08:39:34

HadoopSpark加密貨幣

2022-01-10 06:03:51

Windows 11操作系統(tǒng)微軟

2022-01-17 09:19:12

Transformer數(shù)據(jù)人工智能

2024-06-03 10:56:53

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)