自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<ul id="wu04p"></ul>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

Spark踩坑記：共享變量

作者：肖力濤 2017-05-05 08:12:51

大數(shù)據(jù) Spark

使用spark過程當中踩過的一些坑和經驗。我們知道Spark是多機器集群部署的，分為Driver/Master/Worker，Master負責資源調度，Worker是不同的運算節(jié)點，由Master統(tǒng)一調度。

前言

前面總結的幾篇spark踩坑博文中，我總結了自己在使用spark過程當中踩過的一些坑和經驗。我們知道Spark是多機器集群部署的，分為Driver/Master/Worker，Master負責資源調度，Worker是不同的運算節(jié)點，由Master統(tǒng)一調度。

而Driver是我們提交Spark程序的節(jié)點，并且所有的reduce類型的操作都會匯總到Driver節(jié)點進行整合。節(jié)點之間會將map/reduce等操作函數(shù)傳遞一個獨立副本到每一個節(jié)點，這些變量也會復制到每臺機器上，而節(jié)點之間的運算是相互獨立的，變量的更新并不會傳遞回Driver程序。

那么有個問題，如果我們想在節(jié)點之間共享一份變量，比如一份公共的配置項，該怎么辦呢?Spark為我們提供了兩種特定的共享變量，來完成節(jié)點間變量的共享。本文首先簡單的介紹spark以及spark streaming中累加器和廣播變量的使用方式，然后重點介紹一下如何更新廣播變量。

累加器

顧名思義，累加器是一種只能通過關聯(lián)操作進行“加”操作的變量，因此它能夠高效的應用于并行操作中。它們能夠用來實現(xiàn)counters和sums。Spark原生支持數(shù)值類型的累加器，開發(fā)者可以自己添加支持的類型，在2.0.0之前的版本中，通過繼承AccumulatorParam來實現(xiàn)，而2.0.0之后的版本需要繼承AccumulatorV2來實現(xiàn)自定義類型的累加器。

如果創(chuàng)建了一個具名的累加器，它可以在spark的UI中顯示。這對于理解運行階段(running stages)的過程有很重要的作用。如下圖：

在2.0.0之前版本中，累加器的聲明使用方式如下：

scala> val accum = sc.accumulator(0, "My Accumulator") 
accum: spark.Accumulator[Int] = 0 
 
scala> sc.parallelize(Array(1, 2, 3, 4)).foreach(x => accum += x) 
... 
10/09/29 18:41:08 INFO SparkContext: Tasks finished in 0.317106 s 
 
scala> accum.value 
res2: Int = 10

累加器的聲明在2.0.0發(fā)生了變化，到2.1.0也有所變化，具體可以參考官方文檔，我們這里以2.1.0為例將代碼貼一下：

scala> val accum = sc.longAccumulator("My Accumulator") 
accum: org.apache.spark.util.LongAccumulator = LongAccumulator(id: 0, name: Some(My Accumulator), value: 0) 
 
scala> sc.parallelize(Array(1, 2, 3, 4)).foreach(x => accum.add(x)) 
 
10/09/29 18:41:08 INFO SparkContext: Tasks finished in 0.317106 s 
 
scala> accum.value 
res2: Long = 10

廣播變量

累加器比較簡單直觀，如果我們需要在spark中進行一些全局統(tǒng)計就可以使用它。但是有時候僅僅一個累加器并不能滿足我們的需求，比如數(shù)據(jù)庫中一份公共配置表格，需要同步給各個節(jié)點進行查詢。OK先來簡單介紹下spark中的廣播變量：

廣播變量允許程序員緩存一個只讀的變量在每臺機器上面，而不是每個任務保存一份拷貝。例如，利用廣播變量，我們能夠以一種更有效率的方式將一個大數(shù)據(jù)量輸入集合的副本分配給每個節(jié)點。Spark也嘗試著利用有效的廣播算法去分配廣播變量，以減少通信的成本。

一個廣播變量可以通過調用SparkContext.broadcast(v)方法從一個初始變量v中創(chuàng)建。廣播變量是v的一個包裝變量，它的值可以通過value方法訪問，下面的代碼說明了這個過程：

scala> val broadcastVar = sc.broadcast(Array(1, 2, 3)) 
broadcastVar: org.apache.spark.broadcast.Broadcast[Array[Int]] = Broadcast(0) 
 
scala> broadcastVar.value 
res0: Array[Int] = Array(1, 2, 3)

從上文我們可以看出廣播變量的聲明很簡單，調用broadcast就能搞定，并且scala中一切可序列化的對象都是可以進行廣播的，這就給了我們很大的想象空間，可以利用廣播變量將一些經常訪問的大變量進行廣播，而不是每個任務保存一份，這樣可以減少資源上的浪費。

更新廣播變量(rebroadcast)

廣播變量可以用來更新一些大的配置變量，比如數(shù)據(jù)庫中的一張表格，那么有這樣一個問題，如果數(shù)據(jù)庫當中的配置表格進行了更新，我們需要重新廣播變量該怎么做呢。上文對廣播變量的說明中，我們知道廣播變量是只讀的，也就是說廣播出去的變量沒法再修改，那么我們應該怎么解決這個問題呢?

答案是利用spark中的unpersist函數(shù)

Spark automatically monitors cache usage on each node and drops out old data partitions in a least-recently-used (LRU) fashion. If you would like to manually remove an RDD instead of waiting for it to fall out of the cache, use the RDD.unpersist() method.

上文是從spark官方文檔摘抄出來的，我們可以看出，正常來說每個節(jié)點的數(shù)據(jù)是不需要我們操心的，spark會自動按照LRU規(guī)則將老數(shù)據(jù)刪除，如果需要手動刪除可以調用unpersist函數(shù)。

那么更新廣播變量的基本思路：將老的廣播變量刪除(unpersist)，然后重新廣播一遍新的廣播變量，為此簡單包裝了一個用于廣播和更新廣播變量的wraper類，如下：

import java.io.{ ObjectInputStream, ObjectOutputStream } 
import org.apache.spark.broadcast.Broadcast 
import org.apache.spark.streaming.StreamingContext 
import scala.reflect.ClassTag 
 
// This wrapper lets us update brodcast variables within DStreams' foreachRDD 
// without running into serialization issues 
case class BroadcastWrapper[T: ClassTag]( 
    @transient private val ssc: StreamingContext, 
    @transient private val _v: T) { 
 
  @transient private var v = ssc.sparkContext.broadcast(_v) 
 
  def update(newValue: T, blocking: Boolean = false): Unit = { 
    // 刪除RDD是否需要鎖定 
    v.unpersist(blocking) 
    v = ssc.sparkContext.broadcast(newValue) 
  } 
 
  def value: T = v.value 
 
  private def writeObject(out: ObjectOutputStream): Unit = { 
    out.writeObject(v) 
  } 
 
  private def readObject(in: ObjectInputStream): Unit = { 
    v = in.readObject().asInstanceOf[Broadcast[T]] 
  } 
}

利用該wrapper更新廣播變量，大致的處理邏輯如下：

// 定義 
val yourBroadcast = BroadcastWrapper[yourType](ssc, yourValue) 
 
yourStream.transform(rdd => { 
  //定期更新廣播變量 
  if (System.currentTimeMillis - someTime > Conf.updateFreq) { 
    yourBroadcast.update(newValue, true) 
  } 
  // do something else 
})

總結

spark中的共享變量是我們能夠在全局做出一些操作，比如record總數(shù)的統(tǒng)計更新，一些大變量配置項的廣播等等。而對于廣播變量，我們也可以監(jiān)控數(shù)據(jù)庫中的變化，做到定時的重新廣播新的數(shù)據(jù)表配置情況，另外我使用上述方式，在每天***的數(shù)據(jù)實時流統(tǒng)計中表現(xiàn)穩(wěn)定，所以有相似問題的同學也可以進行嘗試，有任何問題，歡迎隨時騷擾溝通。

責任編輯：武曉燕來源： 36大數(shù)據(jù)

Spark 共享變量

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營