SparkStreaming項目實戰(zhàn),實時計算Pv和Uv
本文轉載自微信公眾號「Java大數(shù)據(jù)與數(shù)據(jù)倉庫」,作者柯少爺。轉載本文請聯(lián)系Java大數(shù)據(jù)與數(shù)據(jù)倉庫公眾號。
最近有個需求,實時統(tǒng)計pv,uv,結果按照date,hour,pv,uv來展示,按天統(tǒng)計,第二天重新統(tǒng)計,當然了實際還需要按照類型字段分類統(tǒng)計pv,uv,比如按照date,hour,pv,uv,type來展示。這里介紹最基本的pv,uv的展示。
id | uv | pv | date | hour |
---|---|---|---|---|
1 | 155599 | 306053 | 2018-07-27 | 18 |
關于什么是pv,uv,可以參見這篇博客:https://blog.csdn.net/petermsh/article/details/78652246
1、項目流程
日志數(shù)據(jù)從flume采集過來,落到hdfs供其它離線業(yè)務使用,也會sink到kafka,sparkStreaming從kafka拉數(shù)據(jù)過來,計算pv,uv,uv是用的redis的set集合去重,最后把結果寫入mysql數(shù)據(jù)庫,供前端展示使用。
2、具體過程
1)pv的計算
拉取數(shù)據(jù)有兩種方式,基于received和direct方式,這里用direct直拉的方式,用的mapWithState算子保存狀態(tài),這個算子與updateStateByKey一樣,并且性能更好。當然了實際中數(shù)據(jù)過來需要經過清洗,過濾,才能使用。
定義一個狀態(tài)函數(shù)
- // 實時流量狀態(tài)更新函數(shù)
- val mapFunction = (datehour:String, pv:Option[Long], state:State[Long]) => {
- val accuSum = pv.getOrElse(0L) + state.getOption().getOrElse(0L)
- val output = (datehour,accuSum)
- state.update(accuSum)
- output
- }
這樣就很容易的把pv計算出來了。
2)uv的計算
uv是要全天去重的,每次進來一個batch的數(shù)據(jù),如果用原生的reduceByKey或者groupByKey對配置要求太高,在配置較低情況下,我們申請了一個93G的redis用來去重,原理是每進來一條數(shù)據(jù),將date作為key,guid加入set集合,20秒刷新一次,也就是將set集合的尺寸取出來,更新一下數(shù)據(jù)庫即可。
- helper_data.foreachRDD(rdd => {
- rdd.foreachPartition(eachPartition => {
- // 獲取redis連接
- val jedis = getJedis
- eachPartition.foreach(x => {
- // 省略若干...
- jedis.sadd(key,x._2)
- // 設置存儲每天的數(shù)據(jù)的set過期時間,防止超過redis容量,這樣每天的set集合,定期會被自動刪除
- jedis.expire(key,ConfigFactory.rediskeyexists)
- })
- // 關閉連接
- closeJedis(jedis)
- })
- })
3)結果保存到數(shù)據(jù)庫
結果保存到mysql,數(shù)據(jù)庫,10秒刷新一次數(shù)據(jù)庫,前端展示刷新一次,就會重新查詢一次數(shù)據(jù)庫,做到實時統(tǒng)計展示pv,uv的目的。
- /**
- * 插入數(shù)據(jù)
- * @param data (addTab(datehour)+helperversion)
- * @param tbName
- * @param colNames
- */
- def insertHelper(data: DStream[(String, Long)], tbName: String, colNames: String*): Unit = {
- data.foreachRDD(rdd => {
- val tmp_rdd = rdd.map(x => x._1.substring(11, 13).toInt)
- if (!rdd.isEmpty()) {
- val hour_now = tmp_rdd.max() // 獲取當前結果中最大的時間,在數(shù)據(jù)恢復中可以起作用
- rdd.foreachPartition(eachPartition => {
- try {
- val jedis = getJedis
- val conn = MysqlPoolUtil.getConnection()
- conn.setAutoCommit(false)
- val stmt = conn.createStatement()
- eachPartition.foreach(x => {
- // val sql = ....
- // 省略若干
- stmt.addBatch(sql)
- })
- closeJedis(jedis)
- stmt.executeBatch() // 批量執(zhí)行sql語句
- conn.commit()
- conn.close()
- } catch {
- case e: Exception => {
- logger.error(e)
- logger2.error(HelperHandle.getClass.getSimpleName + e)
- }
- }
- })
- }
- })
- }
- // 計算當前時間距離次日零點的時長(毫秒)
- def resetTime = {
- val now = new Date()
- val todayEnd = Calendar.getInstance
- todayEnd.set(Calendar.HOUR_OF_DAY, 23) // Calendar.HOUR 12小時制
- todayEnd.set(Calendar.MINUTE, 59)
- todayEnd.set(Calendar.SECOND, 59)
- todayEnd.set(Calendar.MILLISECOND, 999)
- todayEnd.getTimeInMillis - now.getTime
- }
4)數(shù)據(jù)容錯
流處理消費kafka都會考慮到數(shù)據(jù)丟失問題,一般可以保存到任何存儲系統(tǒng),包括mysql,hdfs,hbase,redis,zookeeper等到。這里用SparkStreaming自帶的checkpoint機制來實現(xiàn)應用重啟時數(shù)據(jù)恢復。
checkpoint
這里采用的是checkpoint機制,在重啟或者失敗后重啟可以直接讀取上次沒有完成的任務,從kafka對應offset讀取數(shù)據(jù)。
- // 初始化配置文件
- ConfigFactory.initConfig()
- val conf = new SparkConf().setAppName(ConfigFactory.sparkstreamname)
- conf.set("spark.streaming.stopGracefullyOnShutdown","true")
- conf.set("spark.streaming.kafka.maxRatePerPartition",consumeRate)
- conf.set("spark.default.parallelism","24")
- val sc = new SparkContext(conf)
- while (true){
- val ssc = StreamingContext.getOrCreate(ConfigFactory.checkpointdir + DateUtil.getDay(0),getStreamingContext _ )
- ssc.start()
- ssc.awaitTerminationOrTimeout(resetTime)
- ssc.stop(false,true)
- }
checkpoint是每天一個目錄,在第二天凌晨定時銷毀StreamingContext對象,重新統(tǒng)計計算pv,uv。
注意:ssc.stop(false,true)表示優(yōu)雅地銷毀StreamingContext對象,不能銷毀SparkContext對象,ssc.stop(true,true)會停掉SparkContext對象,程序就直接停了。
應用遷移或者程序升級
在這個過程中,我們把應用升級了一下,比如說某個功能寫的不夠完善,或者有邏輯錯誤,這時候都是需要修改代碼,重新打jar包的,這時候如果把程序停了,新的應用還是會讀取老的checkpoint,可能會有兩個問題:
執(zhí)行的還是上一次的程序,因為checkpoint里面也有序列化的代碼;
直接執(zhí)行失敗,反序列化失敗;
其實有時候,修改代碼后不用刪除checkpoint也是可以直接生效,經過很多測試,我發(fā)現(xiàn)如果對數(shù)據(jù)的過濾操作導致數(shù)據(jù)過濾邏輯改變,還有狀態(tài)操作保存修改,也會導致重啟失敗,只有刪除checkpoint才行,可是實際中一旦刪除checkpoint,就會導致上一次未完成的任務和消費kafka的offset丟失,直接導致數(shù)據(jù)丟失,這種情況下我一般這么做。
這種情況一般是在另外一個集群,或者把checkpoint目錄修改下,我們是代碼與配置文件分離,所以修改配置文件checkpoint的位置還是很方便的。然后兩個程序一起跑,除了checkpoint目錄不一樣,會重新建,都插入同一個數(shù)據(jù)庫,跑一段時間后,把舊的程序停掉就好。以前看官網(wǎng)這么說,只能記住不能清楚明了,只有自己做時才會想一下辦法去保證數(shù)據(jù)準確。
5)保存offset到mysql
如果保存offset到mysql,就可以將pv, uv和offset作為一條語句保存到mysql,從而可以保證exactly-once語義。
- var messages: InputDStream[ConsumerRecord[String, String]] = null
- if (tpMap.nonEmpty) {
- messages = KafkaUtils.createDirectStream[String, String](
- ssc
- , LocationStrategies.PreferConsistent
- , ConsumerStrategies.Subscribe[String, String](topics, kafkaParams, tpMap.toMap)
- )
- } else {
- messages = KafkaUtils.createDirectStream[String, String](
- ssc
- , LocationStrategies.PreferConsistent
- , ConsumerStrategies.Subscribe[String, String](topics, kafkaParams)
- )
- }
- messages.foreachRDD(rdd => {
- ....
- })
從mysql讀取offset并且解析:
- /**
- * 從mysql查詢offset
- *
- * @param tbName
- * @return
- */
- def getLastOffsets(tbName: String): mutable.HashMap[TopicPartition, Long] = {
- val sql = s"select offset from ${tbName} where id = (select max(id) from ${tbName})"
- val conn = MysqlPool.getConnection(config)
- val psts = conn.prepareStatement(sql)
- val res = psts.executeQuery()
- var tpMap: mutable.HashMap[TopicPartition, Long] = mutable.HashMap[TopicPartition, Long]()
- while (res.next()) {
- val o = res.getString(1)
- val jSONArray = JSON.parseArray(o)
- jSONArray.toArray().foreach(offset => {
- val json = JSON.parseObject(offset.toString)
- val topicAndPartition = new TopicPartition(json.getString("topic"), json.getInteger("partition"))
- tpMap.put(topicAndPartition, json.getLong("untilOffset"))
- })
- }
- MysqlPool.closeCon(res, psts, conn)
- tpMap
- }
6)日志
日志用的log4j2,本地保存一份,ERROR級別的日志會通過郵件發(fā)送到手機,如果錯誤太多也會被郵件轟炸,需要注意。
- val logger = LogManager.getLogger(HelperHandle.getClass.getSimpleName)
- // 郵件level=error日志
- val logger2 = LogManager.getLogger("email")