自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="hi148"></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

使用Spark Streaming SQL進行PV/UV統(tǒng)計

作者：ligh-rain 2019-10-17 09:25:56

大數(shù)據(jù) Spark

使用Spark Streaming SQL，并結(jié)合Redis可以很方便進行PV/UV的統(tǒng)計。本文將介紹通過Streaming SQL消費Loghub中存儲的用戶訪問信息，對過去1分鐘內(nèi)的數(shù)據(jù)進行PV/UV統(tǒng)計，將結(jié)果存入Redis中。

1.背景介紹

PV/UV統(tǒng)計是流式分析一個常見的場景。通過PV可以對訪問的網(wǎng)站做流量或熱點分析，例如廣告主可以通過PV值預(yù)估投放廣告網(wǎng)頁所帶來的流量以及廣告收入。另外一些場景需要對訪問的用戶作分析，比如分析用戶的網(wǎng)頁點擊行為，此時就需要對UV做統(tǒng)計。

使用Spark Streaming SQL，并結(jié)合Redis可以很方便進行PV/UV的統(tǒng)計。本文將介紹通過Streaming SQL消費Loghub中存儲的用戶訪問信息，對過去1分鐘內(nèi)的數(shù)據(jù)進行PV/UV統(tǒng)計，將結(jié)果存入Redis中。

2.準(zhǔn)備工作

創(chuàng)建E-MapReduce 3.23.0以上版本的Hadoop集群。
下載并編譯E-MapReduce-SDK包

git clone git@github.com:aliyun/aliyun-emapreduce-sdk.git 
cd aliyun-emapreduce-sdk 
git checkout -b master-2.x origin/master-2.x 
mvn clean package -DskipTests

編譯完后, assembly/target目錄下會生成emr-datasources_shaded_${version}.jar，其中${version}為sdk的版本。

數(shù)據(jù)源

本文采用Loghub作為數(shù)據(jù)源，有關(guān)日志采集、日志解析請參考日志服務(wù)。

3.統(tǒng)計PV/UV

一般場景下需要將統(tǒng)計出的PV/UV以及相應(yīng)的統(tǒng)計時間存入Redis。其他一些業(yè)務(wù)場景中，也會只保存最新結(jié)果，用新的結(jié)果不斷覆蓋更新舊的數(shù)據(jù)。以下首先介紹第一種情況的操作流程。

3.1啟動客戶端

命令行啟動streaming-sql客戶端

streaming-sql --master yarn-client --num-executors 2 --executor-memory 2g --executor-cores 2 --jars emr-datasources_shaded_2.11-${version}.jar --driver-class-path emr-datasources_shaded_2.11-${version}.jar

也可以創(chuàng)建SQL語句文件，通過streaming-sql -f的方式運行。

3.1定義數(shù)據(jù)表

數(shù)據(jù)源表定義如下

CREATE TABLE loghub_source(user_ip STRING, __time__ TIMESTAMP)  
USING loghub  
OPTIONS( 
sls.project=${sls.project}, 
sls.store=${sls.store}, 
access.key.id=${access.key.id}, 
access.key.secret=${access.key.secret}, 
endpoint=${endpoint});

其中，數(shù)據(jù)源表包含user_ip和__time__兩個字段，分別代表用戶的IP地址和loghub上的時間列。OPTIONS中配置項的值根據(jù)實際配置。

結(jié)果表定義如下

CREATE TABLE redis_sink  
USING redis  
OPTIONS( 
table='statistic_info', 
host=${redis_host}, 
key.column='interval');

其中，statistic_info為Redis存儲結(jié)果的表名，interval對應(yīng)統(tǒng)計結(jié)果中的interval字段;配置項${redis_host}的值根據(jù)實際配置。

3.2創(chuàng)建流作業(yè)

CREATE SCAN loghub_scan 
ON loghub_source 
USING STREAM 
OPTIONS( 
watermark.column='__time__', 
watermark.delayThreshold='10 second'); 
 
CREATE STREAM job 
OPTIONS( 
checkpointLocation=${checkpoint_location}) 
INSERT INTO redis_sink 
SELECT COUNT(user_ip) AS pv, approx_count_distinct( user_ip) AS uv, window.end AS interval 
FROM loghub_scan 
GROUP BY TUMBLING(__time__, interval 1 minute), window;

4.3查看統(tǒng)計結(jié)果

最終的統(tǒng)計結(jié)果如下圖所示

可以看到，每隔一分鐘都會生成一條數(shù)據(jù)，key的形式為表名:interval，value為pv和uv的值。

3.4實現(xiàn)覆蓋更新

將結(jié)果表的配置項key.column修改為一個固定的值，例如定義如下

CREATE TABLE redis_sink 
USING redis  
OPTIONS( 
table='statistic_info', 
host=${redis_host}, 
key.column='statistic_type');

創(chuàng)建流作業(yè)的SQL改為

CREATE STREAM job 
OPTIONS( 
checkpointLocation='/tmp/spark-test/checkpoint') 
INSERT INTO redis_sink 
SELECT "PV_UV" as statistic_type,COUNT(user_ip) AS pv, approx_count_distinct( user_ip) AS uv, window.end AS interval 
FROM loghub_scan 
GROUP BY TUMBLING(__time__, interval 1 minute), window;

最終的統(tǒng)計結(jié)果如下圖所示

可以看到，Redis中值保留了一個值，這個值每分鐘都被更新，value包含pv、uv和interval的值。

4.總結(jié)

本文簡要介紹了使用Streaming SQL結(jié)合Redis實現(xiàn)流式處理中統(tǒng)計PV/UV的需求。后續(xù)文章，我將介紹Spark Streaming SQL的更多內(nèi)容。

責(zé)任編輯：未麗燕來源：阿里云棲社區(qū)

Spark StreamingSQL PV UV 統(tǒng)計流量

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="puf8u"><p id="puf8u"></p></sub>

<sub id="puf8u"><p id="puf8u"></p></sub>