自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Flink 計(jì)算 Pv 和 Uv 的通用方法

網(wǎng)絡(luò) 通信技術(shù)
計(jì)算網(wǎng)站App的實(shí)時(shí)pv和uv,是很常見的統(tǒng)計(jì)需求,這里提供通用的計(jì)算方法,不同的業(yè)務(wù)需求只需要小改即可拿來即用。

[[432405]]

PV(訪問量):即Page View, 即頁面瀏覽量或點(diǎn)擊量,用戶每次刷新即被計(jì)算一次。

UV(獨(dú)立訪客):即Unique Visitor,訪問您網(wǎng)站的一臺(tái)電腦客戶端為一個(gè)訪客。00:00-24:00內(nèi)相同的客戶端只被計(jì)算一次。

計(jì)算網(wǎng)站App的實(shí)時(shí)pv和uv,是很常見的統(tǒng)計(jì)需求,這里提供通用的計(jì)算方法,不同的業(yè)務(wù)需求只需要小改即可拿來即用。

需求

利用Flink實(shí)時(shí)統(tǒng)計(jì),從0點(diǎn)到當(dāng)前的pv、uv。

一、需求分析

從Kafka發(fā)送過來的數(shù)據(jù)含有:時(shí)間戳、時(shí)間、維度、用戶id,需要從不同維度統(tǒng)計(jì)從0點(diǎn)到當(dāng)前時(shí)間的pv和uv,第二天0點(diǎn)重新開始計(jì)數(shù)第二天的。

二、技術(shù)方案

Kafka數(shù)據(jù)可能會(huì)有延遲亂序,這里引入watermark;

通過keyBy分流進(jìn)不同的滾動(dòng)window,每個(gè)窗口內(nèi)計(jì)算pv、uv;

由于需要保存一天的狀態(tài),process里面使用ValueState保存pv、uv;

使用BitMap類型ValueState,占內(nèi)存很小,引入支持bitmap的依賴;

保存狀態(tài)需要設(shè)置ttl過期時(shí)間,第二天把第一天的過期,避免內(nèi)存占用過大。

三、數(shù)據(jù)準(zhǔn)備

這里假設(shè)是用戶訂單數(shù)據(jù),數(shù)據(jù)格式如下:

  1. {"time":"2021-10-31 22:00:01","timestamp":"1635228001","product":"蘋果手機(jī)","uid":255420} 
  2. {"time":"2021-10-31 22:00:02","timestamp":"1635228001","product":"MacBook Pro","uid":255421} 

四、代碼實(shí)現(xiàn)

整個(gè)工程代碼截圖如下(抹去了一些不方便公開的信息):

pvuv-project

1. 環(huán)境

kafka:1.0.0;

Flink:1.11.0;

2. 發(fā)送測試數(shù)據(jù)

首先發(fā)送數(shù)據(jù)到kafka測試集群,maven依賴:

  1. <dependency> 
  2.     <groupId>org.apache.kafka</groupId> 
  3.     <artifactId>kafka-clients</artifactId> 
  4.     <version>2.4.1</version> 
  5. </dependency> 

2.4.1

 

發(fā)送代碼:

  1. import com.alibaba.fastjson.JSON; 
  2. import com.alibaba.fastjson.JSONObject; 
  3. import jodd.util.ThreadUtil; 
  4. import org.apache.commons.lang3.StringUtils; 
  5. import org.junit.Test; 
  6.  
  7. import java.io.*; 
  8.  
  9. public class SendDataToKafka { 
  10.  
  11.     @Test 
  12.     public void sendData() throws IOException { 
  13.         String inpath = "E:\\我的文件\\click.txt"
  14.         String topic = "click_test"
  15.         int cnt = 0; 
  16.         String line; 
  17.         InputStream inputStream = new FileInputStream(inpath); 
  18.         Reader reader = new InputStreamReader(inputStream); 
  19.         LineNumberReader lnr = new LineNumberReader(reader); 
  20.         while ((line = lnr.readLine()) != null) { 
  21.             // 這里的KafkaUtil是個(gè)生產(chǎn)者、消費(fèi)者工具類,可以自行實(shí)現(xiàn) 
  22.             KafkaUtil.sendDataToKafka(topic, String.valueOf(cnt), line); 
  23.             cnt = cnt + 1; 
  24.             ThreadUtil.sleep(100); 
  25.         } 
  26.     } 

3. 主要程序

先定義個(gè)pojo:

  1. @NoArgsConstructor 
  2. @AllArgsConstructor 
  3. @Data 
  4. @ToString 
  5. public class UserClickModel { 
  6.     private String date
  7.     private String product; 
  8.     private int uid; 
  9.     private int pv; 
  10.     private int uv; 

接著就是使用Flink消費(fèi)kafka,指定Watermark,通過KeyBy分流,進(jìn)入滾動(dòng)窗口函數(shù)通過狀態(tài)保存pv和uv。

  1. public class UserClickMain { 
  2.  
  3.     private static final Map<String, String> config = Configuration.initConfig("commons.xml"); 
  4.  
  5.     public static void main(String[] args) throws Exception { 
  6.  
  7.         // 初始化環(huán)境,配置相關(guān)屬性 
  8.         StreamExecutionEnvironment senv = StreamExecutionEnvironment.getExecutionEnvironment(); 
  9.         senv.setStreamTimeCharacteristic(TimeCharacteristic.EventTime); 
  10.         senv.enableCheckpointing(5000, CheckpointingMode.EXACTLY_ONCE); 
  11.         senv.setStateBackend(new FsStateBackend("hdfs://bigdata/flink/checkpoints/userClick")); 
  12.  
  13.         // 讀取kafka 
  14.         Properties kafkaProps = new Properties(); 
  15.         kafkaProps.setProperty("bootstrap.servers", config.get("kafka-ipport")); 
  16.         kafkaProps.setProperty("group.id", config.get("kafka-groupid")); 
  17.         // kafkaProps.setProperty("auto.offset.reset""earliest"); 
  18.  
  19.         // watrmark 允許數(shù)據(jù)延遲時(shí)間 
  20.         long maxOutOfOrderness = 5 * 1000L; 
  21.         SingleOutputStreamOperator<UserClickModel> dataStream = senv.addSource( 
  22.                 new FlinkKafkaConsumer<>( 
  23.                         config.get("kafka-topic"), 
  24.                         new SimpleStringSchema(), 
  25.                         kafkaProps 
  26.                 )) 
  27.                 //設(shè)置watermark 
  28.                 .assignTimestampsAndWatermarks(WatermarkStrategy.<String>forBoundedOutOfOrderness(Duration.ofMillis(maxOutOfOrderness)) 
  29.                         .withTimestampAssigner((element, recordTimestamp) -> { 
  30.                             // 時(shí)間戳須為毫秒 
  31.                             return Long.valueOf(JSON.parseObject(element).getString("timestamp")) * 1000; 
  32.                         })).map(new FCClickMapFunction()).returns(TypeInformation.of(new TypeHint<UserClickModel>() { 
  33.                 })); 
  34.  
  35.         // 按照 (date, product) 分組 
  36.         dataStream.keyBy(new KeySelector<UserClickModel, Tuple2<String, String>>() { 
  37.             @Override 
  38.             public Tuple2<String, String> getKey(UserClickModel value) throws Exception { 
  39.                 return Tuple2.of(value.getDate(), value.getProduct()); 
  40.             } 
  41.         }) 
  42.                 // 一天為窗口,指定時(shí)間起點(diǎn)比時(shí)間戳?xí)r間早8個(gè)小時(shí) 
  43.                 .window(TumblingEventTimeWindows.of(Time.days(1), Time.hours(-8))) 
  44.                 // 10s觸發(fā)一次計(jì)算,更新統(tǒng)計(jì)結(jié)果 
  45.                 .trigger(ContinuousEventTimeTrigger.of(Time.seconds(10))) 
  46.                 // 計(jì)算pv uv 
  47.                 .process(new MyProcessWindowFunctionBitMap()) 
  48.                 // 保存結(jié)果到mysql 
  49.                 .addSink(new FCClickSinkFunction()); 
  50.  
  51.         senv.execute(UserClickMain.class.getSimpleName()); 
  52.     } 

代碼都是一些常規(guī)代碼,但是還是有幾點(diǎn)需要注意的。

注意

設(shè)置watermark,flink1.11中使用WatermarkStrategy,老的已經(jīng)廢棄了;

我的數(shù)據(jù)里面時(shí)間戳是秒,需要乘以1000,flink提取時(shí)間字段,必須為毫秒;

.window只傳入一個(gè)參數(shù),表明是滾動(dòng)窗口,TumblingEventTimeWindows.of(Time.days(1), Time.hours(-8))這里指定了窗口的大小為一天,由于中國北京時(shí)間是東8區(qū),比國際時(shí)間早8個(gè)小時(shí),需要引入offset,可以自行進(jìn)入該方法源碼查看英文注釋。

Rather than that,if you are living in somewhere which is not using UTC±00:00 time,

* such as China which is using UTC+08:00,and you want a time window with size of one day,

* and window begins at every 00:00:00 of local time,you may use {@code of(Time.days(1),Time.hours(-8))}.

* The parameter of offset is {@code Time.hours(-8))} since UTC+08:00 is 8 hours earlier than UTC time.

一天大小的窗口,根據(jù)watermark機(jī)制一天觸發(fā)計(jì)算一次,顯然是不合理的,需要用trigger函數(shù)指定觸發(fā)間隔為10s一次,這樣我們的pv和uv就是10s更新一次結(jié)果。

4. 關(guān)鍵代碼,計(jì)算uv

由于這里用戶id剛好是數(shù)字,可以使用bitmap去重,簡單原理是:把 user_id 作為 bit 的偏移量 offset,設(shè)置為 1 表示有訪問,使用 1 MB的空間就可以存放 800 多萬用戶的一天訪問計(jì)數(shù)情況。

redis是自帶bit數(shù)據(jù)結(jié)構(gòu)的,不過為了盡量少依賴外部存儲(chǔ)媒介,這里自己實(shí)現(xiàn)bit,引入相應(yīng)maven依賴即可:

  1. <dependency> 
  2.     <groupId>org.roaringbitmap</groupId> 
  3.     <artifactId>RoaringBitmap</artifactId> 
  4.     <version>0.8.0</version> 
  5. </dependency> 

 

計(jì)算pv、uv的代碼其實(shí)都是通用的,可以根據(jù)自己的實(shí)際業(yè)務(wù)情況快速修改的:

  1. public class MyProcessWindowFunctionBitMap extends ProcessWindowFunction<UserClickModel, UserClickModel, Tuple<String, String>, TimeWindow> { 
  2.  
  3.     private transient ValueState<Integer> pvState; 
  4.     private transient ValueState<Roaring64NavigableMap> bitMapState; 
  5.  
  6.     @Override 
  7.     public void open(Configuration parameters) throws Exception { 
  8.         super.open(parameters); 
  9.         ValueStateDescriptor<Integer> pvStateDescriptor = new ValueStateDescriptor<>("pv"Integer.class); 
  10.         ValueStateDescriptor<Roaring64NavigableMap> bitMapStateDescriptor = new ValueStateDescriptor("bitMap" 
  11.                 , TypeInformation.of(new TypeHint<Roaring64NavigableMap>() {})); 
  12.  
  13.         // 過期狀態(tài)清除 
  14.         StateTtlConfig stateTtlConfig = StateTtlConfig 
  15.                 .newBuilder(Time.days(1)) 
  16.                 .setUpdateType(StateTtlConfig.UpdateType.OnCreateAndWrite) 
  17.                 .setStateVisibility(StateTtlConfig.StateVisibility.NeverReturnExpired) 
  18.                 .build(); 
  19.         // 開啟ttl 
  20.         pvStateDescriptor.enableTimeToLive(stateTtlConfig); 
  21.         bitMapStateDescriptor.enableTimeToLive(stateTtlConfig); 
  22.  
  23.         pvState = this.getRuntimeContext().getState(pvStateDescriptor); 
  24.         bitMapState = this.getRuntimeContext().getState(bitMapStateDescriptor); 
  25.     } 
  26.  
  27.     @Override 
  28.     public void process(Tuple2<String, String> key, Context context, Iterable<UserClickModel> elements, Collector<UserClickModel> out) throws Exception { 
  29.  
  30.         // 當(dāng)前狀態(tài)的pv uv 
  31.         Integer pv = pvState.value(); 
  32.         Roaring64NavigableMap bitMap = bitMapState.value(); 
  33.         if(bitMap == null){ 
  34.             bitMap = new Roaring64NavigableMap(); 
  35.             pv = 0; 
  36.         } 
  37.  
  38.         Iterator<UserClickModel> iterator = elements.iterator(); 
  39.         while (iterator.hasNext()){ 
  40.             pv = pv + 1; 
  41.             int uid = iterator.next().getUid(); 
  42.             //如果userId可以轉(zhuǎn)成long 
  43.             bitMap.add(uid); 
  44.         } 
  45.  
  46.         // 更新pv 
  47.         pvState.update(pv); 
  48.  
  49.         UserClickModel UserClickModel = new UserClickModel(); 
  50.         UserClickModel.setDate(key.f0); 
  51.         UserClickModel.setProduct(key.f1); 
  52.         UserClickModel.setPv(pv); 
  53.         UserClickModel.setUv(bitMap.getIntCardinality()); 
  54.  
  55.         out.collect(UserClickModel); 
  56.     } 

注意

由于計(jì)算uv第二天的時(shí)候,就不需要第一天數(shù)據(jù)了,要及時(shí)清理內(nèi)存中前一天的狀態(tài),通過ttl機(jī)制過期;

最終結(jié)果保存到mysql里面,如果數(shù)據(jù)結(jié)果分類聚合太多,要注意mysql壓力,這塊可以自行優(yōu)化;

五、其它方法

除了使用bitmap去重外,還可以使用Flink SQL,編碼更簡潔,還可以借助外面的媒介Redis去重:

  • 基于 set
  • 基于 bit
  • 基于 HyperLogLog
  • 基于bloomfilter

 

具體思路是,計(jì)算pv、uv都塞入redis里面,然后再獲取值保存統(tǒng)計(jì)結(jié)果,也是比較常用的。

 

責(zé)任編輯:武曉燕 來源: 大數(shù)據(jù)技術(shù)派
相關(guān)推薦

2021-06-06 13:10:12

FlinkPvUv

2021-06-03 08:10:30

SparkStream項(xiàng)目Uv

2016-10-16 13:48:54

多維分析 UVPV

2025-03-05 08:40:00

RedisJava開發(fā)

2019-10-17 09:25:56

Spark StreaPVUV

2015-12-23 17:08:25

H5

2019-01-03 10:11:05

服務(wù)器PV數(shù)量

2009-10-10 09:27:42

Java泛型通用方法

2024-04-09 07:50:59

Flink語義Watermark

2009-12-23 09:04:41

LINQ通用分頁

2009-07-02 15:12:39

2022-08-21 07:25:09

Flink云原生K8S

2024-06-18 11:32:19

2022-02-09 15:23:41

大數(shù)據(jù)流計(jì)算Spark

2022-04-14 10:24:27

分布式系統(tǒng)性能

2024-10-06 12:50:25

2021-07-29 10:47:51

Flink on Ze流計(jì)算

2009-07-02 11:29:22

JSP技術(shù)表單數(shù)據(jù)存儲(chǔ)

2017-11-21 15:50:09

FlinkStorm性能

2019-04-16 10:29:30

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)