自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Apache Kylin中對(duì)上億字符串的精確Count_Distinct示例

大數(shù)據(jù)
由于Global Dictionary 底層基于bitmap,其最大容量為Integer.MAX_VALUE,即21億多,如果全局字典中,累計(jì)值超過Integer.MAX_VALUE,那么在Build時(shí)候便會(huì)報(bào)錯(cuò)。

[[190885]]

如果業(yè)務(wù)中能接受1.22%的誤差,那么肯定首選近似算法,因?yàn)樗芄?jié)省很多資源和時(shí)間。如果業(yè)務(wù)中必須使用精確去重,那么就看看本文的例子(針對(duì)上億字符串的精確去重)。

事實(shí)表

  1. hive> desc test_t_pbs_uv_fact; 
  2. OK 
  3. ad_id                   string  //維度 
  4. material_id             string   //維度 
  5. city_code               string  //維度 
  6. user_id                 string   //指標(biāo),需要精確Count Distinct 
  7. bid_request             bigint  //指標(biāo),SUM 
  8. device_bid_request      bigint      //指標(biāo),SUM 
  9. win                     bigint  //指標(biāo),SUM  
  10. ck                      bigint  //指標(biāo),SUM  
  11. pt                      string  //維度,日期,yyyy-MM-dd 
  12.   

該事實(shí)表一天的數(shù)據(jù)記錄大概1.5億+,其中user_id為字符串,類似MD5后的字符串。

創(chuàng)建Model

在Kylin中創(chuàng)建名為lxw1234_uv_model的模型。

選擇維度和指標(biāo)字段:

創(chuàng)建Cube

創(chuàng)建名為lxw1234_uv_cube的Cube,其中,指標(biāo)定義如下:

其他請(qǐng)按實(shí)際業(yè)務(wù)需求配置。

手動(dòng)修改Cube(JSON)

如果不修改,精確Count Distinct使用了Default dictionary來保存編碼后的user_id,而Default dictionary的最大容量為500萬,并且,會(huì)為每個(gè)Segment生成一個(gè)Default dictionary,這樣的話,跨天進(jìn)行UV分析的時(shí)候,便會(huì)產(chǎn)生錯(cuò)誤的結(jié)果,如果每天不重復(fù)的user_id超過500萬,那么build的時(shí)候會(huì)報(bào)錯(cuò):

  1. java.lang.IllegalArgumentException: Too high cardinality is not suitable for dictionary — cardinality: 43377845  
  2. at org.apache.kylin.dict.DictionaryGenerator.buildDictionary(DictionaryGenerator.java:96) 
  3. at org.apache.kylin.dict.DictionaryGenerator.buildDictionary(DictionaryGenerator.java:73) 

該值由參數(shù) kylin.dictionary.max.cardinality 來控制,當(dāng)然,你可以修改該值為1億,但是Build時(shí)候可能會(huì)因?yàn)閮?nèi)存溢出而導(dǎo)致Kylin Server掛掉:

  1. # java.lang.OutOfMemoryError: Requested array size exceeds VM limit  
  2. # -XX:OnOutOfMemoryError=”kill -9 %p”  
  3. # Executing /bin/sh -c “kill -9 16193″… 

因此,這種需求我們需要手動(dòng)使用Global Dictionary,顧名思義,它是一個(gè)全局的字典,不分Segments,同一個(gè)user_id,在全局字典中只有一個(gè)ID。

目前Kylin的UI中沒有可以直接配置Global Dictionary的地方,需要手動(dòng)修改Cube的JSON描述:

在狀態(tài)為DISABLED的Cube列表中,點(diǎn)擊”Admins”菜單下的”Edit(JSON)”,進(jìn)入Cube JSON描述的編輯頁面,

添加下面的JSON

其中,在override_kylin_properties 中增加了兩個(gè)Cube的配置參數(shù),用于增加Mapper的運(yùn)行內(nèi)存。

  1. "dictionaries": [ 
  2.     { 
  3.       "column""USER_ID"
  4.       "builder""org.apache.kylin.dict.GlobalDictionaryBuilder" 
  5.     } 
  6.   ] 

定義了對(duì)USER_ID字段使用全局字典。

之后,保存JSON。

Build與查詢

Build完成后,在Hive和Kylin中執(zhí)行下面的查詢:

SELECT city_code,SUM(bid_request) AS bid_request,COUNT(DISTINCT user_id) AS uvFROM liuxiaowen.TEST_T_PBS_UV_FACTGROUP BY city_codeORDER BY uv DESC limit 30;

Hive中耗時(shí):181.134 seconds

Kylin中耗時(shí):9 seconds

查詢結(jié)果完全一致:

Global Dictionary存在問題

由于Global Dictionary 底層基于bitmap,其最大容量為Integer.MAX_VALUE,即21億多,如果全局字典中,累計(jì)值超過Integer.MAX_VALUE,那么在Build時(shí)候便會(huì)報(bào)錯(cuò)。

因此,使用全局字典還是有容量的限制。

責(zé)任編輯:武曉燕 來源: lxw的大數(shù)據(jù)田地
相關(guān)推薦

2011-04-07 13:53:04

SQL Server數(shù)

2011-12-20 10:28:01

Java字符串

2017-01-15 14:27:32

大數(shù)據(jù)美團(tuán)點(diǎn)評(píng)技術(shù)

2009-11-30 14:08:42

PHP字符串原理

2022-05-10 09:47:10

Bash字符串Linux

2009-11-30 10:40:46

PHP截取utf-8字

2010-03-22 17:53:50

Python字符Python字符串

2010-11-26 09:46:26

MySQL字符串相加

2010-11-01 14:19:20

DB2字符串

2010-06-28 15:18:51

SQL Server

2010-11-01 15:38:22

DB2字符串連接

2010-09-13 14:47:10

sql server字

2010-09-06 17:30:46

SQL函數(shù)

2021-03-11 18:44:39

字符串SQL表達(dá)式

2021-09-10 08:18:31

Go語言字符串

2011-07-11 16:00:22

字符串拼接

2011-06-08 15:45:41

字符串JAVA

2021-09-07 09:23:07

C++字符串算法

2020-09-03 10:13:49

JavaScript字符串pad

2009-02-24 15:39:27

字符串比較函數(shù)函數(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)