global聚合是全局聚合,是對所有的文檔進(jìn)行聚合,而不受查詢條件的限制。global 聚合器只能作為頂級聚合器,因?yàn)閷⒁粋€ global 聚合器嵌入另一個桶聚合器是沒有意義的。
一、背景
此處將單記錄一下 global 、 filters和cardinality的聚合操作。
二、解釋
1、global
global聚合是全局聚合,是對所有的文檔進(jìn)行聚合,而不受查詢條件的限制。
global 聚合器只能作為頂級聚合器,因?yàn)閷⒁粋€ global 聚合器嵌入另一個桶聚合器是沒有意義的。
比如: 我們有50個文檔,通過查詢條件篩選之后存在10個文檔,此時我想統(tǒng)計(jì)總共有多少個文檔。是50個,因?yàn)?/span>global統(tǒng)計(jì)不受查詢條件的限制。
2、filters
定義一個多桶聚合,其中每個桶都與一個過濾器相關(guān)聯(lián)。每個桶都會收集與其關(guān)聯(lián)的過濾器匹配的所有文檔。
比如: 我們總共有50個文檔,通過查詢條件篩選之后存在10個文檔,此時我想統(tǒng)計(jì) 這10個文檔中,出現(xiàn)info詞語的文檔有多少個,出現(xiàn)warn詞語的文檔有多少個。
3、cardinality
類似于 SQL中的 COUNT(DISTINCT(字段)),不過這個是近似統(tǒng)計(jì),是基于 HyperLogLog++ 來實(shí)現(xiàn)的。
三、需求
我們有一組日志,每條日志都存在id和message2個字段。此時根據(jù)message字段過濾出存在info warn的日志,然后進(jìn)行統(tǒng)計(jì):
- 系統(tǒng)中總共有多少條日志(global + cardinality)
- info和warn級別的日志各有多少條(filters)
4、前置條件
4.1 創(chuàng)建mapping
PUT /index_api_log
{
"settings": {
"number_of_shards": 1
},
"mappings": {
"properties": {
"message":{
"type": "text"
},
"id": {
"type": "long"
}
}
}
}
4.2 準(zhǔn)備數(shù)據(jù)
PUT /index_api_log/_bulk
{"index":{"_id":1}}
{"message": "this is info message-01","id":1}
{"index":{"_id":2}}
{"message": "this is info message-02","id":2}
{"index":{"_id":3}}
{"message": "this is warn message-01","id":3}
{"index":{"_id":4}}
{"message": "this is error message","id":4}
{"index":{"_id":5}}
{"message": "this is info and warn message","id":5}
5、實(shí)現(xiàn)3的需求
5.1 dsl
POST /index_api_log/_search
{
"size": 0,
"query": {
"bool": {
"must": [
{
"match": {
"message": "info warn"
}
}
]
}
},
"aggregations": {
"agg_01": {
"filters": {
"filters": {
"info": {
"match": {
"message": "info"
}
},
"warn": {
"match": {
"message": "warn"
}
}
},
"other_bucket": true,
"other_bucket_key": "other"
}
},
"agg_02":{
"global": {},
"aggs": {
"total": {
"cardinality": {
"field": "id",
"precision_threshold": 30000
}
}
}
}
}
}
5.2 java 代碼
@Test
@DisplayName("global and filters and cardinality 聚合")
public void test01() throws IOException {
SearchRequest request = SearchRequest.of(searchRequest ->
searchRequest.index("index_api_log")
// 查詢 message 中存在 info 和 warn 的日志
.query(query -> query.bool(bool -> bool.must(must -> must.match(match -> match.field("message").query("info warn")))))
// 查詢的結(jié)果不返回
.size(0)
// 第一個聚合
.aggregations("agg_01", agg ->
agg.filters(filters ->
filters.filters(f ->
f.array(
Arrays.asList(
// 在上一步query的結(jié)果中,將 message中包含info的進(jìn)行聚合
Query.of(q -> q.match(m -> m.field("message").query("info"))),
// 在上一步query的結(jié)果中,將 message中包含warn的進(jìn)行聚合
Query.of(q -> q.match(m -> m.field("message").query("warn")))
)
)
)
// 如果上一步的查詢中,存在非 info 和 warn的則是否聚合到 other 桶中
.otherBucket(true)
// 給 other 桶取一個名字
.otherBucketKey("other")
)
)
// 第二個聚合
.aggregations("agg_02", agg ->
agg
// 此處的 global 聚合只能放在頂部
.global(global -> global)
// 子聚合,數(shù)據(jù)來源于所有的文檔,不受上一步query結(jié)果的限制
.aggregations("total", subAgg ->
// 類似于SQL中的 count(distinct(字段)),是一個近似統(tǒng)計(jì)
subAgg.cardinality(cardinality ->
// 統(tǒng)計(jì)的字段
cardinality.field("id")
// 精度,默認(rèn)值是30000,最大值也是40000,不超過這個值的聚合近似準(zhǔn)確值
.precisionThreshold(30000)
)
)
)
);
System.out.println("request: " + request);
SearchResponse<String> response = client.search(request, String.class);
System.out.println("response: " + response);
}
5.3 運(yùn)行結(jié)果

運(yùn)行結(jié)果
6、實(shí)現(xiàn)代碼
??https://gitee.com/huan1993/spring-cloud-parent/blob/master/es/es8-api/src/main/java/com/huan/es8/aggregations/bucket/GlobalAndFiltersAggs.java??
7、參考文檔
??https://www.elastic.co/guide/en/elasticsearch/reference/current/search-aggregations-bucket-global-aggregation.html??