自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

基于Hadoop生態(tài)系統(tǒng)的一高性能數(shù)據(jù)存儲(chǔ)格式CarbonData(性能篇)

存儲(chǔ) 存儲(chǔ)軟件 Hadoop
CarbonData在數(shù)據(jù)查詢的性能表現(xiàn)比Parquet好很多,在寫一次讀多次的場(chǎng)景下非常適合使用;社區(qū)比較活躍,響應(yīng)也很及時(shí)。目前官網(wǎng)發(fā)布版本1.3.0與最新的spark穩(wěn)定版Spark2.2.1集成,增加了支持標(biāo)準(zhǔn)的Hive分區(qū),支持流數(shù)據(jù)準(zhǔn)實(shí)時(shí)入庫等新特性,相信會(huì)有越來越多的項(xiàng)目會(huì)使用到。加米谷大數(shù)據(jù)轉(zhuǎn)給大家參考學(xué)習(xí)。

[[264630]]

 CarbonData在數(shù)據(jù)查詢的性能表現(xiàn)比Parquet好很多,在寫一次讀多次的場(chǎng)景下非常適合使用;社區(qū)比較活躍,響應(yīng)也很及時(shí)。目前官網(wǎng)發(fā)布版本1.3.0與***的spark穩(wěn)定版Spark2.2.1集成,增加了支持標(biāo)準(zhǔn)的Hive分區(qū),支持流數(shù)據(jù)準(zhǔn)實(shí)時(shí)入庫等新特性,相信會(huì)有越來越多的項(xiàng)目會(huì)使用到。

一、評(píng)測(cè)環(huán)境

1)網(wǎng)絡(luò)拓?fù)鋱D

基于Hadoop生態(tài)系統(tǒng)的一高性能數(shù)據(jù)存儲(chǔ)格式CarbonData(性能篇)

2)配置參數(shù)

Ø 服務(wù)器配置

基于Hadoop生態(tài)系統(tǒng)的一高性能數(shù)據(jù)存儲(chǔ)格式CarbonData(性能篇)

二、性能對(duì)比

目前主流hadoop的文件存儲(chǔ)格式有行存儲(chǔ)的CSV格式,列式存儲(chǔ)的ORC和Parquet等。本章給出的是Parquet+Spark和CarbonData+Spark在過濾查詢場(chǎng)景和聚合計(jì)算場(chǎng)景的性能測(cè)試結(jié)果。

1)測(cè)試數(shù)據(jù)

創(chuàng)建沈陽社保的數(shù)據(jù)倉庫,導(dǎo)入、集成1年的測(cè)試數(shù)據(jù),如下表:

基于Hadoop生態(tài)系統(tǒng)的一高性能數(shù)據(jù)存儲(chǔ)格式CarbonData(性能篇)

生成CarbonData格式文件,如下表:

基于Hadoop生態(tài)系統(tǒng)的一高性能數(shù)據(jù)存儲(chǔ)格式CarbonData(性能篇)

2)過濾查詢場(chǎng)景測(cè)試

基于Hadoop生態(tài)系統(tǒng)的一高性能數(shù)據(jù)存儲(chǔ)格式CarbonData(性能篇)

基于Hadoop生態(tài)系統(tǒng)的一高性能數(shù)據(jù)存儲(chǔ)格式CarbonData(性能篇)

Parquet和CarbonData在過濾查詢場(chǎng)景下的性能對(duì)比

3)聚合計(jì)算場(chǎng)景測(cè)試

Parquet和CarbonData在聚合計(jì)算場(chǎng)景下的性能對(duì)比

4)總結(jié)分析

在過濾查詢中,CarbonData的查詢效率比parquet效率好,主要體現(xiàn)在列數(shù)據(jù)的索引查詢,極大地提高了精確查詢的性能。在聚合查詢中,CarbonData通過使用全局字典編碼來加快計(jì)算速度,這使得處理、查詢引擎可以直接在編碼好的數(shù)據(jù)上進(jìn)行處理而不需要轉(zhuǎn)換數(shù)據(jù),數(shù)據(jù)只有在返回結(jié)果給用戶的時(shí)候才轉(zhuǎn)換成用戶可讀的形式,通過索引有效過濾文件數(shù)據(jù)塊減少磁盤的IO,提高查詢性能。

基于Hadoop生態(tài)系統(tǒng)的一高性能數(shù)據(jù)存儲(chǔ)格式CarbonData(性能篇)

三、小結(jié)

CarbonData在數(shù)據(jù)查詢的性能表現(xiàn)比Parquet好很多,在寫一次讀多次的場(chǎng)景下非常適合使用;社區(qū)比較活躍,響應(yīng)也很及時(shí)。目前官網(wǎng)發(fā)布版本1.3.0與***的spark穩(wěn)定版Spark2.2.1集成,增加了支持標(biāo)準(zhǔn)的Hive分區(qū),支持流數(shù)據(jù)準(zhǔn)實(shí)時(shí)入庫等新特性,相信會(huì)有越來越多的項(xiàng)目會(huì)使用到。

責(zé)任編輯:武曉燕 來源: 今日頭條
相關(guān)推薦

2018-07-03 08:33:04

Hadoop存儲(chǔ)CarbonData

2017-06-15 10:21:30

Apache Hado存儲(chǔ)引擎性能

2017-01-05 09:48:51

大數(shù)據(jù)數(shù)據(jù)格式生態(tài)

2016-12-20 16:40:13

CarbonData數(shù)據(jù)存儲(chǔ)大數(shù)據(jù)

2023-03-29 11:11:42

2013-11-04 16:57:21

Hadoop大數(shù)據(jù)Hadoop生態(tài)系統(tǒng)

2022-01-06 18:21:00

Hadoop生態(tài)系統(tǒng)

2011-04-26 10:08:47

Linux存儲(chǔ)生態(tài)環(huán)境

2011-12-09 11:02:52

NoSQL

2021-11-23 20:54:34

AI 生態(tài)系統(tǒng)

2013-05-27 10:01:33

HadoopHadoop系統(tǒng)

2015-06-08 12:44:58

大數(shù)據(jù)InterlAMPCamp

2018-03-19 15:17:37

Hadoop大數(shù)據(jù)數(shù)據(jù)

2017-06-23 21:07:15

大數(shù)據(jù)HadoopHBase

2022-06-08 14:49:32

F5NGINXAzure

2009-12-25 14:49:55

2019-01-13 15:00:52

區(qū)塊鏈生態(tài)系統(tǒng)

2012-04-25 10:52:30

生態(tài)系統(tǒng)AppleGoogle

2011-05-19 15:15:39

Oracle生態(tài)系統(tǒng)

2015-04-01 11:23:23

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)