自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

基于Hadoop生態(tài)系統(tǒng)的一種高性能數(shù)據(jù)存儲(chǔ)格式CarbonData(基礎(chǔ)篇)

存儲(chǔ) 存儲(chǔ)軟件 Hadoop
隨著數(shù)據(jù)的與日俱增,業(yè)務(wù)驅(qū)動(dòng)下的數(shù)據(jù)分析靈活性要求越來(lái)越高,不同場(chǎng)景的數(shù)據(jù)分不同業(yè)務(wù)系統(tǒng)而構(gòu)建,導(dǎo)致存儲(chǔ)冗余嚴(yán)重,缺乏高效、統(tǒng)一的融合數(shù)據(jù)分析。

背景

大數(shù)據(jù)時(shí)代,企業(yè)數(shù)據(jù)爆發(fā)式增長(zhǎng),如國(guó)內(nèi)某企業(yè)平均每天有300億筆業(yè)務(wù),業(yè)務(wù)高峰期間每天可達(dá)600億筆業(yè)務(wù)。隨著數(shù)據(jù)的與日俱增,業(yè)務(wù)驅(qū)動(dòng)下的數(shù)據(jù)分析靈活性要求越來(lái)越高,不同場(chǎng)景的數(shù)據(jù)分不同業(yè)務(wù)系統(tǒng)而構(gòu)建,導(dǎo)致存儲(chǔ)冗余嚴(yán)重,缺乏高效、統(tǒng)一的融合數(shù)據(jù)分析。

業(yè)界大數(shù)據(jù)分析方案,每種技術(shù)都只能解決某種場(chǎng)景下的訴求,不能同時(shí)滿足多場(chǎng)景的應(yīng)用,例如:MPP數(shù)據(jù)庫(kù),SQL語(yǔ)法支持好,小數(shù)據(jù)量下通過(guò)并行計(jì)算性能高,但支持萬(wàn)億數(shù)據(jù)規(guī)模困難,不能有效與Hadoop生態(tài)集成,數(shù)據(jù)不能與其他大數(shù)據(jù)組件共享存儲(chǔ);搜索類技術(shù)提升了性能,但是數(shù)據(jù)膨脹很大,不支持標(biāo)準(zhǔn)的SQL,不兼容老業(yè)務(wù)。

[[234872]]

Apache CarbonData是一種高性能大數(shù)據(jù)存儲(chǔ)方案,與Hadoop、Spark等大數(shù)據(jù)生態(tài)組件無(wú)縫集成。針對(duì)當(dāng)前大數(shù)據(jù)領(lǐng)域分析場(chǎng)景需求各異而導(dǎo)致的存儲(chǔ)冗余問(wèn)題,CarbonData提供了一種新的融合數(shù)據(jù)存儲(chǔ)方案,以一份數(shù)據(jù)同時(shí)支持多種應(yīng)用場(chǎng)景,并通過(guò)多級(jí)索引、字典編碼、預(yù)聚合、動(dòng)態(tài)Partition、準(zhǔn)實(shí)時(shí)數(shù)據(jù)查詢等特性提升了IO掃描和計(jì)算性能,實(shí)現(xiàn)萬(wàn)億數(shù)據(jù)分析秒級(jí)響應(yīng)。

1.架構(gòu)原理

設(shè)計(jì)思路:

  1. 往下生態(tài):與Hadoop HDFS(Hadoop是當(dāng)前大數(shù)據(jù)生態(tài)的代名詞)無(wú)縫集成,一個(gè)CarbonData文件就是一個(gè)HDFS數(shù)據(jù)塊,充分利用HDFS的分布式,三份數(shù)據(jù)備份的可靠性等。
  2. 往上生態(tài):與Spark做深度集成,充分利用Spark生態(tài)(當(dāng)前業(yè)界***的計(jì)算引擎),支持標(biāo)準(zhǔn)SQL查詢,Dataframe數(shù)據(jù)分析,支持機(jī)器學(xué)習(xí)等。隨著CarbonData的用戶越來(lái)越多,為了增強(qiáng)CarbonData的生態(tài)連接性,后續(xù)陸續(xù)支持了與Presto、Hive集成(Alpha特性)。
  3. 如何做到一份數(shù)據(jù)快速查詢:利用多種索引(MDK,MinMax,倒排),快速找到目標(biāo)數(shù)據(jù),具體原理如下圖:

首先找到符合查詢條件的CarbonData文件;如上圖,***了2個(gè)文件,則啟動(dòng)兩個(gè)Spark Task去讀數(shù)據(jù)塊(即 文件),在CarbonData文件里進(jìn)一步細(xì)分成多個(gè)Blocklet,在Blocklet里又進(jìn)一步細(xì)分成Page。

數(shù)據(jù)格式:

  • 數(shù)據(jù)布局:

Block:一個(gè)hdfs文件,默認(rèn)1G,可配置

Blocklet:文件內(nèi)的列存數(shù)據(jù)塊,是最小的IO讀取單元

Column Chunk:在一個(gè)Blocklet中一列/列組的數(shù)據(jù)

Pages:Column Chunk內(nèi)的數(shù)據(jù)頁(yè),是最小的解碼單元

  • 元數(shù)據(jù)信息:

Header:Version,Schema

Footer:BlockletOffset,Index & 文件級(jí)統(tǒng)計(jì)信息

  • 內(nèi)置索引和統(tǒng)計(jì)信息:

Blocklet索引:B Tree startKey, endKey

Blocklet級(jí)和Page級(jí)統(tǒng)計(jì)信息:min,max等

上圖為CarbonData內(nèi)部的文件格式,有File-header、有File-footer、有記錄元數(shù)據(jù)中心,包括schema數(shù)據(jù)、偏移量數(shù)據(jù)等。我們重點(diǎn)看一下中間的Blocklet內(nèi)容。Blocklet是數(shù)據(jù)文件內(nèi)的一個(gè)列存數(shù)據(jù)塊。Blocklet內(nèi)部按列存儲(chǔ),比如說(shuō)有column1_chunk、colume2_chunk,每一列數(shù)據(jù)又分為Page,Page是最小的解碼單元。另外一個(gè)特點(diǎn)是除了元數(shù)據(jù)信息以外,還有索引信息。索引信息被統(tǒng)一存在File-footer內(nèi),它包括了Blocklet的索引,即主索引,它是一棵B樹,里面包含了start_key和end_key之間的范圍值。同時(shí)也包括 Blocklet級(jí)和Page級(jí)統(tǒng)計(jì)信息,這些統(tǒng)計(jì)信息是非常有用的,通過(guò)這些信息可以跳過(guò) Blocklet和Page,避免不必要的 IO 和解碼。

2.安裝部署

CarbonData安裝部署非常簡(jiǎn)單,可以參考社區(qū)文檔:

https://github.com/apache/carbondata/blob/master/docs/quick-start-guide.md

https://github.com/apache/carbondata/blob/master/docs/installation-guide.md

 

 

責(zé)任編輯:武曉燕 來(lái)源: Linux寶庫(kù)
相關(guān)推薦

2019-05-08 14:18:40

Hadoop存儲(chǔ)CarbonData

2017-01-05 09:48:51

大數(shù)據(jù)數(shù)據(jù)格式生態(tài)

2016-12-20 16:40:13

CarbonData數(shù)據(jù)存儲(chǔ)大數(shù)據(jù)

2013-11-04 16:57:21

Hadoop大數(shù)據(jù)Hadoop生態(tài)系統(tǒng)

2017-06-15 10:21:30

Apache Hado存儲(chǔ)引擎性能

2022-01-06 18:21:00

Hadoop生態(tài)系統(tǒng)

2011-04-26 10:08:47

Linux存儲(chǔ)生態(tài)環(huán)境

2011-12-09 11:02:52

NoSQL

2021-11-23 20:54:34

AI 生態(tài)系統(tǒng)

2023-03-29 11:11:42

2013-05-27 10:01:33

HadoopHadoop系統(tǒng)

2015-06-08 12:44:58

大數(shù)據(jù)InterlAMPCamp

2018-03-19 15:17:37

Hadoop大數(shù)據(jù)數(shù)據(jù)

2017-06-23 21:07:15

大數(shù)據(jù)HadoopHBase

2009-12-25 14:49:55

2019-01-13 15:00:52

區(qū)塊鏈生態(tài)系統(tǒng)

2012-04-25 10:52:30

生態(tài)系統(tǒng)AppleGoogle

2011-05-19 15:15:39

Oracle生態(tài)系統(tǒng)

2015-04-01 11:23:23

2010-05-12 11:16:00

SAP
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)