自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<blockquote id="ebove"></blockquote>}

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

Hadoop HBase存儲(chǔ)原理結(jié)構(gòu)學(xué)習(xí)

作者：佚名 2018-06-13 08:53:39

存儲(chǔ) 存儲(chǔ)軟件 Hadoop

hbase是bigtable的開源山寨版本。是建立的hdfs之上，提供高可靠性、高性能、列存儲(chǔ)、可伸縮、實(shí)時(shí)讀寫的數(shù)據(jù)庫系統(tǒng)。

一、簡介

hbase是bigtable的開源山寨版本。是建立的hdfs之上，提供高可靠性、高性能、列存儲(chǔ)、可伸縮、實(shí)時(shí)讀寫的數(shù)據(jù)庫系統(tǒng)。

它介于nosql和RDBMS之間，僅能通過主鍵(row key)和主鍵的range來檢索數(shù)據(jù)，僅支持單行事務(wù)(可通過hive支持來實(shí)現(xiàn)多表join等復(fù)雜操作)。主要用來存儲(chǔ)非結(jié)構(gòu)化和半結(jié)構(gòu)化的松散數(shù)據(jù)。

與hadoop一樣，Hbase目標(biāo)主要依靠橫向擴(kuò)展，通過不斷增加廉價(jià)的商用服務(wù)器，來增加計(jì)算和存儲(chǔ)能力。

HBase中的表一般有這樣的特點(diǎn)：

1 大：一個(gè)表可以有上億行，上百萬列

2 面向列：面向列(族)的存儲(chǔ)和權(quán)限控制，列(族)獨(dú)立檢索。

3 稀疏：對于為空(null)的列，并不占用存儲(chǔ)空間，因此，表可以設(shè)計(jì)的非常稀疏。

二、邏輯視圖

Row Key

與nosql數(shù)據(jù)庫們一樣,row key是用來檢索記錄的主鍵。訪問hbase table中的行，只有三種方式：

1 通過單個(gè)row key訪問

2 通過row key的range

3 全表掃描

Row key行鍵 (Row key)可以是任意字符串(最大長度是 64KB，實(shí)際應(yīng)用中長度一般為 10-100bytes)，在hbase內(nèi)部，row key保存為字節(jié)數(shù)組。

存儲(chǔ)時(shí)，數(shù)據(jù)按照Row key的字典序(byte order)排序存儲(chǔ)。設(shè)計(jì)key時(shí)，要充分排序存儲(chǔ)這個(gè)特性，將經(jīng)常一起讀取的行存儲(chǔ)放到一起。(位置相關(guān)性)

注意：

字典序?qū)nt排序的結(jié)果是1,10,100,11,12,13,14,15,16,17,18,19,2,20,21,…,9,91,92,93,94,95,96,97,98,99。要保持整形的自然序，行鍵必須用0作左填充。

行的一次讀寫是原子操作 (不論一次讀寫多少列)。這個(gè)設(shè)計(jì)決策能夠使用戶很容易的理解程序在對同一個(gè)行進(jìn)行并發(fā)更新操作時(shí)的行為。

列族

hbase表中的每個(gè)列，都?xì)w屬與某個(gè)列族。列族是表的schema的一部分(而列不是)，必須在使用表之前定義。列名都以列族作為前綴。例如courses:history，courses:math都屬于courses這個(gè)列族。

訪問控制、磁盤和內(nèi)存的使用統(tǒng)計(jì)都是在列族層面進(jìn)行的。實(shí)際應(yīng)用中，列族上的控制權(quán)限能幫助我們管理不同類型的應(yīng)用：我們允許一些應(yīng)用可以添加新的基本數(shù)據(jù)、一些應(yīng)用可以讀取基本數(shù)據(jù)并創(chuàng)建繼承的列族、一些應(yīng)用則只允許瀏覽數(shù)據(jù)（甚至可能因為隱私的原因不能瀏覽所有數(shù)據(jù)）。

時(shí)間戳

HBase中通過row和columns確定的為一個(gè)存貯單元稱為cell。每個(gè)cell都保存著同一份數(shù)據(jù)的多個(gè)版本。版本通過時(shí)間戳來索引。時(shí)間戳的類型是64位整型。時(shí)間戳可以由hbase(在數(shù)據(jù)寫入時(shí)自動(dòng) )賦值，此時(shí)時(shí)間戳是精確到毫秒的當(dāng)前系統(tǒng)時(shí)間。時(shí)間戳也可以由客戶顯式賦值。如果應(yīng)用程序要避免數(shù)據(jù)版本沖突，就必須自己生成具有唯一性的時(shí)間戳。每個(gè)cell中，不同版本的數(shù)據(jù)按照時(shí)間倒序排序，即最新的數(shù)據(jù)排在最前面。

為了避免數(shù)據(jù)存在過多版本造成的的管理 (包括存貯和索引)負(fù)擔(dān)，hbase提供了兩種數(shù)據(jù)版本回收方式。

一是保存數(shù)據(jù)的最后n個(gè)版本

二是保存最近一段時(shí)間內(nèi)的版本（比如最近七天）。

用戶可以針對每個(gè)列族進(jìn)行設(shè)置。

Cell

由{row key, column(=<family> + <label>), version}唯一確定的單元。cell中的數(shù)據(jù)是沒有類型的，全部是字節(jié)碼形式存貯。

三、物理存儲(chǔ)

1 已經(jīng)提到過，Table中的所有行都按照row key的字典序排列。

2 Table在行的方向上分割為多個(gè)Hregion。

3 region按大小分割的，每個(gè)表一開始只有一個(gè)region，隨著數(shù)據(jù)不斷插入表，region不斷增大，當(dāng)增大到一個(gè)閥值的時(shí)候，Hregion就會(huì)等分會(huì)兩個(gè)新的Hregion。當(dāng)table中的行不斷增多，就會(huì)有越來越多的Hregion。

4 Hregion是Hbase中分布式存儲(chǔ)和負(fù)載均衡的最小單元。最小單元就表示不同的Hregion可以分布在不同的HRegion server上。但一個(gè)Hregion是不會(huì)拆分到多個(gè)server上的。

5 HRegion雖然是分布式存儲(chǔ)的最小單元，但并不是存儲(chǔ)的最小單元。

事實(shí)上，HRegion由一個(gè)或者多個(gè)Store組成，每個(gè)store保存一個(gè)columns family。

每個(gè)Strore又由一個(gè)memStore和0至多個(gè)StoreFile組成。如圖：StoreFile以HFile格式保存在HDFS上。

HFile的格式為：

Trailer部分的格式：

HFile分為六個(gè)部分：

Data Block 段–保存表中的數(shù)據(jù)，這部分可以被壓縮

Meta Block 段 (可選的)–保存用戶自定義的kv對，可以被壓縮。

File Info 段–Hfile的元信息，不被壓縮，用戶也可以在這一部分添加自己的元信息。

Data Block Index 段–Data Block的索引。每條索引的key是被索引的block的第一條記錄的key。

Meta Block Index段 (可選的)–Meta Block的索引。

Trailer–這一段是定長的。保存了每一段的偏移量，讀取一個(gè)HFile時(shí)，會(huì)首先讀取Trailer，Trailer保存了每個(gè)段的起始位置(段的Magic Number用來做安全check)，然后，DataBlock Index會(huì)被讀取到內(nèi)存中，這樣，當(dāng)檢索某個(gè)key時(shí)，不需要掃描整個(gè)HFile，而只需從內(nèi)存中找到key所在的block，通過一次磁盤io將整個(gè)block讀取到內(nèi)存中，再找到需要的key。DataBlock Index采用LRU機(jī)制淘汰。

HFile的Data Block，Meta Block通常采用壓縮方式存儲(chǔ)，壓縮之后可以大大減少網(wǎng)絡(luò)IO和磁盤IO，隨之而來的開銷當(dāng)然是需要花費(fèi)cpu進(jìn)行壓縮和解壓縮。

目標(biāo)Hfile的壓縮支持兩種方式：Gzip，Lzo。

HLog(WAL log)

WAL 意為Write ahead log(http://en.wikipedia.org/wiki/Write-ahead_logging)，類似mysql中的binlog,用來做災(zāi)難恢復(fù)只用，Hlog記錄數(shù)據(jù)的所有變更,一旦數(shù)據(jù)修改，就可以從log中進(jìn)行恢復(fù)。

每個(gè)Region Server維護(hù)一個(gè)Hlog,而不是每個(gè)Region一個(gè)。這樣不同region(來自不同table)的日志會(huì)混在一起，這樣做的目的是不斷追加單個(gè)文件相對于同時(shí)寫多個(gè)文件而言，可以減少磁盤尋址次數(shù)，因此可以提高對table的寫性能。帶來的麻煩是，如果一臺(tái)region server下線，為了恢復(fù)其上的region，需要將region server上的log進(jìn)行拆分，然后分發(fā)到其它region server上進(jìn)行恢復(fù)。

HLog文件就是一個(gè)普通的Hadoop Sequence File，Sequence File 的Key是HLogKey對象，HLogKey中記錄了寫入數(shù)據(jù)的歸屬信息，除了table和region名字外，同時(shí)還包括 sequence number和timestamp，timestamp是”寫入時(shí)間”，sequence number的起始值為0，或者是最近一次存入文件系統(tǒng)中sequence number。HLog Sequece File的Value是HBase的KeyValue對象，即對應(yīng)HFile中的KeyValue，可參見上文描述。

四、系統(tǒng)架構(gòu)

Client

1 包含訪問hbase的接口，client維護(hù)著一些cache來加快對hbase的訪問，比如regione的位置信息。

Zookeeper

1 保證任何時(shí)候，集群中只有一個(gè)master

2 存貯所有Region的尋址入口。

3 實(shí)時(shí)監(jiān)控Region Server的狀態(tài)，將Region server的上線和下線信息實(shí)時(shí)通知給Master

4 存儲(chǔ)Hbase的schema,包括有哪些table，每個(gè)table有哪些column family

Master

1 為Region server分配region

2 負(fù)責(zé)region server的負(fù)載均衡

3 發(fā)現(xiàn)失效的region server并重新分配其上的region

4 GFS上的垃圾文件回收

5 處理schema更新請求

Region Server

1 Region server維護(hù)Master分配給它的region，處理對這些region的IO請求

2 Region server負(fù)責(zé)切分在運(yùn)行過程中變得過大的region

可以看到，client訪問hbase上數(shù)據(jù)的過程并不需要master參與（尋址訪問zookeeper和region server，數(shù)據(jù)讀寫訪問regione server），master僅僅維護(hù)者table和region的元數(shù)據(jù)信息，負(fù)載很低。

五、關(guān)鍵算法/流程

region定位

系統(tǒng)如何找到某個(gè)row key (或者某個(gè) row key range)所在的region

bigtable 使用三層類似B+樹的結(jié)構(gòu)來保存region位置。

第一層是保存zookeeper里面的文件，它持有root region的位置。

第二層root region是.META.表的第一個(gè)region其中保存了.META.z表其它region的位置。通過root region，我們就可以訪問.META.表的數(shù)據(jù)。

.META.是第三層，它是一個(gè)特殊的表，保存了hbase中所有數(shù)據(jù)表的region 位置信息。

說明：

1 root region永遠(yuǎn)不會(huì)被split，保證了最需要三次跳轉(zhuǎn)，就能定位到任意region 。

2.META.表每行保存一個(gè)region的位置信息，row key 采用表名+表的最后一樣編碼而成。

3 為了加快訪問，.META.表的全部region都保存在內(nèi)存中。

假設(shè)，.META.表的一行在內(nèi)存中大約占用1KB。并且每個(gè)region限制為128MB。

那么上面的三層結(jié)構(gòu)可以保存的region數(shù)目為：

(128MB/1KB) * (128MB/1KB) = = 2(34)個(gè)region

4 client會(huì)將查詢過的位置信息保存緩存起來，緩存不會(huì)主動(dòng)失效，因此如果client上的緩存全部失效，則需要進(jìn)行6次網(wǎng)絡(luò)來回，才能定位到正確的region(其中三次用來發(fā)現(xiàn)緩存失效，另外三次用來獲取位置信息)。

讀寫過程

上文提到，hbase使用MemStore和StoreFile存儲(chǔ)對表的更新。

數(shù)據(jù)在更新時(shí)首先寫入Log(WAL log)和內(nèi)存(MemStore)中，MemStore中的數(shù)據(jù)是排序的，當(dāng)MemStore累計(jì)到一定閾值時(shí)，就會(huì)創(chuàng)建一個(gè)新的MemStore，并且將老的MemStore添加到flush隊(duì)列，由單獨(dú)的線程flush到磁盤上，成為一個(gè)StoreFile。于此同時(shí)，系統(tǒng)會(huì)在zookeeper中記錄一個(gè)redo point，表示這個(gè)時(shí)刻之前的變更已經(jīng)持久化了。(minor compact)

當(dāng)系統(tǒng)出現(xiàn)意外時(shí)，可能導(dǎo)致內(nèi)存(MemStore)中的數(shù)據(jù)丟失，此時(shí)使用Log(WAL log)來恢復(fù)checkpoint之后的數(shù)據(jù)。

前面提到過StoreFile是只讀的，一旦創(chuàng)建后就不可以再修改。因此Hbase的更新其實(shí)是不斷追加的操作。當(dāng)一個(gè)Store中的StoreFile達(dá)到一定的閾值后，就會(huì)進(jìn)行一次合并(major compact),將對同一個(gè)key的修改合并到一起，形成一個(gè)大的StoreFile，當(dāng)StoreFile的大小達(dá)到一定閾值后，又會(huì)對StoreFile進(jìn)行split，等分為兩個(gè)StoreFile。

由于對表的更新是不斷追加的，處理讀請求時(shí)，需要訪問Store中全部的StoreFile和MemStore，將他們的按照row key進(jìn)行合并，由于StoreFile和MemStore都是經(jīng)過排序的，并且StoreFile帶有內(nèi)存中索引，合并的過程還是比較快。

寫請求處理過程

1 client向region server提交寫請求

2 region server找到目標(biāo)region

3 region檢查數(shù)據(jù)是否與schema一致

4 如果客戶端沒有指定版本，則獲取當(dāng)前系統(tǒng)時(shí)間作為數(shù)據(jù)版本

5 將更新寫入WAL log

6 將更新寫入Memstore

7 判斷Memstore的是否需要flush為Store文件。

region分配

任何時(shí)刻，一個(gè)region只能分配給一個(gè)region server。master記錄了當(dāng)前有哪些可用的region server。以及當(dāng)前哪些region分配給了哪些region server，哪些region還沒有分配。當(dāng)存在未分配的region，并且有一個(gè)region server上有可用空間時(shí)，master就給這個(gè)region server發(fā)送一個(gè)裝載請求，把region分配給這個(gè)region server。region server得到請求后，就開始對此region提供服務(wù)。

region server上線

master使用zookeeper來跟蹤region server狀態(tài)。當(dāng)某個(gè)region server啟動(dòng)時(shí)，會(huì)首先在zookeeper上的server目錄下建立代表自己的文件，并獲得該文件的獨(dú)占鎖。由于master訂閱了server目錄上的變更消息，當(dāng)server目錄下的文件出現(xiàn)新增或刪除操作時(shí)，master可以得到來自zookeeper的實(shí)時(shí)通知。因此一旦region server上線，master能馬上得到消息。

region server下線

當(dāng)region server下線時(shí)，它和zookeeper的會(huì)話斷開，zookeeper而自動(dòng)釋放代表這臺(tái)server的文件上的獨(dú)占鎖。而master不斷輪詢server目錄下文件的鎖狀態(tài)。如果master發(fā)現(xiàn)某個(gè)region server丟失了它自己的獨(dú)占鎖，(或者master連續(xù)幾次和region server通信都無法成功),master就是嘗試去獲取代表這個(gè)region server的讀寫鎖，一旦獲取成功，就可以確定：

1 region server和zookeeper之間的網(wǎng)絡(luò)斷開了。

2 region server掛了。

的其中一種情況發(fā)生了，無論哪種情況，region server都無法繼續(xù)為它的region提供服務(wù)了，此時(shí)master會(huì)刪除server目錄下代表這臺(tái)region server的文件，并將這臺(tái)region server的region分配給其它還活著的同志。

如果網(wǎng)絡(luò)短暫出現(xiàn)問題導(dǎo)致region server丟失了它的鎖，那么region server重新連接到zookeeper之后，只要代表它的文件還在，它就會(huì)不斷嘗試獲取這個(gè)文件上的鎖，一旦獲取到了，就可以繼續(xù)提供服務(wù)。

master上線

master啟動(dòng)進(jìn)行以下步驟:

1 從zookeeper上獲取唯一一個(gè)代碼master的鎖，用來阻止其它master成為master。

2 掃描zookeeper上的server目錄，獲得當(dāng)前可用的region server列表。

3 和2中的每個(gè)region server通信，獲得當(dāng)前已分配的region和region server的對應(yīng)關(guān)系。

4 掃描.META.region的集合，計(jì)算得到當(dāng)前還未分配的region，將他們放入待分配region列表。

master下線

由于master只維護(hù)表和region的元數(shù)據(jù)，而不參與表數(shù)據(jù)IO的過程，master下線僅導(dǎo)致所有元數(shù)據(jù)的修改被凍結(jié)(無法創(chuàng)建刪除表，無法修改表的schema，無法進(jìn)行region的負(fù)載均衡，無法處理region上下線，無法進(jìn)行region的合并，唯一例外的是region的split可以正常進(jìn)行，因?yàn)橹挥衦egion server參與)，表的數(shù)據(jù)讀寫還可以正常進(jìn)行。因此master下線短時(shí)間內(nèi)對整個(gè)hbase集群沒有影響。從上線過程可以看到，master保存的信息全是可以冗余信息（都可以從系統(tǒng)其它地方收集到或者計(jì)算出來），因此，一般hbase集群中總是有一個(gè)master在提供服務(wù)，還有一個(gè)以上的’master’在等待時(shí)機(jī)搶占它的位置。

責(zé)任編輯：武曉燕來源： java一日一條

Hadoop HBase 存儲(chǔ)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<blockquote id="gghbq"></blockquote>

<blockquote id="gghbq"></blockquote>

<legend id="gghbq"><track id="gghbq"></track></legend>

<blockquote id="gghbq"><i id="gghbq"><video id="gghbq"></video></i></blockquote>