自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

HBase原理－數(shù)據(jù)讀取流程解析

作者：佚名 2016-12-27 09:08:34

大數(shù)據(jù)

HBase中更新刪除操作并不直接操作原數(shù)據(jù)，而是生成一個新紀錄，那問題來了，如何知道一條記錄到底是插入操作還是更新操作亦或是刪除操作呢?這正是KeyType和Timestamp的用武之地。

和寫流程相比，HBase讀數(shù)據(jù)是一個更加復雜的操作流程，這主要基于兩個方面的原因：

其一是因為整個HBase存儲引擎基于LSM-Like樹實現(xiàn)，因此一次范圍查詢可能會涉及多個分片、多塊緩存甚至多個數(shù)據(jù)存儲文件;

其二是因為HBase中更新操作以及刪除操作實現(xiàn)都很簡單，更新操作并沒有更新原有數(shù)據(jù)，而是使用時間戳屬性實現(xiàn)了多版本。

刪除操作也并沒有真正刪除原有數(shù)據(jù)，只是插入了一條打上”deleted”標簽的數(shù)據(jù)，而真正的數(shù)據(jù)刪除發(fā)生在系統(tǒng)異步執(zhí)行Major_Compact的時候。很顯然，這種實現(xiàn)套路大大簡化了數(shù)據(jù)更新、刪除流程，但是對于數(shù)據(jù)讀取來說卻意味著套上了層層枷鎖，讀取過程需要根據(jù)版本進行過濾，同時對已經(jīng)標記刪除的數(shù)據(jù)也要進行過濾。

總之，把這么復雜的事情講明白并不是一件簡單的事情，為了更加條理化地分析整個查詢過程，接下來筆者會用兩篇文章來講解整個過程，首篇文章主要會從框架的角度粗粒度地分析scan的整體流程，并不會涉及太多的細節(jié)實現(xiàn)。大多數(shù)看客通過首篇文章基本就可以初步了解scan的工作思路;為了能夠從細節(jié)理清楚整個scan流程，接著第二篇文章將會在***篇的基礎上引入更多的實現(xiàn)細節(jié)以及HBase對于scan所做的基礎優(yōu)化。因為理解問題可能會有紕漏，希望可以一起探討交流，歡迎拍磚~

Client-Server交互邏輯

運維開發(fā)了很長一段時間HBase，經(jīng)常有業(yè)務同學咨詢?yōu)槭裁纯蛻舳伺渲梦募袥]有配置RegionServer的地址信息，這里針對這種疑問簡單的做下解釋，客戶端與HBase系統(tǒng)的交互階段主要有如下幾個步驟：

客戶端首先會根據(jù)配置文件中zookeeper地址連接zookeeper，并讀取//meta-region-server節(jié)點信息，該節(jié)點信息存儲HBase元數(shù)據(jù)(hbase:meta)表所在的RegionServer地址以及訪問端口等信息。用戶可以通過zookeeper命令(get //meta-region-server)查看該節(jié)點信息。

根據(jù)hbase:meta所在RegionServer的訪問信息，客戶端會將該元數(shù)據(jù)表加載到本地并進行緩存。然后在表中確定待檢索rowkey所在的RegionServer信息。

根據(jù)數(shù)據(jù)所在RegionServer的訪問信息，客戶端會向該RegionServer發(fā)送真正的數(shù)據(jù)讀取請求。服務器端接收到該請求之后需要進行復雜的處理，具體的處理流程將會是這個專題的重點。

通過上述對客戶端以及HBase系統(tǒng)的交互分析，可以基本明確兩點：

客戶端只需要配置zookeeper的訪問地址以及根目錄，就可以進行正常的讀寫請求。不需要配置集群的RegionServer地址列表。

客戶端會將hbase:meta元數(shù)據(jù)表緩存在本地，因此上述步驟中前兩步只會在客戶端***次請求的時候發(fā)生，之后所有請求都直接從緩存中加載元數(shù)據(jù)。如果集群發(fā)生某些變化導致hbase:meta元數(shù)據(jù)更改，客戶端再根據(jù)本地元數(shù)據(jù)表請求的時候就會發(fā)生異常，此時客戶端需要重新加載一份***的元數(shù)據(jù)表到本地。

RegionServer接收到客戶端的get/scan請求之后，先后做了兩件事情：構建scanner體系(實際上就是做一些scan前的準備工作)，在此體系基礎上一行一行檢索。舉個不太合適但易于理解的例子，scan數(shù)據(jù)就和開發(fā)商蓋房一樣，也是分成兩步：組建施工隊體系，明確每個工人的職責;一層一層蓋樓。

構建scanner體系-組建施工隊

scanner體系的核心在于三層scanner：RegionScanner、StoreScanner以及StoreFileScanner。三者是層級的關系，一個RegionScanner由多個StoreScanner構成，一張表由多個列族組成，就有多少個StoreScanner負責該列族的數(shù)據(jù)掃描。一個StoreScanner又是由多個StoreFileScanner組成。每個Store的數(shù)據(jù)由內(nèi)存中的MemStore和磁盤上的StoreFile文件組成，相對應的，StoreScanner對象會雇傭一個MemStoreScanner和N個StoreFileScanner來進行實際的數(shù)據(jù)讀取，每個StoreFile文件對應一個StoreFileScanner，注意：StoreFileScanner和MemstoreScanner是整個scan的最終執(zhí)行者。

對應于建樓項目，一棟樓通常由好幾個單元樓構成(每個單元樓對應于一個Store)，每個單元樓會請一個監(jiān)工(StoreScanner)負責該單元樓的建造。而監(jiān)工一般不做具體的事情，他負責招募很多工人(StoreFileScanner)，這些工人才是建樓的主體。下圖是整個構建流程圖：

RegionScanner會根據(jù)列族構建StoreScanner，有多少列族就構建多少StoreScanner，用于負責該列族的數(shù)據(jù)檢索

1.1 構建StoreFileScanner：每個StoreScanner會為當前該Store中每個HFile構造一個StoreFileScanner，用于實際執(zhí)行對應文件的檢索。同時會為對應Memstore構造一個MemstoreScanner，用于執(zhí)行該Store中Memstore的數(shù)據(jù)檢索。該步驟對應于監(jiān)工在人才市場招募建樓所需的各種類型工匠。

1.2 過濾淘汰StoreFileScanner：根據(jù)Time Range以及RowKey Range對StoreFileScanner以及MemstoreScanner進行過濾，淘汰肯定不存在待檢索結果的Scanner。上圖中StoreFile3因為檢查RowKeyRange不存在待檢索Rowkey所以被淘汰。該步驟針對具體的建樓方案，裁撤掉部分不需要的工匠，比如這棟樓不需要地暖安裝，對應的工匠就可以撤掉。

1.3 Seek rowkey：所有StoreFileScanner開始做準備工作，在負責的HFile中定位到滿足條件的起始Row。工匠也開始準備自己的建造工具，建造材料，找到自己的工作地點，等待一聲命下。就像所有重要項目的準備工作都很核心一樣，Seek過程(此處略過Lazy Seek優(yōu)化)也是一個很核心的步驟，它主要包含下面三步：

定位Block Offset：在Blockcache中讀取該HFile的索引樹結構，根據(jù)索引樹檢索對應RowKey所在的Block Offset和Block Size

Load Block：根據(jù)BlockOffset首先在BlockCache中查找Data Block，如果不在緩存，再在HFile中加載

Seek Key：在Data Block內(nèi)部通過二分查找的方式定位具體的RowKey

整體流程細節(jié)參見《HBase原理-探索HFile索引機制》，文中詳細說明了HFile索引結構以及如何通過索引結構定位具體的Block以及RowKey

1.4 StoreFileScanner合并構建最小堆：將該Store中所有StoreFileScanner和MemstoreScanner合并形成一個heap(最小堆)，所謂heap是一個優(yōu)先級隊列，隊列中元素是所有scanner，排序規(guī)則按照scanner seek到的keyvalue大小由小到大進行排序。這里需要重點關注三個問題，首先為什么這些Scanner需要由小到大排序，其次keyvalue是什么樣的結構，***，keyvalue誰大誰小是如何確定的：

為什么這些Scanner需要由小到大排序?

最直接的解釋是scan的結果需要由小到大輸出給用戶，當然，這并不全面，最合理的解釋是只有由小到大排序才能使得scan效率***。舉個簡單的例子，HBase支持數(shù)據(jù)多版本，假設用戶只想獲取***版本，那只需要將這些數(shù)據(jù)由***到最舊進行排序，然后取隊首元素返回就可以。那么，如果不排序，就只能遍歷所有元素，查看符不符合用戶查詢條件。這就是排隊的意義。

工匠們也需要排序，先做地板的排前面，做墻體的次之，***是做門窗戶的。做墻體的內(nèi)部還需要再排序，做內(nèi)墻的排前面，做外墻的排后面，這樣，假如設計師臨時決定不做外墻的話，就可以直接跳過外墻部分工作。很顯然，如果不排序的話，是沒辦法臨時做決定的，因為這部分工作已經(jīng)可能做掉了。

HBase中KeyValue是什么樣的結構?

HBase中KeyValue并不是簡單的KV數(shù)據(jù)對，而是一個具有復雜元素的結構體，其中Key由RowKey，ColumnFamily，Qualifier ，TimeStamp，KeyType等多部分組成，Value是一個簡單的二進制數(shù)據(jù)。Key中元素KeyType表示該KeyValue的類型，取值分別為Put/Delete/Delete Column/Delete Family四種。KeyValue可以表示為如下圖所示：

了解了KeyValue的邏輯結構后，我們不妨再進一步從原理的角度想想HBase的開發(fā)者們?yōu)槭裁慈绱藢ζ湓O計。這個就得從HBase所支持的數(shù)據(jù)操作說起了，HBase支持四種主要的數(shù)據(jù)操作，分別是Get/Scan/Put/Delete，其中Get和Scan代表數(shù)據(jù)查詢，Put操作代表數(shù)據(jù)插入或更新(如果Put的RowKey不存在則為插入操作、否則為更新操作)，特別需要注意的是HBase中更新操作并不是直接覆蓋修改原數(shù)據(jù)，而是生成新的數(shù)據(jù)，新數(shù)據(jù)和原數(shù)據(jù)具有不同的版本(時間戳);Delete操作執(zhí)行數(shù)據(jù)刪除，和數(shù)據(jù)更新操作相同，HBase執(zhí)行數(shù)據(jù)刪除并不會馬上將數(shù)據(jù)從數(shù)據(jù)庫中***刪除，而只是生成一條刪除記錄，***在系統(tǒng)執(zhí)行文件合并的時候再統(tǒng)一刪除。

HBase中更新刪除操作并不直接操作原數(shù)據(jù)，而是生成一個新紀錄，那問題來了，如何知道一條記錄到底是插入操作還是更新操作亦或是刪除操作呢?這正是KeyType和Timestamp的用武之地。上文中提到KeyType取值為分別為Put/Delete/Delete Column/Delete Family四種，如果KeyType取值為Put，表示該條記錄為插入或者更新操作，而無論是插入或者更新，都可以使用版本號(Timestamp)對記錄進行選擇;如果KeyType為Delete，表示該條記錄為整行刪除操作;相應的KeyType為Delete Column和Delete Family分別表示刪除某行某列以及某行某列族操作;

不同KeyValue之間如何進行大小比較?

上文提到KeyValue中Key由RowKey，ColumnFamily，Qualifier ，TimeStamp，KeyType等5部分組成，HBase設定Key大小首先比較RowKey，RowKey越小Key就越小;RowKey如果相同就看CF，CF越小Key越小;CF如果相同看Qualifier，Qualifier越小Key越小;Qualifier如果相同再看Timestamp，Timestamp越大表示時間越新，對應的Key越小。如果Timestamp還相同，就看KeyType，KeyType按照DeleteFamily -> DeleteColumn -> Delete -> Put 順序依次對應的Key越來越大。

2. StoreScanner合并構建最小堆：上文討論的是一個監(jiān)工如何構建自己的工匠師團隊以及工匠師如何做準備工作、排序工作。實際上，監(jiān)工也需要進行排序，比如一單元的監(jiān)工排前面，二單元的監(jiān)工排之后… StoreScanner一樣，列族小的StoreScanner排前面，列族大的StoreScanner排后面。

scan查詢-層層建樓

構建Scanner體系是為了更好地執(zhí)行scan查詢，就像組建工匠師團隊就是為了蓋房子一樣。scan查詢總是一行一行查詢的，先查***行的所有數(shù)據(jù)，再查第二行的所有數(shù)據(jù)，但每一行的查詢流程卻沒有什么本質(zhì)區(qū)別。蓋房子也一樣，無論是蓋8層還是蓋18層，都需要一層一層往上蓋，而且每一層的蓋法并沒有什么區(qū)別。所以實際上我們只需要關注其中一行數(shù)據(jù)是如何查詢的就可以。

對于一行數(shù)據(jù)的查詢，又可以分解為多個列族的查詢，比如RowKey=row1的一行數(shù)據(jù)查詢，首先查詢列族1上該行的數(shù)據(jù)集合，再查詢列族2里該行的數(shù)據(jù)集合。同樣是蓋***層房子，先蓋一單元的一層，再改二單元的一層，蓋完之后才算一層蓋完，接著開始蓋第二層。所以我們也只需要關注某一行某個列族的數(shù)據(jù)是如何查詢的就可以。

還記得Scanner體系構建的最終結果是一個由StoreFileScanner和MemstoreScanner組成的heap(最小堆)么，這里就派上用場了。下圖是一張表的邏輯視圖，該表有兩個列族cf1和cf2(我們只關注cf1)，cf1只有一個列name，表中有5行數(shù)據(jù)，其中每個cell基本都有多個版本。cf1的數(shù)據(jù)假如實際存儲在三個區(qū)域，memstore中有r2和r4的***數(shù)據(jù)，hfile1中是最早的數(shù)據(jù)?，F(xiàn)在需要查詢RowKey=r2的數(shù)據(jù)，按照上文的理論對應的Scanner指向就如圖所示：

這三個Scanner組成的heap為，Scanner由小到大排列。查詢的時候首先pop出heap的堆頂元素，即MemstoreScanner，得到keyvalue = r2:cf1:name:v3:name23的數(shù)據(jù)，拿到這個keyvalue之后，需要進行如下判定：

檢查該KeyValue的KeyType是否是Deleted/DeletedCol等，如果是就直接忽略該列所有其他版本，跳到下列(列族)

檢查該KeyValue的Timestamp是否在用戶設定的Timestamp Range范圍，如果不在該范圍，忽略

檢查該KeyValue是否滿足用戶設置的各種filter過濾器，如果不滿足，忽略

檢查該KeyValue是否滿足用戶查詢中設定的版本數(shù)，比如用戶只查詢***版本，則忽略該cell的其他版本;反正如果用戶查詢所有版本，則還需要查詢該cell的其他版本。

現(xiàn)在假設用戶查詢所有版本而且該keyvalue檢查通過，此時當前的堆頂元素需要執(zhí)行next方法去檢索下一個值，并重新組織最小堆。即圖中MemstoreScanner將會指向r4，重新組織最小堆之后最小堆將會變?yōu)?，堆頂元素變?yōu)镾toreFileScanner2，得到keyvalue=r2:cf1:name:v2:name22，進行一系列判定，再next，再重新組織最小堆…

責任編輯：武曉燕來源：網(wǎng)絡大數(shù)據(jù)

HBase 數(shù)據(jù)流程

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營