自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

HBase數(shù)據(jù)庫性能調優(yōu)

作者：Brandon 2011-07-08 16:02:54

數(shù)據(jù)庫其他數(shù)據(jù)庫

因官方Book Performance Tuning部分章節(jié) 沒有按配置項進行索引，不能達到快速查閱的效果。所以我以配置項驅動，重新整理了原文，并補充一些自己的理解，如有錯誤，歡迎指正。

因官方Book Performance Tuning部分章節(jié) 沒有按配置項進行索引，不能達到快速查閱的效果。所以我以配置項驅動，重新整理了原文，并補充一些自己的理解，如有錯誤，歡迎指正。

配置優(yōu)化

zookeeper.session.timeout

默認值：3分鐘(180000ms)

說明：RegionServer與Zookeeper間的連接超時時間。當超時時間到后，ReigonServer會被Zookeeper從RS集群清單中移除，HMaster收到移除通知后，會對這臺server負責的regions重新balance，讓其他存活的RegionServer接管.

調優(yōu)：

這個timeout決定了RegionServer是否能夠及時的failover。設置成1分鐘或更低，可以減少因等待超時而被延長的failover時間。

不過需要注意的是，對于一些Online應用，RegionServer從宕機到恢復時間本身就很短的(網(wǎng)絡閃斷，crash等故障，運維可快速介入)，如果調低timeout時間，反而會得不償失。因為當ReigonServer被正式從RS集群中移除時，HMaster就開始做balance了 (讓其他RS根據(jù)故障機器記錄的WAL日志進行恢復)。當故障的RS在人工介入恢復后，這個balance動作是毫無意義的，反而會使負載不均勻，給RS 帶來更多負擔。特別是那些固定分配regions的場景。

hbase.regionserver.handler.count

默認值：10

說明：RegionServer的請求處理IO線程數(shù)。

調優(yōu)：

這個參數(shù)的調優(yōu)與內(nèi)存息息相關。

較少的IO線程，適用于處理單次請求內(nèi)存消耗較高的Big PUT場景(大容量單次PUT或設置了較大cache的scan，均屬于Big PUT)或ReigonServer的內(nèi)存比較緊張的場景。

較多的IO線程，適用于單次請求內(nèi)存消耗低，TPS要求非常高的場景。設置該值的時候，以監(jiān)控內(nèi)存為主要參考。

這里需要注意的是如果server的region數(shù)量很少，大量的請求都落在一個region上，因快速充滿memstore觸發(fā)flush導致的讀寫鎖會影響全局TPS，不是IO線程數(shù)越高越好。

壓測時，開啟Enabling RPC-level logging ，可以同時監(jiān)控每次請求的內(nèi)存消耗和GC的狀況，最后通過多次壓測結果來合理調節(jié)IO線程數(shù)。

這里是一個案例 Hadoop and HBase Optimization for Read Intensive Search Applications ，作者在SSD的機器上設置IO線程數(shù)為100，僅供參考。

hbase.hregion.max.filesize

默認值：256M

說明：在當前ReigonServer上單個Reigon的最大存儲空間，單個Region超過該值時，這個Region會被自動split成更小的region。

調優(yōu)：

小region對split和compaction友好，因為拆分region或compact小region里的storefile速度很快，內(nèi)存占用低。缺點是split和compaction會很頻繁。

特別是數(shù)量較多的小region不停地split, compaction，會導致集群響應時間波動很大，region數(shù)量太多不僅給管理上帶來麻煩，甚至會引發(fā)一些Hbase的bug。

一般512以下的都算小region。

大region，則不太適合經(jīng)常split和compaction，因為做一次compact和split會產(chǎn)生較長時間的停頓，對應用的讀寫性能沖擊非常大。此外，大region意味著較大的storefile，compaction時對內(nèi)存也是一個挑戰(zhàn)。

當然，大region也有其用武之地。如果你的應用場景中，某個時間點的訪問量較低，那么在此時做compact和split，既能順利完成split和compaction，又能保證絕大多數(shù)時間平穩(wěn)的讀寫性能。

既然split和compaction如此影響性能，有沒有辦法去掉?

compaction是無法避免的，split倒是可以從自動調整為手動。

只要通過將這個參數(shù)值調大到某個很難達到的值，比如100G，就可以間接禁用自動split(RegionServer不會對未到達100G的region做split)。

再配合RegionSplitter這個工具，在需要split時，手動split。

手動split在靈活性和穩(wěn)定性上比起自動split要高很多，相反，管理成本增加不多，比較推薦online實時系統(tǒng)使用。

內(nèi)存方面，小region在設置memstore的大小值上比較靈活，大region則過大過小都不行，過大會導致flush時app的IO wait增高，過小則因store file過多影響讀性能。

hbase.regionserver.global.memstore.upperLimit/lowerLimit

默認值：0.4/0.35

upperlimit說明：hbase.hregion.memstore.flush.size 這個參數(shù)的作用是當單個memstore達到指定值時，flush該memstore。但是，一臺ReigonServer可能有成百上千個memstore，每個 memstore也許未達到flush.size，jvm的heap就不夠用了。該參數(shù)就是為了限制memstores占用的總內(nèi)存。

當ReigonServer內(nèi)所有的memstore所占用的內(nèi)存總和達到heap的40%時，HBase會強制block所有的更新并flush這些memstore以釋放所有memstore占用的內(nèi)存。

lowerLimit說明： 同upperLimit，只不過當全局memstore的內(nèi)存達到35%時，它不會flush所有的memstore，它會找一些內(nèi)存占用較大的 memstore，做個別flush，當然更新還是會被block。lowerLimit算是一個在全局flush導致性能暴跌前的補救措施。為什么說是性能暴跌?可以想象一下，如果memstore需要在一段較長的時間內(nèi)做全量flush，且這段時間內(nèi)無法接受任何讀寫請求，對HBase集群的性能影響是很大的。

調優(yōu)：

這是一個Heap內(nèi)存保護參數(shù)，默認值已經(jīng)能適用大多數(shù)場景。它的調整一般是為了配合某些專屬優(yōu)化，比如讀密集型應用，將讀緩存開大，降低該值，騰出更多內(nèi)存給其他模塊使用。

這個參數(shù)會給使用者帶來什么影響?

比如，10G內(nèi)存，100個region，每個memstore 64M，假設每個region只有一個memstore，那么當100個memstore平均占用到50%左右時，就會達到lowerLimit的限制。假設此時，其他memstore同樣有很多的寫請求進來。在那些大的region未flush完，就可能又超過了upperlimit，則所有 region都會被block，開始觸發(fā)全局flush。

不過，除了你的內(nèi)存非常小或你的應用場景里大多數(shù)都是讀，我覺得不需要去調這個參數(shù)。

hfile.block.cache.size

默認值：0.2

說明：storefile的讀緩存占用Heap的大小百分比，0.2表示20%。該值直接影響數(shù)據(jù)讀的性能。

調優(yōu)：

當然是越大越好，如果讀比寫少，開到0.4-0.5也沒問題。如果讀寫較均衡，0.3左右。如果寫比讀多，果斷默認吧。設置這個值的時候，你同時要參考 hbase.regionserver.global.memstore.upperLimit ，該值是memstore占heap的最大百分比，兩個參數(shù)一個影響讀，一個影響寫。如果兩值加起來超過80-90%，會有OOM的風險，謹慎設置。

hbase.hstore.blockingStoreFiles

默認值：7

說明：在compaction時，如果一個Store(Coulmn Family)內(nèi)有超過7個storefile需要合并，則block所有的寫請求，進行flush，限制storefile數(shù)量增長過快。

調優(yōu)：

block寫請求會影響當前region的性能，將值設為單個region可以支撐的最大store file數(shù)量會是個不錯的選擇，即允許comapction時，memstore繼續(xù)生成storefile。最大storefile數(shù)量可通過 region size/memstore size來計算。如果你將region size設為無限大，那么你需要預估一個region可能產(chǎn)生的最大storefile數(shù)。

hbase.hregion.memstore.block.multiplier

默認值：2

說明：當一個region里的memstore超過單個memstore.size兩倍的大小時，block該region的所有請求，進行 flush，釋放內(nèi)存。雖然我們設置了memstore的總大小，比如64M，但想象一下，在最后63.9M的時候，我Put了一個100M的數(shù)據(jù)，此時 memstore的大小會瞬間暴漲到超過預期的memstore.size。這個參數(shù)的作用是當memstore的大小增至超過 memstore.size時，block所有請求，遏制風險進一步擴大。

調優(yōu)：

這個參數(shù)的默認值還是比較靠譜的。如果你預估你的正常應用場景(不包括異常)不會出現(xiàn)突發(fā)寫或寫的量可控，那么保持默認值即可。如果正常情況下，你的寫請求量就會經(jīng)常暴長到正常的幾倍，那么你應該調大這個倍數(shù)并調整其他參數(shù)值，比如hfile.block.cache.size和 hbase.regionserver.global.memstore.upperLimit/lowerLimit，以預留更多內(nèi)存，防止HBase server OOM。

#p#

其他

啟用LZO壓縮

LZO對比Hbase默認的GZip，前者性能較高，后者壓縮比較高，具體參見 Using LZO Compression 。對于想提高HBase讀寫性能的開發(fā)者，采用LZO是比較好的選擇。對于非常在乎存儲空間的開發(fā)者，則建議保持默認。

不要在一張表里定義太多的Column Family

Hbase目前不能良好的處理超過包含2-3個CF的表。因為某個CF在flush發(fā)生時，它鄰近的CF也會因關聯(lián)效應被觸發(fā)flush，最終導致系統(tǒng)產(chǎn)生更多IO。

批量導入

在批量導入數(shù)據(jù)到Hbase前，你可以通過預先創(chuàng)建regions，來平衡數(shù)據(jù)的負載。詳見 Table Creation: Pre-Creating Regions

避免CMS concurrent mode failure

HBase使用CMS GC。默認觸發(fā)GC的時機是當年老代內(nèi)存達到90%的時候，這個百分比由 -XX:CMSInitiatingOccupancyFraction=N 這個參數(shù)來設置。concurrent mode failed發(fā)生在這樣一個場景：

當年老代內(nèi)存達到90%的時候，CMS開始進行并發(fā)垃圾收集，于此同時，新生代還在迅速不斷地晉升對象到年老代。當年老代CMS還未完成并發(fā)標記時，年老代滿了，悲劇就發(fā)生了。CMS因為沒內(nèi)存可用不得不暫停mark，并觸發(fā)一次全jvm的stop the world(掛起所有線程)，然后采用單線程拷貝方式清理所有垃圾對象。這個過程會非常漫長。為了避免出現(xiàn)concurrent mode failed，我們應該讓GC在未到90%時，就觸發(fā)。

通過設置 -XX:CMSInitiatingOccupancyFraction=N

這個百分比，可以簡單的這么計算。如果你的 hfile.block.cache.size 和 hbase.regionserver.global.memstore.upperLimit 加起來有60%(默認)，那么你可以設置 70-80，一般高10%左右差不多。

Hbase客戶端優(yōu)化

AutoFlush

將HTable的setAutoFlush設為false，可以支持客戶端批量更新。即當Put填滿客戶端flush緩存時，才發(fā)送到服務端。

默認是true。

Scan Caching

scanner一次緩存多少數(shù)據(jù)來scan(從服務端一次抓多少數(shù)據(jù)回來scan)。

默認值是 1，一次只取一條。

Scan Attribute Selection

scan時建議指定需要的Column Family，減少通信量，否則scan操作默認會返回整個row的所有數(shù)據(jù)(所有Coulmn Family)。

Close ResultScanners

通過scan取完數(shù)據(jù)后，記得要關閉ResultScanner，否則RegionServer可能會出現(xiàn)問題(對應的Server資源無法釋放)。

Optimal Loading of Row Keys

當你scan一張表的時候，返回結果只需要row key(不需要CF, qualifier,values,timestaps)時，你可以在scan實例中添加一個filterList，并設置 MUST_PASS_ALL操作，filterList中add FirstKeyOnlyFilter或KeyOnlyFilter。這樣可以減少網(wǎng)絡通信量。

Turn off WAL on Puts

當Put某些非重要數(shù)據(jù)時，你可以設置writeToWAL(false)，來進一步提高寫性能。writeToWAL(false)會在Put時放棄寫WAL log。風險是，當RegionServer宕機時，可能你剛才Put的那些數(shù)據(jù)會丟失，且無法恢復。

啟用Bloom Filter

Bloom Filter通過空間換時間，提高讀操作性能。

原文鏈接：http://baiyunl.iteye.com/blog/1119129

【編輯推薦】

Facebook實時信息系統(tǒng)：HBase每月存儲1350億條信息

責任編輯：艾婧來源： ITEYE

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<sub id="npfxj"></sub>