大數(shù)據(jù)存儲(chǔ)平臺(tái)之異構(gòu)存儲(chǔ)實(shí)踐深度解讀
經(jīng)常做數(shù)據(jù)處理的伙伴們肯定會(huì)有這樣一種體會(huì):最近一周內(nèi)的數(shù)據(jù)會(huì)被經(jīng)常使用到,而比如最近幾周的數(shù)據(jù)使用率會(huì)有下降,每周僅僅被訪問幾次;在比如3月以前的數(shù)據(jù)使用率會(huì)大幅下滑,存儲(chǔ)的數(shù)據(jù)可能一個(gè)月才被訪問幾次。
這就產(chǎn)生了一種熱和冷數(shù)據(jù),對(duì)需要頻繁訪問的數(shù)據(jù)我們稱之為“熱”數(shù)據(jù),反之我們稱之為”冷”數(shù)據(jù),而處于中間的數(shù)據(jù)我們稱之為”溫”數(shù)據(jù)。
在數(shù)據(jù)被視為公司資產(chǎn)的時(shí)代,每個(gè)公司基本都會(huì)保存最近數(shù)年的數(shù)據(jù),而這些數(shù)據(jù)尤其是冷數(shù)據(jù)的累積也給存儲(chǔ)平臺(tái)帶來了甜蜜的負(fù)擔(dān)。下面就來分享下如何解決這些“負(fù)擔(dān)”。
首先如何定義數(shù)據(jù)為冷熱數(shù)據(jù)呢,eBay公司根據(jù)數(shù)據(jù)年齡和使用頻率來定義不失為一種辦法,下圖為eBay關(guān)于數(shù)據(jù)溫度的定義

從hadoop2.6開始,HDFS更好的支持了這種冷熱數(shù)據(jù)的分離存儲(chǔ),我們可以按HDFS路徑指定其存儲(chǔ)策略,目前HDFS支持的存儲(chǔ)策略有:HOT、WARM、COLD、All_SSD、One_SSD、Lazy_Persist,我們著重介紹SSD相關(guān)的存儲(chǔ)策略,具體如下:
- All_SSD - 用于將所有副本存儲(chǔ)在SSD中
- One_SSD - 用于將其中一個(gè)副本存儲(chǔ)在SSD中。剩余的副本存儲(chǔ)在DISK中
- Lazy_Persist - 用于在內(nèi)存中寫入單個(gè)副本的塊。該副本首先寫入RAM_DISK,然后在DISK中延續(xù)
創(chuàng)建文件或目錄時(shí),其存儲(chǔ)策略未指定??梢允褂?ldquo;hdfs dfsadmin -setStoragePolicy ”命令指定存儲(chǔ)策略。文件或目錄的有效存儲(chǔ)策略由以下規(guī)則解決。
- 如果文件或目錄特定于存儲(chǔ)策略,則返回。
- 對(duì)于未指定的文件或目錄,如果是根目錄,則返回默認(rèn)存儲(chǔ)策略。否則,返回其父級(jí)的有效存儲(chǔ)策略。
我們?cè)趯?shí)踐過程中,因?yàn)橛幸徊糠謱?shí)時(shí)分析的需求,一部分是歷史數(shù)據(jù)的保存,歷史數(shù)據(jù)很少參與計(jì)算,只需偶爾查詢會(huì)用到。那么對(duì)于歷史數(shù)據(jù)來說,我們可以使用一批計(jì)算能力較弱,而硬盤較多、容量較大的SATA盤,而實(shí)時(shí)分析的場景,需要高性能的計(jì)算力和硬盤吞吐能力,我們選用SSD硬盤來支撐,此外HDFS還提供了內(nèi)存存儲(chǔ)類型,但我們的內(nèi)存還是有限,暫未使用到。實(shí)際上,我們的每臺(tái)服務(wù)器的12塊硬盤slot中有3個(gè)是SSD,其余9個(gè)是SATA。我們實(shí)踐結(jié)果表明,使用這種策略的效果比以前好了4倍以上。
要使用存儲(chǔ)策略,我們需要在在每個(gè)數(shù)據(jù)節(jié)點(diǎn)上hdfs-site.xml中參數(shù)dfs.datanode.data.dir配置的由逗號(hào)分隔的存儲(chǔ)位置使用的存儲(chǔ)類型進(jìn)行標(biāo)記。例如:
- 使用[DISK]file:///dfs/dn來標(biāo)識(shí)這個(gè)存儲(chǔ)位置為普通硬盤
- 使用[SSD]file:/// dfs/dn來標(biāo)識(shí)這個(gè)存儲(chǔ)位置為SSD硬盤
此外,默認(rèn)情況下的存儲(chǔ)格式為DISK。
下面介紹設(shè)置存儲(chǔ)策略命令:
- hdfsstoragepolicies -setStoragePolicy -path -policy
相應(yīng)的獲取存儲(chǔ)策略命令為:
- hdfs storagepolicies -getStoragePolicy -path
總結(jié)下:我們可以在一個(gè)限定的Hadoop集群中進(jìn)行設(shè)置不同的磁盤使用不同的存儲(chǔ)策略,還可以利用API將數(shù)據(jù)存儲(chǔ)到不同的存儲(chǔ)層。HDFS設(shè)計(jì)的詳細(xì)存儲(chǔ)類型和存儲(chǔ)策略如下表,有興趣的同學(xué)可以看看:

注:HDFS新加的ARCHIVE存儲(chǔ)類型, 它是一種支持PB級(jí)的高容量存儲(chǔ)但很少的 計(jì)算能力,用于歸檔數(shù)據(jù)使用,從上圖可以看出冷數(shù)據(jù)適合使用archive存儲(chǔ)類型。