自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

如何使用分層存儲(chǔ)讓 HDFS 變得更高效?

大數(shù)據(jù)
在eBay,我們運(yùn)轉(zhuǎn)著多個(gè)由幾千個(gè)節(jié)點(diǎn)構(gòu)成的Hadoop集群,提供給成千上萬(wàn)的人使用。在這些Hadoop集群中我們存儲(chǔ)了幾千PB的數(shù)據(jù)。我們?cè)诒疚奶接懥巳绾位跀?shù)據(jù)使用頻率來(lái)優(yōu)化大數(shù)據(jù)存儲(chǔ)。實(shí)驗(yàn)表明該方法有效降低了經(jīng)濟(jì)成本。

在eBay,我們運(yùn)轉(zhuǎn)著多個(gè)由幾千個(gè)節(jié)點(diǎn)構(gòu)成的Hadoop集群,提供給成千上萬(wàn)的人使用。在這些Hadoop集群中我們存儲(chǔ)了幾千PB的數(shù)據(jù)。我們?cè)诒疚奶接懥巳绾位跀?shù)據(jù)使用頻率來(lái)優(yōu)化大數(shù)據(jù)存儲(chǔ)。實(shí)驗(yàn)表明該方法有效降低了經(jīng)濟(jì)成本。

Hadoop 及其承諾

眾所周知,商用硬件可以組裝起來(lái)創(chuàng)建擁有大數(shù)據(jù)存儲(chǔ)和計(jì)算能力的Hadoop集群。將數(shù)據(jù)拆分成多個(gè)部分,分別存儲(chǔ)在每個(gè)單獨(dú)的機(jī)器上,數(shù)據(jù)處理邏輯也在同樣的機(jī)器上執(zhí)行。

 

[[131112]]

例如:一個(gè)1000個(gè)節(jié)點(diǎn)組成的Hadoop集群,單節(jié)點(diǎn)容量有20TB,最多可以存儲(chǔ)20PB的數(shù)據(jù)。因此,所有的這些機(jī)器擁有足夠的計(jì)算能力來(lái)履行Hadoop的口號(hào):“take compute to data”。

數(shù)據(jù)的溫度

集群中通常存儲(chǔ)著各種不同類型的數(shù)據(jù)集,不同的團(tuán)隊(duì)通過(guò)該集群可以共享地處理他們不同類型的工作任務(wù)。通過(guò)數(shù)據(jù)管道,每個(gè)數(shù)據(jù)集每時(shí)每刻都會(huì)得到增長(zhǎng)。

數(shù) 據(jù)集有一個(gè)共同特點(diǎn)就是初始的使用量會(huì)很大。在此期間,數(shù)據(jù)集被認(rèn)為是“熱(HOT)”的。我們通過(guò)分析發(fā)現(xiàn),隨著時(shí)間的推移,使用率會(huì)有一定程度的下 降,存儲(chǔ)的數(shù)據(jù)每周僅僅就被訪問(wèn)幾次,逐漸就變?yōu)?ldquo;溫(WARM)”數(shù)據(jù)。在此后90天中,當(dāng)數(shù)據(jù)使用率跌至一個(gè)月幾次時(shí),它就被定義為“冷 (COLD)”數(shù)據(jù)。

因此數(shù)據(jù)在最初幾天被認(rèn)為是“熱”的,此后***個(gè)月仍然保持為“溫”的。在這期間,任務(wù)或應(yīng)用會(huì)使用幾次該數(shù)據(jù)。隨著 數(shù)據(jù)的使用率下降得更多,它就變“冷”了,在此后90天內(nèi)或許只被使用寥寥幾次。最終,當(dāng)數(shù)據(jù)一年只有一兩次使用頻率、極少用到時(shí),它的“溫度”就是“冰 凍”的了。

Data Age

Usage Frequency

Temperature

Age < 7 days

20 times a day

HOT

7 days > Age < 1 month

5 times a week

WARM

1 month < Age < 3 months

5 times a month

COLD

3 months < Age < 3 years

2 times a year

FROZEN

 

如何使用分層存儲(chǔ)讓 HDFS 變得更高效?

一般來(lái)講,溫度與每個(gè)數(shù)據(jù)集都緊密相關(guān)。在這個(gè)例子中,溫度是與數(shù)據(jù)的年齡成反比的。一個(gè)特定數(shù)據(jù)集的溫度也受其他因素影響的。你也可以通過(guò)算法決定數(shù)據(jù)集的溫度。

HDFS的分層存儲(chǔ)

HDFS從Hadoop2.3開(kāi)始支持分層存儲(chǔ)

它是如何工作的呢?

正常情況下,一臺(tái)機(jī)器添加到集群后,將會(huì)有指定的本地文件系統(tǒng)目錄來(lái)存儲(chǔ)這塊副本。用來(lái)指定本地存儲(chǔ)目錄的參數(shù)是dfs.datanode.dir。另一層中,比如歸檔(ARCHIVE)層,可以使用名為StorageType的枚舉來(lái)添加。為了表明這個(gè)本地目錄屬于歸檔層,該本地目錄配置中會(huì)帶有[ARCHIVE]的前綴。理論上,hadoop集群管理員可以定義多個(gè)層級(jí)。

比 如說(shuō):如果在一個(gè)已有1000個(gè)節(jié)點(diǎn),其總存儲(chǔ)容量為20PB的集群上,增加100個(gè)節(jié)點(diǎn),其中每個(gè)節(jié)點(diǎn)有200TB的存儲(chǔ)容量。相比已有的1000個(gè)節(jié) 點(diǎn),這些新增節(jié)點(diǎn)的計(jì)算能力就相對(duì)較差。接下來(lái),我們?cè)谒斜镜啬夸浀呐渲弥性黾覣RCHIVE的前綴。那么現(xiàn)在位于歸檔層的這100個(gè)節(jié)點(diǎn)將會(huì)有 20PB的存儲(chǔ)量。***整個(gè)集群被劃分為兩層——磁盤(DISK)層和歸檔(ARCHIVE)層,每一層有20PB的容量,總?cè)萘繛?0PB。

 

如何使用分層存儲(chǔ)讓 HDFS 變得更高效?

基于溫度將數(shù)據(jù)映射到存儲(chǔ)層

在這個(gè)例子中,我們將在擁有更強(qiáng)計(jì)算能力節(jié)點(diǎn)的DISK層存儲(chǔ)高頻率使用的“熱(HOT)”數(shù)據(jù)。

至于“溫(WARM)”數(shù)據(jù),我們將其大部分的副本存儲(chǔ)在磁盤層。對(duì)于復(fù)制因子(replication factor)為3的數(shù)據(jù),我們將在磁盤層存儲(chǔ)其兩個(gè)副本,在歸檔層存儲(chǔ)一個(gè)副本。

如果數(shù)據(jù)已經(jīng)變“冷(COLD)”,那么我們至少將在磁盤層存儲(chǔ)其每個(gè)塊的一個(gè)副本。余下的副本都放入歸檔層。

 

如何使用分層存儲(chǔ)讓 HDFS 變得更高效?

當(dāng) 一個(gè)數(shù)據(jù)集為認(rèn)為是“冰凍(FROZEN)”的,這就意味著它幾乎已經(jīng)不被使用,將其存儲(chǔ)在具有大量CPU、能執(zhí)行眾多任務(wù)節(jié)點(diǎn)或容器的節(jié)點(diǎn)上是不明智 的。我們會(huì)把它存儲(chǔ)到一個(gè)具有最小計(jì)算能力的節(jié)點(diǎn)上。因此,所有處于“冰凍(FROZEN)”狀態(tài)塊的全部副本都可以被移動(dòng)到歸檔層。

跨層的數(shù)據(jù)流

當(dāng) 數(shù)據(jù)***次添加到集群中,它將被存儲(chǔ)到默認(rèn)的磁盤層。基于數(shù)據(jù)的溫度,它的一個(gè)或多個(gè)副本將被移動(dòng)到歸檔層。移動(dòng)器就是用來(lái)把數(shù)據(jù)從一個(gè)層移動(dòng)到另一層 的。移動(dòng)器的工作原理類似平衡器,除了它可以跨層地移動(dòng)塊的副本。移動(dòng)器可接受一條HDFS路徑,一個(gè)副本數(shù)目和目的地層信息。然后它將基于所述層的信息 識(shí)別將要被移動(dòng)的副本,并調(diào)度數(shù)據(jù)在源數(shù)據(jù)節(jié)點(diǎn)到目的數(shù)據(jù)節(jié)點(diǎn)的移動(dòng)。

Hadoop 2.6中支持分層存儲(chǔ)的變化

Hadoop 2.6中有許多的改進(jìn)使其能夠進(jìn)一步支持分層存儲(chǔ)。你可以附加一個(gè)存儲(chǔ)策略到某個(gè)目錄來(lái)指明它是“熱(HOT)”的,“溫(WARM)”的,“冷 (COLD)”的, 還是“冰凍(FROZEN)”的。存儲(chǔ)策略定義了每一層可存儲(chǔ)的副本數(shù)量。我可以改變目錄的存儲(chǔ)策略并啟動(dòng)該目錄的移動(dòng)器來(lái)使得策略生效。

使用數(shù)據(jù)的應(yīng)用

基于數(shù)據(jù)的溫度,數(shù)據(jù)的部分或者全部副本可能存儲(chǔ)在任一層中。但對(duì)于通過(guò)HDFS來(lái)使用數(shù)據(jù)的應(yīng)用而言,其位置是透明的。

雖 然“冰凍”數(shù)據(jù)的所有副本都在歸檔層,應(yīng)用依然可以像訪問(wèn)HDFS的任何數(shù)據(jù)一樣來(lái)訪問(wèn)它。由于歸檔層中的節(jié)點(diǎn)并沒(méi)有計(jì)算能力,運(yùn)行在磁盤層的映射 (map)任務(wù)將從歸檔層的節(jié)點(diǎn)上讀取數(shù)據(jù),但這會(huì)導(dǎo)致增加應(yīng)用的網(wǎng)絡(luò)流量消耗。如果這種情況頻繁地發(fā)生,你可以指定該數(shù)據(jù)為“溫/冷”,并讓移動(dòng)器移回 一個(gè)或多個(gè)副本到磁盤層。

確定數(shù)據(jù)溫度以及完成指定的副本移動(dòng)至預(yù)先定義的分層存儲(chǔ)可以全部自動(dòng)化。

eBay的分層存儲(chǔ)

eBay 在其中一個(gè)具有非常大規(guī)模的集群上使用了分層存儲(chǔ)。該集群擁有40PB的數(shù)據(jù)。我們又額外增加了10PB計(jì)算能力受限的存儲(chǔ)容量。每一個(gè)新的機(jī)器都可以存 儲(chǔ)220TB。我們把增加的存儲(chǔ)標(biāo)記為歸檔層,并把一些目錄標(biāo)識(shí)為“溫”、“冷”或者“冰凍”。然后根據(jù)它們的溫度,移動(dòng)所有或部分的副本到歸檔層。

每GB歸檔層的價(jià)格要比磁盤層價(jià)格低四倍。這種差異主要是由于在歸檔層的機(jī)器具有非常有限的計(jì)算能力,故降低了成本。

總結(jié)

無(wú) 計(jì)算能力的存儲(chǔ)比有計(jì)算能力的存儲(chǔ)要便宜。我們可以依據(jù)數(shù)據(jù)的溫度來(lái)確保具計(jì)算能力的存儲(chǔ)能得到充分地使用。因?yàn)槊恳粋€(gè)分塊的數(shù)據(jù)都會(huì)被復(fù)制多次(默認(rèn)是 3次),根據(jù)數(shù)據(jù)的溫度,許多副本都會(huì)被移動(dòng)到低成本的存儲(chǔ)中。HDFS支持分層存儲(chǔ)并提供必要的工具來(lái)進(jìn)行跨層的數(shù)據(jù)移動(dòng)。eBay已經(jīng)在其一個(gè)非常大 規(guī)模的集群上啟用了分層存儲(chǔ),用來(lái)進(jìn)行數(shù)據(jù)存檔。

Benoy Antony 是Apache Hadoop委員會(huì)的一名成員,他關(guān)注于HDFS和Hadoop安全性的研究。作為一名軟件工程師,Benoy就職于eBay數(shù)據(jù)基礎(chǔ)設(shè)施和服務(wù)部門。

責(zé)任編輯:王雪燕 來(lái)源: 伯樂(lè)在線
相關(guān)推薦

2017-11-02 10:23:48

冷熱分層存儲(chǔ)

2009-07-06 14:23:00

SSL VPNArray netwo

2009-06-19 10:16:10

巔峰訪談

2017-04-19 11:58:38

5G智能繃帶

2023-09-12 16:20:04

邊緣AI深度學(xué)習(xí)

2011-08-29 09:33:48

2018-05-08 14:58:07

戴爾

2010-12-12 09:40:00

Android UI設(shè)

2023-11-24 11:20:04

functoolsPython

2019-04-19 08:47:00

前端監(jiān)控數(shù)據(jù)

2016-06-30 16:54:49

UCloud愛(ài)數(shù)云計(jì)算

2024-03-19 00:10:00

aiofilesPython開(kāi)發(fā)

2011-07-21 13:52:43

組策略網(wǎng)絡(luò)打印機(jī)

2025-04-24 08:40:00

JavaScript代碼return語(yǔ)句

2020-05-29 14:24:46

新華三

2020-09-28 18:01:43

開(kāi)發(fā)彩色代碼

2020-09-27 14:43:37

開(kāi)發(fā)工具技術(shù)

2015-09-30 14:22:44

Qlik數(shù)據(jù)

2015-12-31 11:57:17

華為eLTE物聯(lián)網(wǎng)

2010-12-23 15:55:00

上網(wǎng)行為管理
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)