自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Hadoop也需要有數(shù)據(jù)生命周期管理

運(yùn)維 系統(tǒng)運(yùn)維 Hadoop
我們希望讓Hadoop來承載海量結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ),以及部分的數(shù)據(jù)加工,也許以后還會(huì)通過HIVE或者PIG的方式承載一些高端的即席查詢?nèi)蝿?wù)。這種混合而不是單一的任務(wù)注定了也需要實(shí)施生命周期管理,因?yàn)閿?shù)據(jù)加工通常是對近段時(shí)間的數(shù)據(jù)進(jìn)行,而數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)查詢則需要對歷史數(shù)據(jù)進(jìn)行。

 在數(shù)據(jù)倉庫中肯定是要實(shí)施數(shù)據(jù)生命周期管理的,因?yàn)槲覀冊趯?shí)際使用中發(fā)現(xiàn)對于數(shù)據(jù)倉庫中的數(shù)據(jù)訪問存在典型的二八原則,即通常80%的訪問集中在20%的數(shù)據(jù)上,這個(gè)結(jié)論是我們抽查了幾個(gè)省的數(shù)據(jù)倉庫后確認(rèn)的,甚至有的省由于數(shù)據(jù)倉庫設(shè)計(jì)的不一樣(比如日表、月表)等顯現(xiàn)得更加明顯?;谶@樣的情況,為了讓數(shù)據(jù)倉庫運(yùn)行得更加高效,同時(shí)能低成本的存儲(chǔ)長期的數(shù)據(jù),約一半以上的省公司數(shù)據(jù)倉庫實(shí)現(xiàn)了按照數(shù)據(jù)生命周期的分庫。

但是當(dāng)我們將目光轉(zhuǎn)向Hadoop的時(shí)候,發(fā)現(xiàn)同樣的問題依然存在。我們希望讓Hadoop來承載海量結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ),以及部分的數(shù)據(jù)加工,也許以后還會(huì)通過HIVE或者PIG的方式承載一些高端的即席查詢?nèi)蝿?wù)。這種混合而不是單一的任務(wù)注定了也需要實(shí)施生命周期管理,因?yàn)閿?shù)據(jù)加工通常是對近段時(shí)間的數(shù)據(jù)進(jìn)行,而數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)查詢則需要對歷史數(shù)據(jù)進(jìn)行。

根據(jù)訪問頻次和響應(yīng)時(shí)間以及吞吐率的需求不同,我們可以通過幾種方式來進(jìn)行數(shù)據(jù)生命周期管理。

一、在一個(gè)Hadoop系統(tǒng)中,通過不同的壓縮率、塊大小和副本數(shù)量來控制。對于歸檔的數(shù)據(jù),可以使用較高的壓縮率,較大的塊和較少的副本來保存。因?yàn)檩^高的壓縮率需要較長的解壓時(shí)間、較大的塊可以節(jié)約NameNode的空間,較少的副本(但仍需要保證數(shù)據(jù)安全)雖然會(huì)減少M(fèi)ap任務(wù)的本地調(diào)度幾率,但是由于頻率較少所以影響不大。

二、組成兩個(gè)HDFS系統(tǒng)。一個(gè)是專門為高性能計(jì)算設(shè)計(jì)的,有較多的高性能磁盤(SAS盤)、CPU和內(nèi)存,系統(tǒng)存儲(chǔ)容量不用太大。另外一個(gè)專門為歷史數(shù)據(jù)存儲(chǔ)和查詢設(shè)計(jì),用較多的高容量磁盤(SATA盤)、較少比例的CPU和內(nèi)存。兩個(gè)系統(tǒng)中的數(shù)據(jù)對象通過一個(gè)第三方組件來進(jìn)行透明的管理,兩個(gè)系統(tǒng)中的數(shù)據(jù)通過Hadoop中一個(gè)專門用來在兩個(gè)HDFS中導(dǎo)數(shù)據(jù)的組件,通過MapReduce來進(jìn)行高效的數(shù)據(jù)同步。在數(shù)據(jù)處理方面,兩個(gè)系統(tǒng)可以配置在一套JobTrack上,也可以僅讓第二套系統(tǒng)承擔(dān)HDFS的任務(wù),所有的MapReduce任務(wù)都放在第一套高性能系統(tǒng)上去實(shí)現(xiàn),讓它再去訪問第二套系統(tǒng)的HDFS。

個(gè)人感覺兩個(gè)也許可以混合起來用,當(dāng)然這加大了系統(tǒng)的復(fù)雜度,需要同步加強(qiáng)管控。

責(zé)任編輯:黃丹 來源: labs
相關(guān)推薦

2012-06-20 10:29:16

敏捷開發(fā)

2021-07-19 05:52:29

網(wǎng)絡(luò)生命周期網(wǎng)絡(luò)框架

2014-11-11 10:47:19

hadoop數(shù)據(jù)流

2012-08-16 14:45:50

Informatica數(shù)據(jù)集成大數(shù)據(jù)

2020-11-26 09:57:14

集成數(shù)據(jù)

2015-07-08 16:28:23

weak生命周期

2022-03-21 12:08:54

API網(wǎng)絡(luò)安全可視化

2022-06-01 09:25:16

嵌套生命周期智能技術(shù)工業(yè)資產(chǎn)

2009-05-21 09:12:41

Java開發(fā)平臺(tái)生命周期管理

2024-05-28 07:55:31

SpringBean用域

2010-12-03 12:22:02

局域網(wǎng)文檔文檔安全數(shù)據(jù)保護(hù)

2023-04-19 07:50:59

?云原生生命周期管理

2010-05-17 22:06:41

數(shù)據(jù)安全電子文檔鼎普科技

2013-09-26 11:20:34

Informatica

2020-03-13 07:33:28

物聯(lián)網(wǎng)生命周期管理IOT

2012-12-04 10:02:03

2023-12-18 08:24:56

ViewModel數(shù)據(jù)操作Android

2015-11-26 11:48:09

數(shù)據(jù)中心生命周期

2022-04-19 07:20:24

軟件開發(fā)安全生命周期SSDLC應(yīng)用安全

2015-12-04 09:46:34

數(shù)據(jù)中心生命周期管理
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)