在大數(shù)據(jù)里:Hadoop可能是你的救命稻草
用于數(shù)據(jù)分析的開(kāi)源Hadoop架構(gòu)的巨大增長(zhǎng)是由其結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)量的增長(zhǎng)所驅(qū)動(dòng)的,并且很多權(quán)威組織也預(yù)測(cè),未來(lái)Hadoop架構(gòu)還將繼續(xù)增長(zhǎng),并需要復(fù)雜的可訪問(wèn)工具來(lái)從數(shù)據(jù)中提取業(yè)務(wù)和市場(chǎng)信息。
對(duì)于Hadoop來(lái)說(shuō),前景很樂(lè)觀——開(kāi)源框架旨在促進(jìn)巨大數(shù)據(jù)集的分布式處理。Hadoop對(duì)企業(yè)越來(lái)越具有吸引力,因?yàn)樗瓤梢垣@取大數(shù)據(jù)的好處,同時(shí)又避免了基礎(chǔ)架構(gòu)費(fèi)用。
聯(lián)合市場(chǎng)研究部門(mén)最近的一份報(bào)告表明,Hadoop市場(chǎng)將實(shí)現(xiàn)從2013年到2020年的復(fù)合年增長(zhǎng)率為58.2%,到2020年整個(gè)市場(chǎng)將達(dá)到502億美元,而2012年為15億美元。
大數(shù)據(jù)到底有多“大”?根據(jù)IBM的說(shuō)法,每天都會(huì)產(chǎn)生2.5萬(wàn)億字節(jié)的數(shù)據(jù),世界上所有數(shù)據(jù)的90%都是在過(guò)去兩年中創(chuàng)建的。意識(shí)到這個(gè)巨大的信息商店的價(jià)值就需要數(shù)據(jù)分析工具,這些數(shù)據(jù)分析工具足夠復(fù)雜,價(jià)格便宜,而且對(duì)于各種規(guī)模的公司來(lái)說(shuō)都很容易使用。
許多企業(yè)認(rèn)為其專有數(shù)據(jù)太重要,無(wú)法在其他場(chǎng)合存儲(chǔ)和處理。然而,云服務(wù)現(xiàn)在提供與內(nèi)部系統(tǒng)相同的安全性和可用性。通過(guò)訪問(wèn)云中的數(shù)據(jù)庫(kù),企業(yè)也意識(shí)到可承受和可擴(kuò)展的云架構(gòu)的優(yōu)勢(shì)。
Morpheus數(shù)據(jù)庫(kù)即服務(wù)提供企業(yè)對(duì)其數(shù)據(jù)智能操作所需的安全性,高可用性和可擴(kuò)展性。通過(guò)Morpheus使用100%的裸機(jī)SSD托管和性能***化。該服務(wù)為Amazon Web Services和其他對(duì)等點(diǎn)以及云托管平臺(tái)提供超低延遲。
Hadoop的Nuts和Bolts大數(shù)據(jù)分析
Hadoop架構(gòu)將數(shù)據(jù)存儲(chǔ)和處理都分配到網(wǎng)絡(luò)上的所有節(jié)點(diǎn)。 通過(guò)將處理數(shù)據(jù)的小程序放置在具有更大數(shù)據(jù)集的節(jié)點(diǎn)中,不需要將數(shù)據(jù)流傳輸?shù)教幚砟K。Hadoop調(diào)度和資源管理框架執(zhí)行映射并減少集群環(huán)境中的階段步驟。
Hadoop分布式文件系統(tǒng)(HDFS)數(shù)據(jù)存儲(chǔ)層使用副本來(lái)克服節(jié)點(diǎn)故障,并針對(duì)順序讀取進(jìn)行了優(yōu)化,以支持大規(guī)模并行處理。當(dāng)框架擴(kuò)展到支持Amazon Web Services S3和其他云存儲(chǔ)文件系統(tǒng)時(shí),Hadoop的市場(chǎng)真的要起飛了。
盡管由于設(shè)置和運(yùn)行Hadoop集群的復(fù)雜性、框架的成本低和可擴(kuò)展性等優(yōu)勢(shì),在中小型企業(yè)中采用Hadoop仍然很難。新服務(wù)通過(guò)提供受管理并可以使用的Hadoop集群來(lái)消除復(fù)雜性:無(wú)需在集群節(jié)點(diǎn)上配置或安裝任何服務(wù)。
Netflix數(shù)據(jù)倉(cāng)庫(kù)將Hadoop和Amazon S3結(jié)合在一起,實(shí)現(xiàn)***可擴(kuò)展性
Netflix針對(duì)其PB級(jí)數(shù)據(jù)倉(cāng)庫(kù),通過(guò)Hadoop分布式文件系統(tǒng)選擇亞馬遜的存儲(chǔ)服務(wù)(S3),以實(shí)現(xiàn)基于云服務(wù)的動(dòng)態(tài)可擴(kuò)展性和***數(shù)據(jù)計(jì)算能力。Netflix從來(lái)自電視,計(jì)算機(jī)和移動(dòng)設(shè)備的數(shù)十億個(gè)流媒體事件中收集數(shù)據(jù)。
以S3作為其數(shù)據(jù)倉(cāng)庫(kù),可以為具有數(shù)百個(gè)節(jié)點(diǎn)的Hadoop集群配置各種工作負(fù)載,所有這些都能夠訪問(wèn)相同的數(shù)據(jù)。Netflix使用Amazon的彈性MapReduce分發(fā)Hadoop,并開(kāi)發(fā)了自己的Hadoop平臺(tái)即服務(wù),它稱之為Genie。Genie允許用戶從Hadoop,Pig,Hive和其他工具提交作業(yè),而無(wú)需通過(guò)RESTful API來(lái)配置新的集群或安裝新的客戶端。
▲Netflix Hadoop-S3數(shù)據(jù)倉(cāng)庫(kù)在廣泛分布的網(wǎng)絡(luò)中提供了***的數(shù)據(jù)和計(jì)算能力。
Wired的Marco Visibelli在2014年8月13日的文章中解釋說(shuō),結(jié)合Hadoop和云服務(wù)有顯著的潛力。Visibelli描述了公司如何利用Big Data進(jìn)行預(yù)測(cè),通過(guò)Amazon Web Services從小型項(xiàng)目擴(kuò)展,并在小項(xiàng)目取得成功的同時(shí)進(jìn)行擴(kuò)展。例如,一家歐洲汽車制造商使用Hadoop將幾個(gè)供應(yīng)商數(shù)據(jù)庫(kù)結(jié)合到一個(gè)單一的15TB數(shù)據(jù)庫(kù)中,兩年內(nèi)節(jié)省了1600萬(wàn)美元。
Hadoop為各種規(guī)模的組織打開(kāi)了“大數(shù)據(jù)”大門(mén)。 利用Morpheus數(shù)據(jù)庫(kù)作為服務(wù)的云服務(wù)的可擴(kuò)展性,安全性,可訪問(wèn)性和可承受性的項(xiàng)目有更大的成功機(jī)會(huì)。