如何將Hadoop集成到工作流程中?這6個(gè)優(yōu)秀實(shí)踐必看
企業(yè)一直在尋找從數(shù)據(jù)中缺德商業(yè)價(jià)值的方法。比如將重點(diǎn)放在分析上,將其作為獲得價(jià)值的主要來(lái)源。而這正是Hadoop的用武之地,因?yàn)樗粌H能夠有效地處理大量數(shù)據(jù),而且非常實(shí)惠。有了它的幫助,即使是小型企業(yè)也可以擴(kuò)展其現(xiàn)有的IT系統(tǒng)。由于這個(gè)原因,預(yù)計(jì)未來(lái)幾年Hadoop的使用量還將增加。事實(shí)上,根據(jù)TDWI進(jìn)行的一項(xiàng)調(diào)查顯示,在過(guò)去兩年中,Hadoop集群的數(shù)量增加了60%以上。
一、什么是Hadoop?
Hadoop是一個(gè)軟件庫(kù),它允許在分布式系統(tǒng)中存儲(chǔ)大數(shù)據(jù)集,并借助簡(jiǎn)化的編程模塊在集群中處理這些數(shù)據(jù)集。
Hadoop的不同模塊包括:
- Hadoop Common - 支持Hadoop不同組件的模塊。
- HDFS - 創(chuàng)建抽象并幫助更快地訪問(wèn)存儲(chǔ)的應(yīng)用程序和數(shù)據(jù)。
- YARN - 幫助管理和調(diào)度集群中的資源和作業(yè)。
- Map Reduce - 基于YARN系統(tǒng),有助于并行處理大數(shù)據(jù)。
二、Hadoop對(duì)企業(yè)的好處
如果你還沒(méi)將Hadoop集成到生產(chǎn)環(huán)境中,那么需要盡快了解一下。因?yàn)槭褂盟钠髽I(yè)取得了積極的效果。預(yù)計(jì)到2020年底,全球Hadoop市場(chǎng)的收入將超過(guò)5000萬(wàn)美元。因此,企業(yè)開(kāi)始使用Hadoop已經(jīng)沒(méi)有比現(xiàn)在更***的時(shí)間了。
1. 經(jīng)濟(jì)和可擴(kuò)展
與其他軟件解決方案相比,Hadoop非常實(shí)惠且具有成本效益。它非常具有可擴(kuò)展性,因?yàn)樗梢暂p松地在廉價(jià)服務(wù)器上分發(fā)大型數(shù)據(jù)集。
在傳統(tǒng)和基本的解決方案中,如果不從預(yù)算中投入一些金錢(qián),就無(wú)法進(jìn)行擴(kuò)展。大多數(shù)企業(yè)刪除原始數(shù)據(jù)并保留重要數(shù)據(jù)以降低處理成本。
雖然它在短期內(nèi)是有益的,但如果想使用這些原始數(shù)據(jù)來(lái)實(shí)現(xiàn)不同的目標(biāo),你將來(lái)將面臨困難。使用Hadoop,無(wú)需刪除原始數(shù)據(jù),因?yàn)樗峁┝艘恍┛捎糜跀U(kuò)展業(yè)務(wù)的功能。
2. 多面手
Hadoop允許企業(yè)訪問(wèn)新的數(shù)據(jù)源和其他各種數(shù)據(jù)集。各種數(shù)據(jù)集有助于企業(yè)充分利用大型數(shù)據(jù)存儲(chǔ)庫(kù)。Hadoop的靈活性和多功能性的一個(gè)例子是它能夠訪問(wèn)社交網(wǎng)站,如Facebook,Instagram,Twitter等,收集大量有價(jià)值的信息。如果數(shù)據(jù)和信息得到適當(dāng)使用,那么企業(yè)發(fā)揮其全部潛力將具有重要價(jià)值。
3. 快速
Hadoop可以輕松映射企業(yè)服務(wù)器中集群上的任何數(shù)據(jù)。Hadoop存儲(chǔ)系統(tǒng)使用的工具和數(shù)據(jù)在同一臺(tái)服務(wù)器上;因此,它允許快速處理和檢索數(shù)據(jù)和信息。
在Hadoop的幫助下,你還可以在幾分鐘內(nèi)處理非結(jié)構(gòu)化數(shù)據(jù)。Hadoop的高速處理使其成為比市場(chǎng)上其他選擇更好的選擇。
4. 安全
Hadoop為任何企業(yè)或企業(yè)提供全面的安全性。其安全參數(shù)不允許從外部進(jìn)行任何未經(jīng)授權(quán)的訪問(wèn)。它可用作屏蔽,并在有任何不必要的系統(tǒng)訪問(wèn)時(shí)發(fā)出警告。
每當(dāng)你將特定信息或數(shù)據(jù)存儲(chǔ)到集群的特定節(jié)點(diǎn)時(shí),它也會(huì)復(fù)制到其他節(jié)點(diǎn)中。因此,當(dāng)其中一個(gè)節(jié)點(diǎn)崩潰或被破壞時(shí),你始終可以從其他節(jié)點(diǎn)訪問(wèn)數(shù)據(jù)。
三、在企業(yè)中集成Hadoop的***實(shí)踐
如上,你現(xiàn)在已經(jīng)了解了Hadoop的優(yōu)勢(shì),讓我們來(lái)看一下將其集成到企業(yè)中應(yīng)遵循的***實(shí)踐。這些是適用于小型和大型企業(yè)的七種***實(shí)踐。
實(shí)踐1:定義用法
需要做的***件事是定義Hadoop的初始用法。你可能已經(jīng)考慮過(guò)建立一個(gè)龐大的數(shù)據(jù)庫(kù),但建議不要開(kāi)始大規(guī)模,而是要實(shí)現(xiàn)可以幫助你進(jìn)行數(shù)據(jù)處理的小型且可實(shí)現(xiàn)的目標(biāo)。
首先定義數(shù)據(jù)訪問(wèn)和所需的不同類型的數(shù)據(jù),以及訪問(wèn)數(shù)據(jù)的方式,如數(shù)據(jù)提取,準(zhǔn)備報(bào)告,可視化等。你必須使用不同的數(shù)據(jù)提取方法來(lái)定義每個(gè)邊界。
實(shí)踐2:使用現(xiàn)有企業(yè)框架
關(guān)于IT的***的事情是你不必發(fā)明新的方法和技術(shù)。有許多庫(kù)和框架可以幫助你將Hadoop引入系統(tǒng)。因此,使用監(jiān)控?cái)?shù)據(jù)訪問(wèn),通信等功能的框架。其中一些框架包括Spring,JAX-RS等。
這些類型的框架的好處是開(kāi)發(fā)人員不需要將寶貴的時(shí)間花在控制過(guò)程上;相反,他們可以將其用于業(yè)務(wù)邏輯并制定新方法以制定業(yè)務(wù)規(guī)模。
實(shí)踐3:數(shù)據(jù)質(zhì)量
在Hadoop開(kāi)發(fā)中,數(shù)據(jù)質(zhì)量非常重要。如果系統(tǒng)正在監(jiān)控管理工具,那么Hadoop開(kāi)發(fā)還應(yīng)該與用于在出現(xiàn)異常時(shí)捕獲的工具一起使用。你還可以實(shí)施數(shù)據(jù)協(xié)調(diào)框架來(lái)處理任何數(shù)據(jù)質(zhì)量問(wèn)題。
實(shí)踐4:數(shù)據(jù)建模
由于Hadoop可以存儲(chǔ)任何類型的文件,因此許多開(kāi)發(fā)人員只需向其投放數(shù)據(jù)并期望獲得***處理性能。這不是處理數(shù)據(jù)的***方式;相反,你需要根據(jù)其模式定制數(shù)據(jù)建模。還需要了解數(shù)據(jù)是以數(shù)據(jù)格式還是數(shù)據(jù)訪問(wèn)方法來(lái)利用。
實(shí)踐5:數(shù)據(jù)沿襲
隨著數(shù)據(jù)集的增長(zhǎng),你需要跟蹤數(shù)據(jù)沿襲。你可以通過(guò)向傳入數(shù)據(jù)添加元數(shù)據(jù)來(lái)執(zhí)行此操作。Hadoop有幾個(gè)優(yōu)點(diǎn),可幫助你直接從源到目標(biāo)跟蹤數(shù)據(jù)質(zhì)量和元素。還可以在Hadoop集群中分配數(shù)據(jù)訪問(wèn)權(quán)限和目錄不同的數(shù)據(jù)集。
實(shí)踐6:安全
雖然Hadoop非常安全,但你需要遵循***使用指南。使用基于目錄的安全性,例如Active Directory和LDAP,這使得它非常安全和可管理。Apache Sentry有助于在Hadoop集群中實(shí)施元數(shù)據(jù)的安全性。為了更細(xì)粒度的安全性,可以選擇數(shù)據(jù)集的虛擬方法。
四、寫(xiě)在***
隨著全球的技術(shù)和業(yè)務(wù)不斷發(fā)展,Hadoop的采用也在不斷增加。這只是一個(gè)開(kāi)始,在未來(lái)幾年,小規(guī)模和大型企業(yè)都會(huì)將其納入他們的系統(tǒng)。您需要做的就是遵循上面列出的***實(shí)踐以獲得***的收益。