合理建立Hadoop數(shù)據(jù)庫的7個步驟
數(shù)據(jù)湖的概念起源于大數(shù)據(jù)的出現(xiàn)——且數(shù)據(jù)已成為企業(yè)的核心資產(chǎn),Hadoop則是作為存儲和管理數(shù)據(jù)的平臺而出現(xiàn)。但是,盲目地投入Hadoop數(shù)據(jù)湖建設(shè)并不一定會使您的企業(yè)進(jìn)入大數(shù)據(jù)時代——至少不是以一種成功的方式。
在將各種形狀和大小的數(shù)據(jù)資產(chǎn)以非統(tǒng)一方式匯入Hadoop環(huán)境或另一個大數(shù)據(jù)存儲庫的情況下,尤其如此。這種無序的方法會帶來一些挑戰(zhàn)和問題,這可能會成為使用數(shù)據(jù)湖來支持大數(shù)據(jù)分析應(yīng)用程序的一大阻礙。
例如,您可能無法記錄哪些數(shù)據(jù)對象存儲在數(shù)據(jù)湖中,或紀(jì)錄其來源和出處。這使得數(shù)據(jù)科學(xué)家和其他分析人員很難找到分布在Hadoop集群中的相關(guān)數(shù)據(jù),也難以使數(shù)據(jù)管理者識別誰可以訪問特定數(shù)據(jù)集,并確定其訪問權(quán)限級別。
如果您沒有一個良好的管理流程,組織數(shù)據(jù)并將相似的數(shù)據(jù)對象“桶裝”在一起以幫助簡化訪問和分析也將是一個挑戰(zhàn)。
這些問題都與數(shù)據(jù)湖或底層環(huán)境的物理架構(gòu)無關(guān),無論是Hadoop分布式文件系統(tǒng)還是像Amazon Simple Storage Service這樣的云對象存儲——或這些技術(shù)的組合,每種技術(shù)包含不同的類型數(shù)據(jù)。相反,成功實施數(shù)據(jù)湖的最大障礙來自對數(shù)據(jù)管理的規(guī)劃和監(jiān)督不足。

處理Hadoop數(shù)據(jù):做需要做的事
好的一點是,這些挑戰(zhàn)很容易克服。以下是解決和避免這些問題的七個步驟:
1、創(chuàng)建數(shù)據(jù)分類方法。在數(shù)據(jù)湖中對數(shù)據(jù)對象進(jìn)行組織取決于其分類方式。在分類中需要確定數(shù)據(jù)的關(guān)鍵維度,例如數(shù)據(jù)類型、內(nèi)容、使用方案、可能的用戶組和數(shù)據(jù)敏感性。后者涉及保護(hù)個人和公司數(shù)據(jù),例如保護(hù)有關(guān)客戶的個人身份信息,或者保護(hù)知識產(chǎn)權(quán)。
2、設(shè)計適當(dāng)?shù)臄?shù)據(jù)架構(gòu)。應(yīng)用定義好的分類方法來指導(dǎo)如何在Hadoop環(huán)境中組織數(shù)據(jù)。最終的計劃應(yīng)包括諸如用于數(shù)據(jù)存儲的文件層次結(jié)構(gòu)、文件和文件夾命名約定、用于不同數(shù)據(jù)集的訪問方法和控件、以及用于指導(dǎo)數(shù)據(jù)分發(fā)的機制之類的內(nèi)容。
3、使用數(shù)據(jù)分析工具。在許多情況下,可以通過分析數(shù)據(jù)的內(nèi)容,來部分地緩解對進(jìn)入數(shù)據(jù)湖的所有數(shù)據(jù)了解不足的問題。數(shù)據(jù)概要分析工具可以通過收集有關(guān)數(shù)據(jù)對象中內(nèi)容的信息來提供幫助,從而提供一些如何對其進(jìn)行分類的見解。作為數(shù)據(jù)湖實施方案的一部分,對數(shù)據(jù)進(jìn)行分析還有助于確定應(yīng)評估的數(shù)據(jù)質(zhì)量問題,以找出可能的修復(fù)方法,確保數(shù)據(jù)科學(xué)家和其他分析人員正在使用的信息是準(zhǔn)確的。
4、標(biāo)準(zhǔn)化數(shù)據(jù)訪問過程。有效使用存儲在Hadoop數(shù)據(jù)湖中的數(shù)據(jù)集所面臨的困難,通常源于不同分析團(tuán)隊使用多種數(shù)據(jù)訪問方法,而且其中許多未記錄。因此,建立一個通用而直接的API可以簡化數(shù)據(jù)訪問,并最終允許更多的用戶利用數(shù)據(jù)。
5、開發(fā)可搜索的數(shù)據(jù)目錄。有效數(shù)據(jù)訪問和使用面臨的一個更隱蔽的障礙是,除了有關(guān)數(shù)據(jù)沿襲、質(zhì)量和流通的信息外,潛在用戶不知道數(shù)據(jù)湖中的內(nèi)容以及Hadoop環(huán)境中不同數(shù)據(jù)集的位置。協(xié)作數(shù)據(jù)目錄允許將有關(guān)每個數(shù)據(jù)資產(chǎn)的前面這些以及其他詳細(xì)信息記錄在案。例如,它抓取結(jié)構(gòu)和語義元數(shù)據(jù)、出處和親屬關(guān)系記錄、訪問權(quán)限信息等等。數(shù)據(jù)目錄還為用戶組提供了一個論壇,以共享有關(guān)使用數(shù)據(jù)的經(jīng)驗,問題和建議。
6、實施足夠的數(shù)據(jù)保護(hù)。除了IT安全性的常規(guī)考慮(例如網(wǎng)絡(luò)邊界防御和基于角色的訪問控制)之外,還需要利用其他方法來防止暴露數(shù)據(jù)湖中包含的敏感信息。這包括數(shù)據(jù)加密和數(shù)據(jù)屏蔽之類的機制,以及自動監(jiān)視,以生成有關(guān)未經(jīng)授權(quán)的數(shù)據(jù)訪問或傳輸?shù)木瘓蟆?/p>
7、在內(nèi)部提高數(shù)據(jù)意識。最后,請確保您的數(shù)據(jù)湖用戶意識到有必要主動管理其包含的數(shù)據(jù)資產(chǎn)。教會他們?nèi)绾问褂脭?shù)據(jù)目錄查找可用數(shù)據(jù)集,以及如何配置分析應(yīng)用程序以訪問他們所需的數(shù)據(jù)。同時,給他們留下深刻印象的是正確使用數(shù)據(jù)和增強數(shù)據(jù)質(zhì)量的重要性。
為了實現(xiàn)使數(shù)據(jù)湖可訪問和可用的最終目標(biāo),在將數(shù)據(jù)遷移到Hadoop環(huán)境或基于云的大數(shù)據(jù)架構(gòu)之前,制定一個精心設(shè)計的數(shù)據(jù)處理計劃至關(guān)重要。采取本文中概述的步驟將有助于簡化數(shù)據(jù)湖的實施過程。更重要的是,規(guī)劃、組織和治理的正確組合將有助于最大程度地提高組織在數(shù)據(jù)湖中的投資,并降低部署失敗的風(fēng)險。