自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

初探:企業(yè)數(shù)據(jù)湖治理優(yōu)秀實踐!

大數(shù)據(jù) 數(shù)據(jù)湖
通常,那些剛接觸大數(shù)據(jù)的人,甚至是精通Hadoop的老手,都會嘗試使用不同的腳本、工具和第三方供應(yīng)商來組建幾個集群并拼湊在一起,這既不符合成本效益,也不可持續(xù)。本文,作者將描述數(shù)據(jù)湖與集群拼湊方式相比的優(yōu)勢是什么,集群如何規(guī)劃和治理才能構(gòu)建有效的數(shù)據(jù)湖。

數(shù)據(jù)湖正在成為一種越來越可行的解決方案,用于企業(yè)從大數(shù)據(jù)中提取價值,并代表早期大數(shù)據(jù)采用者合乎邏輯的下一步。這一概念是2011年提出來的,最初的數(shù)據(jù)湖是對數(shù)據(jù)倉庫的一個補充,主要是為了解決數(shù)據(jù)倉庫開發(fā)周期漫長,開發(fā)和維護成本較高,細(xì)節(jié)數(shù)據(jù)丟失等問題。數(shù)據(jù)湖大多相對于傳統(tǒng)的基于RDBMS的數(shù)據(jù)倉庫,在隔離的邏輯區(qū)域中提供結(jié)構(gòu)化、非結(jié)構(gòu)化和歷史數(shù)據(jù)的靈活性,這已經(jīng)和安全性一起為企業(yè)帶來了一系列轉(zhuǎn)型的可能。

然而,許多潛在用戶無法理解可用數(shù)據(jù)湖的定義。通常,那些剛接觸大數(shù)據(jù)的人,甚至是精通Hadoop的老手,都會嘗試使用不同的腳本、工具和第三方供應(yīng)商來組建幾個集群并拼湊在一起,這既不符合成本效益,也不可持續(xù)。本文,作者將描述數(shù)據(jù)湖與集群拼湊方式相比的優(yōu)勢是什么,集群如何規(guī)劃和治理才能構(gòu)建有效的數(shù)據(jù)湖。

區(qū)域

在數(shù)據(jù)湖中,區(qū)域允許數(shù)據(jù)的邏輯或物理分離,從而保護整體環(huán)境的安全性、有序性和敏捷性。通常,建議企業(yè)使用3或4個區(qū)域,但可以使用更少或更多區(qū)域。通用的4區(qū)系統(tǒng)可能包括以下內(nèi)容:

  • Transient Zone(瞬態(tài)區(qū)域)——用于在獲取之前短暫保存數(shù)據(jù),例如臨時副本,流式spool或其他短期數(shù)據(jù)。
  • Raw Zone(原始區(qū)域)——存放原始數(shù)據(jù)的區(qū)域,該區(qū)域敏感數(shù)據(jù)必須加密,標(biāo)記化或以其他方式保護。
  • Trusted Zone(受信任區(qū)域)——對原始區(qū)域中的數(shù)據(jù)執(zhí)行數(shù)據(jù)質(zhì)量、驗證或其他處理后,它將成為此區(qū)域中下游系統(tǒng)的“真實數(shù)據(jù)來源”,也就是說其下游系統(tǒng)會從該區(qū)域獲取數(shù)據(jù)。
  • Refined Zone(再處理區(qū))——操作和豐富的數(shù)據(jù)保存在此區(qū)域,這用于存儲來自Hive或外部工具等的輸出,這些工具將寫入數(shù)據(jù)湖中。

這種區(qū)域劃分可以根據(jù)需要適應(yīng)企業(yè)的業(yè)務(wù)規(guī)模、成熟度和特殊用例,但將通過專用服務(wù)器或者集群實現(xiàn)物理隔離,通過故意構(gòu)建目錄和訪問權(quán)限進行邏輯分離,或者兩者進行特別組合。在視覺上,這種架構(gòu)類似于下面的架構(gòu)。 

建立和維護定義明確的區(qū)域是創(chuàng)建健康湖泊的重要步驟。同時,了解哪些區(qū)域不提供災(zāi)難恢復(fù)或數(shù)據(jù)冗余策略也是非常重要的。盡管可以在DR中考慮該問題,但仍然需要投資可靠的底層基礎(chǔ)架構(gòu)以確保冗余和恢復(fù)能力。

Lineage

隨著新數(shù)據(jù)源的不斷添加以及現(xiàn)有數(shù)據(jù)源的更新或修改,維護數(shù)據(jù)集內(nèi)部關(guān)系之間的記錄變得更加重要。這些關(guān)系就像重命名列一樣簡單,也可能像連接不同源的多個表一樣復(fù)雜,每個表本身可能有多個上游轉(zhuǎn)換。在此上下文中,lineage有助于提供跟蹤性以了解字段或數(shù)據(jù)集的來源以及審計跟蹤,并了解更改的位置、時間和原因。聽起來簡單,但是當(dāng)數(shù)據(jù)在湖中移動時捕獲有關(guān)數(shù)據(jù)的細(xì)節(jié)非常困難,即使今天部署了一些專門的軟件。跟蹤的整個過程涉及事務(wù)級別(訪問數(shù)據(jù)和做了什么?)以及結(jié)構(gòu)或文件系統(tǒng)級別(數(shù)據(jù)集和字段之間的關(guān)系是什么?)等問題。數(shù)據(jù)湖中包括數(shù)據(jù)的批和流處理工具(例如MapReduce和Spark),以及可能操縱數(shù)據(jù)的任何外部系統(tǒng),例如RDBMS系統(tǒng)。lineage可填補傳統(tǒng)系統(tǒng)的部分空白,特別是隨著GDPR等新法規(guī)的出現(xiàn)——靈活性和可擴展性是未來管理的關(guān)鍵。

數(shù)據(jù)質(zhì)量

在數(shù)據(jù)湖中,并非所有數(shù)據(jù)都相同。因此,定義數(shù)據(jù)源以及管理和使用數(shù)據(jù)至關(guān)重要。通過清理來自各種物聯(lián)網(wǎng)設(shè)備或社交媒體的數(shù)據(jù),可以獲得很多價值。企業(yè)還可以考慮在消費方而不是采購方應(yīng)用數(shù)據(jù)質(zhì)量檢查。因為,單個數(shù)據(jù)質(zhì)量體系結(jié)構(gòu)可能不適用于所有類型的數(shù)據(jù)。必須注意的是,如果數(shù)據(jù)被“清理”,用于分析的結(jié)果可能會產(chǎn)生影響。修復(fù)數(shù)據(jù)集中值的字段級數(shù)據(jù)質(zhì)量規(guī)則可以影響預(yù)測模型結(jié)果,因為這些修復(fù)可以影響異常值。通過比較“數(shù)據(jù)集的預(yù)期與接收大小”或“空值閾值”來衡量數(shù)據(jù)質(zhì)量規(guī)則是否可用可能更適合此類情況。通常,所需驗證的級別受傳統(tǒng)限制或已經(jīng)存在的內(nèi)部流程影響,在設(shè)置新規(guī)則之前評估公司的現(xiàn)有流程是必須的。

隱私與安全

健康數(shù)據(jù)湖的關(guān)鍵組成部分是隱私和安全性,包括基于角色的訪問控制、身份驗證、授權(quán)以及靜態(tài)和動態(tài)數(shù)據(jù)加密等。從純數(shù)據(jù)湖和數(shù)據(jù)管理的角度來看,最重要的往往是數(shù)據(jù)混淆,包括標(biāo)記化和數(shù)據(jù)屏蔽。應(yīng)該使用這兩個概念來幫助數(shù)據(jù)遵守最小特權(quán)的安全概念。限制數(shù)據(jù)訪問也對許多希望遵守法規(guī)的企業(yè)具有意義。限制訪問有幾種形式,最明顯的是存儲層中區(qū)域的大量使用。簡而言之,可以配置存儲層中的權(quán)限,使得以最原始格式訪問數(shù)據(jù)非常有限。由于該數(shù)據(jù)隨后通過標(biāo)記化和掩蔽(即隱藏PII數(shù)據(jù))進行轉(zhuǎn)換,因此可以將對后續(xù)區(qū)域中的數(shù)據(jù)訪問擴展到更大的用戶組。

DLM

企業(yè)必須努力發(fā)展其數(shù)據(jù)管理戰(zhàn)略,以更有效地保護和服務(wù)其數(shù)字資產(chǎn)。這涉及投入時間和資源來完全創(chuàng)建生命周期管理策略,并確定是使用扁平結(jié)構(gòu)還是利用分層保護。數(shù)據(jù)生命周期管理的前提是基于數(shù)據(jù)創(chuàng)建、使用和存檔這一事實。如今,這個前提可能適用于某些交易數(shù)據(jù)。企業(yè)應(yīng)該了解信息、數(shù)據(jù)和存儲介質(zhì)的相同點和差異,并能夠***限度地利用不同存儲層消除復(fù)雜性和成本并釋放價值。

結(jié)論

就像處于初期階段的關(guān)系數(shù)據(jù)庫一樣,近年來Hadoop的應(yīng)用因缺乏***實踐而受到影響。企業(yè)在考慮將Hadoop用作數(shù)據(jù)湖時,需要參考盡可能多的***實踐。利用區(qū)域和適當(dāng)?shù)氖跈?quán)作為數(shù)據(jù)工作流框架的一部分,為數(shù)據(jù)轉(zhuǎn)換提供高度可擴展的并行系統(tǒng)。

責(zé)任編輯:未麗燕 來源: IT168
相關(guān)推薦

2023-10-24 14:48:23

數(shù)據(jù)治理大數(shù)據(jù)

2023-11-14 14:25:09

數(shù)據(jù)湖大數(shù)據(jù)

2022-12-09 09:39:01

數(shù)據(jù)治理

2021-07-19 10:06:30

數(shù)據(jù)治理數(shù)字化轉(zhuǎn)型CIO

2022-10-14 14:20:20

云原生數(shù)據(jù)倉庫

2021-08-07 09:32:23

數(shù)據(jù)治理數(shù)字化轉(zhuǎn)型CIO

2021-09-06 11:15:05

數(shù)據(jù)治理字節(jié)跳動埋點

2022-07-03 07:50:57

數(shù)據(jù)治理數(shù)據(jù)湖數(shù)據(jù)倉庫

2022-07-29 14:18:11

數(shù)據(jù)安全數(shù)據(jù)丟失防護

2024-03-26 00:03:50

多云治理云計算

2023-02-13 14:01:32

2023-01-31 15:27:13

數(shù)據(jù)治理數(shù)據(jù)管理

2021-09-09 11:45:16

數(shù)據(jù)

2020-06-28 11:00:18

大數(shù)據(jù)數(shù)據(jù)湖安全

2023-05-04 16:08:43

2023-04-07 07:14:34

2024-06-04 07:29:13

2024-07-12 11:40:13

2023-04-10 07:34:30

2024-04-22 07:56:32

數(shù)據(jù)倉庫數(shù)據(jù)中臺數(shù)據(jù)服務(wù)
點贊
收藏

51CTO技術(shù)棧公眾號