數(shù)據(jù)湖治理:優(yōu)勢、挑戰(zhàn)和入門
成功的數(shù)據(jù)治理計劃會利用政策、標準和流程來創(chuàng)建高質(zhì)量數(shù)據(jù),并確保在整個組織中正確利用這些數(shù)據(jù)。數(shù)據(jù)治理最初側(cè)重于關(guān)系數(shù)據(jù)庫和傳統(tǒng)數(shù)據(jù)倉庫中的結(jié)構(gòu)化數(shù)據(jù),但后來情況發(fā)生變化。如果你的企業(yè)擁有數(shù)據(jù)湖環(huán)境,并希望從中獲得準確的分析結(jié)果,那么你還需要部署適當?shù)臄?shù)據(jù)湖治理,作為整體治理計劃的一部分。
但數(shù)據(jù)湖對企業(yè)數(shù)據(jù)管理的所有領(lǐng)域(包括數(shù)據(jù)治理)帶來各種挑戰(zhàn)。下面我們將探討一些主要的治理挑戰(zhàn),以及有效治理數(shù)據(jù)湖的好處。不過,首先讓我們定義什么是數(shù)據(jù)湖:這是指一個擁有大量原始數(shù)據(jù)的數(shù)據(jù)平臺,通常包括各種結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)類型。它通常建立在Hadoop、Spark和其他大數(shù)據(jù)技術(shù)之上。
雖然大多數(shù)數(shù)據(jù)倉庫將數(shù)據(jù)存儲在關(guān)系表中,但數(shù)據(jù)湖使用扁平架構(gòu)。每個數(shù)據(jù)元素都被分配一個唯一標識符,并用一組元數(shù)據(jù)標簽進行標記。因此,數(shù)據(jù)湖不像數(shù)據(jù)倉庫那么結(jié)構(gòu)化。數(shù)據(jù)通常以其原始格式保留,并根據(jù)特定分析用途的需要進行分類、整理和過濾,而不是在將其加載到數(shù)據(jù)湖中時。
數(shù)據(jù)湖與數(shù)據(jù)沼澤
如果數(shù)據(jù)湖沒有得到很好的管理和治理,它可能會變成沼澤而不是湖泊。數(shù)據(jù)在沒有適當監(jiān)督和記錄的情況下被轉(zhuǎn)儲到平臺中,使數(shù)據(jù)管理和治理團隊難以跟蹤數(shù)據(jù)湖中的內(nèi)容。這可能會導致數(shù)據(jù)質(zhì)量、一致性、可靠性和可訪問性方面出現(xiàn)問題。
因此,數(shù)據(jù)科學家、數(shù)據(jù)工程師和其他最終用戶可能無法為分析應(yīng)用程序找到相關(guān)數(shù)據(jù)。更糟糕的是,數(shù)據(jù)沼澤可能會導致分析錯誤,并最終導致糟糕的業(yè)務(wù)決策。數(shù)據(jù)安全和隱私保護可能無法正確應(yīng)用,從而使企業(yè)的數(shù)據(jù)資產(chǎn)及其商業(yè)聲譽面臨風險。為了避免這種沼澤地情況,企業(yè)必須管理數(shù)據(jù)湖環(huán)境。
數(shù)據(jù)湖治理的好處
有效的數(shù)據(jù)治理使企業(yè)能夠提高數(shù)據(jù)質(zhì)量,并最大限度地利用數(shù)據(jù)進行業(yè)務(wù)決策,這可以帶來運營改進、更強大的業(yè)務(wù)戰(zhàn)略和更好的財務(wù)績效。這個道理同樣適用于治理數(shù)據(jù)湖,就像它與其他類型的系統(tǒng)一樣。數(shù)據(jù)湖治理提供的具體好處包括:
- 增加對相關(guān)數(shù)據(jù)的訪問以進行高級分析。在管理良好的數(shù)據(jù)湖中,數(shù)據(jù)科學家和分析團隊的其他成員更容易找到機器學習、預(yù)測分析和其他數(shù)據(jù)科學應(yīng)用所需的數(shù)據(jù)。
- 為分析用途準備數(shù)據(jù)所花費的時間更少。雖然數(shù)據(jù)湖中的數(shù)據(jù)通常以原始形式保留,知道特定應(yīng)用程序需要它,但在受監(jiān)管的環(huán)境中可以縮短數(shù)據(jù)準備過程。例如,前期數(shù)據(jù)清理減少以后修復(fù)數(shù)據(jù)錯誤和其他問題的時間。
- 降低IT和數(shù)據(jù)管理成本。通過防止數(shù)據(jù)湖失控,可以減少所需的數(shù)據(jù)處理和存儲資源。通過提高數(shù)據(jù)準確性、整齊度和一致性,還可以降低總體數(shù)據(jù)管理需求。
- 提高敏感數(shù)據(jù)的安全性和監(jiān)管合規(guī)下。數(shù)據(jù)湖的常見用例是幫助營銷和銷售。因此,他們通常包含有關(guān)客戶的敏感信心。數(shù)據(jù)湖的強大治理有助于幫助此類數(shù)據(jù)得到適當保護,并且不會被濫用。
數(shù)據(jù)湖治理挑戰(zhàn)
數(shù)據(jù)治理的配套數(shù)據(jù)管理學科包括數(shù)據(jù)質(zhì)量、元數(shù)據(jù)管理和數(shù)據(jù)安全,所有這些因素都會影響數(shù)據(jù)湖治理及其挑戰(zhàn)。以下是數(shù)據(jù)湖部署中遇到的五個常見數(shù)據(jù)治理挑戰(zhàn)。
(1) 識別和維護正確的數(shù)據(jù)源。在很多數(shù)據(jù)湖實施中,源元數(shù)據(jù)沒有被捕獲或根本不可用,這使得數(shù)據(jù)湖內(nèi)容的有效性值得懷疑。例如,記錄系統(tǒng)或數(shù)據(jù)集的業(yè)務(wù)所有者沒有被列出,或者明顯冗余數(shù)據(jù)可能會給數(shù)據(jù)分析師帶來問題。至少,應(yīng)記錄數(shù)據(jù)湖中所有數(shù)據(jù)的源元數(shù)據(jù),并提供給用戶以深入了解其來源。
(2) 元數(shù)據(jù)管理問題。元數(shù)據(jù)為數(shù)據(jù)集的內(nèi)容提供背景信息,使數(shù)據(jù)在應(yīng)用程序中易于理解和使用,元數(shù)據(jù)是重要組成部分。但是很多數(shù)據(jù)湖部署沒有將正確的數(shù)據(jù)定義應(yīng)用于收集的數(shù)據(jù)。此外,由于原始數(shù)據(jù)通常加載到數(shù)據(jù)湖中,很多企業(yè)沒有部署步驟來驗證數(shù)據(jù)或應(yīng)用組織數(shù)據(jù)標準。由于缺乏適當?shù)脑獢?shù)據(jù)管理,數(shù)據(jù)湖中的數(shù)據(jù)對分析沒什么用處。
(3) 數(shù)據(jù)治理和數(shù)據(jù)質(zhì)量缺乏協(xié)調(diào)。不協(xié)調(diào)數(shù)據(jù)湖治理和數(shù)據(jù)質(zhì)量工作可能會導致低質(zhì)量數(shù)據(jù)進入數(shù)據(jù)湖。當數(shù)據(jù)用于分析和推動業(yè)務(wù)決策時,這可能會導致結(jié)果不準確,從而導致對數(shù)據(jù)湖的信心喪失以及整個組織對數(shù)據(jù)的普遍不信任。有效的數(shù)據(jù)湖實施需要數(shù)據(jù)質(zhì)量分析師和工程師與數(shù)據(jù)治理團隊和業(yè)務(wù)數(shù)據(jù)管理員密切合作,以應(yīng)用數(shù)據(jù)質(zhì)量策略、分析數(shù)據(jù)并采取必要措施來提高其質(zhì)量。
(4) 數(shù)據(jù)治理和數(shù)據(jù)安全缺乏協(xié)調(diào)。在這種情況下,未在治理過程中正確應(yīng)用的數(shù)據(jù)安全標準和策略,可能會導致訪問受隱私法規(guī)保護的個人數(shù)據(jù)和其他類型的敏感數(shù)據(jù)時出現(xiàn)問題。盡管數(shù)據(jù)湖旨在成為相當開放的數(shù)據(jù)源,但仍需要安全和訪問控制措施,并且數(shù)據(jù)治理和數(shù)據(jù)安全團隊應(yīng)共同努力處理數(shù)據(jù)湖設(shè)計和加載過程以及持續(xù)的數(shù)據(jù)治理工作。
(5) 使用相同數(shù)據(jù)湖的業(yè)務(wù)部門之間的沖突。不同部門可能對相似數(shù)據(jù)有不同的業(yè)務(wù)規(guī)則,這可能導致無法協(xié)調(diào)數(shù)據(jù)差異以進行準確分析。擁有一個強大的數(shù)據(jù)治理計劃,具有數(shù)據(jù)策略、標準、程序和定義的企業(yè)視圖,包括企業(yè)業(yè)務(wù)術(shù)語表,可以減少多個業(yè)務(wù)部門使用一個數(shù)據(jù)湖時出現(xiàn)的問題。如果企業(yè)有多個數(shù)據(jù)湖,則每個數(shù)據(jù)湖都應(yīng)包含在數(shù)據(jù)湖治理流程中,并為其分配業(yè)務(wù)數(shù)據(jù)管理員。
如何開始管理數(shù)據(jù)湖
與其他類型系統(tǒng)中的數(shù)據(jù)治理一樣,數(shù)據(jù)湖治理的常見初始步驟包括:
- 記錄管理數(shù)據(jù)湖的業(yè)務(wù)案例,包括數(shù)據(jù)質(zhì)量指標和其他衡量管理工作收益的方法。
- 尋找高管或業(yè)務(wù)發(fā)起人,以幫助為治理工作獲得批準和資金支持。
- 如果你還沒有適當?shù)臄?shù)據(jù)治理架構(gòu),請創(chuàng)建一個架構(gòu),其中包括治理團隊、數(shù)據(jù)管理嚴以及數(shù)據(jù)治理委員會-由業(yè)務(wù)主管和其他相關(guān)數(shù)據(jù)所有者組成。
- 與治理委員會合作,為數(shù)據(jù)湖環(huán)境制定數(shù)據(jù)標準和治理政策。
另一個好的初始步驟是構(gòu)建數(shù)據(jù)目錄,以幫助最終用戶定位和理解存儲在數(shù)據(jù)湖中的數(shù)據(jù)?;蛘?,如果你已經(jīng)擁有其他數(shù)據(jù)資產(chǎn)的目錄,則可以將其擴展為包括數(shù)據(jù)湖。數(shù)據(jù)目錄捕獲元數(shù)據(jù)并創(chuàng)建可用數(shù)據(jù)的清單,用戶可以搜索以找到他們需要的數(shù)據(jù)。你還可以在目錄中嵌入有關(guān)你組織的數(shù)據(jù)治理策略的信息,以及強制執(zhí)行規(guī)則和限制的機制。
總之,通過在設(shè)計、加載和維護數(shù)據(jù)環(huán)境中涵蓋強大的數(shù)據(jù)治理以及元數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量和數(shù)據(jù)安全流程,可以顯著提高數(shù)據(jù)湖的價值。經(jīng)驗豐富的專業(yè)人員在所有這些領(lǐng)域的積極參與也至關(guān)重要。否則,你的數(shù)據(jù)湖可能確實會變成更多的數(shù)據(jù)沼澤。