什么是數據沿襲?相關技術、最佳做法和工具
?數據沿襲記錄了數據通過企業(yè)的IT系統的過程,展示了數據如何在它們之間移動,并在此過程中針對不同用途進行轉換。它使用元數據(關于數據的數據)使最終用戶和數據管理專業(yè)人員能夠跟蹤數據資產的歷史,并獲取有關其業(yè)務意義或技術屬性的信息。
例如,數據沿襲記錄可以幫助數據科學家、其他數據分析師和業(yè)務用戶了解他們使用的數據,并確保這些數據與他們的信息需求相關。數據沿襲在數據治理、主數據管理和法規(guī)遵從計劃中也發(fā)揮著重要作用。在這些舉措的其他方面,它簡化了兩個關鍵的數據治理程序:分析數據質量問題的根本原因和數據集更改的影響。
數據沿襲信息主要是從操作系統(在處理數據時)收集,以及從數據倉庫和數據湖收集-這里存儲數據集用于BI和分析應用程序。除了詳細的文檔之外,還可以創(chuàng)建數據流圖和圖表,以提供映射到業(yè)務流程的數據沿襲的可視化視圖。為了簡化最終用戶對沿襲信息的訪問,它通常被合并到數據目錄中,其中列出了數據資產和與之相關的元數據。
為什么數據沿襲很重要?
有關數據沿襲的信息對于數據管理和分析工作至關重要。沿襲詳細信息可以幫助企業(yè)有效地管理和使用數據。如果無法訪問這些詳細信息,企業(yè)將很難充分利用數據的潛在商業(yè)價值。
以下是數據沿襲提供的好處:
更準確和有用的分析。通過讓分析團隊和業(yè)務用戶了解數據的來源及其含義,數據沿襲提高了他們的能力,讓他們更快查找BI和數據科學使用所需數據。這會帶來更好的分析結果,并使數據分析工作更有可能提供有意義的信息來推動業(yè)務決策。
更好的數據治理。數據沿襲還有助于跟蹤數據和執(zhí)行治理過程的其他關鍵部分。它可以幫助數據治理經理和團隊成員確保數據有效、干凈和一致,并且得到妥善保護、管理和使用。
更嚴格的數據安全和隱私保護。企業(yè)可以使用數據沿襲信息來識別需要特別強安全性的敏感數據。它還可用于根據安全和數據隱私策略設置不同級別的用戶訪問權限,并評估潛在的數據風險,作為企業(yè)風險管理策略的一部分。
提高法規(guī)合規(guī)性。數據沿襲提供更好的安全保護,這可以幫助企業(yè)確保他們遵守數據隱私法和其他法規(guī)。有據可查的數據沿襲還可以更輕松地進行內部合規(guī)審計和合規(guī)級別報告。
簡化數據管理。除了數據質量改進之外,數據沿襲還促進了各種其他數據管理任務。示例包括管理數據遷移、打破數據孤島以及檢測和解決數據集中的差距。
數據沿襲與數據分類和數據出處
數據沿襲還與數據分類和數據出處這兩個數據管理流程密切相關。以下讓我們看看它們是什么以及它們與數據沿襲的區(qū)別和關系。
- 數據分類。這涉及根據數據的特征將數據分配到不同的類別,主要是出于安全和合規(guī)目的。分類用于根據數據的敏感程度對數據進行分類,例如,作為個人、專有、機密或公共信息。這樣做可以將需要更高級別安全性和更嚴格訪問控制的數據集與不需要的數據集分開。數據沿襲提供有關數據集的信息,有助于對其進行分類。
- 數據出處。有時被認為是數據沿襲的同義詞,或者數據出處被視為更狹隘地關注數據的起源,包括其源系統及其生成方式。在這種情況下,數據沿襲和數據出處可以協同工作,后者提供有關數據來自何處及其含義的高級文檔。
數據沿襲和數據治理
數據治理的本質是創(chuàng)建企業(yè)數據政策,并確保人們遵守這些政策。這樣的政策可以跨越意圖,包括關于數據保護、驗證和使用的指令。數據治理經理和數據管理員必須收集業(yè)務用戶的數據需求,并與決策數據治理委員會的成員合作,就通用數據定義達成一致,指定數據質量指標并制定政策和相關程序。
然而,在定義數據治理策略和部署它們之間存在差距,彌合此差距是一個巨大的挑戰(zhàn)。這就是數據沿襲的用武之地。它記錄了數據源和流,使治理團隊能夠監(jiān)控數據如何在系統中移動以及如何修改和使用。沿襲信息可幫助他們確保適當的數據安全和訪問控制到位,并根據治理策略存儲、維護和使用數據。
數據沿襲還可以簡化與治理相關的特定任務。例如,如果沒有辦法確定數據錯誤是從哪里引入系統,那么數據管理員和數據質量分析師就很難識別和修復它們。這會產生后果:如果沒有發(fā)現數據缺陷,企業(yè)可能會受到不一致或不準確的分析結果的困擾,從而導致錯誤的業(yè)務決策。
在數據錯誤的根本原因分析中,沿襲記錄提供了可視性,讓企業(yè)可了解數據集所經歷的處理階段順序。企業(yè)可在每個階段檢查質量級別,以找出數據錯誤的來源。從第一次發(fā)現錯誤的地方開始向后工作,數據管理員可以檢查數據是否符合早期的預期或當時是否包含錯誤。通過查明數據在進入時合規(guī)但在退出時存在缺陷的階段,參與數據治理計劃的工作人員可以消除錯誤的根本原因,而不僅僅是糾正不良數據。
在執(zhí)行影響分析以掌握源數據格式和結構更改引起的問題時,數據沿襲也很有用,這是當今日益動態(tài)的數據環(huán)境中的常見問題。
當數據發(fā)生變化時,下游可能會產生意想不到的后果。通過從數據創(chuàng)建或收集點開始工作,數據管理者可以依靠數據沿襲文檔來幫助跟蹤數據依賴關系,并識別受更改影響的處理階段。然后可以重新設計這些階段以適應變化,并確保數據在不同系統中保持一致。
關鍵數據沿襲技術
企業(yè)可以使用各種技術來收集和記錄數據沿襲信息。它們不一定是相互排斥的,企業(yè)可能會使用不止一種沿襲技術,具體取決于其應用程序需求和數據環(huán)境的性質。可用的方法包括:
- 數據標記。通過檢查元數據,可以將標簽應用于數據集,以幫助描述和表征它們,以用于數據沿襲目的。標記可以由數據管理員、其他數據治理團隊成員和最終用戶手動完成,也可以由軟件自動完成。例如,數據治理軟件中內置的數據沿襲工具和沿襲功能通常包括自動化算法-用戶可以運行以標記數據集。
- 基于模式的沿襲。這種方法在多個數據集中尋找模式,例如相似的數據元素、行和列。它們的存在表明數據集彼此相關,并且可能是數據流的一部分,而數據值或屬性的差異表明數據在從一個系統移動到另一個系統時發(fā)生了轉換。然后可以將數據轉換和數據流記錄為數據沿襲記錄的一部分。
- 基于解析的沿襲。在這種情況下,數據沿襲工具解析數據轉換邏輯、運行時日志文件、數據集成工作流和其他數據處理代碼,以識別和提取沿襲信息。解析提供了一種端到端的方法來跟蹤不同系統中的數據沿襲,并且可以比基于模式的沿襲更準確,但也更復雜。
另一種方法是完全手動的:采訪業(yè)務用戶、BI 分析師、數據科學家、數據管理員、數據集成開發(fā)人員和其他工作人員,了解數據如何在系統中移動以及如何被使用和修改。收集的信息可用于繪制數據流和轉換,也許可以作為數據沿襲計劃的起點,然后再部署更自動化的技術。
數據沿襲優(yōu)秀做法
以下是一些最佳做法,可幫助保持數據沿襲過程正常進行,并確保它提供有關數據集的準確和有用的信息:
- 從一開始就讓業(yè)務主管和用戶參與進來。數據治理計劃需要主管的支持和參與才能成功,這同樣適用于數據沿襲。獲得高級管理人員的支持是獲得批準和資金的必要條件。業(yè)務經理和員工也應該參與,確保數據管理團隊充分了解數據在業(yè)務流程中的使用方式,并驗證數據沿襲信息的相關性和有效性。
- 記錄業(yè)務和技術數據沿襲。業(yè)務沿襲高度關注數據的來源、流動方式及其業(yè)務環(huán)境。技術沿襲提供有關數據轉換、集成和管道的詳細信息,以及表、列和查詢級沿襲視圖的組合。收集這兩個信息,一方面可為業(yè)務用戶和分析團隊提供有用的信息,另一方面可為數據架構師、數據建模師、數據質量分析師和其他IT專業(yè)人員提供有用的信息。
- 將數據沿襲與實際業(yè)務和IT需求關聯。數據沿襲不應該是一項學術活動。為了產生預期的收益,它需要幫助實現更好的業(yè)務決策和戰(zhàn)略,以及更有效的數據治理、改進的數據質量和其他數據管理收益。否則,這很可能是一種浪費的投資。
- 部署企業(yè)范圍的數據沿襲方法。只關注某些數據集的數據沿襲過程也不會像它可能的那樣有用。要真正獲得回報,它應該是一項涉及企業(yè)所有數據的綜合工作,并有單一的元數據存儲庫支持沿襲工作。
- 創(chuàng)建包含嵌入式數據沿襲信息的數據目錄。對于BI和分析用戶來說,查找和理解相關數據通常是巨大的挑戰(zhàn)。通過構建數據目錄,數據管理團隊可以為他們提供可用數據資產的清單,其中還包括沿襲信息。
在數據沿襲工具中尋找什么
手動收集元數據和記錄數據沿襲需要大量資源投資。這也容易出錯,并可能會導致大問題,尤其是在企業(yè)越來越依賴數據分析來推動業(yè)務運營的情況下。因此,為了更好地完成數據治理工作,應該尋找工具來管理數據沿襲表示,并在整個企業(yè)中自動映射它們。
如果你決定推進技術評估流程以進行可能的購買,你應該尋找可以執(zhí)行以下操作的數據沿襲工具:
- 本地訪問廣泛的數據源和數據產品,調查它們包含的元數據并收集它以用于數據治理,越來越多地通過使用人工智能和機器學習算法;
- 將捕獲的元數據聚合到集中的存儲庫中;
- 推斷數據類型,并將參考數據的常見用途與來自不同系統的數據元素相匹配;
- 向最終用戶提供匯總元數據的簡化展示,并支持協作以驗證元數據描述;
- 記錄數據如何流經組織系統的端到端映射;
- 生成數據沿襲的可視化表示;
- 提供API,以便開發(fā)人員構建可以查詢沿襲記錄的應用程序;
- 創(chuàng)建倒排索引,將數據元素名稱映射到它們在不同處理階段的用途;
- 提供搜索能力,以快速追蹤從數據源點到下游目標的數據流;
- 使用戶能夠監(jiān)控正向和反向的數據流。
數據沿襲供應商
- 銷售數據管理平臺的大型IT供應商,例如IBM、Informatica、Microsoft、Oracle、SAP和SAS,以及云平臺提供商AWS和Google Cloud;
- 擁有廣泛產品組合的軟件供應商,包括數據管理和治理工具,例如Hitachi Vantara、OneTrust、Precisely和Quest Software;
- 專注于數據管理和治理的供應商,例如ASG Technologies、Ataccama、Boomi、Collibra、Semarchy、Syniti和Talend;
- 元數據管理和數據沿襲專家,例如Alex Solutions、Manta和Octopai;
- 數據目錄工具供應商,例如Alation、Atlan、world和OvalEdge。
為數據工程師和分析團隊提供自助式數據準備軟件的供應商(例如DataRobot和Alteryx的Trifacta部門)也支持數據沿襲功能,各種BI和分析工具供應商也支持在其上運行的應用程序中使用的分析工具。