談談數(shù)據(jù)質量管理中的五個關鍵要素
數(shù)據(jù)質量管理被定義為:實施一個系統(tǒng)的框架,持續(xù)描述數(shù)據(jù)源,驗證數(shù)據(jù)質量,并執(zhí)行一系列過程來消除數(shù)據(jù)質量問題,努力使數(shù)據(jù)更準確、正確、有效、完整、可靠。由于每個組織對數(shù)據(jù)質量的要求和特點不同,因此企業(yè)之間的數(shù)據(jù)質量管理也不同。管理數(shù)據(jù)質量所需的人員類型、衡量數(shù)據(jù)質量所需的指標、需要實施的數(shù)據(jù)質量流程——一切都取決于多種因素,例如公司規(guī)模、數(shù)據(jù)集大小、涉及的來源等。下面就談談數(shù)據(jù)質量管理的五大要素:人員、度量、流程、框架和技術。
01.人員:誰參與數(shù)據(jù)質量管理
人們普遍認為,在管理整個組織的數(shù)據(jù)質量時,必須獲得決策者的批準和支持。但事實是,需要任命不同資歷級別的數(shù)據(jù)專業(yè)人員,以確保對數(shù)據(jù)質量計劃的投資得到回報。
以下是一些負責、批準、咨詢或了解組織中數(shù)據(jù)質量控制的角色:
a)首席數(shù)據(jù)官(CDO):首席數(shù)據(jù)官是一個行政級別的職位,全權負責設計戰(zhàn)略,以實現(xiàn)整個企業(yè)的數(shù)據(jù)利用、數(shù)據(jù)質量監(jiān)控和數(shù)據(jù)治理。
b)數(shù)據(jù)管理員:數(shù)據(jù)管理員是公司處理與數(shù)據(jù)相關的所有事務的首選人員。他們全身心體驗組織如何捕獲數(shù)據(jù)、將數(shù)據(jù)存儲在何處、數(shù)據(jù)對不同部門意味著什么,以及如何在整個生命周期內保持數(shù)據(jù)質量。
c)數(shù)據(jù)保管人:數(shù)據(jù)保管人負責數(shù)據(jù)字段的結構——包括數(shù)據(jù)庫結構和模型。
d)數(shù)據(jù)分析師:數(shù)據(jù)分析師是能夠獲取原始數(shù)據(jù)并將其轉化為有意義的見解的人,尤其是在特定領域。數(shù)據(jù)分析師的主要工作之一是準備、清理和過濾所需的數(shù)據(jù)。
e)其他團隊:這些角色被認為是數(shù)據(jù)消費者,這意味著他們使用數(shù)據(jù),無論是原始形式還是轉化為可操作的見解時,例如銷售團隊、產(chǎn)品團隊、業(yè)務團隊、管理團隊等。
02.度量:數(shù)據(jù)質量如何衡量
數(shù)據(jù)質量管理的第二個最重要的方面是它的測量。這些是數(shù)據(jù)特征和關鍵績效指標,用于驗證組織數(shù)據(jù)集中數(shù)據(jù)質量的存在。根據(jù)不同公司使用數(shù)據(jù)的方式,這些KPI可能會有所不同。我列出了最重要的數(shù)據(jù)質量維度及其代表的質量指標:
- 準確性:數(shù)據(jù)值描述現(xiàn)實或正確性的程度如何
- 沿襲:數(shù)據(jù)值的原始來源有多可信
- 語義:數(shù)據(jù)值是否符合其含義
- 結構:數(shù)據(jù)值是否以正確的模式和/或格式存在
- 完整性:的數(shù)據(jù)是否如所需要的那樣全面
- 一致性:不同的數(shù)據(jù)存儲是否對相同的記錄具有相同的數(shù)據(jù)值
- 可用性:數(shù)據(jù)是最新可用的嗎
- 及時性:請求的數(shù)據(jù)多快可用
- 合理性:數(shù)據(jù)值是否具有正確的數(shù)據(jù)類型和大小
- 可識別性:是否每條記錄都代表一個唯一的身份并且不是重復的
03.流程:數(shù)據(jù)質量管理流程
由于數(shù)據(jù)在過去幾十年里大量增長,它已經(jīng)變得多變量并在多個維度上進行測量。要獲取、修復和改進數(shù)據(jù)質量問題,必須實施各種數(shù)據(jù)質量流程——其中每個流程都有不同的價值和目的。讓我們來看看公司用來提高數(shù)據(jù)質量的最常見的數(shù)據(jù)質量流程。
a)數(shù)據(jù)剖析
這是通過揭示有關數(shù)據(jù)結構和內容的隱藏細節(jié)來了解數(shù)據(jù)當前狀態(tài)的過程。數(shù)據(jù)分析算法分析數(shù)據(jù)集列并計算各種維度的統(tǒng)計數(shù)據(jù),例如完整性、唯一性、頻率、特征和模式分析等。
b)數(shù)據(jù)清理和標準化
它是消除數(shù)據(jù)集中存在的不正確和無效信息以實現(xiàn)跨所有數(shù)據(jù)源的一致和可用視圖的過程。包括刪除和替換不正確的值、解析更長的列、轉換字母大小寫和模式以及合并列等。
c)數(shù)據(jù)匹配
也稱為記錄鏈接和實體解析,它是比較兩個或多個記錄并確定它們是否屬于同一實體的過程。它涉及映射相同的列、選擇要匹配的列、執(zhí)行匹配算法、分析匹配分數(shù)以及調整匹配算法以獲得準確的結果。
d)重復數(shù)據(jù)刪除
這是消除屬于同一實體的多個記錄并為每個實體僅保留一個記錄的過程。這包括分析組中的重復記錄、標記重復記錄,然后將其從數(shù)據(jù)集中刪除。
e)數(shù)據(jù)合并和生存
它是通過條件選擇和覆蓋將重復記錄合并在一起的構建規(guī)則的過程。這有助于防止數(shù)據(jù)丟失并保留最多的重復信息。它涉及為主記錄選擇和覆蓋定義規(guī)則、執(zhí)行規(guī)則并調整它們以獲得準確的結果。
f)數(shù)據(jù)治理
數(shù)據(jù)治理通常是指角色、策略、工作流、標準和指標的集合,可確保高效的數(shù)據(jù)使用和安全性,并使公司能夠實現(xiàn)其業(yè)務目標。它涉及創(chuàng)建數(shù)據(jù)角色和分配權限、設計工作流以驗證信息更新、確保數(shù)據(jù)安全免受安全風險等。
g)地址驗證
它是根據(jù)權威數(shù)據(jù)庫(例如國家的省市標準)運行地址并驗證該地址在國內是否可郵寄、準確且有效的郵寄地址的過程。
04.框架:數(shù)據(jù)質量管理框架
除了數(shù)據(jù)質量流程之外,在設計數(shù)據(jù)質量策略時要考慮的另一個重要方面是數(shù)據(jù)質量框架。這些過程代表用于消除數(shù)據(jù)集中數(shù)據(jù)質量問題的獨立技術。數(shù)據(jù)質量框架是一個系統(tǒng)的過程,它持續(xù)監(jiān)控數(shù)據(jù)質量,實施各種數(shù)據(jù)質量過程(按定義的順序),并確保它不會惡化到定義的閾值以下。它提供了有關數(shù)據(jù)質量管理流程的更多詳細信息。
一個簡單的數(shù)據(jù)質量框架包括四個階段:
a)評估:這是框架的第一步,需要評估兩個主要組成部分:數(shù)據(jù)質量對的業(yè)務的意義以及當前數(shù)據(jù)如何對其進行評分。
b)設計:數(shù)據(jù)質量框架的下一步是設計所需的業(yè)務規(guī)則,通過選擇需要的數(shù)據(jù)質量流程并將它們調整到的數(shù)據(jù),以及決定數(shù)據(jù)質量功能的架構設計。
c)執(zhí)行:第三階段是執(zhí)行發(fā)生的地方。已經(jīng)在前兩個步驟中準備好了階段,現(xiàn)在是時候看看系統(tǒng)的實際性能如何了。
d)監(jiān)控:這是監(jiān)控結果的框架的最后階段??梢允褂酶呒墧?shù)據(jù)分析技術來生成詳細的性能報告。
05.技術:數(shù)據(jù)質量管理工具
盡管數(shù)據(jù)質量問題的性質相當復雜,但許多企業(yè)仍然手動驗證數(shù)據(jù)質量。針對此問題采用技術解決方案是確保團隊生產(chǎn)力和數(shù)據(jù)質量框架順利實施的最佳方式。有許多供應商將數(shù)據(jù)質量功能打包在不同的產(chǎn)品中,例如:
a)獨立、自助式數(shù)據(jù)質量軟件:
這種類型的數(shù)據(jù)質量管理軟件允許對數(shù)據(jù)運行各種數(shù)據(jù)質量流程。它們通常帶有自動數(shù)據(jù)質量管理或批處理功能,可以在一天中的特定時間清理、匹配和合并大量數(shù)據(jù)。這是合并數(shù)據(jù)記錄的最快和最安全的方法之一,不會丟失任何重要信息,因為所有過程都在數(shù)據(jù)副本上執(zhí)行,并且最終數(shù)據(jù)視圖可以傳輸?shù)侥繕嗽础?/p>
b)數(shù)據(jù)質量API或SDK:
一些供應商通過API或SDK公開必要的數(shù)據(jù)質量功能。這有助于在現(xiàn)有應用程序中實時或運行時集成所有數(shù)據(jù)質量管理功能。
c)嵌入數(shù)據(jù)管理工具的數(shù)據(jù)質量
一些供應商將數(shù)據(jù)質量功能嵌入到集中式數(shù)據(jù)管理平臺中,以便在同一個數(shù)據(jù)管道中處理所有事情。設計具有嵌入式數(shù)據(jù)質量功能的端到端數(shù)據(jù)管理系統(tǒng)需要進行詳細的規(guī)劃和分析,并讓關鍵利益相關者參與流程的每個步驟。此類系統(tǒng)通常被打包為主數(shù)據(jù)管理解決方案。
數(shù)據(jù)質量管理與主數(shù)據(jù)管理有何不同?
“主數(shù)據(jù)管理”一詞指的是數(shù)據(jù)管理最佳實踐的集合——涉及數(shù)據(jù)集成、數(shù)據(jù)質量和數(shù)據(jù)治理。這意味著數(shù)據(jù)質量和主數(shù)據(jù)管理不是彼此對立的;相反,它們是互補的。MDM解決方案除了數(shù)據(jù)質量管理功能外還包含一些額外的功能。這無疑使MDM成為實施起來更加復雜和資源密集型解決方案——在兩種方法之間進行選擇時需要考慮的因素。
d)定制內部解決方案
盡管市場上存在各種數(shù)據(jù)質量和主數(shù)據(jù)管理解決方案,但許多企業(yè)投資開發(fā)內部解決方案以滿足其自定義數(shù)據(jù)需求。盡管這聽起來很有希望,但企業(yè)往往最終會在此過程中浪費大量資源——時間和費用。開發(fā)這樣的解決方案可能更容易實施,但隨著時間的推移幾乎不可能維護。