一文讀懂數(shù)據(jù)標準中的屬性定義與元數(shù)據(jù)的區(qū)別
最近在做項目過程中發(fā)現(xiàn)一個問題:有些同事經(jīng)常把指標數(shù)據(jù)標準中的業(yè)務(wù)屬性、技術(shù)屬性、管理屬性當做業(yè)務(wù)元數(shù)據(jù)、技術(shù)元數(shù)據(jù)、管理元數(shù)據(jù)或者在數(shù)據(jù)指標標準定義的時候直接分為業(yè)務(wù)元數(shù)據(jù)、技術(shù)元數(shù)據(jù)和管理元數(shù)據(jù)。這就導(dǎo)致無論是信息管理的技術(shù)部門還是經(jīng)營管理的業(yè)務(wù)部門總是一頭霧水,難以厘清。下面我們談?wù)勚笜藬?shù)據(jù)標準中的屬性和元數(shù)據(jù)類別的聯(lián)系和區(qū)別。
一、元數(shù)據(jù)的定義及分類
參照國際數(shù)據(jù)管理協(xié)會《DMBOK數(shù)據(jù)管理知識指南》的說法,我們看看元數(shù)據(jù)及分類。
元數(shù)據(jù)最常見的定義是“關(guān)于數(shù)據(jù)的數(shù)據(jù)”。元數(shù)據(jù)通常分為三種類型:業(yè)務(wù)元數(shù)據(jù)、技術(shù)元數(shù)據(jù)和操作元數(shù)據(jù)。
在信息技術(shù)之外的領(lǐng)域,如在圖書館或信息科學中,元數(shù)據(jù)被描述為不同的類別:
1)描述元數(shù)據(jù)(Descriptive Metadata)。描述資源并支持識別和檢索,如標題、作者和主題等。
2)結(jié)構(gòu)元數(shù)據(jù)(Structural Metadata)。描述資源及其組成組件之間的關(guān)系,如頁數(shù)、章節(jié)等。
3)管理元數(shù)據(jù)(Administrative Metadata)。用于描述管理生命周期的元數(shù)據(jù),如版本號、存檔日期等。
這些類別有助于了解定義元數(shù)據(jù)需求的過程。
(1)業(yè)務(wù)元數(shù)據(jù)
業(yè)務(wù)元數(shù)據(jù)(Business Metadata)主要關(guān)注數(shù)據(jù)的內(nèi)容和條件,另包括與數(shù)據(jù)治理相關(guān)的詳細信息。業(yè)務(wù)元數(shù)據(jù)包括主題域、概念、實體、屬性的非技術(shù)名稱和定義、屬性的數(shù)據(jù)類型和其他特征,如范圍描述、計算公式、算法和業(yè)務(wù)規(guī)則、有效的域值及其定義。業(yè)務(wù)元數(shù)據(jù)的
示例包括:
1)數(shù)據(jù)集、表和字段的定義和描述。
2)業(yè)務(wù)規(guī)則、轉(zhuǎn)換規(guī)則、計算公式和推導(dǎo)公式。
3)數(shù)據(jù)模型。
4)數(shù)據(jù)質(zhì)量規(guī)則和檢核結(jié)果。
5)數(shù)據(jù)的更新計劃。
6)數(shù)據(jù)溯源和數(shù)據(jù)血緣。
7)數(shù)據(jù)標準。
8)特定的數(shù)據(jù)元素記錄系統(tǒng)。
9)有效值約束。
10)利益相關(guān)方聯(lián)系信息(如數(shù)據(jù)所有者、數(shù)據(jù)管理專員)。
11)數(shù)據(jù)的安全/隱私級別。
12)已知的數(shù)據(jù)問題。
13)數(shù)據(jù)使用說明。
(2)技術(shù)元數(shù)據(jù)
技術(shù)元數(shù)據(jù)(Technical Metadata)提供有關(guān)數(shù)據(jù)的技術(shù)細節(jié)、存儲數(shù)據(jù)的系統(tǒng)以及在系統(tǒng)內(nèi)和系統(tǒng)之間數(shù)據(jù)流轉(zhuǎn)過程的信息。技術(shù)元數(shù)據(jù)示例包括:
1)物理數(shù)據(jù)庫表名和字段名。
2)字段屬性。
3)數(shù)據(jù)庫對象的屬性
4)訪問權(quán)限。
5)數(shù)據(jù)CRUD(增、刪、改、查)規(guī)則。
6)物理數(shù)據(jù)模型,包括數(shù)據(jù)表名、鍵和索引。
7)記錄數(shù)據(jù)模型與實物資產(chǎn)之間的關(guān)系。
8)ETL作業(yè)詳細信息。
9)文件格式模式定義。
10)源到目標的映射文檔。
11)數(shù)據(jù)血緣文檔,包括上游和下游變更影響的信息。
12)程序和應(yīng)用的名稱和描述。
13)周期作業(yè)(內(nèi)容更新)的調(diào)度計劃和依賴。
14)恢復(fù)和備份規(guī)則。
15)數(shù)據(jù)訪問的權(quán)限、組、角色。
(3)操作元數(shù)據(jù)
操作元數(shù)據(jù)(Operational Metadata)描述了處理和訪問數(shù)據(jù)的細節(jié),例如:
1)批處理程序的作業(yè)執(zhí)行日志。
2)抽取歷史和結(jié)果。
3)調(diào)度異常處理。
4)審計、平衡、控制度量的結(jié)果。
5)錯誤日志。
6)報表和查詢的訪問模式、頻率和執(zhí)行時間。
7)補丁和版本的維護計劃和執(zhí)行情況,以及當前的補丁級別。
8)備份、保留、創(chuàng)建日期、災(zāi)備恢復(fù)預(yù)案。
9)服務(wù)水平協(xié)議(SLA)要求和規(guī)定。
10)容量和使用模式。
11)數(shù)據(jù)歸檔、保留規(guī)則和相關(guān)歸檔文件。
12)清洗標準。
13)數(shù)據(jù)共享規(guī)則和協(xié)議
14)技術(shù)人員的角色、職責和聯(lián)系信息。
二、指標數(shù)據(jù)定義及屬性分類
參照《數(shù)據(jù)標準化:數(shù)據(jù)治理的基石》一書,數(shù)據(jù)指標是說明總體數(shù)量特征的概念,反映了企業(yè)的日常經(jīng)營管理過程。一般從業(yè)務(wù)屬性、管理屬性、技術(shù)屬性等角度制定指標標準。指標的標準化是加強數(shù)據(jù)治理和管控中最基礎(chǔ)的工作,通過指標標準化,我們可以得到數(shù)據(jù)的業(yè)務(wù)價值,技術(shù)價值與管理價值。
一般來說,指標分為基礎(chǔ)指標、復(fù)合指標和派生指標三類。
基礎(chǔ)指標是表達業(yè)務(wù)實體原子量化屬性的概念集合,是可以直接對單一變量的明細數(shù)據(jù)進行簡單計算得到的不可進一步拆解的指標。如“收入” 。
基礎(chǔ)指標具有如下特征:
①指標計算規(guī)則中僅包含一個變量。
②其穩(wěn)定性高,業(yè)務(wù)定義、計算公式和統(tǒng)計口徑不易隨業(yè)務(wù)管理視角頻繁變化。
復(fù)合指標是建立在基礎(chǔ)指標之上,由若干個基礎(chǔ)指標通過一定運算規(guī)則計算形成,在業(yè)務(wù)角度無法拆解,如“簽約率”、“利潤率”。
復(fù)合指標具有如下幾種類型:
①由基礎(chǔ)指標計算得到。
②由基礎(chǔ)指標和復(fù)合指標計算得到。
③由復(fù)合指標再度計算得到。
維度是報表分割顯示統(tǒng)計數(shù)值的角度,主要用來描述在業(yè)務(wù)活動中會從哪些角度對標準項進行使用和分析,體現(xiàn)為報表的一行或者表頭中的一列。一般來說,維度具有離散化取值的特性,即取值可以枚舉。維度作為觀察事物的視角,并不孤立存在,而是通過與指標結(jié)合使用,可以對指標的不同方面進行對比與分析。常用維度包括時間、空間、組織機構(gòu)、業(yè)務(wù)類別等。
指標數(shù)據(jù)標準規(guī)定了指標數(shù)據(jù)標準的業(yè)務(wù)屬性、技術(shù)屬性和管理屬性標準,可應(yīng)用在企業(yè)報表編制、數(shù)據(jù)資產(chǎn)管理等相關(guān)領(lǐng)域。
根據(jù)數(shù)據(jù)管控需求和業(yè)務(wù)運營情況,同時考慮標準的編制參與人員、分期制定過程、標準應(yīng)用場景等諸多因素設(shè)置屬性梳理優(yōu)先級,其中由業(yè)務(wù)人員提供或確認的屬性稱為基礎(chǔ)屬性,需要結(jié)合技術(shù)人員、管理人員后續(xù)進行補充的屬性稱為擴展屬性,如下圖虛線框所示。
業(yè)務(wù)屬性:是指標數(shù)據(jù)在業(yè)務(wù)層面的定義,描述數(shù)據(jù)和企業(yè)業(yè)務(wù)相關(guān)聯(lián)的特性,是數(shù)據(jù)業(yè)務(wù)含義的統(tǒng)一解釋及要求。
業(yè)務(wù)屬性包括:一級主題、二級主題、三級主題、指標名稱、業(yè)務(wù)定義、處理邏輯、維度、基礎(chǔ)計量單位、參考標準、上報頻度、統(tǒng)計時間、映射類型等。
技術(shù)屬性:是指標數(shù)據(jù)在技術(shù)層面的定義,描述了數(shù)據(jù)與信息技術(shù)實現(xiàn)相關(guān)聯(lián)的特性,是數(shù)據(jù)在信息系統(tǒng)項目實現(xiàn)時統(tǒng)一的技術(shù)方面定義。
技術(shù)屬性包括數(shù)據(jù)類型、數(shù)據(jù)格式、數(shù)據(jù)源系統(tǒng)、數(shù)據(jù)源表名、數(shù)據(jù)源字段名等。
管理屬性:是指標數(shù)據(jù)在管理層面的定義,描述了數(shù)據(jù)與數(shù)據(jù)管理相關(guān)聯(lián)的特性,是數(shù)據(jù)管理在數(shù)據(jù)標準管理領(lǐng)域的統(tǒng)一要求。
管理屬性包括:指標編碼、數(shù)據(jù)主責部門、標準管理部門、頒布日期、廢止日期等。
三、指標數(shù)據(jù)標準中的屬性分類和元數(shù)據(jù)的分類的關(guān)系
從背景和功能上說元數(shù)據(jù)是描述和解釋數(shù)據(jù)的,它有自己的功能和作用。而指標數(shù)據(jù)標準中的屬性分類是為了便于技術(shù)、業(yè)務(wù)和所有者對指標數(shù)據(jù)屬性的管理而劃分的。兩者的背景和作用是不同的。
從以上的描述我們也可以看出,在數(shù)據(jù)指標標準中定義的管理屬性不宜用管理元數(shù)據(jù)替代,比如主責部門、標準管理部門是業(yè)務(wù)元數(shù)據(jù)的范疇。而管理元數(shù)據(jù)往往用在圖書館類似的場景下。所以,為了避免引起歧義和沖突的情況,建議指標數(shù)據(jù)標準中對于屬性的分類還是用業(yè)務(wù)屬性、技術(shù)屬性和管理屬性。
對于專門從事數(shù)據(jù)管理的人員來說更應(yīng)從基本概念和本質(zhì)厘清不同術(shù)語,比如主數(shù)據(jù)、元數(shù)據(jù)、數(shù)據(jù)元、數(shù)據(jù)倉庫、數(shù)據(jù)中臺、大數(shù)據(jù)、數(shù)據(jù)湖、湖倉一體、數(shù)據(jù)網(wǎng)格、數(shù)據(jù)編織等,這樣才能更好的引導(dǎo)業(yè)務(wù)一起開展數(shù)據(jù)管理工作。數(shù)據(jù)管理不是IT人員唱獨角戲的舞臺,而是需要業(yè)務(wù)和技術(shù)更好協(xié)助,理念一致、方法一致、行動一致,才能把數(shù)據(jù)管理工作做好,更大發(fā)揮數(shù)據(jù)的價值。