數(shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)質(zhì)量:技術(shù)解析與典型案例
一、相關(guān)概念和框架
首先來(lái)看一下數(shù)據(jù)標(biāo)準(zhǔn)的概念我們可能經(jīng)常聽(tīng)到這個(gè)詞語(yǔ),卻并不清楚其定義,不知道其中包含了什么。
在國(guó)際數(shù)據(jù)管理協(xié)會(huì)的關(guān)于職能域的車(chē)輪圖中,并沒(méi)有數(shù)據(jù)標(biāo)準(zhǔn)這一項(xiàng)。國(guó)內(nèi)的 DCMM 框架中有數(shù)據(jù)標(biāo)準(zhǔn)一項(xiàng)。
另外, IBM 的數(shù)據(jù)治理框架,以及 CMMI 的框架中也是沒(méi)有數(shù)據(jù)標(biāo)準(zhǔn)的。我們可以去分析一下國(guó)內(nèi)的權(quán)威機(jī)構(gòu)關(guān)于數(shù)據(jù)標(biāo)準(zhǔn)的定義,如下圖所示:
通過(guò)總結(jié)國(guó)內(nèi)對(duì)數(shù)據(jù)標(biāo)準(zhǔn)的定義,再去看 DAMA 框架就會(huì)發(fā)現(xiàn),其數(shù)據(jù)治理中是包含了對(duì)數(shù)據(jù)標(biāo)準(zhǔn)的定義的。
國(guó)外的企業(yè)一般不會(huì)使用 Data Standards 這個(gè)詞,它會(huì)具體映射到左邊的,比如 Glossary,就是業(yè)務(wù)術(shù)語(yǔ),或者說(shuō) Data Dictionary、數(shù)據(jù)字典,還有 Data Elements 就是數(shù)據(jù)元或數(shù)據(jù)項(xiàng)。在他們的語(yǔ)境當(dāng)中業(yè)務(wù)術(shù)語(yǔ)是面向公司所有受眾的,需要確保在一個(gè)組織中大家都使用正確的術(shù)語(yǔ)。數(shù)據(jù)字典更多的是給技術(shù)員工在管理數(shù)據(jù)的時(shí)候用的,它定義描述數(shù)據(jù)集,還有數(shù)據(jù)字段相關(guān)的屬性。
對(duì)于業(yè)務(wù)術(shù)語(yǔ)而言,它的業(yè)務(wù)屬性就是這個(gè)詞語(yǔ)代表了業(yè)務(wù)含義,在技術(shù)層面就是數(shù)據(jù)的表現(xiàn)形式、取值范圍等。管理屬性是這個(gè)術(shù)語(yǔ)對(duì)應(yīng)在組織內(nèi)的一個(gè)歸屬。
下面是業(yè)務(wù)術(shù)語(yǔ)的數(shù)據(jù)標(biāo)準(zhǔn)的舉例,比如企業(yè)法人,我們對(duì)它有一個(gè)定義和分類,它里面的這個(gè)數(shù)據(jù)元會(huì)有對(duì)應(yīng)的描述,我們對(duì)這個(gè)描述會(huì)有很多的約定。當(dāng)我們?nèi)ナ崂硪粋€(gè)企業(yè)內(nèi)部的所有數(shù)據(jù)的時(shí)候,從上往下去看會(huì)把它分成多個(gè) level,第一個(gè)就是企業(yè)所有數(shù)據(jù)主題域的分組,它體現(xiàn)的是從數(shù)據(jù)的視角去看企業(yè)所有數(shù)據(jù),它真正在業(yè)務(wù)層面映射的相關(guān)大領(lǐng)域?qū)?yīng)的主題域是互不重疊的。
再舉個(gè)例子,比如貨品管理,它可以分為訂貨、庫(kù)存,這兩個(gè)是可以去分析的主題域或者業(yè)務(wù)上關(guān)心的主題域,對(duì)應(yīng)的業(yè)務(wù)對(duì)象是訂貨,相關(guān)的訂單就是它的業(yè)務(wù)對(duì)象。再下層去拆解的話,會(huì)有業(yè)務(wù)關(guān)系和邏輯實(shí)體,那邏輯實(shí)體是真正具有邏輯關(guān)系的一些屬性組合,比如訂單表本身是一個(gè)實(shí)體,然后表中的對(duì)應(yīng)的字段是這個(gè)實(shí)體所干預(yù)的業(yè)務(wù)中定義的一些屬性。最后的屬性是我們經(jīng)常提到的這個(gè)數(shù)據(jù)元或者數(shù)據(jù)項(xiàng)。
從業(yè)務(wù)角度對(duì)這些屬性進(jìn)行分辨。比如業(yè)務(wù)規(guī)則就是基礎(chǔ)元數(shù)據(jù),包括主數(shù)據(jù)、參考數(shù)據(jù)、計(jì)算方法、統(tǒng)計(jì)口徑等。從技術(shù)角度來(lái)看,字段類別、字段格式長(zhǎng)度屬于來(lái)源,統(tǒng)計(jì)粒度還有統(tǒng)計(jì)周期,就是指標(biāo)類樹(shù)立標(biāo)準(zhǔn)所必須的。相關(guān)的管理屬性,包括標(biāo)準(zhǔn)本身的版本、標(biāo)準(zhǔn)的創(chuàng)建日期,還有標(biāo)準(zhǔn)的管理部門(mén)等。
下面是主數(shù)據(jù)和參考數(shù)據(jù)的數(shù)據(jù)標(biāo)準(zhǔn)舉例,比如北京、上海、廣州,它所屬的省份的簡(jiǎn)稱可以對(duì)它進(jìn)行定義為對(duì)應(yīng)的中文名稱的拼音第一個(gè)字母,城市的類別把它定義為一線城市、二線城市。這個(gè)是對(duì)所有的主數(shù)據(jù)當(dāng)中的字段的一個(gè)描述,也就是元數(shù)據(jù)。這是指標(biāo)的梳理標(biāo)準(zhǔn)。
下面有一個(gè)具體的例子,比如撥備覆蓋率就是指標(biāo)的名稱,把它歸類為基本屬性,然后對(duì)指標(biāo)的業(yè)務(wù)含義進(jìn)行定義,指的就是貸款損失準(zhǔn)備對(duì)不良貸款的一個(gè)比率。指標(biāo)的類型屬于比率類。從技術(shù)角度來(lái)看,它在底層占有的長(zhǎng)度是 8,精度是 4。管理屬性就是它的第一部門(mén)是誰(shuí),這個(gè)指標(biāo)的版本是多少號(hào)。對(duì)于指標(biāo)的數(shù)據(jù)標(biāo)準(zhǔn),要從下面的 5 個(gè)角度去考量它,需要能夠比較準(zhǔn)確地去表達(dá)業(yè)務(wù)含義。
指標(biāo)必須要有非??尚诺膩?lái)源,所以來(lái)源也是重要的考量指標(biāo)可信度的維度。
下面看下數(shù)據(jù)標(biāo)準(zhǔn)的成熟度評(píng)估,第一個(gè)是數(shù)據(jù)標(biāo)準(zhǔn)有沒(méi)有被完全解讀,大家有沒(méi)有充分的理解?標(biāo)準(zhǔn)本身夠不夠完整,夠不夠清晰?標(biāo)準(zhǔn)在組織內(nèi)部的發(fā)布還有傳播有沒(méi)有到位,有沒(méi)有貫徹,標(biāo)準(zhǔn)的管理變更流程夠不夠全面,執(zhí)行是不是夠徹底?我們可以從這幾個(gè)角度去看一個(gè)企業(yè)內(nèi)部的標(biāo)準(zhǔn)當(dāng)前建設(shè)的成熟度到了什么樣的程度。
數(shù)據(jù)質(zhì)量指的是在特定的業(yè)務(wù)環(huán)境下,數(shù)據(jù)滿足業(yè)務(wù)運(yùn)行、管理與決策的程度,是保障數(shù)據(jù)應(yīng)用效果的一個(gè)基礎(chǔ)。數(shù)據(jù)質(zhì)量管理指的是運(yùn)用相關(guān)的技術(shù)來(lái)衡量、提高和確保數(shù)據(jù)質(zhì)量的規(guī)劃、實(shí)施與控制的一系列活動(dòng)。所以從這里面可以看出數(shù)據(jù)質(zhì)量也是一個(gè)非常龐大的系統(tǒng)工程。數(shù)據(jù)質(zhì)量真正要去落地的時(shí)候,有以下幾點(diǎn)需要注意:
(1)真正去落地是需要和具體的企業(yè)當(dāng)中的經(jīng)營(yíng)管理痛點(diǎn)相結(jié)合,需要企業(yè)內(nèi)部的 IT 數(shù)據(jù)團(tuán)隊(duì)和業(yè)務(wù)團(tuán)隊(duì)一起解決問(wèn)題。
(2)PDCA 的循環(huán)要做起來(lái),走通一個(gè)閉環(huán)之后,后面要持續(xù)去迭代。
(3)不能夠期望僅僅依靠一個(gè)工具或者多個(gè)工具就能夠解決數(shù)據(jù)質(zhì)量的問(wèn)題,它只能夠解決一部分的通用問(wèn)題。
數(shù)據(jù)質(zhì)量的考量維度有很多分法,最重要的一個(gè)就是數(shù)據(jù)的真實(shí)性,它必須真實(shí)地去表達(dá)客觀實(shí)體或者真實(shí)的業(yè)務(wù)。其次還有準(zhǔn)確性或者叫可靠性,它適用于分析和識(shí)別那些不準(zhǔn)確無(wú)效數(shù)據(jù)的一些方法。唯一性就需要我們?nèi)プR(shí)別,還有度量重復(fù)數(shù)據(jù),去掉冗余的數(shù)據(jù),重復(fù)的數(shù)據(jù)會(huì)導(dǎo)致業(yè)務(wù)很難協(xié)同。還有數(shù)據(jù)的完整性,如果說(shuō)模型設(shè)計(jì)不完整,那數(shù)據(jù)會(huì)有很多缺失或者很難使用。一致性其實(shí)是現(xiàn)在數(shù)據(jù)質(zhì)量建設(shè)的重點(diǎn),因?yàn)閮?nèi)部的多源系統(tǒng),它的數(shù)據(jù)模型不統(tǒng)一,那它代表的各種約束也不一致,實(shí)體代表的含義也不一致。數(shù)據(jù)的關(guān)聯(lián)性指的是比如有主外間關(guān)系,那兩者的分析結(jié)果也會(huì)有對(duì)應(yīng)的關(guān)聯(lián),然后及時(shí)性也是現(xiàn)在大家比較關(guān)心的數(shù)據(jù)質(zhì)量的問(wèn)題,實(shí)時(shí)地能夠去反映我們的業(yè)務(wù)的狀況,然后對(duì)應(yīng)的快速?zèng)Q策實(shí)現(xiàn)在企業(yè)的一個(gè)非常重要的競(jìng)爭(zhēng)力。
數(shù)據(jù)質(zhì)量出現(xiàn)問(wèn)題的原因非常多。從技術(shù)角度來(lái)看,有可能會(huì)出現(xiàn)數(shù)據(jù)的不完整。數(shù)據(jù)源本身如果沒(méi)有做質(zhì)量的控制,數(shù)據(jù)就會(huì)比較雜亂。還有采集的過(guò)程當(dāng)中,如果對(duì)于采集數(shù)據(jù)的定義沒(méi)有理清楚,采集的數(shù)據(jù)可能和我們想要的不太一樣,傳輸過(guò)程當(dāng)中可能會(huì)有網(wǎng)絡(luò)閃斷,或者中間出現(xiàn)傳輸問(wèn)題,數(shù)據(jù)有可能會(huì)丟失。
在業(yè)務(wù)方面最大的問(wèn)題是業(yè)務(wù)團(tuán)隊(duì)和數(shù)據(jù)團(tuán)隊(duì)交流的時(shí)候,對(duì)于需求沒(méi)有互相對(duì)齊,或者需求不太明確,理解不一致。另外需求變更很頻繁也會(huì)導(dǎo)致質(zhì)量問(wèn)題。在管理方面最大的難題是缺少管理的機(jī)構(gòu)和目標(biāo)機(jī)制。
下面舉個(gè)例子,比較適合于大型集團(tuán)。制度規(guī)范有數(shù)據(jù)質(zhì)量管理的規(guī)范,管理的辦法有考核辦法,有事中的監(jiān)控管理、事后的處理、事前的防范等相應(yīng)的方法。技術(shù)的規(guī)范和模板包括數(shù)據(jù)質(zhì)量的檢查規(guī)則。
數(shù)據(jù)質(zhì)量的考量維度可以根據(jù)不同的需求去評(píng)估,最重要的是我們能夠去解決具體的經(jīng)營(yíng)管理的問(wèn)題,從這個(gè)導(dǎo)向來(lái)出發(fā),把它轉(zhuǎn)變成對(duì)于數(shù)據(jù)的需求,從解決具體的某一個(gè)小問(wèn)題出發(fā)去形成一個(gè)閉環(huán)。如果數(shù)據(jù)質(zhì)量的管控想要真正落地的話,KPI 績(jī)效是一個(gè)非常重要的點(diǎn)。
下面舉一個(gè)例子是如何去評(píng)估數(shù)據(jù)質(zhì)量管理的牽頭團(tuán)隊(duì),可以把它分成兩個(gè)方向。質(zhì)量問(wèn)題本身可以有如下的這個(gè)角度,第一個(gè)是問(wèn)題的個(gè)數(shù)、影響的范圍和嚴(yán)重的程度,考核對(duì)象可以是問(wèn)題的個(gè)數(shù),考核對(duì)象就是數(shù)據(jù)管理團(tuán)隊(duì)的這個(gè)負(fù)責(zé)人。
質(zhì)量問(wèn)題的處理可以根據(jù)問(wèn)題的及時(shí)性來(lái)進(jìn)行評(píng)估,可以從事后治理、事中監(jiān)控還有事前防范三個(gè)方面進(jìn)行管理。
歷史數(shù)據(jù)是大多數(shù)企業(yè)進(jìn)行數(shù)據(jù)質(zhì)量項(xiàng)目的第一步,數(shù)據(jù)質(zhì)量的事后治理可以從這個(gè)問(wèn)題的發(fā)起,發(fā)現(xiàn)問(wèn)題提交給相關(guān)方,然后制定解決問(wèn)題的規(guī)則,去思考問(wèn)題出現(xiàn)的基本原因和相關(guān)的影響范圍,最后制定出相關(guān)的方案進(jìn)行實(shí)施。
事中監(jiān)控最好是通過(guò)工具來(lái)執(zhí)行,它的輸入是根據(jù)過(guò)往經(jīng)驗(yàn)得到的梳理標(biāo)準(zhǔn)和業(yè)務(wù)的需求,把它轉(zhuǎn)變成 PDCA 自動(dòng)化的流程,對(duì)應(yīng)的標(biāo)準(zhǔn)轉(zhuǎn)變成數(shù)據(jù)質(zhì)量的監(jiān)控規(guī)則,在工具中進(jìn)行配置落地,并進(jìn)行實(shí)時(shí)的執(zhí)行,最終輸出數(shù)據(jù)質(zhì)量報(bào)告。
事前防范是最難的一項(xiàng),它是為了總結(jié)業(yè)務(wù)需求,編成經(jīng)過(guò)思考的一些模板。
對(duì)于數(shù)據(jù)質(zhì)量解決效果的評(píng)估可以從四個(gè)方面進(jìn)行評(píng)估,第一個(gè)是管理流程是不是夠完善,相應(yīng)的組織夠不夠健全。第二個(gè)是質(zhì)量規(guī)則的落地和識(shí)別。
當(dāng)我們?nèi)ス芾頂?shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)質(zhì)量時(shí),對(duì)應(yīng)的組織保障把它分成了 3 個(gè)類別,分別適用于不同的機(jī)構(gòu)。
第一種是集中式的,它的特點(diǎn)是數(shù)據(jù)管理的負(fù)責(zé)人和數(shù)據(jù)管理團(tuán)隊(duì)是專職的、永久的,他們對(duì)所有數(shù)據(jù)的產(chǎn)生、演變、維護(hù)進(jìn)行集中式的管控。這一種管控方式的優(yōu)勢(shì)是它有一個(gè)強(qiáng)有力的數(shù)據(jù)管理的專業(yè)組織,負(fù)責(zé)企業(yè)級(jí)的數(shù)據(jù)管理,職責(zé)明確,目標(biāo)清晰。組織是固定的,組織內(nèi)可以做專業(yè)化的分工,整個(gè)匯報(bào)條線清晰,自上而下的執(zhí)行具有驅(qū)動(dòng)力。他的問(wèn)題是對(duì)于數(shù)據(jù)管理人員的能力要求非常高,整個(gè)組織比較龐大,成本也比較高,其他部門(mén)可能沒(méi)有數(shù)據(jù)管理的能力,所以需要跨部門(mén)的溝通,成本比較高,對(duì)協(xié)作的要求也比較高。因?yàn)楸容^集中,所以容易僵化,會(huì)影響工作效率,所以這個(gè)集中式的方式非常適合于集團(tuán)企業(yè),比如大型的央企、大型的集團(tuán)。
第二種是聯(lián)邦方式,它的特點(diǎn)是在總部設(shè)立一個(gè)數(shù)據(jù)管理的負(fù)責(zé)人,對(duì)數(shù)據(jù)管理整體的活動(dòng)進(jìn)行協(xié)調(diào)管控,在各個(gè)業(yè)務(wù)單元設(shè)立專門(mén)的組織或者角色,他負(fù)責(zé)業(yè)務(wù)領(lǐng)域的數(shù)據(jù)管理工作。整個(gè)組織的成員可以是專人專崗,也可以是兼職。它的優(yōu)勢(shì)是數(shù)據(jù)管理和業(yè)務(wù)管理可以更好地融合,可以根據(jù)職責(zé)的需要設(shè)置崗位,執(zhí)行效率比較高,同時(shí)它能夠比較好地實(shí)現(xiàn)橫向的協(xié)調(diào)和拉通。另外就是專業(yè)化的分工也具備,所以有助于團(tuán)隊(duì)對(duì)應(yīng)的能力的提升。它的挑戰(zhàn)是縱向需要加強(qiáng)組織影響力,還有協(xié)調(diào)能力,驅(qū)動(dòng)企業(yè)數(shù)據(jù)管理的工作。還有一個(gè)挑戰(zhàn)是數(shù)據(jù)管控的力度相對(duì)于集中式會(huì)弱一些,所以需要通過(guò)其他手段,比如評(píng)價(jià)進(jìn)行監(jiān)督。
第三種是分散式的,它的特點(diǎn)是不存在一個(gè)企業(yè)級(jí)的數(shù)據(jù)管理負(fù)責(zé)人,數(shù)據(jù)相關(guān)的活動(dòng)分散在各個(gè)部門(mén),它的成員也是以監(jiān)管為主,它的優(yōu)勢(shì)是每個(gè)業(yè)務(wù)單元能夠比較好地去理解自己的業(yè)務(wù),每個(gè)業(yè)務(wù)單元容易在單個(gè)的業(yè)務(wù)領(lǐng)域上和系統(tǒng)上實(shí)現(xiàn)數(shù)據(jù)管理的工作。另外在應(yīng)用需求的基礎(chǔ)上樹(shù)立的問(wèn)題可以在單部門(mén)中快速被解決,所以一般服務(wù)滿意度會(huì)相對(duì)比較高。挑戰(zhàn)是缺乏一個(gè)企業(yè)級(jí)的管理視角,跨業(yè)務(wù)部門(mén)的協(xié)作會(huì)比較困難。所以對(duì)于聯(lián)邦式比較適合于大部分的中小企業(yè)。
這個(gè)是對(duì)于集中式管理的組織保障的拆解,首先應(yīng)該有個(gè)決策組織,這決策組織可以是數(shù)據(jù)治理的委員會(huì),然后在下面去做管理的應(yīng)該有一個(gè)數(shù)據(jù)治理的辦公室。對(duì)于每一個(gè)職能域都有對(duì)應(yīng)的負(fù)責(zé)人,在每個(gè)業(yè)務(wù)單元有對(duì)應(yīng)的數(shù)據(jù)的責(zé)任人,在 IT 層面也有對(duì)應(yīng)的比較明細(xì)的分工,去解決我們梳理當(dāng)中出現(xiàn)的問(wèn)題。
二、工具和技術(shù)
接下來(lái)分享第二部分是數(shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)質(zhì)量相關(guān)的工具。
首先去采集數(shù)據(jù)標(biāo)準(zhǔn)內(nèi)部的信息模型,還有標(biāo)準(zhǔn)相關(guān)的文檔,把它轉(zhuǎn)變成標(biāo)準(zhǔn)管理系統(tǒng)中的一些內(nèi)容。然后標(biāo)準(zhǔn)當(dāng)中有些內(nèi)容可以轉(zhuǎn)變成質(zhì)量中的檢查規(guī)則,有些業(yè)務(wù)需求也可以變成數(shù)據(jù)質(zhì)量監(jiān)控規(guī)則。他們會(huì)不斷調(diào)用統(tǒng)一的元數(shù)據(jù)管理內(nèi)容去進(jìn)行檢查。
這是系統(tǒng)管理數(shù)據(jù)元的演示。對(duì)于數(shù)據(jù)元可以去約束它的名稱、狀態(tài)、類型、數(shù)據(jù)格式、來(lái)源、關(guān)系等,這個(gè)標(biāo)準(zhǔn)可以映射到具體的表中字段進(jìn)行審核處理。
對(duì)于結(jié)構(gòu)化數(shù)據(jù)標(biāo)準(zhǔn)比較好理解,那非結(jié)化數(shù)據(jù)標(biāo)準(zhǔn)有哪些方法進(jìn)行管理?
第一種方法是在業(yè)務(wù)場(chǎng)景中進(jìn)行治理,海量的非結(jié)構(gòu)化數(shù)據(jù)治理的成本非常高,所以必須在業(yè)務(wù)流程當(dāng)中識(shí)別出其中業(yè)務(wù)價(jià)值比較大的數(shù)據(jù)進(jìn)行治理,獲取最大的投資回報(bào)。在業(yè)務(wù)場(chǎng)景當(dāng)中提煉出關(guān)鍵數(shù)據(jù)和客戶現(xiàn)在系統(tǒng)中的數(shù)據(jù)進(jìn)行融合,通過(guò)數(shù)據(jù)服務(wù)的方式供業(yè)務(wù)去調(diào)用。
第二種它是把非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)變成結(jié)構(gòu)化數(shù)據(jù),用結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行管理。
第三種是映射結(jié)構(gòu)化的元數(shù)據(jù),簡(jiǎn)化元數(shù)據(jù)模型。第四種方法是構(gòu)建一個(gè)非結(jié)構(gòu)化數(shù)據(jù)資產(chǎn)體系,把數(shù)據(jù)融合到數(shù)據(jù)資產(chǎn)管理當(dāng)中,通過(guò)對(duì)廢棄化數(shù)據(jù)資產(chǎn)進(jìn)行智能化的標(biāo)簽識(shí)別管理。
數(shù)據(jù)標(biāo)準(zhǔn)的映射在承接數(shù)據(jù)標(biāo)準(zhǔn)之后,很容易把它映射到具體的數(shù)據(jù)項(xiàng)當(dāng)中。
在過(guò)往的很多數(shù)據(jù)類的項(xiàng)目當(dāng)中,很多企業(yè)都進(jìn)行過(guò)數(shù)據(jù)質(zhì)量的相關(guān)管控,其中的重點(diǎn)是能夠把 PDCA 的整個(gè)閉環(huán)做好,從需求開(kāi)始到最終形成規(guī)則去檢查,然后自動(dòng)化地去調(diào)度執(zhí)行,形成對(duì)應(yīng)的知識(shí)庫(kù)。
另外管理標(biāo)準(zhǔn)和質(zhì)量現(xiàn)在比較火的一個(gè)方向是主動(dòng)的數(shù)據(jù)治理,首先在數(shù)據(jù)進(jìn)入的時(shí)候,可以自動(dòng)把數(shù)據(jù)標(biāo)準(zhǔn)和具體的數(shù)據(jù)做關(guān)聯(lián),這個(gè)標(biāo)準(zhǔn)可以和建立數(shù)據(jù)模型的對(duì)應(yīng)的數(shù)據(jù)項(xiàng)關(guān)聯(lián)起來(lái),之后在數(shù)據(jù)開(kāi)發(fā)過(guò)程當(dāng)中可以去執(zhí)行,執(zhí)行完之后在生產(chǎn)調(diào)度過(guò)程當(dāng)中產(chǎn)生的新的數(shù)據(jù),對(duì)應(yīng)的標(biāo)準(zhǔn)規(guī)則會(huì)自動(dòng)執(zhí)行對(duì)它進(jìn)行評(píng)估。
另外一個(gè)能夠提升標(biāo)準(zhǔn)和質(zhì)量的比較新的一個(gè)方式是提供企業(yè)級(jí)的數(shù)據(jù)目錄,通過(guò)數(shù)據(jù)目錄形成數(shù)據(jù)資產(chǎn)的整個(gè)的詳細(xì)清單,清單的底層依賴元數(shù)據(jù)去管理數(shù)據(jù),它可以幫助分析師、科學(xué)家還有工程師快速找到他需要的數(shù)據(jù)。
三、典型案例
第三部分是典型案例??蛻舯旧砥谕軌蜃龅綌?shù)據(jù)資產(chǎn)化,數(shù)據(jù)能夠大集中,能夠統(tǒng)一的存儲(chǔ)和計(jì)算,能夠有一套先進(jìn)的數(shù)據(jù)架構(gòu),能夠有統(tǒng)一的規(guī)范打通各個(gè)業(yè)務(wù)單元,使用的時(shí)候能夠進(jìn)行數(shù)據(jù)化的運(yùn)營(yíng),能夠快速地讓數(shù)據(jù)為業(yè)務(wù)所用。整個(gè)項(xiàng)目分成幾個(gè)階段。
首先是滿足業(yè)務(wù)用戶的需要,對(duì)應(yīng)的是需要數(shù)據(jù)模型自助地讓業(yè)務(wù)去使用,同時(shí)有數(shù)據(jù)標(biāo)準(zhǔn)能夠去規(guī)范數(shù)據(jù)本身。主數(shù)據(jù)對(duì)應(yīng)的內(nèi)容能夠讓業(yè)務(wù)人員快速使用,并且業(yè)務(wù)之間、業(yè)務(wù)系統(tǒng)之間主數(shù)據(jù)能夠打通,形成統(tǒng)一的標(biāo)準(zhǔn)。
在這個(gè)項(xiàng)目當(dāng)中我們?yōu)榭蛻糇龅氖虑槭菢?gòu)建了數(shù)據(jù)治理體系。
第二個(gè)典型案例是數(shù)據(jù)質(zhì)量的提升項(xiàng)目??蛻粢笫窍M軌蜃寯?shù)據(jù)可知、可管、可視,希望能夠提升數(shù)據(jù)質(zhì)量監(jiān)控規(guī)則覆蓋的業(yè)務(wù)領(lǐng)域,實(shí)現(xiàn)覆蓋各類營(yíng)銷(xiāo)等業(yè)務(wù)系統(tǒng),讓集團(tuán)知道數(shù)據(jù)質(zhì)量的情況,有系統(tǒng)進(jìn)行自動(dòng)化的檢查,數(shù)據(jù)質(zhì)量對(duì)應(yīng)的指標(biāo)能夠可以及時(shí)感知,數(shù)據(jù)指標(biāo)本身能夠洞察業(yè)務(wù)驅(qū)動(dòng)數(shù)據(jù)價(jià)值的變現(xiàn)。
我們細(xì)分之后會(huì)發(fā)現(xiàn)可以分成這么幾類,第一個(gè)是對(duì)于單表質(zhì)量的檢測(cè),這是針對(duì) Hive code、 Oracle 等數(shù)據(jù)源類型的數(shù)據(jù)質(zhì)量的監(jiān)控。第二個(gè)是對(duì)流式數(shù)據(jù)質(zhì)量的檢測(cè),針對(duì) Kafka 類型的數(shù)據(jù)進(jìn)行檢查。第三個(gè)希望能夠進(jìn)行多表的數(shù)據(jù)比對(duì)分析,能夠設(shè)定各種規(guī)則。第四個(gè)能夠進(jìn)行數(shù)據(jù)指標(biāo)的分析。第五個(gè)是質(zhì)量的規(guī)則能夠關(guān)聯(lián)內(nèi)置的客戶已有模板,能夠自定義 SQL 的規(guī)則。最后是能夠進(jìn)行質(zhì)量規(guī)則的合規(guī)校驗(yàn),可以通過(guò)固定的閾值周期性統(tǒng)計(jì)波動(dòng)的方式來(lái)判定目標(biāo)是不是合規(guī)。
我們提供的數(shù)據(jù)質(zhì)量的監(jiān)控工具,可以提供多表的對(duì)比,所以可以針對(duì)這個(gè)源表和目標(biāo)表的記錄條數(shù),還有具體的數(shù)據(jù)進(jìn)行比對(duì),可以及時(shí)告警發(fā)現(xiàn)問(wèn)題。第二個(gè)具體的問(wèn)題是數(shù)據(jù)質(zhì)量問(wèn)題的紅綠燈機(jī)制,它的場(chǎng)景是每天都會(huì)進(jìn)行任務(wù)的加工過(guò)程,當(dāng)中可能會(huì)出現(xiàn)數(shù)據(jù)異常,比如異常如果影響業(yè)務(wù)的話,希望能夠阻斷并告知相關(guān)的責(zé)任人。
同時(shí)這個(gè)問(wèn)題的處理希望能夠指派給不同等級(jí)的工單,給不同崗位的人去處理,面對(duì)這樣的需求,首先我們的工具里面可以設(shè)置強(qiáng)弱規(guī)則,工單系統(tǒng)可以設(shè)定不同的規(guī)則,給不同的人進(jìn)行處理。
四、問(wèn)答環(huán)節(jié)
Q1:數(shù)據(jù)質(zhì)量評(píng)估的標(biāo)準(zhǔn)和數(shù)據(jù)質(zhì)量的規(guī)則是什么?
A1:我覺(jué)得有好幾個(gè)層面,第一個(gè)是純粹技術(shù)層面的評(píng)估,技術(shù)層面的評(píng)估可以去看,比如在這個(gè)工具上有了數(shù)據(jù)質(zhì)量的一些要求,這個(gè)要求在我們檢查實(shí)現(xiàn)的時(shí)候,實(shí)現(xiàn)的程度是不是滿足了業(yè)務(wù)的需要?第二個(gè)是現(xiàn)在圖中展示的,就是當(dāng)一個(gè)企業(yè)從組織層面想看一下數(shù)據(jù)質(zhì)量的整個(gè)執(zhí)行怎么樣?那它不僅僅是包括技術(shù)內(nèi)容本身,它還包含數(shù)據(jù)質(zhì)量的整個(gè)管理有沒(méi)有執(zhí)行到位。
Q2:數(shù)據(jù)模型是否屬于數(shù)據(jù)標(biāo)準(zhǔn)的范疇?
A2:是屬于的,我們可以看一下前面的數(shù)據(jù)治理的理論框架,就是數(shù)據(jù)標(biāo)準(zhǔn),它是一個(gè)典型的大詞,和建模相關(guān)、和架構(gòu)相關(guān)、和質(zhì)量相關(guān)。當(dāng)我們?nèi)タ磸V義的數(shù)據(jù)標(biāo)準(zhǔn)的時(shí)候,它有一些和數(shù)據(jù)治理相似的地方,比如它會(huì)要求組織保障上有對(duì)應(yīng)的人員,然后還有制度流程有沒(méi)有對(duì)應(yīng)的規(guī)范。那數(shù)據(jù)模型其實(shí)當(dāng)我們把它拆解開(kāi)來(lái)的時(shí)候,會(huì)發(fā)現(xiàn)這個(gè)模型里面,比如主數(shù)據(jù)的,還有因?yàn)槟P瓦@個(gè)概念比較大,主數(shù)據(jù)本身是數(shù)據(jù)標(biāo)準(zhǔn)管理的一個(gè)范疇,那主數(shù)據(jù)管理我們對(duì)它還會(huì)有標(biāo)準(zhǔn)的要求。
Q3:現(xiàn)在有哪些數(shù)據(jù)標(biāo)準(zhǔn)?
A3:數(shù)據(jù)標(biāo)準(zhǔn)這邊有一個(gè)分類,如果是一個(gè)廣義的數(shù)據(jù)標(biāo)準(zhǔn)的話,會(huì)包含很多方面。但是我們看到我們?nèi)ビ懻摷?xì)而微的事情的時(shí)候,數(shù)據(jù)標(biāo)準(zhǔn)可以看里面的分類包含我們要對(duì)業(yè)務(wù)數(shù)據(jù)進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)的管理,對(duì)主數(shù)據(jù)、參考數(shù)據(jù)還有指標(biāo)進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)的管理。
Q4:如何對(duì)歷史留存的建模或者指標(biāo)進(jìn)行統(tǒng)一的梳理標(biāo)準(zhǔn)?
A4:剛才我們?nèi)ブv數(shù)據(jù)質(zhì)量的時(shí)候,有一個(gè)事后管控,就是對(duì)存量數(shù)據(jù)進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)的管理,最佳的實(shí)踐根據(jù)我們過(guò)往的經(jīng)驗(yàn),其實(shí)是我們先選擇。首先我們應(yīng)該有一個(gè)對(duì)應(yīng)的經(jīng)營(yíng)管理當(dāng)中的痛點(diǎn),以這個(gè)痛點(diǎn)為抓手,然后我們?nèi)ふ疫@個(gè)數(shù)據(jù)所屬的那個(gè)主題域,我們可以拿一個(gè)小小的主題域作為其中的一個(gè)試點(diǎn),那這樣一種方式是相對(duì)而言比較容易落地的方式。
Q5:在啟動(dòng)數(shù)據(jù)治理項(xiàng)目后如何解決甲方信息部門(mén)無(wú)法協(xié)調(diào)各業(yè)務(wù)部門(mén),導(dǎo)致各類組織架構(gòu)流程無(wú)法落地,只能停留在紙面上的問(wèn)題?對(duì)乙方來(lái)說(shuō),如果要陪甲方無(wú)限度的持續(xù)治理,那項(xiàng)目的周期和成本如何處理?
A5:這個(gè)問(wèn)題是作為乙方經(jīng)常遇到的很常見(jiàn)的問(wèn)題,我個(gè)人的建議最好的解決方式還是甲方自己需要有一個(gè)組織的保障。我前面有一部分就是講我們的對(duì)于數(shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)質(zhì)量,如果要落地的話,組織保障相應(yīng)的一些類別,我覺(jué)得可以參考這里面的內(nèi)容。
首先組織保障是第一位的,是最重要的,那有了這個(gè)組織保障我們要選擇,如果說(shuō)是那種特別大的企業(yè)的話,其實(shí)需要有個(gè)強(qiáng)有力的數(shù)據(jù)治理的部門(mén),他們需要有非常高的權(quán)威去推動(dòng)這件事情執(zhí)行落地。然后如果是相對(duì)中小型的話,可以選擇聯(lián)邦的這種方式。對(duì)于乙方如果要陪甲方無(wú)限度地持續(xù)治理項(xiàng)目的周期和成本如何處理?這個(gè)問(wèn)題比較難以回答,我覺(jué)得最關(guān)鍵的其實(shí)是把我們的數(shù)據(jù)治理的范圍確定好,甲方是做無(wú)限期的持續(xù)數(shù)據(jù)治理的時(shí)候,如果出現(xiàn)這樣的問(wèn)題,那是不是我們?cè)谧鲞@個(gè)項(xiàng)目的前期沒(méi)有把這個(gè)邊界梳理得足夠清楚?然后它應(yīng)該是分階段的,然后數(shù)據(jù)治理應(yīng)該伴隨著一個(gè)企業(yè)的整個(gè)生命周期,所以每個(gè)階段只能做每個(gè)階段的事情,我覺(jué)得最關(guān)鍵應(yīng)該是把我們的整個(gè)的每個(gè)項(xiàng)目的這個(gè)邊界理清楚。
Q6:后續(xù)如果因?yàn)闃I(yè)務(wù)的變更,數(shù)據(jù)的口徑需要更改,是否可以低代碼完成維護(hù)操作?
A6:像這類問(wèn)題的話其實(shí)是可以解決,有一類工具它可以做到數(shù)據(jù)指標(biāo)的可視化的管理。然后在這個(gè)數(shù)據(jù)指標(biāo)的定義過(guò)程當(dāng)中去設(shè)定口徑的時(shí)候,如果說(shuō)需要更改,那可以在這類工具上進(jìn)行更改,更改之后他會(huì)把所有歷史數(shù)據(jù)進(jìn)行一個(gè)重算,通過(guò)這種方式就可以實(shí)現(xiàn)低代碼的方式完成工作。
Q7:從整個(gè)數(shù)據(jù)治理的理論,所謂治理的工作無(wú)法界定工作邊界,比如一個(gè)系統(tǒng)有 1000 張表,對(duì)其中關(guān)鍵表做數(shù)據(jù)質(zhì)量的治理,或者對(duì)所有表進(jìn)行治理,其工作量是完全不同的。而一個(gè)項(xiàng)目的預(yù)算是有邊界的,如何去界定數(shù)據(jù)的項(xiàng)目在界定數(shù)據(jù)治理范圍后,如何在項(xiàng)目結(jié)束時(shí)給需求方展示數(shù)據(jù)治理的實(shí)際價(jià)值?
A7:您問(wèn)的這個(gè)問(wèn)題非常好,治理一張表和千張表確實(shí)工作量是完全不一樣的,所以我們真正去落地?cái)?shù)據(jù)治理項(xiàng)目的時(shí)候,需要在確定邊界的時(shí)候,最好的一個(gè)邊界的點(diǎn)就是如何給需求方展示數(shù)據(jù)治理的這個(gè)價(jià)值。所以我們?nèi)?dòng)一個(gè)數(shù)據(jù)治理的項(xiàng)目,第一個(gè)就是要找到這個(gè)經(jīng)營(yíng)管理當(dāng)中的痛點(diǎn),可以尋找其中的一個(gè)主題域,甚至說(shuō)找到一個(gè)主題域當(dāng)中的一部分的關(guān)心的業(yè)務(wù)問(wèn)題,先解決這一部分?jǐn)?shù)據(jù)的這個(gè)問(wèn)題。所以這個(gè)是一個(gè)關(guān)鍵,就是我們從主題域的角度出發(fā)這個(gè)數(shù)據(jù)這個(gè)項(xiàng)目,還有要解決這個(gè)具體的經(jīng)營(yíng)管理當(dāng)中的一些痛點(diǎn)問(wèn)題。
Q8:數(shù)據(jù)質(zhì)量管理的效果如何評(píng)估?
A8:管理的效果的話,這邊有一個(gè)給大家的一個(gè)示例可以看一下,比如我們?nèi)ピu(píng)估這個(gè)數(shù)據(jù)質(zhì)量的管理效果的話,這四個(gè)維度偏向于管理維度,那我們可以增加一個(gè)維度,就是數(shù)據(jù)質(zhì)量真正解決了問(wèn)題業(yè)務(wù)問(wèn)題的不是業(yè)務(wù)痛點(diǎn)的個(gè)數(shù),所以這些結(jié)合起來(lái)的話就可以去評(píng)估管理的效果。
Q9:數(shù)值標(biāo)準(zhǔn)和質(zhì)量有什么技術(shù)壁壘嗎?
A9:我覺(jué)得數(shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)質(zhì)量最關(guān)鍵的點(diǎn)可能不是技術(shù)壁壘,最關(guān)鍵點(diǎn)應(yīng)該是我們經(jīng)營(yíng)管理當(dāng)中對(duì)于標(biāo)準(zhǔn)和質(zhì)量的一個(gè)要求,找到這個(gè)突破點(diǎn)。然后另外的關(guān)鍵就是對(duì)應(yīng)的執(zhí)行過(guò)程當(dāng)中要把它形成一個(gè)閉環(huán),那這個(gè)閉環(huán)其中對(duì)標(biāo)準(zhǔn)和質(zhì)量的這個(gè)工具會(huì)有大量的這個(gè)定制化的一個(gè)要求。那這個(gè)定制化的要求怎么實(shí)現(xiàn)?我覺(jué)得可能是一個(gè)甲方企業(yè)需要去考慮的問(wèn)題,因?yàn)樗鼱砍兜焦?yīng)商提供的一定是一個(gè)標(biāo)準(zhǔn)化的工具,所以我們這個(gè)甲方企業(yè)如何去把這一些我們的個(gè)性化的一些規(guī)則變成通用工具,在上面可以運(yùn)轉(zhuǎn)的這個(gè)規(guī)則盡量覆蓋質(zhì)量的問(wèn)題。我覺(jué)得是我們這數(shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)量這兩個(gè)主題最關(guān)鍵需要解決的問(wèn)題。
Q10:元數(shù)據(jù)能否自動(dòng)抽取和管理?
A10:其實(shí)這個(gè)是可以的,就是所有的數(shù)據(jù)的集成工具要能夠從源端去抽取數(shù)據(jù),首先要識(shí)別它的源數(shù)據(jù),所以元數(shù)據(jù)本身也是可以使用同類的工具去識(shí)別、抽取和管理的。