自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

企業(yè)數(shù)據(jù)治理實(shí)戰(zhàn)總結(jié)--數(shù)倉(cāng)面試必備

開(kāi)發(fā) 前端
數(shù)據(jù)治理的范圍非常廣,貫穿數(shù)倉(cāng)的整個(gè)生命周期,從數(shù)據(jù)產(chǎn)生->數(shù)據(jù)接入->數(shù)據(jù)存儲(chǔ)->數(shù)據(jù)處理->數(shù)據(jù)輸出->數(shù)據(jù)展示,每個(gè)階段都需要質(zhì)量治理,評(píng)價(jià)維度包括完整性、規(guī)范性、一致性、準(zhǔn)確性、唯一性、關(guān)聯(lián)性等。

1 數(shù)據(jù)治理的背景

在數(shù)據(jù)建設(shè)過(guò)程中,業(yè)務(wù)人員和數(shù)據(jù)開(kāi)發(fā)人員在日常使用數(shù)據(jù)的過(guò)程中還是能感受到一些痛點(diǎn)的,主要的表現(xiàn):

第一,數(shù)據(jù)資產(chǎn)缺乏盤(pán)點(diǎn)。當(dāng)前核心系統(tǒng)的主要數(shù)據(jù)已經(jīng)采集到數(shù)據(jù)倉(cāng)庫(kù),但是在日常的業(yè)務(wù)分析中經(jīng)常需要向業(yè)務(wù)系統(tǒng)了解需要用到的數(shù)據(jù)在哪里??偟脕?lái)看對(duì)數(shù)據(jù)資產(chǎn)還是缺乏整體盤(pán)點(diǎn),公司主要有哪些數(shù)據(jù),都分布在哪些系統(tǒng)中,哪些數(shù)據(jù)已經(jīng)采集到數(shù)倉(cāng),哪些還沒(méi)有入庫(kù),還有待進(jìn)一步梳理。

第二,數(shù)據(jù)標(biāo)準(zhǔn)化建設(shè)不足。數(shù)據(jù)標(biāo)準(zhǔn)會(huì)貫穿數(shù)據(jù)管理的全流程,雖然我們制定了一系列規(guī)范文檔、制度文檔、流程文檔等,但有了標(biāo)準(zhǔn)并不代表數(shù)據(jù)標(biāo)準(zhǔn)化已經(jīng)落實(shí)了,像指標(biāo)數(shù)據(jù)的標(biāo)準(zhǔn)化、主數(shù)據(jù)的標(biāo)準(zhǔn)化等方面還需要進(jìn)一步的提升。

第三,數(shù)據(jù)質(zhì)量問(wèn)題。數(shù)據(jù)質(zhì)量是數(shù)據(jù)的生命線,差的數(shù)據(jù)質(zhì)量嚴(yán)重影響數(shù)據(jù)分析的結(jié)論,有的可能對(duì)決策產(chǎn)生誤導(dǎo),如臟數(shù)據(jù)、維度數(shù)據(jù)缺失或變更等一系列問(wèn)題,都需要進(jìn)行治理,比如掃描信息缺失,導(dǎo)致運(yùn)單路由軌跡不準(zhǔn)確;數(shù)據(jù)維度值變化,統(tǒng)計(jì)某個(gè)渠道業(yè)務(wù)量陡增或驟降。

第四,數(shù)據(jù)模型待完善。目前已經(jīng)建設(shè)了一批公共寬表,但是隨著業(yè)務(wù)發(fā)展,有些時(shí)候業(yè)務(wù)方需求比較急,開(kāi)發(fā)直接從基礎(chǔ)明細(xì)表取數(shù),導(dǎo)致寬表復(fù)用度降低;為了追求開(kāi)發(fā)效率,團(tuán)隊(duì)內(nèi)部也存在煙囪式開(kāi)發(fā)現(xiàn)象,導(dǎo)致一些 ST 層共有邏輯沒(méi)有下沉。

第五,數(shù)據(jù)安全問(wèn)題。公司還會(huì)積累大量客戶的地址、姓名、電話等信息,這些信息都需要進(jìn)行有效的安全管理。此外,國(guó)家也出臺(tái)了《數(shù)據(jù)安全法》、《個(gè)人信息保護(hù)法》等法律法規(guī),需要我們做好數(shù)據(jù)分級(jí)分類(lèi)和對(duì)數(shù)據(jù)合規(guī)安全的訪問(wèn),同時(shí)保障數(shù)據(jù)保密性、完整性和可用性。

而數(shù)據(jù)開(kāi)發(fā)人員如何解決以上問(wèn)題成為關(guān)鍵,也是數(shù)據(jù)治理工作的核心。

2 數(shù)據(jù)治理期望實(shí)現(xiàn)的目標(biāo)

數(shù)據(jù)治理的范圍非常廣,貫穿數(shù)倉(cāng)的整個(gè)生命周期,從數(shù)據(jù)產(chǎn)生->數(shù)據(jù)接入->數(shù)據(jù)存儲(chǔ)->數(shù)據(jù)處理->數(shù)據(jù)輸出->數(shù)據(jù)展示,每個(gè)階段都需要質(zhì)量治理,評(píng)價(jià)維度包括完整性、規(guī)范性、一致性、準(zhǔn)確性、唯一性、關(guān)聯(lián)性等。

最終,數(shù)據(jù)治理工作最主要期望能夠?qū)崿F(xiàn)的目標(biāo)是:

1. 提升數(shù)據(jù)質(zhì)量

2. 解決數(shù)據(jù)孤島問(wèn)題,實(shí)現(xiàn)數(shù)據(jù)匯聚聯(lián)接

3. 掌握數(shù)據(jù)資產(chǎn)現(xiàn)狀

4. 保障數(shù)據(jù)安全合規(guī)

5. 逐漸釋放業(yè)務(wù)價(jià)值,如在降本增效、提升客戶滿意度等方面發(fā)揮作用

圖片

3 數(shù)據(jù)治理體系

數(shù)據(jù)治理體系包括數(shù)據(jù)模型治理(規(guī)范治理、復(fù)用度治理)、架構(gòu)治理(數(shù)據(jù)分層治理、數(shù)據(jù)流向治理)、元數(shù)據(jù)治理、數(shù)據(jù)安全治理、數(shù)據(jù)生命周期治理、數(shù)據(jù)質(zhì)量管理以及數(shù)據(jù)體系治理等內(nèi)容。

圖片

3.1 數(shù)據(jù)模型治理

大部分行業(yè)的數(shù)據(jù)都具備如下特征:

l 數(shù)據(jù)生命周期比較長(zhǎng)

核心業(yè)務(wù)過(guò)程生命周期短則 1 天,長(zhǎng)則 3-5 天,異常過(guò)程可能會(huì)更長(zhǎng)。財(cái)務(wù)類(lèi)周期結(jié)算長(zhǎng),涉及政策財(cái)經(jīng)類(lèi)數(shù)據(jù)計(jì)算回刷時(shí)間 1~3 個(gè)月;

l 業(yè)務(wù)流程復(fù)雜

核心業(yè)務(wù)過(guò)程從業(yè)務(wù)流程起始點(diǎn)到業(yè)務(wù)流程終點(diǎn),流程較為復(fù)雜;

l 對(duì)象多數(shù)據(jù)大

數(shù)據(jù)由不同業(yè)務(wù)對(duì)象等多角色產(chǎn)生,且非常依賴他們操作的規(guī)范性;

l 數(shù)據(jù)精細(xì)化運(yùn)營(yíng)

當(dāng)前各大行業(yè)競(jìng)爭(zhēng)都非常激烈,在此背景下更需要精細(xì)化運(yùn)營(yíng),因此對(duì)數(shù)據(jù)依賴非常強(qiáng)。公司通過(guò)數(shù)據(jù)化運(yùn)營(yíng)進(jìn)行成本管控,運(yùn)單時(shí)效管控,服務(wù)質(zhì)量管控,已成為公司日常運(yùn)營(yíng)常態(tài),因此對(duì)數(shù)據(jù)準(zhǔn)確性,時(shí)效性要求很高。

同時(shí),隨著業(yè)務(wù)持續(xù)發(fā)展,項(xiàng)目也在快速迭代。數(shù)據(jù)建設(shè)不規(guī)范等方面的原因?qū)е铝藦?fù)用性不高、時(shí)效不穩(wěn)定等,自然而然也會(huì)引起資源危機(jī)等問(wèn)題。

為此可以制定了一整套的方案,主要包括三方面

第一,制定規(guī)范。制定諸如開(kāi)發(fā)規(guī)范、分層使用規(guī)范,并嚴(yán)格要求各類(lèi)數(shù)據(jù)開(kāi)發(fā)和使用團(tuán)隊(duì)遵守;

第二,過(guò)程管控。以需求為驅(qū)動(dòng),將設(shè)計(jì)、開(kāi)發(fā)、上線等數(shù)據(jù)建設(shè)各個(gè)階段進(jìn)行過(guò)程管控;

第三,模型分級(jí)。根據(jù)應(yīng)用的重要程度來(lái)反推、梳理哪些是重要的模型和應(yīng)用,將重要性高的模型和應(yīng)用納入重點(diǎn)治理范圍,重點(diǎn)關(guān)注他們的復(fù)用性、實(shí)效性。

3.1.1 規(guī)范治理

規(guī)范是數(shù)倉(cāng)建設(shè)的保障。為了避免出現(xiàn)指標(biāo)重復(fù)建設(shè)和數(shù)據(jù)質(zhì)量差的情況,統(tǒng)一按照最詳細(xì)、可落地的方法進(jìn)行規(guī)范建設(shè)。

3.1.1.1詞根規(guī)范

詞根是維度和指標(biāo)管理的基礎(chǔ),劃分為普通詞根與專(zhuān)有詞根,提高詞根的易用性和關(guān)聯(lián)性。

普通詞根:描述事物的最小單元體,如:交易-trade。

專(zhuān)有詞根:具備約定成俗或行業(yè)專(zhuān)屬的描述體,如:美元-USD。

3.1.1.2表命名規(guī)范

通用規(guī)范

l 表名、字段名采用一個(gè)下劃線分隔詞根(示例:clienttype->client_type)。

l 每部分使用小寫(xiě)英文單詞,屬于通用字段的必須滿足通用字段信息的定義。

l 表名、字段名需以字母為開(kāi)頭。

l 表名、字段名最長(zhǎng)不超過(guò)64個(gè)英文字符。

l 優(yōu)先使用詞根中已有關(guān)鍵字(數(shù)倉(cāng)標(biāo)準(zhǔn)配置中的詞根管理),定期Review新增命名的不合理性。

l 在表名自定義部分禁止采用非標(biāo)準(zhǔn)的縮寫(xiě)。

l 表命名規(guī)則:表名稱 類(lèi)型 + 業(yè)務(wù)主題 + 子主題 + 表含義 + 存儲(chǔ)格式 + 更新頻率 +結(jié)尾,如下圖所示:

統(tǒng)一的表命名規(guī)范

圖片

3.1.1.3指標(biāo)命名規(guī)范

結(jié)合指標(biāo)的特性以及詞根管理規(guī)范,將指標(biāo)進(jìn)行結(jié)構(gòu)化處理。

l 基礎(chǔ)指標(biāo)詞根,即所有指標(biāo)必須包含以下基礎(chǔ)詞根:

圖片

l 業(yè)務(wù)修飾詞,用于描述業(yè)務(wù)場(chǎng)景的詞匯,例如trade-交易。

l 日期修飾詞,用于修飾業(yè)務(wù)發(fā)生的時(shí)間區(qū)間。

圖片

l 聚合修飾詞,對(duì)結(jié)果進(jìn)行聚集操作。

圖片

l 基礎(chǔ)指標(biāo),單一的業(yè)務(wù)修飾詞+基礎(chǔ)指標(biāo)詞根構(gòu)建基礎(chǔ)指標(biāo) ,例如:交易金額-trade_amt。

l 派生指標(biāo),多修飾詞+基礎(chǔ)指標(biāo)詞根構(gòu)建派生指標(biāo)。派生指標(biāo)繼承基礎(chǔ)指標(biāo)的特性,例如:安裝門(mén)店數(shù)量-install_poi_cnt。

l 普通指標(biāo)命名規(guī)范,與字段命名規(guī)范一致,由詞匯轉(zhuǎn)換即可以。

圖片

3.1.2 復(fù)用度治理

復(fù)用度治理方面,主要包括三塊:

圖片

第一,流程規(guī)范的制定。我們會(huì)制定相關(guān)規(guī)范來(lái)要求數(shù)據(jù)參與者都遵守。通過(guò)制定規(guī)范,應(yīng)用開(kāi)發(fā)團(tuán)隊(duì)和數(shù)倉(cāng)團(tuán)隊(duì)進(jìn)行分工,且在業(yè)務(wù)需求評(píng)審環(huán)節(jié)要求數(shù)倉(cāng)團(tuán)隊(duì)介入,可以更早地評(píng)估是否需要設(shè)計(jì)相關(guān)模型來(lái)支持應(yīng)用團(tuán)隊(duì)的數(shù)據(jù)開(kāi)發(fā);

第二,過(guò)程線上管控。在數(shù)據(jù)使用、模型設(shè)計(jì)、任務(wù)上線等環(huán)節(jié)都進(jìn)行線上管控,由leader審批把關(guān);

第三,核心數(shù)據(jù)識(shí)別。最主要是識(shí)別出四類(lèi)核心數(shù)據(jù),最主要關(guān)注核心模型和核心應(yīng)用,并對(duì)這類(lèi)數(shù)據(jù)我們重點(diǎn)關(guān)注、重點(diǎn)保障,優(yōu)先保障其核心鏈路上數(shù)據(jù)的準(zhǔn)確性和及時(shí)性。

在數(shù)據(jù)復(fù)用度治理方面還需要關(guān)注時(shí)效、引用度、需求響應(yīng)及時(shí)性之間的平衡問(wèn)題。我們不能為了提高模型的復(fù)用度就任意的增加維度、指標(biāo),否則可能會(huì)導(dǎo)致下游應(yīng)用產(chǎn)出障礙的問(wèn)題。也不能說(shuō)某個(gè)指標(biāo)下游引用不多就增加到寬表中來(lái),一定要考慮平衡性的問(wèn)題。

除此之外,我們還需要考慮響應(yīng)的及時(shí)性。在流程上我們希望盡量做到規(guī)范,希望應(yīng)用層都引用模型、寬表的數(shù)據(jù)。在實(shí)際工作中,有時(shí)為了保證“業(yè)務(wù)需求第一”的原則,有可能允許應(yīng)用層先從明細(xì)層取數(shù)進(jìn)行開(kāi)發(fā),模型同步進(jìn)行迭代優(yōu)化,后續(xù)再讓?xiě)?yīng)用層把需求切換回來(lái)。

3.2 架構(gòu)治理

3.2.1 數(shù)據(jù)分層

優(yōu)秀可靠的數(shù)倉(cāng)體系,往往需要清晰的數(shù)據(jù)分層結(jié)構(gòu),即要保證數(shù)據(jù)層的穩(wěn)定又要屏蔽對(duì)下游的影響,并且要避免鏈路過(guò)長(zhǎng),一般的分層架構(gòu)如下:

圖片

但是在對(duì)數(shù)倉(cāng)分層架構(gòu)做治理的過(guò)程中,同時(shí)也要結(jié)合公司業(yè)務(wù)場(chǎng)景和組織架構(gòu)合理涉及數(shù)倉(cāng)分層架構(gòu),才能保證數(shù)倉(cāng)分層架構(gòu)能夠匹配公司業(yè)務(wù)發(fā)展,更好地賦能業(yè)務(wù)。

3.2.2 數(shù)據(jù)流向

穩(wěn)定業(yè)務(wù)按照標(biāo)準(zhǔn)的數(shù)據(jù)流向進(jìn)行開(kāi)發(fā),即ODS-->DWD-->DWA-->APP。非穩(wěn)定業(yè)務(wù)或探索性需求,可以遵循ODS->DWD->APP或者ODS->DWD->DWT->APP兩個(gè)模型數(shù)據(jù)流。在保障了數(shù)據(jù)鏈路的合理性之后,又在此基礎(chǔ)上確認(rèn)了模型分層引用原則:

正常流向:ODS>DWD->DWT->DWA->APP,當(dāng)出現(xiàn)ODS >DWD->DWA->APP這種關(guān)系時(shí),說(shuō)明主題域未覆蓋全。應(yīng)將DWD數(shù)據(jù)落到DWT中,對(duì)于使用頻度非常低的表允許DWD->DWA。盡量避免出現(xiàn)DWA寬表中使用DWD又使用(該DWD所歸屬主題域)DWT的表。同一主題域內(nèi)對(duì)于DWT生成DWT的表,原則上要盡量避免,否則會(huì)影響ETL的效率。DWT、DWA和APP中禁止直接使用ODS的表, ODS的表只能被DWD引用。禁止出現(xiàn)反向依賴,例如DWT的表依賴DWA的表。

3.3 元數(shù)據(jù)治理

我們的數(shù)倉(cāng)中有上萬(wàn)張表,無(wú)論是對(duì)數(shù)據(jù)開(kāi)發(fā)者還是業(yè)務(wù)使用方,都會(huì)面臨無(wú)從下手的情況。他們?cè)谌粘J褂眠^(guò)程中的痛點(diǎn)最主要可以歸納為有什么、在哪里、怎么用三類(lèi)。

比如一個(gè)運(yùn)單,有收件人、發(fā)件人、運(yùn)載軌跡、費(fèi)用等各種信息,但具體有哪些表就不是很清楚了。在實(shí)際的工作中,分析師也經(jīng)常會(huì)問(wèn)有沒(méi)有哪塊的數(shù)據(jù),在哪里之類(lèi)等等。哪怕是找到表之后,也會(huì)疑惑數(shù)據(jù)是如何加工的,如果要用的話有哪些限制條件等等問(wèn)題。

基于對(duì)現(xiàn)狀的梳理及現(xiàn)階段要對(duì)元數(shù)據(jù)信息管理的目標(biāo)。

元數(shù)據(jù)可分為技術(shù)元數(shù)據(jù)和業(yè)務(wù)元數(shù)據(jù):

技術(shù)元數(shù)據(jù)為開(kāi)發(fā)和管理數(shù)據(jù)倉(cāng)庫(kù)的IT 人員使用,它描述了與數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)、管理和維護(hù)相關(guān)的數(shù)據(jù),包括數(shù)據(jù)源信息、數(shù)據(jù)轉(zhuǎn)換描述、數(shù)據(jù)倉(cāng)庫(kù)模型、數(shù)據(jù)清洗與更新規(guī)則、數(shù)據(jù)映射和訪問(wèn)權(quán)限等。

常見(jiàn)的技術(shù)元數(shù)據(jù)有:

存儲(chǔ)元數(shù)據(jù):如表、字段、分區(qū)等信息。

運(yùn)行元數(shù)據(jù):如大數(shù)據(jù)平臺(tái)上所有作業(yè)運(yùn)行等信息:類(lèi)似于 Hive Job 日志,包括作業(yè)類(lèi)型、實(shí)例名稱、輸入輸出、 SQL 、運(yùn)行參數(shù)、執(zhí)行時(shí)間,執(zhí)行引擎等。

數(shù)據(jù)開(kāi)發(fā)平臺(tái)中數(shù)據(jù)同步、計(jì)算任務(wù)、任務(wù)調(diào)度等信息:包括數(shù)據(jù)同步的輸入輸出表和字段,以及同步任務(wù)本身的節(jié)點(diǎn)信息:計(jì)算任務(wù)主要有輸入輸出、任務(wù)本身的節(jié)點(diǎn)信息 任務(wù)調(diào)度主要有任務(wù)的依賴類(lèi)型、依賴關(guān)系等,以及不同類(lèi)型調(diào)度任務(wù)的運(yùn)行日志等。

數(shù)據(jù)質(zhì)量和運(yùn)維相關(guān)元數(shù)據(jù):如任務(wù)監(jiān)控、運(yùn)維報(bào)警、數(shù)據(jù)質(zhì)量、故障等信息,包括任務(wù)監(jiān)控運(yùn)行日志、告警配置及運(yùn)行日志、故障信息等。

業(yè)務(wù)元數(shù)據(jù)為管理層和業(yè)務(wù)分析人員服務(wù),從業(yè)務(wù)角度描述數(shù)據(jù),包括商務(wù)術(shù)語(yǔ)、數(shù)據(jù)倉(cāng)庫(kù)中有什么數(shù)據(jù)、數(shù)據(jù)的位置和數(shù)據(jù)的可用性等,幫助業(yè)務(wù)人員更好地理解數(shù)據(jù)倉(cāng)庫(kù)中哪些數(shù)據(jù)是可用的以及如何使用。

常見(jiàn)的業(yè)務(wù)元數(shù)據(jù)有維度及屬性(包括維度編碼,字段類(lèi)型,創(chuàng)建人,創(chuàng)建時(shí)間,狀態(tài)等)、業(yè)務(wù)過(guò)程、指標(biāo)(包含指標(biāo)名稱,指標(biāo)編碼,業(yè)務(wù)口徑,指標(biāo)類(lèi)型,責(zé)任人,創(chuàng)建時(shí)間,狀態(tài),sql等),安全等級(jí),計(jì)算邏輯等的規(guī)范化定義,用于更好地管理和使用數(shù)據(jù)。數(shù)據(jù)應(yīng)用元數(shù)據(jù),如數(shù)據(jù)報(bào)表、數(shù)據(jù)產(chǎn)品等的配置和運(yùn)行元數(shù)據(jù)。

元數(shù)據(jù)不僅定義了數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的模式、來(lái)源、抽取和轉(zhuǎn)換規(guī)則等,而且是整個(gè)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)運(yùn)行的基礎(chǔ),元數(shù)據(jù)把數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中各個(gè)松散的組件聯(lián)系起來(lái),組成了一個(gè)有機(jī)的整體。

元數(shù)據(jù)治理主要解決三個(gè)問(wèn)題:

通過(guò)建立相應(yīng)的組織、流程和工具,推動(dòng)業(yè)務(wù)標(biāo)準(zhǔn)的落地實(shí)施,實(shí)現(xiàn)指標(biāo)的規(guī)范定義,消除指標(biāo)認(rèn)知的歧義;

基于業(yè)務(wù)現(xiàn)狀和未來(lái)的演進(jìn)方式,對(duì)業(yè)務(wù)模型進(jìn)行抽象,制定清晰的主題、業(yè)務(wù)過(guò)程和分析方向,構(gòu)建完備的技術(shù)元數(shù)據(jù),對(duì)物理模型進(jìn)行準(zhǔn)確完善的描述,并打通技術(shù)元數(shù)據(jù)與業(yè)務(wù)元數(shù)據(jù)的關(guān)系,對(duì)物理模型進(jìn)行完備的刻畫(huà);

通過(guò)元數(shù)據(jù)建設(shè),為使用數(shù)據(jù)提效,解決“找數(shù)、理解數(shù)、評(píng)估”難題以及“取數(shù)、數(shù)據(jù)可視化”等難題。

圖片

3.4 數(shù)據(jù)安全治理

數(shù)據(jù)安全是企業(yè)數(shù)據(jù)建設(shè)必不可少的一環(huán),我們的數(shù)據(jù)都存儲(chǔ)在大大小小的磁盤(pán)中,對(duì)外提供不同程度的查詢和計(jì)算服務(wù)。

需要定時(shí)對(duì)數(shù)據(jù)進(jìn)行核查、敏感字段加密、訪問(wèn)權(quán)限控制,確保數(shù)據(jù)能夠被安全地使用。

圍繞數(shù)據(jù)安全標(biāo)準(zhǔn),首先要有數(shù)據(jù)的分級(jí)、分類(lèi)標(biāo)準(zhǔn),確保數(shù)據(jù)在上線前有著準(zhǔn)確的密級(jí)。第二,針對(duì)數(shù)據(jù)使用方,要有明確的角色授權(quán)標(biāo)準(zhǔn),通過(guò)分級(jí)分類(lèi)和角色授權(quán),來(lái)保障重要數(shù)據(jù)拿不走。第三,針對(duì)敏感數(shù)據(jù),要有隱私管理標(biāo)準(zhǔn),保障敏感數(shù)據(jù)的安全存儲(chǔ),即使未授權(quán)用戶繞過(guò)權(quán)限管理拿到敏感數(shù)據(jù),也要確保其看不懂。第四,通過(guò)制定審計(jì)標(biāo)準(zhǔn),為后續(xù)的審計(jì)提供審計(jì)依據(jù),確保數(shù)據(jù)走不脫。

圖片

3.5 數(shù)據(jù)生命周期治理

任何事物都具有一定的生命周期,數(shù)據(jù)也不例外。從數(shù)據(jù)的產(chǎn)生、加工、使用乃至消亡都應(yīng)該有一個(gè)科學(xué)的管理辦法,將極少或者不再使用的數(shù)據(jù)從系統(tǒng)中剝離出來(lái),并通過(guò)核實(shí)的存儲(chǔ)設(shè)備進(jìn)行保留,不僅能夠提高系統(tǒng)的運(yùn)行效率,更好的服務(wù)客戶,還能大幅度減少因?yàn)閿?shù)據(jù)長(zhǎng)期保存帶來(lái)的儲(chǔ)存成本。數(shù)據(jù)生命周期一般包含在線階段、歸檔階段(有時(shí)還會(huì)進(jìn)一步劃分為在線歸檔階段和離線歸檔階段)、銷(xiāo)毀階段三大階段,管理內(nèi)容包括建立合理的數(shù)據(jù)類(lèi)別,針對(duì)不同類(lèi)別的數(shù)據(jù)制定各個(gè)階段的保留時(shí)間、存儲(chǔ)介質(zhì)、清理規(guī)則和方式、注意事項(xiàng)等。

圖片

從上圖數(shù)據(jù)生命周期中各參數(shù)間的關(guān)系中我們可以了解到,數(shù)據(jù)生命周期管理可以使得高價(jià)值數(shù)據(jù)的查詢效率大幅提升,而且高價(jià)格的存儲(chǔ)介質(zhì)的采購(gòu)量也可以減少很多;但是隨著數(shù)據(jù)的使用程度的下降,數(shù)據(jù)被逐漸歸檔,查詢時(shí)間也慢慢的變長(zhǎng);最后隨著數(shù)據(jù)的使用頻率和價(jià)值基本沒(méi)有了之后,就可以逐漸銷(xiāo)毀了。

3.6 數(shù)據(jù)質(zhì)量治理

對(duì)于數(shù)據(jù)質(zhì)量的監(jiān)控,主要包括三個(gè)環(huán)節(jié):

圖片

第一,結(jié)合數(shù)據(jù)質(zhì)量衡量的六個(gè)維度及日常工作中發(fā)現(xiàn)的數(shù)據(jù)質(zhì)量問(wèn)題,配置相關(guān)規(guī)則。

第二,在數(shù)據(jù)加工的各個(gè)環(huán)節(jié)設(shè)置檢查點(diǎn),比如從 ODS 到 DW,從 DW 到 DM 等環(huán)節(jié)。如在 ODS 的檢查點(diǎn)設(shè)置中,可能會(huì)包括數(shù)據(jù)源抽取記錄的檢查;在基礎(chǔ)層會(huì)有空值、編碼值、一致性、重復(fù)性等問(wèn)題的檢查 。

第三,輸出異常結(jié)果,進(jìn)行告警處理。

看一個(gè)具體的監(jiān)控案例。當(dāng)用數(shù)據(jù)質(zhì)量監(jiān)控平臺(tái)對(duì)一張表進(jìn)行監(jiān)控時(shí),我們可以選擇配置相關(guān)規(guī)則,可以直接采用預(yù)置的規(guī)則模版,也可以自定義規(guī)則。也可以設(shè)置檢查規(guī)則的屬性,比如是強(qiáng)規(guī)則還是弱規(guī)則,此外對(duì)告警的屬性也可以進(jìn)行設(shè)置。規(guī)則配置完成以后在實(shí)際檢測(cè)過(guò)程中,如果某個(gè)檢測(cè)規(guī)則違反了強(qiáng)規(guī)則,則其會(huì)阻斷下游任務(wù)的執(zhí)行。

告警升級(jí)機(jī)制方面,強(qiáng)規(guī)則一般會(huì)提供電話告警。如果說(shuō)由于疏忽或其他情況導(dǎo)致任務(wù)負(fù)責(zé)人未及時(shí)處理,那么會(huì)升級(jí)到leader來(lái)推進(jìn)問(wèn)題的解決。

告警信息是點(diǎn)對(duì)點(diǎn),我們對(duì)告警信息會(huì)進(jìn)行聚合,形成質(zhì)量全貌信息。比如每天早上來(lái)上班,我就可以打開(kāi)質(zhì)量全貌信息,看一下當(dāng)天執(zhí)行了多少檢查規(guī)則,有多少是有問(wèn)題的。如果有問(wèn)題可以繼續(xù)分辨哪些是真有問(wèn)題,哪些是沒(méi)問(wèn)題,有問(wèn)題的是否已經(jīng)解決。如果檢查規(guī)則設(shè)置不合理,我們會(huì)進(jìn)行優(yōu)化,逐漸使得告警規(guī)則更準(zhǔn)確,形成質(zhì)量監(jiān)控全面、準(zhǔn)確的閉環(huán)。

圖片

第一,結(jié)合數(shù)據(jù)質(zhì)量衡量的六個(gè)維度及日常工作中發(fā)現(xiàn)的數(shù)據(jù)質(zhì)量問(wèn)題,配置相關(guān)規(guī)則。

第二,在數(shù)據(jù)加工的各個(gè)環(huán)節(jié)設(shè)置檢查點(diǎn),比如從 ODS 到 DW,從 DW 到 DM 等環(huán)節(jié)。如在 ODS 的檢查點(diǎn)設(shè)置中,可能會(huì)包括數(shù)據(jù)源抽取記錄的檢查;在基礎(chǔ)層會(huì)有空值、編碼值、一致性、重復(fù)性等問(wèn)題的檢查 。

第三,輸出異常結(jié)果,進(jìn)行告警處理。

看一個(gè)具體的監(jiān)控案例。當(dāng)用數(shù)據(jù)質(zhì)量監(jiān)控平臺(tái)對(duì)一張表進(jìn)行監(jiān)控時(shí),我們可以選擇配置相關(guān)規(guī)則,可以直接采用預(yù)置的規(guī)則模版,也可以自定義規(guī)則。也可以設(shè)置檢查規(guī)則的屬性,比如是強(qiáng)規(guī)則還是弱規(guī)則,此外對(duì)告警的屬性也可以進(jìn)行設(shè)置。規(guī)則配置完成以后在實(shí)際檢測(cè)過(guò)程中,如果某個(gè)檢測(cè)規(guī)則違反了強(qiáng)規(guī)則,則其會(huì)阻斷下游任務(wù)的執(zhí)行。

告警升級(jí)機(jī)制方面,強(qiáng)規(guī)則一般會(huì)提供電話告警。如果說(shuō)由于疏忽或其他情況導(dǎo)致任務(wù)負(fù)責(zé)人未及時(shí)處理,那么會(huì)升級(jí)到leader來(lái)推進(jìn)問(wèn)題的解決。

告警信息是點(diǎn)對(duì)點(diǎn),我們對(duì)告警信息會(huì)進(jìn)行聚合,形成質(zhì)量全貌信息。比如每天早上來(lái)上班,我就可以打開(kāi)質(zhì)量全貌信息,看一下當(dāng)天執(zhí)行了多少檢查規(guī)則,有多少是有問(wèn)題的。如果有問(wèn)題可以繼續(xù)分辨哪些是真有問(wèn)題,哪些是沒(méi)問(wèn)題,有問(wèn)題的是否已經(jīng)解決。如果檢查規(guī)則設(shè)置不合理,我們會(huì)進(jìn)行優(yōu)化,逐漸使得告警規(guī)則更準(zhǔn)確,形成質(zhì)量監(jiān)控全面、準(zhǔn)確的閉環(huán)。

還有一些深層次的數(shù)據(jù)質(zhì)量問(wèn)題可能通過(guò)我們常規(guī)的檢查手段并不一定能發(fā)現(xiàn),這時(shí)就需要借助下游數(shù)據(jù)使用來(lái)解決,一般我們會(huì)結(jié)合業(yè)務(wù)專(zhuān)題分析推動(dòng)數(shù)據(jù)治理。在專(zhuān)題分析過(guò)程中,可能會(huì)發(fā)現(xiàn)種種數(shù)據(jù)質(zhì)量問(wèn)題,比如數(shù)據(jù)未線上化、數(shù)據(jù)采集不完整等。

本文轉(zhuǎn)載自微信公眾號(hào)「

」,作者「滌生-宇哥」,可以通過(guò)以下二維碼關(guān)注。

轉(zhuǎn)載本文請(qǐng)聯(lián)系「滌生大數(shù)據(jù)」公眾號(hào)。

責(zé)任編輯:武曉燕 來(lái)源: 滌生大數(shù)據(jù)
相關(guān)推薦

2022-07-26 15:38:58

數(shù)據(jù)倉(cāng)數(shù)據(jù)治理數(shù)據(jù)團(tuán)隊(duì)

2022-02-18 09:02:04

數(shù)據(jù)倉(cāng)庫(kù)治理

2022-12-06 17:52:57

離線數(shù)倉(cāng)治理

2022-01-13 10:45:48

數(shù)倉(cāng)對(duì)象主題域

2023-08-07 01:25:39

2023-06-28 16:10:09

Dataleap數(shù)倉(cāng)建設(shè)

2023-11-23 16:53:56

數(shù)據(jù)倉(cāng)庫(kù)大數(shù)據(jù)

2021-11-24 22:52:09

數(shù)據(jù)治理企業(yè)IT

2021-10-13 07:23:03

數(shù)據(jù)同步倉(cāng)庫(kù)

2023-09-28 08:19:57

語(yǔ)言模型數(shù)倉(cāng)數(shù)據(jù)

2018-09-30 15:05:38

數(shù)據(jù)湖數(shù)據(jù)倉(cāng)庫(kù)Hadoop

2023-09-20 16:38:10

2025-04-15 10:10:00

數(shù)據(jù)倉(cāng)庫(kù)大數(shù)據(jù)數(shù)據(jù)

2022-08-22 17:46:56

虛擬數(shù)倉(cāng)Impala

2021-01-31 23:54:23

數(shù)倉(cāng)模型

2009-11-23 20:20:22

ibmdwSOA

2022-04-15 10:36:11

數(shù)據(jù)治理企業(yè)

2023-10-24 14:48:23

數(shù)據(jù)治理大數(shù)據(jù)

2023-11-23 16:59:37

數(shù)據(jù)倉(cāng)庫(kù)建模
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)