自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

淺談數(shù)倉(cāng)的數(shù)據(jù)治理

大數(shù)據(jù) 數(shù)據(jù)倉(cāng)庫(kù)
絕大數(shù)公司建立數(shù)倉(cāng)之初是沒(méi)有考慮好數(shù)據(jù)治理怎么做的,因?yàn)閿?shù)據(jù)部門(mén)剛開(kāi)始成立,必然要有一些“數(shù)據(jù)驅(qū)動(dòng)”的成果,而數(shù)據(jù)治理不能很好的體現(xiàn)這些業(yè)績(jī)。所以,都是在業(yè)務(wù)發(fā)展的過(guò)程中,逐漸遇到了一些數(shù)據(jù)問(wèn)題,才考慮做這件事的。

?絕大數(shù)公司建立數(shù)倉(cāng)之初是沒(méi)有考慮好數(shù)據(jù)治理怎么做的,因?yàn)閿?shù)據(jù)部門(mén)剛開(kāi)始成立,必然要有一些“數(shù)據(jù)驅(qū)動(dòng)”的成果,而數(shù)據(jù)治理不能很好的體現(xiàn)這些業(yè)績(jī)。所以,都是在業(yè)務(wù)發(fā)展的過(guò)程中,逐漸遇到了一些數(shù)據(jù)問(wèn)題,才考慮做這件事的。

1.如何開(kāi)始數(shù)據(jù)治理?

首先從數(shù)據(jù)管理開(kāi)始,在開(kāi)始數(shù)據(jù)治理之前,我們要先梳理數(shù)倉(cāng)的核心資產(chǎn)。從數(shù)據(jù)的采集到數(shù)據(jù)的加工,再到數(shù)據(jù)的應(yīng)用(包括數(shù)倉(cāng)報(bào)表數(shù)據(jù)、指標(biāo)數(shù)據(jù))。

那么對(duì)于業(yè)務(wù)數(shù)據(jù)源,我們要明確數(shù)倉(cāng)中主要的數(shù)據(jù)源都來(lái)自哪些業(yè)務(wù)系統(tǒng),哪些關(guān)鍵流程,明確關(guān)鍵來(lái)源數(shù)據(jù)的數(shù)據(jù)負(fù)責(zé)人,結(jié)合業(yè)務(wù)制定數(shù)據(jù)管理規(guī)范。

2.數(shù)倉(cāng)數(shù)據(jù)治理的思路

數(shù)倉(cāng)的數(shù)據(jù)治理可以從以下幾個(gè)關(guān)鍵點(diǎn)入手:數(shù)據(jù)目錄重新劃分,提高模型復(fù)用度,ETL任務(wù)優(yōu)化、數(shù)據(jù)質(zhì)量監(jiān)控。

數(shù)據(jù)目錄劃分:

很多數(shù)倉(cāng)剛開(kāi)始設(shè)計(jì)的時(shí)候是沒(méi)有完整清晰的規(guī)劃的,慢慢數(shù)據(jù)目錄會(huì)變得混亂無(wú)序,找某個(gè)模型會(huì)變得很繁瑣。那么,這時(shí)候一個(gè)好的目錄設(shè)計(jì),會(huì)幫助我們理清數(shù)倉(cāng)的架構(gòu),快速的查找定位模型,比如是在哪個(gè)層、哪個(gè)業(yè)務(wù)域等。 這些都清晰的展示出來(lái)時(shí),數(shù)據(jù)開(kāi)發(fā)的效率就會(huì)有快速的提升了。

模型復(fù)用:

離線數(shù)倉(cāng)一般團(tuán)隊(duì)都比較大,上次跟快手的一個(gè)朋友聊,他們離線數(shù)倉(cāng)都有上百人。所以模型的復(fù)用一定要關(guān)注,,比如關(guān)注一些復(fù)用度較高的字段,可以放到中間層統(tǒng)一處理,也就是我們說(shuō)的有個(gè)大寬表提供復(fù)用;比如復(fù)用較高的函數(shù)或者邏輯,我們開(kāi)發(fā)統(tǒng)一的UDF函數(shù),提高數(shù)據(jù)處理性能。

任務(wù)優(yōu)化:

每當(dāng)你申請(qǐng)資源時(shí),領(lǐng)導(dǎo)都會(huì)問(wèn)你要價(jià)值和用途,其實(shí)除了申請(qǐng)額外的資源,我們還可以優(yōu)化現(xiàn)有的資源。因?yàn)樵跀?shù)倉(cāng)開(kāi)發(fā)過(guò)程中,大家的技術(shù)水平良莠不齊,對(duì)業(yè)務(wù)理解程度相差甚大,那么此時(shí),每個(gè)人開(kāi)發(fā)的ETL任務(wù)的質(zhì)量必然不一樣。所以,我們需要時(shí)常對(duì)任務(wù)的執(zhí)行時(shí)長(zhǎng)和調(diào)用的資源進(jìn)行監(jiān)控,展開(kāi)專項(xiàng)優(yōu)化,比如降低輸入數(shù)據(jù)量,大量distinct操作使用groupby替換等。當(dāng)然,管理上可以把任務(wù)執(zhí)行效率作為一個(gè)考核項(xiàng),對(duì)不達(dá)標(biāo)的進(jìn)行晾曬。

數(shù)據(jù)質(zhì)量:

主要是數(shù)據(jù)重復(fù)、空值、數(shù)據(jù)異常等情況的監(jiān)控,一定要配置規(guī)則校驗(yàn)。上次直播,我講過(guò),并不是任務(wù)執(zhí)行成功就完事大吉了,有時(shí)候任務(wù)執(zhí)行成功的代價(jià)更為慘重。比如,以前的一個(gè)項(xiàng)目,會(huì)給老板推送業(yè)務(wù)指標(biāo)短信,所以對(duì)這個(gè)任務(wù)加了失敗告警監(jiān)控,但是沒(méi)有對(duì)內(nèi)容進(jìn)行校驗(yàn),導(dǎo)致因?yàn)闃I(yè)務(wù)的異常數(shù)據(jù),引起最后的指標(biāo)異常,老板很生氣,后果很嚴(yán)重。所以,我們還要考慮對(duì)于一些關(guān)鍵業(yè)務(wù)的數(shù)據(jù)指標(biāo)監(jiān)控,發(fā)現(xiàn)異常,及時(shí)終止下游任務(wù),進(jìn)行告警。當(dāng)然,數(shù)據(jù)質(zhì)量還有很多工作,之前的一篇文章也講過(guò),可以閱讀《談?wù)凟TL中的數(shù)據(jù)質(zhì)量》

3.總結(jié)

總而言之,數(shù)倉(cāng)數(shù)據(jù)治理的價(jià)值很難量化,所以有很多數(shù)據(jù)團(tuán)隊(duì)不愿意去做,但是不做,會(huì)很“癢”。

如果,你開(kāi)始做數(shù)倉(cāng)治理了,那么就要做好長(zhǎng)期作戰(zhàn)的準(zhǔn)備了,比如制定一些月度的資產(chǎn)管理相關(guān)的會(huì)議,進(jìn)行回顧,定期對(duì)低效率任務(wù)進(jìn)行優(yōu)化,這都是需要一套管理機(jī)制的,而管理機(jī)制落地的最好方式應(yīng)該就是和績(jī)效考核綁定了。?

責(zé)任編輯:華軒 來(lái)源: 今日頭條
相關(guān)推薦

2022-02-18 09:02:04

數(shù)據(jù)倉(cāng)庫(kù)治理

2023-03-08 07:50:57

企業(yè)數(shù)據(jù)治理

2022-12-06 17:52:57

離線數(shù)倉(cāng)治理

2021-08-15 16:29:45

數(shù)據(jù)企業(yè)機(jī)器學(xué)習(xí)

2022-02-17 11:29:17

數(shù)據(jù)治理項(xiàng)目數(shù)據(jù)使用

2022-08-04 13:31:40

數(shù)據(jù)安全隱私計(jì)算個(gè)人信息

2021-10-13 07:23:03

數(shù)據(jù)同步倉(cāng)庫(kù)

2023-09-28 08:19:57

語(yǔ)言模型數(shù)倉(cāng)數(shù)據(jù)

2023-06-28 16:10:09

Dataleap數(shù)倉(cāng)建設(shè)

2023-11-23 16:53:56

數(shù)據(jù)倉(cāng)庫(kù)大數(shù)據(jù)

2022-08-22 17:46:56

虛擬數(shù)倉(cāng)Impala

2021-12-02 08:41:30

數(shù)倉(cāng)建模設(shè)計(jì)

2021-01-31 23:54:23

數(shù)倉(cāng)模型

2021-06-11 07:26:16

數(shù)據(jù)倉(cāng)庫(kù)機(jī)器學(xué)習(xí)

2023-06-15 07:24:11

數(shù)據(jù)治理EB級(jí)數(shù)倉(cāng)

2023-04-14 15:50:29

元數(shù)據(jù)數(shù)據(jù)治理

2021-08-11 07:53:22

數(shù)倉(cāng)維度建模

2023-02-20 07:33:47

Teradata數(shù)據(jù)倉(cāng)庫(kù)

2023-11-23 16:59:37

數(shù)據(jù)倉(cāng)庫(kù)建模

2021-01-04 05:42:48

數(shù)倉(cāng)模型設(shè)計(jì)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)