聊聊數(shù)據(jù)源集市建設的初步思路和規(guī)劃
最近在對接數(shù)據(jù)流轉的一些問題,發(fā)現(xiàn)越是了解,越是擔心,因為有不少潛在的問題,所以我就在想規(guī)劃和統(tǒng)一所謂的數(shù)據(jù)源集市,能夠?qū)崿F(xiàn)數(shù)據(jù)流轉方向的一個基線標準。
目前發(fā)現(xiàn)的問題:
1.數(shù)據(jù)出口通道繁雜,管理混亂
2.MySQL流轉服務單點難以擴展
3.任務狀態(tài)不清晰,缺乏統(tǒng)一管理
4.數(shù)據(jù)交付質(zhì)量難以保證,反饋不及時
5.近實時數(shù)據(jù)同步需求難以滿足
對此提出的改進方案有:
1.數(shù)據(jù)出口通道統(tǒng)一交付
2.構建數(shù)據(jù)源集市服務組,水平擴展壓力
3.任務配置平臺化,任務日志指標可視化
4.數(shù)據(jù)交付提供交付標準和數(shù)據(jù)質(zhì)量日志
5.提供近實時方案作為備選,預知問題
整個數(shù)據(jù)源集市在數(shù)據(jù)流轉體系中的角色和位置如下:
當日這里是刻意把數(shù)據(jù)源集市的一些組件和服務列舉出來,能夠盡可能在這個層面實現(xiàn)數(shù)據(jù)質(zhì)量的標準和度量,簡而言之,數(shù)據(jù)如果不合理,我應該及時預警,不能將錯就錯的提供給中下游,數(shù)據(jù)源集市需要做好這一層的保障。
在數(shù)據(jù)流轉方向上,我把數(shù)據(jù)表分為狀態(tài)表,流水表和配置表,他們在流轉體系中的定位和標準也大有不同。
當然這僅僅是數(shù)據(jù)流轉體系內(nèi)的冰山一角,而如果要把數(shù)據(jù)的認知和數(shù)據(jù)源要整合起來,形成統(tǒng)一的認知,這個工作量是極為巨大的。
我感覺對于數(shù)據(jù)的認知,一旦拋出這個話題,就好像打開了一扇窗,經(jīng)過了更大范圍的討論,我感覺我本來想要的是一口井,沒想到現(xiàn)在需要引一條河流,而且還要再河流上再搭一座橋,真讓人頭大。
本文轉載自微信公眾號「 楊建榮的學習筆記」,可以通過以下二維碼關注。轉載本文請聯(lián)系 楊建榮的學習筆記公眾號。