自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

淘系數(shù)據(jù)模型治理優(yōu)秀實(shí)踐

大數(shù)據(jù) 新聞
本次分享題目為淘系數(shù)據(jù)模型治理,主要介紹過(guò)去一年淘系數(shù)據(jù)治理工作的一些總結(jié)。

具體將圍繞以下4部分展開(kāi)

  • 模型背景&問(wèn)題
  • 2問(wèn)題分析
  • 3治理方案
  • 4未來(lái)規(guī)劃

模型背景&問(wèn)題

1.整體情況

首先介紹一下淘系的整體數(shù)據(jù)背景。

淘系的數(shù)據(jù)中臺(tái)成立至今已有7年左右,一直未作數(shù)據(jù)治理,整體數(shù)據(jù)生成構(gòu)成比為:人工創(chuàng)建(22%)+機(jī)器生成78%。其中活躍數(shù)據(jù)占比:9%,不規(guī)范數(shù)據(jù)占比:21%。

數(shù)據(jù)活躍以倒三角形狀分布,整體分布比例為ads:dws:dwd:dim=8:2:1:1,分布還算合理。

上圖中下半部分是模型的生命周期,增長(zhǎng)和留存情況。淘系的業(yè)務(wù)還屬于快速變化中,模型變化比較快。模型生命周期為25個(gè)月,模型年增長(zhǎng)比例30%,模型留存44%。

2.公共層

公共層兩大核心問(wèn)題為:

  • 首先,公共層表復(fù)用性不高。在2014年的時(shí)候公共層還比較規(guī)范,但可持續(xù)性不強(qiáng)。隨著時(shí)間流逝,業(yè)務(wù)增長(zhǎng)和變化,復(fù)用性就逐年降低。因?yàn)榇蟛糠值臄?shù)據(jù)是應(yīng)用層做的,他們會(huì)開(kāi)發(fā)自己的公共層,復(fù)用性降低,大部分都是無(wú)效表。
  • 另外,公共數(shù)據(jù)表在各個(gè)團(tuán)隊(duì)分布不合理。這是由于數(shù)據(jù)團(tuán)隊(duì)多,為了滿足業(yè)務(wù)開(kāi)發(fā)效率,每個(gè)團(tuán)隊(duì)都有自己的公共表,容易出現(xiàn)公共表復(fù)用占比低,重復(fù)建設(shè)的場(chǎng)景。其中淘寶數(shù)據(jù)團(tuán)隊(duì)負(fù)責(zé)最多的公共數(shù)據(jù)表。

3.應(yīng)用層分析

應(yīng)用層的主要問(wèn)題包括:

  • 第一,公共層建設(shè)不足或公共層透出不足。隨著時(shí)間增長(zhǎng),公共層的指標(biāo)不能滿足ads層的業(yè)務(wù)需要,ads復(fù)用指標(biāo)邏輯沒(méi)有下層,引用cdm層的ads表占比逐年降低,引用ads的ads表占比逐年增高。
  • 第二,較多的ads表共性邏輯未下沉,統(tǒng)計(jì)顯示超過(guò)17.63%ads表被下游ads復(fù)用。
  • 第三,跨集市依賴嚴(yán)重,統(tǒng)計(jì)顯示,整體跨集市依賴占比為30%,特別是大進(jìn)口和淘寶數(shù)據(jù)跨集市依賴達(dá)到了40%,影響模型的穩(wěn)定性,影響了模型的下線、修改。

問(wèn)題分析

1.問(wèn)題匯總

以上這副圖是簡(jiǎn)化后的數(shù)據(jù)模型,我們可以發(fā)現(xiàn)存在很多不規(guī)范問(wèn)題影響了模型的穩(wěn)定性。業(yè)務(wù)在快速發(fā)展的情況下,為了快速響應(yīng)業(yè)務(wù)需求,產(chǎn)生模型問(wèn)題是必然的。日常工作中,數(shù)據(jù)研發(fā)流程大致如下,接到業(yè)務(wù)需求,直接引用ODS層表開(kāi)發(fā)ADS數(shù)據(jù),待數(shù)據(jù)需要復(fù)用的時(shí)候就把邏輯沉淀到公共層,同理指標(biāo)也會(huì)有類似情況。主要問(wèn)題可以歸納為七點(diǎn):

  • 系統(tǒng)臨時(shí)表多,只增不刪,對(duì)于消費(fèi)側(cè)影響較大,因?yàn)楸砹烤薮螅行П壤?,很難檢索到;
  • 命名不規(guī)范;
  • 公共層過(guò)度設(shè)計(jì);
  • ADS重復(fù)建設(shè);
  • ADS跨集市依賴;
  • ADS共性未下沉;
  • ADS穿透依賴ODS。

2.原因分析

從問(wèn)題分類上看,主要有三大類問(wèn)題:規(guī)范性問(wèn)題,公共層復(fù)用性問(wèn)題和應(yīng)用層復(fù)用性問(wèn)題。

從問(wèn)題原因上看,主要有四大類原因:架構(gòu)規(guī)范,流程機(jī)制,產(chǎn)品工具,以及研發(fā)能力。

3.模型治理的問(wèn)題

模型治理的挑戰(zhàn):

  1. 業(yè)務(wù)價(jià)值不明顯,治理帶來(lái)的是長(zhǎng)期價(jià)值,短期對(duì)業(yè)務(wù)影響不大。
  2. 治理協(xié)作復(fù)雜,治理需要ODS、CDM、ADS層多人多團(tuán)隊(duì)協(xié)作
  3. 問(wèn)題治理難根治,容易出現(xiàn)新模型依賴有問(wèn)題模型
  4. 模型平均生命周期不長(zhǎng)(25個(gè)月)

綜上所述,模型治理的ROI比較低,我們的問(wèn)題就是如何模型治理才最高效?

治理方案

1.整體方案

基于以上的問(wèn)題原因分析,我們制定了如下治理方案。

核心策略為以下三點(diǎn):

1:盤點(diǎn)存量,掌握數(shù)據(jù)的整體情況

2:規(guī)范增量,避免新增模型走老路,重復(fù)出現(xiàn)相同問(wèn)題,考慮到數(shù)據(jù)的生命周期,歷史數(shù)據(jù)可以先不管。

3:日常治理保健康,以數(shù)據(jù)化驅(qū)動(dòng)長(zhǎng)期治理

2.機(jī)制規(guī)范

架構(gòu)分層標(biāo)準(zhǔn)

往年我們關(guān)注的是數(shù)據(jù)視角,今年關(guān)注的是業(yè)務(wù)視角,業(yè)務(wù)視角核心訴求主要有四點(diǎn),交付效率、產(chǎn)出時(shí)效、質(zhì)量可靠、成本可控。過(guò)去OneData定義了每一層的作用,但每個(gè)層次的分工定位不清晰,針對(duì)這些問(wèn)題重新做了清晰的定義。

應(yīng)用層核心是專注支持業(yè)務(wù),需要考慮研發(fā)效率、交付數(shù)據(jù)口徑一致性和穩(wěn)定性。

通過(guò)集市規(guī)范來(lái)控制復(fù)雜度,通過(guò)輕度聚合的中間層確??趶浇y(tǒng)一,通過(guò)扁平化設(shè)計(jì)確保穩(wěn)定。

公共層的核心是抽象復(fù)用來(lái)提升效率,需要考慮易用性和穩(wěn)定性。通過(guò)規(guī)范和冗余寬表提升復(fù)用性,通過(guò)解耦來(lái)確保穩(wěn)定性。

ODS層的核心是合規(guī)高效,需要考慮接入效率和性能穩(wěn)定。通過(guò)工具化提升效率、優(yōu)化治理確保性能的穩(wěn)定。特別是在數(shù)據(jù)達(dá)到一定量之后要考慮采用merge的方式接入數(shù)據(jù)。

集市劃分規(guī)范

數(shù)據(jù)集市,是用來(lái)滿足特定部門或者用戶的需求,按照多維的方式進(jìn)行存儲(chǔ)。通過(guò)對(duì)相似數(shù)據(jù)業(yè)務(wù)場(chǎng)景內(nèi)聚進(jìn)行抽象分類,以降低ADS層重復(fù)建設(shè)和數(shù)據(jù)管理復(fù)雜度,讓應(yīng)用研發(fā)更聚焦更高效。

集市劃分的原則有以下兩點(diǎn):

原則一:以業(yè)務(wù)場(chǎng)景或者服務(wù)對(duì)象作為劃分原則,對(duì)相似數(shù)據(jù)業(yè)務(wù)場(chǎng)景內(nèi)聚抽象進(jìn)行分類。

原則二:集市劃分需要統(tǒng)一標(biāo)準(zhǔn),盡量符合MECE原則。

公共層共建機(jī)制

在建設(shè)公共層的建設(shè)過(guò)程中,我們通常會(huì)遇到以下兩個(gè)痛點(diǎn):

  • 應(yīng)用研發(fā)的痛點(diǎn):公共層相應(yīng)效率低。
  • 公共層研發(fā)的痛點(diǎn):如果統(tǒng)一承接開(kāi)發(fā)工作,涉及的業(yè)務(wù)很廣泛,研發(fā)資源不足。

為了解決以上兩個(gè)痛點(diǎn),我們通過(guò)以下核心原則來(lái)解決:

原則一:公共層開(kāi)放共建,事后審計(jì)治理

應(yīng)用開(kāi)發(fā)整理需求,把需要下沉的公共維度提給公共層研發(fā),公共開(kāi)發(fā)需求評(píng)估。

原則二:以應(yīng)用需求驅(qū)動(dòng),設(shè)計(jì)開(kāi)發(fā)共建 以需求為驅(qū)動(dòng),拆分出核心模型和非核心模型,核心模型公共研發(fā)負(fù)責(zé),非核心模型由業(yè)務(wù)開(kāi)發(fā)進(jìn)行,共同開(kāi)發(fā)以提高效率。

原則三:公共層研發(fā)統(tǒng)一運(yùn)維保障

非核心模型上線并完成相關(guān)測(cè)試(準(zhǔn)確性、確定性、治理)后轉(zhuǎn)交給公共層研發(fā),由公共層統(tǒng)一運(yùn)維。

3.智能建模

在數(shù)據(jù)治理中有數(shù)據(jù)規(guī)范與共建機(jī)制依然是不夠的,還需要結(jié)合自動(dòng)化工具來(lái)提升效率、保障規(guī)范。我們是從以下4個(gè)方面入手的(詳情可以體驗(yàn)DataWorks的產(chǎn)品):

  • 數(shù)據(jù)體系目錄結(jié)構(gòu)化
  • 模型設(shè)計(jì)線上化
  • 打通研發(fā)流程(自動(dòng)化生成簡(jiǎn)代碼)
  • 對(duì)接地圖數(shù)據(jù)專輯

數(shù)據(jù)目錄體系結(jié)構(gòu)化

形成數(shù)據(jù)體系目錄有利于了解掌握數(shù)據(jù),分門別類的方式降低了大家的使用成本。

首先要對(duì)表命名做一些管控,我們做了可視化的表命名檢測(cè)器,來(lái)確保規(guī)范性。另外,淘系不是一個(gè)單空間的數(shù)據(jù)體系,因此要解決跨多個(gè)空間的復(fù)雜數(shù)據(jù)體系的統(tǒng)一建模問(wèn)題。

模型設(shè)計(jì)線上化

改變模型設(shè)計(jì)方式,由線下設(shè)計(jì)遷移到線上,通過(guò)一些自動(dòng)化工具,提升效率,保證規(guī)范。

打通研發(fā)流程(自動(dòng)化生成簡(jiǎn)代碼)

模型遷移到線上后,打通研發(fā)流程自動(dòng)生成簡(jiǎn)代碼,生成代碼框架,建表語(yǔ)句,顯著提高了研發(fā)效

對(duì)接地圖數(shù)據(jù)專輯

形成相應(yīng)的地圖數(shù)據(jù)專輯,方便其他用戶使用數(shù)據(jù)。

4.模型治理

打分模型

模型治理需要量化,如果沒(méi)有量化全靠專家經(jīng)驗(yàn)效率是非常低的,我們通過(guò)模型的指標(biāo)形成到表級(jí)別的模型分。通過(guò)多維度對(duì)模型進(jìn)行打分。

打分機(jī)制

精細(xì)化的打分機(jī)制,針對(duì)團(tuán)隊(duì)、數(shù)據(jù)域、核心進(jìn)行打分,形成相應(yīng)的標(biāo)簽。

整體流程

以數(shù)據(jù)驅(qū)動(dòng),上圖左邊,以模型評(píng)估數(shù)據(jù)為出發(fā)點(diǎn),通過(guò)各個(gè)維度對(duì)模型進(jìn)行評(píng)估,得到各個(gè)域、各個(gè)團(tuán)隊(duì)的評(píng)分,形成相應(yīng)的問(wèn)題標(biāo)簽。

以產(chǎn)品驅(qū)動(dòng),上圖右邊,通過(guò)專家經(jīng)驗(yàn)判斷新上線模型升級(jí)搜索權(quán)限、下線模型降權(quán)限,讓業(yè)務(wù)迅速感知數(shù)據(jù)變化,引導(dǎo)業(yè)務(wù)。

未來(lái)規(guī)劃

應(yīng)用層效率

在整個(gè)數(shù)據(jù)體系中,應(yīng)用層的數(shù)據(jù)體量是最大的,投入了大量的人力。OneData缺少對(duì)應(yīng)用層的數(shù)據(jù)建設(shè)指導(dǎo),集市高度耦合,給運(yùn)維效率帶來(lái)了不少問(wèn)題,如跨集市依賴、依賴深度的問(wèn)題。過(guò)去都是以業(yè)務(wù)為主導(dǎo),為了保障研發(fā)效率放棄了部分研發(fā)規(guī)范,以后要完善應(yīng)用層的研發(fā)規(guī)范,同時(shí)通過(guò)工具做好研發(fā)效率與規(guī)范的平衡。

架構(gòu)規(guī)范管控

基于分層標(biāo)準(zhǔn)落地,對(duì)研發(fā)過(guò)程規(guī)范完善,包括對(duì)設(shè)計(jì)、開(kāi)發(fā)、運(yùn)維、變更、治理等規(guī)范進(jìn)行細(xì)化。

目前核心是表命名規(guī)范,對(duì)依賴規(guī)范、代碼規(guī)范、運(yùn)維規(guī)范等管控能力尚不足。

產(chǎn)品工具提效

將繼續(xù)與Dataworks共建。

  • 應(yīng)用層智能建模能力還不能滿足研發(fā)效率要求,因此會(huì)繼續(xù)功能提效;
  • 數(shù)據(jù)測(cè)試功能集成;
  • 數(shù)據(jù)運(yùn)維功能升級(jí);
  • 事中數(shù)據(jù)治理能力構(gòu)建(開(kāi)發(fā)助手);
  • 事后治理能力提效(批量刪除、主動(dòng)推送優(yōu)化等);
  • 數(shù)據(jù)地圖,找數(shù)用數(shù)提效。

問(wèn)答環(huán)節(jié)

1:核心公共層的建設(shè)是自頂向下還是自底向上?

采用的是兩者相結(jié)合的方式。以需求為驅(qū)動(dòng),沒(méi)有需求就會(huì)導(dǎo)致過(guò)渡設(shè)計(jì),在應(yīng)用層有復(fù)用之后再下沉到公共層,這是自頂向下的。 在公共層設(shè)計(jì)階段是面向業(yè)務(wù)過(guò)程的,這時(shí)是自底向上的。

2:多BU公共層是否需要統(tǒng)一規(guī)范?怎么去做?怎么量化價(jià)值?

需要做統(tǒng)一的規(guī)范,規(guī)范利于數(shù)據(jù)流通,才能體現(xiàn)數(shù)據(jù)價(jià)值 。但是具體怎么規(guī)范需要具體去看,如電商、本地生活,業(yè)務(wù)和目標(biāo)不一樣,很難做到統(tǒng)一的規(guī)范

3:怎么判斷指標(biāo)需要下沉到公共層?

公共層的開(kāi)發(fā)是需要成本的,是否需要下沉到公共層核心是看是否需要復(fù)用,可以從兩個(gè)方面入手。

專家經(jīng)驗(yàn)判斷:如電商交易環(huán)節(jié)數(shù)據(jù),這類數(shù)據(jù)是核心數(shù)據(jù),是要建設(shè)到公共層的。

事后判斷:如玩法之類的業(yè)務(wù)穩(wěn)定性不強(qiáng),那一開(kāi)始不需要下沉到公共層,避免過(guò)度設(shè)計(jì),事后再去判斷是否需要下沉。

4:關(guān)于表、字段的命名規(guī)范,是否需要先定義好詞根再開(kāi)發(fā)?

需要分開(kāi)看。對(duì)于公共層設(shè)計(jì)到的業(yè)務(wù)過(guò)程是有限的,對(duì)于公共部分要先定義好再開(kāi)發(fā)。對(duì)于應(yīng)用層,維度采用的是總建架構(gòu)所以還需要先定義,對(duì)于指標(biāo)特別是派生指標(biāo)是多的,不建議先定義在開(kāi)發(fā)。

5:如何解決口徑一致命名不一致,或者口徑不一致或者命名一致的場(chǎng)景。

模型是演變的。對(duì)于應(yīng)用層,80%都是自定義的,第一次出現(xiàn)的時(shí)候都是不標(biāo)準(zhǔn)的,這部分如果采用先定義后開(kāi)發(fā)的方式,效率是很低的,只有在下沉到公共層的時(shí)候才能夠管控。對(duì)于公共層,能做的是保障核心指標(biāo)90%的規(guī)范與定義統(tǒng)一,剩下的那部分也無(wú)法保證。

6:跨集市依賴下沉到公共層的必要性?

短期來(lái)看,是沒(méi)影響的,新增效率高。

長(zhǎng)期來(lái)會(huì)給數(shù)據(jù)的運(yùn)維、治理帶來(lái)很多影響,在數(shù)據(jù)下線、變更、治理過(guò)程中不得不考慮到下游依賴,會(huì)影響全流程的開(kāi)發(fā)效率。

責(zé)任編輯:張燕妮 來(lái)源: 阿里云云棲號(hào)
相關(guān)推薦

2018-09-30 15:05:38

數(shù)據(jù)湖數(shù)據(jù)倉(cāng)庫(kù)Hadoop

2023-10-24 14:48:23

數(shù)據(jù)治理大數(shù)據(jù)

2021-07-19 10:06:30

數(shù)據(jù)治理數(shù)字化轉(zhuǎn)型CIO

2023-07-28 08:08:09

大淘寶數(shù)據(jù)模型數(shù)據(jù)治理

2011-03-22 14:01:47

關(guān)系數(shù)據(jù)模型

2021-08-07 09:32:23

數(shù)據(jù)治理數(shù)字化轉(zhuǎn)型CIO

2021-09-06 11:15:05

數(shù)據(jù)治理字節(jié)跳動(dòng)埋點(diǎn)

2022-04-07 09:03:38

大淘系模型數(shù)據(jù)

2023-10-26 06:55:46

大數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)

2010-05-26 14:37:56

Cassandra數(shù)據(jù)

2021-02-28 22:20:25

2024-03-26 00:03:50

多云治理云計(jì)算

2009-09-18 14:07:51

LINQ to SQL

2012-03-05 10:54:03

NoSQL

2023-01-31 15:27:13

數(shù)據(jù)治理數(shù)據(jù)管理

2021-01-27 05:34:33

Python對(duì)象模型

2023-05-04 16:08:43

2023-09-28 08:19:57

語(yǔ)言模型數(shù)倉(cāng)數(shù)據(jù)

2023-12-20 07:35:03

大模型數(shù)據(jù)治理機(jī)器學(xué)習(xí)

2023-04-07 07:14:34

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)