自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

騰訊歐拉如何打造數(shù)據(jù)自治系統(tǒng)

大數(shù)據(jù)
騰訊歐拉數(shù)據(jù)資產(chǎn)套件,提供全鏈路的數(shù)據(jù)生產(chǎn)即治理解決方案,包含埋點、數(shù)據(jù)集成、數(shù)倉建模、指標建模、數(shù)據(jù)服務(wù)、治理引擎等關(guān)鍵能力,聚焦可信數(shù)據(jù)資產(chǎn)沉淀和交付。

一、整體思路與框架

首先是整個歐拉平臺建設(shè)的思路和框架。

企業(yè)面臨本質(zhì)問題是數(shù)據(jù)體系的信息熵太大、信息量小,數(shù)據(jù)治理本質(zhì)是打造一個對抗熵增的系統(tǒng)。信息熵往往就等價于確定性,比如我們看到一份數(shù)據(jù),如果不知道它用來算什么指標、有什么價值、上下游的應(yīng)用和所占用的成本,確定性就很低,信息熵就很大。因此我們需要從數(shù)據(jù)的可理解性、規(guī)范性、易用性、可靠性、安全性、成本幾個方面來提升確定性。

圖片

1、平臺主旨

怎么能讓一個雜亂無序的系統(tǒng)變得規(guī)整?在物理學(xué)中,一個封閉系統(tǒng)要對抗熵增,通常會對外做功,這有點像事后治理的概念。例如,對于已有存量的數(shù)據(jù),需要通過掃描元數(shù)據(jù)進而發(fā)現(xiàn)問題來進行事后治理。這是大家普遍知道的做法,也就是先污染后治理。

物理學(xué)上其實還有一種方法,即建立一個內(nèi)部自治的耗散結(jié)構(gòu)。就像人體,即使躺在那里沒有外部做功,也不會馬上生病,因為人體本身是一個自調(diào)節(jié)的耗散結(jié)構(gòu)。

因此,我們在數(shù)據(jù)治理過程中 也可以嘗試建立生產(chǎn)即治理的耗散結(jié)構(gòu),使得數(shù)據(jù)在整個生產(chǎn)和使用過程中都是規(guī)范和自調(diào)節(jié)的,緩解熵增(變混亂)過程。

本文內(nèi)容正是關(guān)于如何建立從數(shù)倉到指標生產(chǎn)即治理的耗散結(jié)構(gòu)。

2、評價體系

首先我們需要過資產(chǎn)分來量化數(shù)據(jù)體系的信息熵,建立一個評價體系,形成對數(shù)據(jù)現(xiàn)狀、治理效果的共識,進而牽引、推動治理平臺的落地。資產(chǎn)分高越則數(shù)據(jù)的信息熵越低、數(shù)據(jù)的確定性越高。在此基礎(chǔ)上,基于歐拉平臺,配合治理專項不斷提高資產(chǎn)分。

圖片

3、數(shù)據(jù)痛點及平臺應(yīng)對方案

很多企業(yè)在數(shù)據(jù)治理的時用了各種方法仍然避免不了 3 個問題——治理難、維護難、使用難。數(shù)據(jù)治理的成果像沙子堆的碉堡,缺乏骨架,經(jīng)不起風吹草動。而騰訊歐拉這樣生產(chǎn)即治理的平臺工具就可以成為骨架。

圖片

因此,歐拉數(shù)據(jù)生產(chǎn)即治理的理念是從業(yè)務(wù)角度出發(fā),重點關(guān)注標準化、可信數(shù)據(jù)資產(chǎn)的沉淀和交付。將數(shù)據(jù)資產(chǎn)交付分為主要3步:

圖片

第一步:數(shù)據(jù)體系規(guī)劃。即數(shù)據(jù)的業(yè)務(wù)、概念建模。定義業(yè)務(wù)域、主題域、業(yè)務(wù)過程等,定義和管理數(shù)據(jù)標準,例如字典、命名規(guī)范、度量、單位、詞根等,以及質(zhì)量標準。

第二步:數(shù)據(jù)建模。通常是邏輯建模、物理建模,形成一個Uni-Model,即統(tǒng)一模型。

第三步:數(shù)據(jù)發(fā)現(xiàn)與應(yīng)用。酒香也怕巷子深,要呈現(xiàn)可信數(shù)據(jù)資產(chǎn),需要將建模后的元信息和元數(shù)據(jù)集成起來,形成一個上層應(yīng)用能夠使用的統(tǒng)一數(shù)據(jù)服務(wù)和資產(chǎn)目錄,供大家查找、發(fā)現(xiàn)、使用和申請數(shù)據(jù)。

4、歐拉的服務(wù)框架

圖片

接下來介紹歐拉平臺服務(wù)的框架,主要有3個子產(chǎn)品——資產(chǎn)工場、指標中臺和數(shù)據(jù)發(fā)現(xiàn)。

歐拉數(shù)據(jù)資產(chǎn)工場,定位是在湖、倉、流上構(gòu)建標準化的數(shù)倉模型。

在數(shù)倉模型上是tMetric,也就是指標中臺,基于headless BI理念在數(shù)倉之上定義指標,提供統(tǒng)一指標服務(wù)。

資產(chǎn)工場和指標中臺,其實面向數(shù)據(jù)建模和生產(chǎn),數(shù)據(jù)發(fā)現(xiàn)則是面向數(shù)據(jù)消費端,把標準化生產(chǎn)的數(shù)據(jù)的元信息通過各種方式集成到一起。

元數(shù)據(jù)分為技術(shù)元數(shù)據(jù)和業(yè)務(wù)元數(shù)據(jù)。技術(shù)元數(shù)據(jù)主要是數(shù)據(jù)的存儲位置、存儲結(jié)構(gòu)、存儲大小、存儲格式等。在技術(shù)源數(shù)據(jù)之上會補充很多業(yè)務(wù)信息,比如此數(shù)據(jù)代表的業(yè)務(wù)過程、業(yè)務(wù)含義、口徑、分類等,最終形成一個統(tǒng)一的數(shù)據(jù)知識索引庫。上層是一個數(shù)據(jù)發(fā)現(xiàn)產(chǎn)品,大家在這里找數(shù)據(jù)、共享數(shù)據(jù)、申請數(shù)據(jù)、洞察數(shù)據(jù)。

歐拉在整個現(xiàn)代數(shù)據(jù)棧中的位置如下圖:

圖片

這里歐拉治理引擎則是一個偏事后治理工具,即采集全鏈路元數(shù)據(jù)后,掃描問題、發(fā)現(xiàn)問題、修復(fù)問題。

二、數(shù)倉與指標建模

接下來是數(shù)倉和指標建模以及它們所面臨的問題和應(yīng)對方法,還有指標中臺、資產(chǎn)工場、數(shù)據(jù)發(fā)現(xiàn)三個平臺的設(shè)計。

1、典型數(shù)據(jù)問題案例

通常,數(shù)據(jù)集成入倉后會形成一個結(jié)構(gòu)化的ODS層的表。在這個表上,數(shù)據(jù)工程師會進行維度擴展或邏輯建模,將一些維表與ODS表關(guān)聯(lián),如關(guān)聯(lián)用戶年齡、性別和渠道信息。這樣,就會形成一個明細的DWD寬表,可能還會進行一些transform操作或格式轉(zhuǎn)換。

在這個DWD表格的基礎(chǔ)上,我們會進行輕度的匯總,形成DWS表,基于DWS表再構(gòu)建應(yīng)用層的ADS表,ADS表直接用來配置報表或者用作數(shù)據(jù)分析,典型問題case 如下圖所示:

圖片


(1)三個 ADS 表指標口徑不一致,理論上它們的曝光次數(shù)加起來是一樣的,但是因為這個三個 ADS 層它的加工邏輯不一樣,開發(fā)的負責人不一樣,可能會導(dǎo)致口徑未對齊,這是最典型的問題。

(2)數(shù)據(jù)依賴錯綜復(fù)雜,維護、修改、口徑排查困難,同層依賴、跨層依賴,甚至下層依賴上層都有可能。

(3)過度重復(fù)冗余,DWD表、ODS表占用存儲大,數(shù)據(jù)冗余度高。

(4)使用難,對于曝光次數(shù)這個指標,在不同的地方都會有不同的取值,這會讓人困惑應(yīng)當以哪個出口的數(shù)據(jù)為準。很多業(yè)務(wù)中表的命名可能是英文的,沒有明確的中文描述、分類或分域定義,我們也不知道它們代表的業(yè)務(wù)過程是什么,要臨時取數(shù)用哪個表合適。

2、關(guān)鍵思路

本質(zhì)是數(shù)據(jù)的確定性差,下面講述如何一步步解決這些問題。

圖片

第一個關(guān)鍵思路是具備標準化企業(yè)數(shù)據(jù)模型構(gòu)建和管理的能力。數(shù)據(jù)建??梢苑譃槿齻€層面:物理建模、邏輯模型和概念模型。物理建模層主要涉及到具體執(zhí)行引擎上定義數(shù)據(jù)的具體實現(xiàn),比如編寫一段SQL或Python代碼,通過Spark 、Hive來統(tǒng)計表格等。

邏輯模型層則定義數(shù)據(jù)之間的邏輯流向和組織關(guān)系,通常會使用ER模型、星型模型或其他可視化方法來表示這些關(guān)系,并不需要關(guān)注底層技術(shù)。例如無論底層是Hive、Spark還是Clickhouse等等,在邏輯模型中應(yīng)當使用一種統(tǒng)一的數(shù)據(jù)邏輯描述語言。最上層是概念模型,定義數(shù)據(jù)的范疇、業(yè)務(wù)過程等。通常會使用分層分域或流程圖等方式表示。

至于物理模型,這方面已經(jīng)很成熟了。

總結(jié)一下,我們在數(shù)據(jù)建模的過程中往往缺乏的是概念模型和邏輯模型的構(gòu)建和管理能力,這會對數(shù)據(jù)的確定性造成很大影響,導(dǎo)致可理解性降低,重復(fù)冗余嚴重,同名不同義、同義不同名等一些列問題,數(shù)據(jù)空間感極差。就像在圖書館找一本沒有目錄和描述的圖書。

如果沒有良好的數(shù)據(jù)架構(gòu)支持,數(shù)據(jù)管理也會變得十分困難。所以,需要加強對概念模型和邏輯模型的建立和管理。

圖片

第二個關(guān)鍵思路就是基于DataOps 理念的物理建模。我們原來的開發(fā)模式是:數(shù)據(jù)集成到hive數(shù)倉或數(shù)據(jù)湖里,并撰寫一些SQL、Python代碼,配置調(diào)度作業(yè)。

有些情況下,我們可能會在本地的編輯器里編寫好代碼,將它復(fù)制粘貼到調(diào)度系統(tǒng)或者作業(yè)配置系統(tǒng),再提交到Git。然而,這種開發(fā)流程與軟件開發(fā)的devops有很大的差距,從邏輯上講,數(shù)據(jù)工程也可以被軟件工程化,甚至可以說是必然趨勢。這可以解決數(shù)據(jù)工程中的研發(fā)、版本、測試、集成、部署、以及質(zhì)量等問題,因此我們也需要一個數(shù)據(jù)資產(chǎn)的CMDB。

3、如何實現(xiàn)數(shù)倉建模CRCD

這部分會說明如何實現(xiàn)數(shù)據(jù)開發(fā)流程的軟件工程化。

在進行前后端開發(fā)時,我們要遵循軟件工程的理念,常聽到的一個詞就是面向?qū)ο缶幊?。這種編程方式先聲明一個對象,這個對象可能有很多屬性方法,其它對象也可以繼承這個對象。

在數(shù)據(jù)開發(fā)中,我們往往是面向表格的開發(fā)和交付,表格包含:基礎(chǔ)信息、生產(chǎn)代碼、scheme定義、調(diào)度配置,這些都可以代碼化。打通發(fā)布流水線,就可以實現(xiàn)數(shù)據(jù)開發(fā)的DevOps,也可以在整個工程實踐中增加很多事前、事中、事后的檢測約束,保障數(shù)據(jù)開發(fā)規(guī)范落地。

圖片

4、數(shù)據(jù)工程的編碼抽象

除了CR、CI、CD的流程,數(shù)據(jù)工程代碼也需要一定的抽象能力。如果我們只用純 SQL 來開發(fā)表格,就會產(chǎn)生許多問題,SQL代碼難以實現(xiàn)可測試性、可讀性。當 SQL 代碼過于龐大時,可讀性會降低,難以進行單元測試或單步調(diào)試,也無法實現(xiàn)流程控制,代碼復(fù)用性也比較低。在軟件工程中有一條原則叫做“don’t repeat yourself”,意思是要盡量避免重復(fù)。

Python 和 SQL 結(jié)合是一種不完美、但能實現(xiàn)一些流程控制的放式,抽象公共腳本,實現(xiàn)類似宏的功能,也能引用一些模塊化的公共腳本(如下圖demo)。

圖片

5、規(guī)范化的概念模型

我們可以將dataops視為一種軟件工程化的物理建模。在開始物理建模之前,我們需要先進行概念建模和邏輯建模。

概念建模,也是定義數(shù)據(jù)的業(yè)務(wù)模型。定義業(yè)務(wù)過程與業(yè)務(wù)主題域,可以采用樹形結(jié)構(gòu)的方式進行定義。此外,業(yè)務(wù)過程域下還會定義一些詞根以及業(yè)務(wù)域主題的描述等。創(chuàng)建數(shù)據(jù)庫表時,必須要將其掛載在具體的業(yè)務(wù)域和主題域下。表名可以根據(jù)前后綴和關(guān)鍵點以及業(yè)務(wù)所在的業(yè)務(wù)過程來自動生成。如果沒有完整的概念模型,就無法形成這種統(tǒng)一的數(shù)據(jù)資產(chǎn)目錄,除非采用人工的方式事后進行整理。

圖片

6、規(guī)范化的邏輯模型

邏輯建模,通常定義一個星型模型或雪花模型,或可視化定義一個pipeline(這是一個數(shù)據(jù)加工邏輯的可視化方式,易于理解)。

圖片

因此,概念模型實際上形成了一個虛擬的邏輯表。這個邏輯表與底層引擎無關(guān),可以提交到Hive或spark等平臺運行物化。整體產(chǎn)品效果如下圖:

圖片

圖片

7、指標治理面臨的主要問題

前面講了數(shù)倉建模,那么指標存在哪些問題呢?答案是“不知道口徑”或“口徑不一致”,原因是重復(fù)(同意不同名、同名不同義也是一種重復(fù))。那么為什么會出現(xiàn)重復(fù)?同樣的指標在不同的平臺被多次重復(fù)定義,導(dǎo)致難以保證口徑的一致性,從而經(jīng)常出現(xiàn)同名不同義或同義不同名的問題。

圖片

我們的方案是以Headless BI為導(dǎo)向,建立一個指標中臺。我們希望統(tǒng)一構(gòu)建一個指標庫并向下游提供SDK、API或類似SQL的方式來查詢這些指標。我們能確保這個指標庫中的指標不會重復(fù)。例如,如果出現(xiàn)多個DAU,它們的名稱也不同,它們的口徑也不同,我們可以輕松區(qū)分它們。

圖片

然后下游系統(tǒng)便可以統(tǒng)一對接指標查詢服務(wù),無需重復(fù)定義和計算該指標。而這個核心思想的關(guān)鍵在于"headless",這個概念其實早在中臺概念提出之前就已存在。

"headless"其實就是前后端分離,由后端以API方式為上層的可視化展現(xiàn)層提供服務(wù)??梢暬宫F(xiàn)層可以是多個,應(yīng)用層業(yè)務(wù)也可以有多個場景。提供統(tǒng)一API服務(wù),同一個指標或服務(wù)的API保障一致性。

圖片

8、指標中臺與敏捷分析

基于這一理念,可能會有一個問題,指標中臺和敏捷分析有什么關(guān)系?因為指標是用于分析的。這是否會導(dǎo)致降低分析的敏捷性?

實際上,我們應(yīng)該從提升數(shù)據(jù)分析效率的角度來考慮問題。影響數(shù)據(jù)分析效率的因素有多種,例如找數(shù)據(jù)的效率、計算效率、確認數(shù)據(jù)是否正確的效率等。

如果數(shù)據(jù)不準確,整體的數(shù)據(jù)分析效率也不會提高。指標和維度的廣義定義是無限的,數(shù)據(jù)分析同學(xué)可能會隨時提出不同的指標定義或維度想法。敏捷分析通過提倡快速定義指標維度并即時分析。指標中臺的定位是規(guī)范地定義指標并提供統(tǒng)一指標服務(wù),在某種程度上會與敏捷矛盾。

圖片

如果規(guī)范能保證每次查找指標時都快速定位,且結(jié)果正確,那么我認為它的分析效率也會大幅提升。因此,歐拉指標中臺也在提供規(guī)范化、標準化的統(tǒng)一指標服務(wù)前提下,盡可能地提高指標定義的敏捷性。

9、tMetric的領(lǐng)域模型

接下來我們要講的是指標中臺的領(lǐng)域模型。

圖片

第一步:在多種數(shù)據(jù)源上創(chuàng)建數(shù)倉模型(基于星型模型的邏輯表或者物理表)。

第二步:在數(shù)倉模型之上 定義原子指標、派生指標以及指標的維度

第三步:會有2個場景,①基于指標定義,創(chuàng)建物化視圖或者預(yù)計算的cube;②是基于指標定義自助生產(chǎn)數(shù)倉ADS表。

第四步:對外提供統(tǒng)一的指標查詢API或者SDK,也可以直接在實驗平臺、Adhoc分析等引用指標口徑。

10、如何標準化的定義指標

那么指標的定義呢如何標準化指定呢?例如:以最近七天的體育類視頻播放時長為指標,度量是視頻總播放時長,維度是性別、年齡等,業(yè)務(wù)限定體育類。統(tǒng)計周期為最近七天。最終確定了指標定義之后,自動生成計算SQL。這是一個基本的語義模型。

圖片

11、tMetric的的體系架構(gòu)

接下來講一下整體框架。

應(yīng)用生態(tài):對接決策智能平臺、報表平臺、實驗平臺和目標管理平臺等。所有這些平臺都可以接入指標庫,使用指標 API 或類 SQL API 獲取指標數(shù)據(jù)。在這些平臺看到同一個指標時,口徑一定是相同的。

圖片

  • 查詢層:包括緩存、查詢協(xié)議、轉(zhuǎn)換和路由策略等。
  • 語義層:指標、維度的標準化定義和元信息維護。
  • 數(shù)倉模型層:數(shù)倉邏輯表、物理表定義以及統(tǒng)一數(shù)倉模型元數(shù)據(jù)服務(wù)。
  • 物化加速層:我們提供了一個統(tǒng)一的物化服務(wù),并針對不同的指標查詢場景實施不同的物化策略。這些策略包括 OLAP 的物化策略和預(yù)計算的物化策略。

12、tMetric的物化加速方案

根據(jù)不同的場景選擇不同的物化加速方式:

場景一:如果這個指標常被觀測,其維度組合也已知,且維度基數(shù)不高,那么我們會選擇預(yù)計算方式,定義好指標和需要使用的日常維度組合,預(yù)計算是一個cube。這種方式優(yōu)勢是查詢速度快、存儲、計算成本都比較低,缺點是多維分析的靈活性較低。

場景二:指標可能具有多個維度,而未來可能需要使用的維度不確定,這時可以使用StarRocks或Clickhouse等OLAP引擎支持任意維度的OLAP查詢。通常會根據(jù)一些使用頻率較高的維度創(chuàng)建物化視圖。

場景三:在配置指標時,需要快速預(yù)覽其定義以確保指標定義正確性。為了實現(xiàn)快速預(yù)覽,使用MPP內(nèi)存計算引擎,如Presto、Impala。不過,這并不是一個頻繁的操作,通常只在定義指標時進行預(yù)覽查詢。

圖片

13、效果展示

圖片

三、數(shù)據(jù)發(fā)現(xiàn)

前面講了指標生產(chǎn)和數(shù)倉建模,接下來就需要讓用戶方便地找到和使用這些數(shù)據(jù)資產(chǎn)——有哪些指標API可以使用?指標庫包含哪些指標?數(shù)倉表中包含哪些重要表?這些問題需要通過清晰的呈現(xiàn)來得到解答。

圖片

首先我們需要統(tǒng)一的元數(shù)據(jù)底座-Uni-Meta。它可以從各種不同的數(shù)據(jù)系統(tǒng)中獲取元數(shù)據(jù),形成一個數(shù)據(jù)資產(chǎn)目錄,或者說一個全域的數(shù)據(jù)知識圖譜和資產(chǎn)現(xiàn)狀概覽。

圖片

四、未來展望

現(xiàn)在大家都在談?wù)揅hatGPT,也有很多人在討論AI for BI在企業(yè)中應(yīng)用的一些可能性。例如數(shù)據(jù)分析師在進行指標分析時面臨的痛點,不僅僅是知道指標數(shù)值,關(guān)鍵痛點是連貫的順暢的漸進式的分析。如果AI可以解決這個痛點,那將會是質(zhì)的飛躍。

但如果數(shù)據(jù)未經(jīng)治理,沒有統(tǒng)一的數(shù)據(jù)標準和數(shù)據(jù)框架,那么即使把所有的元數(shù)據(jù)信息都采集,AI的回答也會似是而非。

圖片

舉一個例子,假設(shè)用戶問昨天新聞各媒體渠道曝光的量如何,假設(shè)有一張表,我們明確知道表的用途、字段及含義,那么就可以構(gòu)造prompt來寫一段SQL統(tǒng)計各媒體渠道曝光量。

這個問題的難度在于如何構(gòu)造Prompt,如果 Prompt 基于一個或是幾個標準化的模板來構(gòu)造出來,讓 AI 填空,寫出來的SQL就能直接運行。如果沒有標準化的模板,寫出來的SQL 大概率錯誤,只能作為一種輔助。

因此,如果我們數(shù)據(jù)治理能力足夠強,AI輔助下連貫的順暢的漸進式的分析是很可能實現(xiàn)的。

圖片

五、Q&A

Q1:騰訊如何統(tǒng)一指標的?

A1:這個問題可以從三個層面來回答。一個層面是如何統(tǒng)一指標的口徑,比如戰(zhàn)略層面的一些指標如“DAU 怎么算”、“各個業(yè)務(wù)大家是不是一致認可的”等。在這方面,我們有一個數(shù)據(jù)治理的工作組,工作組和業(yè)務(wù)的數(shù)據(jù)分析人員會有一個類似數(shù)據(jù)決策委員會的組織,在戰(zhàn)略層的一些關(guān)鍵的指標口徑達成共識。

另一方面是技術(shù)保證口徑一致。其實就是我前面講的,我們基于headless BI 的理念,建設(shè)一個統(tǒng)一的指標中臺tMetric,把一些常用的指標都定義在這個指標庫里面,下游的各個地方引用時都統(tǒng)一從這個指標庫里獲取指標。

第三個層面,就是日常的臨時洞察分析。廣義上的指標其實是無法窮舉的。數(shù)據(jù)分析人員可能會忽然想到臨時指標來統(tǒng)計分析,此時用戶的痛點在于怎么算這個指標。這種場景往往是基于日常例行觀測指標的衍生指標,也就是說如果知道日常例行觀測指標怎么算,大部分情況也能推理出自己新構(gòu)造的指標怎么算。

Q2:環(huán)境分為開發(fā)環(huán)境、測試環(huán)境還有生產(chǎn)環(huán)境嗎?

A2:我們現(xiàn)在只有測試環(huán)境跟生產(chǎn)環(huán)境,沒有預(yù)發(fā)的過程。但未來我們也會有預(yù)發(fā),在一些很嚴苛的場景,數(shù)據(jù)測試完后可以發(fā)布到預(yù)發(fā)環(huán)境可試跑幾天,確認沒有問題再整個上線。

Q3:指標庫的規(guī)模大概是多大?

A3:坦白說現(xiàn)在指標的數(shù)量只有 6000 多個,但是維度的數(shù)量比較多,一個指標可能有特別多的維度,我認為能從各個維度去看這個指標才是最大的挑戰(zhàn)。

Q4:系統(tǒng)地講一下在數(shù)據(jù)治理中用到了哪些 AI 技術(shù)?

A4:我覺得是兩個方面。

一個是通過 AI 手段來提升數(shù)據(jù)治理的自動化的水平。通過 AI直接自動化治理是比較難的,畢竟數(shù)據(jù)治理有很強的業(yè)務(wù)性,需要理解業(yè)務(wù)模式和數(shù)據(jù)專家經(jīng)驗。但 AI 的一些技術(shù)可以加強數(shù)據(jù)治理工具能力,比如有些表可能沒有描述,之前要人工梳理和補充表描,但現(xiàn)在 AI 可以根據(jù)表的一些數(shù)據(jù)的樣本自動補充描述,自動給數(shù)據(jù)分類。

第二個是 AI 對數(shù)據(jù)治理的促進作用,也就是用 AI 做增強分析。但如前文所言,這需要極高的數(shù)據(jù)治理的水平,需要數(shù)據(jù)治理的平臺化和生產(chǎn)即治理的模式,事后治理不能滿足 AI for BI的需求的。

Q5:枚舉值的最初來源是埋點信息嗎?

A5:枚舉值的來源有三部分。第一部分是埋點信息,比如說一個APP的啟動方式的枚舉值可能在埋點系統(tǒng)定義。第二個部分是直接提取一些表的字段的枚舉值。第三個就是人工補充。需要注意的是,枚舉值的定義一定是可枚舉的。不是所有維度都要枚舉,比如維度是用戶ID,就不可枚舉。

Q6:概念模型和邏輯模型在沒有平臺化管理的情況下,應(yīng)該怎么迭代管理?

A6:目前沒有很好的方案。如果沒有平臺管理,而是通過 wiki 、文檔等去梳理,你那么維護成本極高。

Q7:騰訊如何量化評估指標資產(chǎn)的價值?

A7:這個是大家都很關(guān)心的問題,其實也就是數(shù)據(jù)治理。

那么我們?nèi)绾巫尷习逯劳读诉@么多資源的最終效果呢?其實數(shù)據(jù)治理本質(zhì)上就是 4 個方面:成本、質(zhì)量、安全風險和效率。單點治理時,切入點可以選成本,好度量。質(zhì)量也有一些評估的方法,比如數(shù)據(jù)的及時性、數(shù)據(jù)問題反饋率和數(shù)據(jù)異常率等。

數(shù)據(jù)安全和效率的效果量化困難比較困難,可以先組織大家形成共識,確定必須要做的事,在這個前提下再定義量化指標來牽引結(jié)果。我們的組織是數(shù)據(jù)治理工作組,量化指標是我前面講的資產(chǎn)分,通過量化評估把大家的治理水平拉到一個評價標準上,誰的資產(chǎn)分低,說明說誰的治理效果可能存在問題。

總結(jié)來講,先通過組織共識目標(要做什么),再定義量化指標牽引目標達成,量化指標的定義也要注意,粗略的正確好過精確的錯誤。

Q8:如果構(gòu)建了指標體系,傳統(tǒng)的數(shù)倉會不會做的比較???

A8:數(shù)倉應(yīng)該會下沉,比如說原來數(shù)倉有大量的ADS 表,現(xiàn)在就收斂到DWD或者少數(shù)DWS表,我認為可以通過指標中臺的指標定義,自動化或半自動化地生產(chǎn)大量應(yīng)用層的表。

Q9:最后一問題的話是說現(xiàn)在經(jīng)濟環(huán)境不好,那業(yè)務(wù)都要敏捷,那數(shù)據(jù)治理怎么敏捷跟上業(yè)務(wù)的發(fā)展?

A9:我認為現(xiàn)在整個行業(yè)更偏向像保守的方向,倡導(dǎo)降本增效。數(shù)據(jù)治理的目標就是降本增效,剛好符合現(xiàn)在的企業(yè)訴求,原來不重視數(shù)據(jù)治理,同一個指標可能會反復(fù)統(tǒng)計多次,計算跟存儲成本會非常高?,F(xiàn)在數(shù)據(jù)治理想辦法幫業(yè)務(wù)降本增效。做好這點,就是對業(yè)務(wù)發(fā)展最好的幫助。

責任編輯:姜華 來源: DataFunTalk
相關(guān)推薦

2020-06-15 10:45:49

云計算自治系統(tǒng)冠狀病毒

2022-09-29 21:13:37

華為

2024-03-11 07:38:15

歐拉數(shù)據(jù)血緣數(shù)據(jù)應(yīng)用數(shù)據(jù)治理

2021-11-20 17:11:43

工業(yè)互聯(lián)網(wǎng)5GF5G

2023-12-29 08:13:09

數(shù)據(jù)平臺算法歐拉平臺

2021-11-10 15:10:17

操作系統(tǒng)華為代碼

2021-09-25 19:18:41

華為操作系統(tǒng)歐拉

2023-01-05 17:41:40

歐拉

2021-11-09 14:10:54

操作系統(tǒng)openEuler

2023-12-16 13:13:05

歐拉openEuler

2021-09-25 10:07:56

歐拉鴻蒙

2022-04-14 12:25:13

深度學(xué)習方程AI

2024-12-17 08:30:01

2017-05-25 11:24:18

達觀數(shù)據(jù)NER系統(tǒng)

2023-01-12 16:55:35

FusionOS

2013-08-12 00:07:43

騰訊移動戰(zhàn)略BAT

2022-12-08 15:32:59

數(shù)據(jù)中心

2023-12-18 18:07:03

openEuler麒麟軟件
點贊
收藏

51CTO技術(shù)棧公眾號