從阿里巴巴數(shù)據(jù)治理到瓴羊Dataphin
我們深知,企業(yè)需要一套完善的數(shù)據(jù)技術(shù)與工具,實現(xiàn)數(shù)據(jù)合規(guī)采集、存儲、計算、建 設(shè)和管理,利用數(shù)據(jù)思維對業(yè)務(wù)運營與管理場景問題精細(xì)洞察,學(xué)會利用數(shù)據(jù)資產(chǎn)改善能效,以此循環(huán)往復(fù),推動數(shù)據(jù)資產(chǎn)的持續(xù)沉淀,形成企業(yè)特有的數(shù)據(jù)資產(chǎn)體系。
基于阿里巴巴內(nèi)部的實踐經(jīng)驗和成果,面向不同行業(yè)的實際業(yè)務(wù)場景Dataphin 應(yīng)運而生,作為阿里巴巴統(tǒng)一方法論的工具化沉淀,Dataphin 希望能幫助企業(yè)探索更加復(fù)雜與多樣的數(shù)據(jù)建設(shè)之路。
本次內(nèi)容將以阿里巴巴數(shù)據(jù)治理的實踐和統(tǒng)一數(shù)據(jù)治理方法論工具化沉淀的Dataphin為核心內(nèi)容為大家詳細(xì)介紹。
一、數(shù)據(jù)建設(shè)的三個階段:從在線開發(fā)到平臺構(gòu)建到數(shù)據(jù)綜合治理
從阿里自身的發(fā)展歷程來看,數(shù)據(jù)建設(shè)可以分為以下三個階段。
第一個階段:在線開發(fā)。
在這個階段更多是把所有數(shù)據(jù)搬上來,通過數(shù)據(jù)研發(fā)來滿足基本業(yè)務(wù)需求和開發(fā)需求。數(shù)據(jù)規(guī)模相對不大,這一階段的目標(biāo)主要還是以響應(yīng)需求為主。
第二階段:數(shù)據(jù)平臺構(gòu)建與管理。
隨著淘寶業(yè)務(wù)不斷增長,對數(shù)據(jù)價值的訴求逐步加強,數(shù)據(jù)服務(wù)業(yè)務(wù)的場景也不斷擴大。數(shù)據(jù)的多樣性、數(shù)據(jù)處理的復(fù)雜度帶來數(shù)據(jù)處理的作業(yè)呈現(xiàn)較大規(guī)模或較高水平的要求。這個時候就需要有一個數(shù)據(jù)平臺來支撐數(shù)據(jù)倉庫的開發(fā)。所以這一階段的目標(biāo)就是做數(shù)據(jù)平臺的構(gòu)建與管理,它對應(yīng)的頂層和核心是要支持類似于生意參謀這樣的面向于大量商家的應(yīng)用。
第三階段:數(shù)據(jù)綜合治理。
隨著阿里集團的業(yè)務(wù)版圖越來越大,我們的業(yè)務(wù)數(shù)據(jù)也越來越多,只做一個數(shù)據(jù)平臺管一類數(shù)據(jù),已經(jīng)完全不能滿足需求了。數(shù)據(jù)服務(wù)業(yè)務(wù)輸出持續(xù)增多,業(yè)務(wù)數(shù)據(jù)化運營意識逐漸成熟,對數(shù)據(jù)價值的期待也越來越高,這個階段就需要數(shù)據(jù)綜合治理 ,以數(shù)據(jù)資產(chǎn)為中心開展所有的數(shù)據(jù)工作,以業(yè)務(wù)可理解、便捷可消費及服務(wù)業(yè)務(wù)的資產(chǎn)化組織和管理方向。所以這個階段需要有更匹配的產(chǎn)品,有更好的體系,以數(shù)據(jù)資產(chǎn)為核心來做數(shù)據(jù)中臺的建設(shè)。
二、大數(shù)據(jù)建設(shè),不僅僅是研發(fā)效能的問題
從阿里巴巴的業(yè)務(wù)角度來看,大數(shù)據(jù)的建設(shè)不單是研發(fā)效率的問題,不是只要有一個工具就能夠提高研發(fā)的效率,而是需要有一套體系化、理論化的東西來支撐整個數(shù)據(jù)中臺的建設(shè),我們把它分成四個維度:
- 數(shù)據(jù)標(biāo)準(zhǔn):由于多形態(tài)業(yè)務(wù)發(fā)展迅猛,煙囪式開發(fā)及局部業(yè)務(wù)服務(wù)支撐,導(dǎo)致同名指標(biāo)不同口徑的問題頻發(fā);歷史不同業(yè)務(wù)系統(tǒng)逐步迭代上線,相同對象屬性編碼不一致等問題突出。只有知道要做什么,明確每一種數(shù)據(jù)的口徑表示,再著手業(yè)務(wù)和產(chǎn)品。
- 數(shù)據(jù)質(zhì)量:需要有一種工具能保障最終輸出的數(shù)據(jù)是符合這個口徑的。重復(fù)業(yè)務(wù)建設(shè)導(dǎo)致任務(wù)鏈冗長、任務(wù)數(shù)繁多,計算資源緊張,數(shù)據(jù)時效性不好;另外,口徑梳理定義的文檔與開發(fā)代碼脫節(jié),數(shù)據(jù)準(zhǔn)確性保障風(fēng)險高,所以要保證數(shù)據(jù)質(zhì)量就是要糾正數(shù)據(jù),如果數(shù)據(jù)口徑不對,需要有處理機制來做糾偏。
- 需求響應(yīng):煙囪式開發(fā)的開發(fā)周期長、效率低,面向應(yīng)用的服務(wù)化不足,導(dǎo)致業(yè)務(wù)響應(yīng)速度慢,業(yè)務(wù)不滿且技術(shù)無沉淀;既懂業(yè)務(wù)又懂?dāng)?shù)據(jù)的人才不足,需求理解到開發(fā)實現(xiàn)涉及大量溝通。因為我們的數(shù)據(jù)工作還是要為業(yè)務(wù)服務(wù),從業(yè)務(wù)的角度來看,沒人不在意你使用什么工具,但是如果產(chǎn)品能夠輔助提高需求響應(yīng)的速度,那么將是一個非常有價值的事情。
- 成本資源:在做數(shù)據(jù)建設(shè)的時候還需要考量成本。煙囪式開發(fā)容易造成資源重復(fù)性浪費;上線難下線更難,源系統(tǒng)或業(yè)務(wù)變更不能及時反映到數(shù)據(jù)上,而且由于數(shù)據(jù)不標(biāo)準(zhǔn),研發(fā)維護難上加難,大量無用計算和存儲造成資源浪費。
不能為了把需求、標(biāo)準(zhǔn)、質(zhì)量做得更全更快更好,就無限量地投入資源。在成本上也是需要去考量的,所以在數(shù)據(jù)治理的時候,需要綜合這 4 個角度的指標(biāo)來考察數(shù)據(jù)建設(shè)的成效。
三、阿里巴巴數(shù)據(jù)治理關(guān)鍵舉措
將分散的數(shù)據(jù)集中管理,制定一套統(tǒng)一的管理標(biāo)準(zhǔn),通過統(tǒng)一數(shù)據(jù)平臺輸出數(shù)據(jù)產(chǎn)品服務(wù)各個業(yè)務(wù),整體從資源到資產(chǎn)進行轉(zhuǎn)變。
1、工具+規(guī)范打造標(biāo)準(zhǔn)化采集
為支撐整個數(shù)據(jù)平臺的建設(shè),第一要務(wù)是打造標(biāo)準(zhǔn)。流量采集中,建立相應(yīng)的日志埋點標(biāo)準(zhǔn),將數(shù)據(jù)上傳到日志采集中心,并通過各種采集工具、查看工具以及整套工具來管理和提升數(shù)據(jù)采集效率。同時,在埋點過程中,還需要制定相應(yīng)規(guī)范并將其交予業(yè)務(wù)部門,這樣業(yè)務(wù)同學(xué)才能看到相應(yīng)埋點,并最終轉(zhuǎn)換成實際數(shù)據(jù)。
2、閉環(huán)治理
在數(shù)據(jù)標(biāo)準(zhǔn)制定后,我們需要搭建整個數(shù)據(jù)治理的架構(gòu)。這個架構(gòu)分為多個部分,第一部分是內(nèi)容治理。在這一方面,需要明確數(shù)據(jù)健康標(biāo)準(zhǔn)和數(shù)據(jù)治理對象,確定數(shù)據(jù)治理范圍和相應(yīng)的治理方案。而我們已經(jīng)不再采取運動式或單點式的方案,轉(zhuǎn)而采用產(chǎn)品化、體系化的方案,并出現(xiàn)了一些評估體系來幫助我們進行數(shù)據(jù)治理。
在阿里內(nèi)部,我們根據(jù)每個人使用數(shù)據(jù)的情況給予健康分,當(dāng)健康分低于標(biāo)準(zhǔn)時,就需要采取問責(zé)機制,讓使用者推進自己的數(shù)據(jù)治理工作。而在存儲、計算和價值產(chǎn)出方面,也需要建立完整的機制進行數(shù)據(jù)治理。
3、實戰(zhàn)沉淀數(shù)據(jù)產(chǎn)品
經(jīng)過多年實踐,阿里巴巴提出的One Model數(shù)據(jù)模型已被行業(yè)廣泛應(yīng)用,該標(biāo)準(zhǔn)將整個數(shù)據(jù)中臺分為三層,基礎(chǔ)層又被稱為ODS層,公共層或中間層則整合業(yè)務(wù)系統(tǒng)數(shù)據(jù),并以主題方式組織,為頂層應(yīng)用層提供數(shù)據(jù)服務(wù)。在應(yīng)用層角度,數(shù)據(jù)會按照不同的業(yè)務(wù)方和應(yīng)用場景組織。
經(jīng)過多年的實踐,我們總結(jié)出以下需要注意的要點:
首先,數(shù)據(jù)需要有系統(tǒng)化的組織。在數(shù)據(jù)建設(shè)初期,需要建立頂層框架,明確整個組織需要哪些數(shù)據(jù),以及它們在哪些業(yè)務(wù)領(lǐng)域發(fā)揮作用。只有這樣,我們才能精確地劃分?jǐn)?shù)據(jù)體系,進行合規(guī)采集、清洗和關(guān)聯(lián)等工作。
其次,我們需要工具來有效地生產(chǎn)數(shù)據(jù),高效的生產(chǎn)意味著避免重復(fù)生產(chǎn)并確保數(shù)據(jù)的質(zhì)量。在這個過程中,技術(shù)人員需要積累經(jīng)驗并進行沉淀,技術(shù)本身應(yīng)有沉淀。
第三,我們擁有完善的數(shù)據(jù)體系后,要向各個業(yè)務(wù)和應(yīng)用場景提供便利的數(shù)據(jù)服務(wù)。目前已經(jīng)形成了獨具特色的大數(shù)據(jù)產(chǎn)品能力。也就是說,今天我們不僅要談?wù)撈脚_和方法,我們需要將這些東西集成到一個產(chǎn)品中,集中于一個平臺上,以承載整個實踐過的最佳方法論,我們把它稱為“One Data”。
現(xiàn)在One Data方法論已產(chǎn)品化,即智能數(shù)據(jù)建設(shè)與治理Dataphin。
四、Dataphin智能數(shù)據(jù)建設(shè)與治理
Dataphin平臺的數(shù)據(jù)架構(gòu)分為四個方面,包括數(shù)據(jù)采集、數(shù)據(jù)構(gòu)建、數(shù)據(jù)管理和數(shù)據(jù)使用。
首先,Dataphin的數(shù)據(jù)集成能力,將各個業(yè)務(wù)系統(tǒng)數(shù)據(jù)收集到統(tǒng)一數(shù)據(jù)平臺,并提供數(shù)據(jù)構(gòu)建能力,包括數(shù)據(jù)組織規(guī)劃、定義、開發(fā)和標(biāo)簽提取。此過程中,還有很多輔助工具,如任務(wù)調(diào)度、運維和發(fā)布管理。
完成數(shù)據(jù)構(gòu)建后,就需要數(shù)據(jù)管理能力,包括數(shù)據(jù)標(biāo)準(zhǔn)、質(zhì)量、安全和資源消耗管理。為了確保數(shù)據(jù)能夠被消費者使用,Dataphin還提供數(shù)據(jù)資產(chǎn)運營能力,如數(shù)據(jù)資產(chǎn)目錄服務(wù)、數(shù)據(jù)資產(chǎn)上架服務(wù)、服務(wù)監(jiān)控以及在線查詢服務(wù)和API服務(wù)。
最后是數(shù)據(jù)消費能力,Dataphin可以與各個業(yè)務(wù)系統(tǒng)交互,同時也可以提供給Quick BI等報表展示工具和CDP引擎等廣告投放和營銷服務(wù)。
1、Dataphin 的核心的能力
Dataphin 的核心的能力主要是分成以下幾塊:
(1)數(shù)據(jù)引入:全域數(shù)據(jù)可集成
Dataphin支持像Oracle、SAP等的HandleFTP,包括許多API方式來接入這些數(shù)據(jù)。同時,在數(shù)據(jù)導(dǎo)入過程中,我們可以輕松清洗和轉(zhuǎn)換數(shù)據(jù),并將其輸出到數(shù)據(jù)中心,同時還能夠?qū)⑻幚砗玫臄?shù)據(jù)提供給外部用戶以更好地服務(wù)。
(2)數(shù)據(jù)規(guī)范定義:100% 消除二義性
數(shù)據(jù)規(guī)范定義是One Model最核心的規(guī)范之一。規(guī)范由阿里巴巴首創(chuàng),很多數(shù)據(jù)平臺也在使用。規(guī)范會將數(shù)據(jù)在宏觀層面上分為數(shù)據(jù)板塊、主題域、業(yè)務(wù)實體、業(yè)務(wù)活動和業(yè)務(wù)對象。首先對數(shù)據(jù)板塊進行劃分,然后在板塊下進行主題域的劃分,再對主題域下的業(yè)務(wù)實體進行分析。
業(yè)務(wù)實體分為兩種類型。完成概念模型后,我們就會得到邏輯模型,在這個模型中,我們會識別每一個實體的屬性,并將其形成概念模型。
舉個例子,我們業(yè)務(wù)對象中的“客戶”,客戶會有姓名、年齡等屬性。當(dāng)我們列出實體的所有屬性時,這些內(nèi)容就構(gòu)成了我們的邏輯模型,或者是邏輯表。在邏輯表上,我們可以定義原子指標(biāo)業(yè)務(wù)限定。
原子指標(biāo)指的是最小的、無法拆分的統(tǒng)計算子,例如銷售金額、支付金額等。業(yè)務(wù)限定是為了確定范圍,例如男性銷售金額、大額銷售金額等。這兩者都是定義在邏輯模型之上的。派生指標(biāo)是指我們分析指標(biāo)時所使用的,具有業(yè)務(wù)意義的指標(biāo)。所有指標(biāo)都可以拆分成四個基本部分,第一個是時間周期,例如最近30天的買家在無線端的預(yù)付金額就是一個有業(yè)務(wù)意義的指標(biāo)。
Dataphin能夠判斷每個原子指標(biāo)和業(yè)務(wù)線的定義是否與現(xiàn)有的定義重復(fù),確保消除二義性。通過將所有內(nèi)容拆分成最小的粒度,可以幫助用戶更好地理解和組織其數(shù)據(jù)建設(shè)體系,以及規(guī)范模型的建設(shè)。
(3)設(shè)計即開發(fā):保障數(shù)據(jù)模型與代碼的一致性
① 分鐘級自動化代碼生成
當(dāng)用戶定義完成原子指標(biāo)和業(yè)務(wù)限定后,需在界面上選擇統(tǒng)計周期、統(tǒng)計粒度和原子指標(biāo),并確認(rèn)業(yè)務(wù)限定。系統(tǒng)會自動為用戶生成該指標(biāo)的計算代碼,用戶無需干預(yù),只需站在業(yè)務(wù)角度選擇所需指標(biāo)。系統(tǒng)即可完成所有后臺代碼生成,實現(xiàn)設(shè)計即開發(fā)。
② 標(biāo)簽萃取更需要快速簡單融入業(yè)務(wù)經(jīng)驗
除了進行模型和標(biāo)準(zhǔn)建設(shè),我們還面向業(yè)務(wù)開發(fā)標(biāo)簽等服務(wù)。目前,以 RTC 為例,主要應(yīng)用場景是在營銷領(lǐng)域。為了為客戶提供更完整的營銷方案,我們會將 Dataphin 和Quick Audience兩個產(chǎn)品進行整合。
Dataphin將行為偏好標(biāo)簽、行為統(tǒng)計標(biāo)簽和靜態(tài)屬性標(biāo)簽整合在一個標(biāo)簽平臺中進行管理。同時,我們也與外部CDP平臺進行打通,包括我們內(nèi)部的Quick Audience平臺,以便將這些數(shù)據(jù)推送給CDP平臺,從而進行廣告投放和其他營銷活動。
2、數(shù)據(jù)資產(chǎn)管理:標(biāo)準(zhǔn)、質(zhì)量、安全、資源
然后除了這個模型的建設(shè)以及標(biāo)簽的建設(shè)之外, Dataphin還提供了一個叫做資產(chǎn)的管理,我們資產(chǎn)的管理是叫做 360°全鏈路的數(shù)據(jù)洞察和管理。
首先,Dataphin提供的能力之一是數(shù)據(jù)標(biāo)準(zhǔn)化。我們可以接入國家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)以及企業(yè)自定義的標(biāo)準(zhǔn),并提供標(biāo)準(zhǔn)管理、類目維護、碼表和詞根等通用標(biāo)準(zhǔn)的能力。
第二,根據(jù)標(biāo)準(zhǔn)或用戶自定義來定義一些質(zhì)量規(guī)則。對于數(shù)據(jù)表,我們可以設(shè)置字段空值校驗、唯一值校驗、波動性監(jiān)測和字段比對等多種質(zhì)量規(guī)則。
同時,Dataphin還具備數(shù)據(jù)安全能力,包括數(shù)據(jù)分類分級、脫敏和加密,并可提供可信的數(shù)據(jù)交換和交易。
最后,數(shù)據(jù)治理功能可以控制計算、存儲資源消耗和成本,幫助用戶更好地管理和治理數(shù)據(jù)資產(chǎn)。
3、主題式服務(wù)
除了數(shù)據(jù)采集和管理工具之外,我們還提供面向數(shù)據(jù)消費者的主題化服務(wù)。這項服務(wù)不僅支持通過搜索方式進行查詢,還提供API及與其他工具的集成支持,讓用戶可以更加方便地利用我們的數(shù)據(jù)資源。由于我們并非完全基于物理表,而是擁有自己的數(shù)據(jù)模型,因此用戶不再需要直接查詢物理表、了解其表結(jié)構(gòu)以及表與表之間的關(guān)聯(lián),僅需在邏輯模型上使用數(shù)據(jù)即可。
如某知名零售品牌企業(yè),通過Dataphin進行系統(tǒng)化建設(shè)、規(guī)劃數(shù)據(jù)方案,設(shè)計包括會員、商品交易和營銷相關(guān)的零售板塊用戶主題,集成企業(yè)的營銷、財務(wù)、CRM和ERP數(shù)據(jù)系統(tǒng),通過提取,處理接近200TB數(shù)據(jù),建立企業(yè)統(tǒng)一的用戶數(shù)據(jù)平臺,支持采購、供應(yīng)鏈、運營和營銷優(yōu)化。
除了零售行業(yè),Dataphin在工業(yè)制造、金融、傳媒、地產(chǎn)、互聯(lián)網(wǎng)等各領(lǐng)域都有深度應(yīng)用。
更多Dataphin能力介紹及企業(yè)應(yīng)用實踐可查看白皮書《構(gòu)建企業(yè)級“好數(shù)據(jù)”,Dataphin智能數(shù)據(jù)建設(shè)與治理》
產(chǎn)品了解:https://www.lydaas.com/dataphin。