自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

馬蜂窩大數(shù)據(jù)架構(gòu)詳解:小白都能懂的數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)中臺(tái)

開發(fā) 架構(gòu) 大數(shù)據(jù) 數(shù)據(jù)倉(cāng)庫(kù) 中臺(tái)
最近幾年,數(shù)據(jù)中臺(tái)概念的熱度一直不減。2018 年起,馬蜂窩也開始了自己的數(shù)據(jù)中臺(tái)探索之路。數(shù)據(jù)中臺(tái)到底是什么?要不要建?和數(shù)據(jù)倉(cāng)庫(kù)有什么本質(zhì)的區(qū)別?相信很多企業(yè)都在關(guān)注這些問題。

一、馬蜂窩數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)中臺(tái)

最近幾年,數(shù)據(jù)中臺(tái)概念的熱度一直不減。2018 年起,馬蜂窩也開始了自己的數(shù)據(jù)中臺(tái)探索之路。

數(shù)據(jù)中臺(tái)到底是什么?要不要建?和數(shù)據(jù)倉(cāng)庫(kù)有什么本質(zhì)的區(qū)別?相信很多企業(yè)都在關(guān)注這些問題。

我認(rèn)為數(shù)據(jù)中臺(tái)的概念非常接近傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)+大數(shù)據(jù)平臺(tái)的結(jié)合體。它是在企業(yè)的數(shù)據(jù)建設(shè)經(jīng)歷了數(shù)據(jù)中心、數(shù)據(jù)倉(cāng)庫(kù)等積累之后,借助平臺(tái)化的思路,將數(shù)據(jù)更好地進(jìn)行整合與統(tǒng)一。

所以,數(shù)據(jù)中臺(tái)更多的是體現(xiàn)一種管理思路和架構(gòu)組織上的變革。在這樣的思想下,我們結(jié)合自身業(yè)務(wù)特點(diǎn)建設(shè)了馬蜂窩的數(shù)據(jù)中臺(tái),核心架構(gòu)如下: 

馬蜂窩大數(shù)據(jù)架構(gòu)詳解:小白都能懂的數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)中臺(tái)

在中臺(tái)建設(shè)之前,馬蜂窩已經(jīng)建立了自己的大數(shù)據(jù)平臺(tái),并積累了一些通用、組件化的工具,這些可以支撐數(shù)據(jù)中臺(tái)的快速搭建。作為中臺(tái)的另一大核心部分,馬蜂窩數(shù)據(jù)倉(cāng)庫(kù)主要承擔(dān)數(shù)據(jù)統(tǒng)一化建設(shè)的工作,包括統(tǒng)一數(shù)據(jù)模型,統(tǒng)一指標(biāo)體系等。下面介紹馬蜂窩在數(shù)據(jù)倉(cāng)庫(kù)建設(shè)方面的具體實(shí)踐。

二、數(shù)據(jù)倉(cāng)庫(kù)核心架構(gòu)

馬蜂窩數(shù)據(jù)倉(cāng)庫(kù)遵循標(biāo)準(zhǔn)的三層架構(gòu),對(duì)數(shù)據(jù)分層的定位主要采取維度模型設(shè)計(jì),不會(huì)對(duì)數(shù)據(jù)進(jìn)行抽象打散處理,更多注重業(yè)務(wù)過程數(shù)據(jù)整合。現(xiàn)有數(shù)倉(cāng)主要以離線為主,整體架構(gòu)如下:  

馬蜂窩大數(shù)據(jù)架構(gòu)詳解:小白都能懂的數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)中臺(tái)

如圖所示,共分為 3 層:業(yè)務(wù)數(shù)據(jù)層、公共數(shù)據(jù)層與應(yīng)用數(shù)據(jù)層,每層定位、目標(biāo)以及建設(shè)原則各不相同。

三、數(shù)據(jù)模型設(shè)計(jì)

3.1 方法選擇

數(shù)據(jù)模型是對(duì)現(xiàn)實(shí)世界數(shù)據(jù)特征的抽象,數(shù)據(jù)模型的設(shè)計(jì)方法就是對(duì)數(shù)據(jù)進(jìn)行歸納和概括的方法。目前業(yè)界主要的模型設(shè)計(jì)方法論有兩種,一是數(shù)據(jù)倉(cāng)庫(kù)之父 Bill Inmon 提出的范式建模方法,又叫 ER 建模,主張站在企業(yè)角度自上而下進(jìn)行數(shù)據(jù)模型構(gòu)建;二是 Ralph Kimball 大師倡導(dǎo)的維度建模方法,主張從業(yè)務(wù)需求出發(fā)自下而上構(gòu)建數(shù)據(jù)模型。

大數(shù)據(jù)環(huán)境下,業(yè)務(wù)系統(tǒng)數(shù)據(jù)體系龐雜,數(shù)據(jù)結(jié)構(gòu)多樣、變更頻繁,并且需要快速響應(yīng)各種復(fù)雜的業(yè)務(wù)需求,以上兩種傳統(tǒng)的理論都已無法滿足互聯(lián)網(wǎng)數(shù)倉(cāng)需求。

在此背景下,馬蜂窩數(shù)據(jù)倉(cāng)庫(kù)采取了「以需求驅(qū)動(dòng)為主、數(shù)據(jù)驅(qū)動(dòng)為輔」的混合模型設(shè)計(jì)方式,來根據(jù)不同的數(shù)據(jù)層次選擇模型。  

馬蜂窩大數(shù)據(jù)架構(gòu)詳解:小白都能懂的數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)中臺(tái)

3.2 設(shè)計(jì)流程

馬蜂窩數(shù)倉(cāng)模型設(shè)計(jì)的整體流程涉及需求調(diào)研、模型設(shè)計(jì)、開發(fā)測(cè)試、模型上線四個(gè)主要環(huán)節(jié),且規(guī)范設(shè)計(jì)了每個(gè)階段的輸出與輸入文檔。 

馬蜂窩大數(shù)據(jù)架構(gòu)詳解:小白都能懂的數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)中臺(tái)

3.3 主題分類

基于對(duì)目前各個(gè)部門和業(yè)務(wù)系統(tǒng)的梳理,馬蜂窩數(shù)據(jù)倉(cāng)庫(kù)共設(shè)計(jì)了 4 個(gè)大數(shù)據(jù)域(交易、流量、內(nèi)容、參與人),細(xì)分為 11 個(gè)主題: 

馬蜂窩大數(shù)據(jù)架構(gòu)詳解:小白都能懂的數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)中臺(tái)

以馬蜂窩訂單交易模型的建設(shè)為例,基于業(yè)務(wù)生產(chǎn)總線的設(shè)計(jì)是常見的模式,即首先調(diào)研訂單交易的完整過程,定位過程中的關(guān)鍵節(jié)點(diǎn),確認(rèn)各節(jié)點(diǎn)上發(fā)生的核心事實(shí)信息。模型是數(shù)據(jù)的載體,我們要做的就是通過模型(或者說模型體系)歸納生產(chǎn)總線中各個(gè)節(jié)點(diǎn)發(fā)生的事實(shí)信息。

訂單生產(chǎn)總線: 

馬蜂窩大數(shù)據(jù)架構(gòu)詳解:小白都能懂的數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)中臺(tái)

如上圖所示,我們需要提煉各節(jié)點(diǎn)的核心信息,為了避免遺漏關(guān)鍵信息,一般情況下抽象認(rèn)為節(jié)點(diǎn)的參與人、發(fā)生時(shí)間、發(fā)生事件、發(fā)生協(xié)議屬于節(jié)點(diǎn)的核心信息,需要重點(diǎn)獲取。以下單節(jié)點(diǎn)為例,參與人包括下單用戶、服務(wù)商家、平臺(tái)運(yùn)營(yíng)人員等;發(fā)生時(shí)間包括用戶的下單時(shí)間、商家的確認(rèn)時(shí)間等;發(fā)生的事件即用戶購(gòu)買了商品,需要記錄圍繞這一事件產(chǎn)生的相關(guān)信息;發(fā)生協(xié)議即產(chǎn)生的訂單,訂單金額、約定內(nèi)容等都是我們需要記錄的協(xié)議信息。

在這樣的思路下,總線架構(gòu)可以在模型中不斷添加各個(gè)節(jié)點(diǎn)的核心信息,使模型支撐的應(yīng)用范圍逐步擴(kuò)展、趨于完善。因此,對(duì)業(yè)務(wù)流程的理解程度將直接影響產(chǎn)出模型的質(zhì)量。 

馬蜂窩大數(shù)據(jù)架構(gòu)詳解:小白都能懂的數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)中臺(tái)

鑒于上述情況,在模型實(shí)現(xiàn)過程中,我們不能把各節(jié)點(diǎn)不同粒度的數(shù)據(jù)信息都堆砌在一起,那樣會(huì)產(chǎn)生大量的冗余信息,也會(huì)使模型本身的定位不清晰,影響使用。

因此,需要輸出不同粒度的模型來滿足各類應(yīng)用需求。例如既會(huì)存在訂單粒度的數(shù)據(jù)模型,也會(huì)存在分析各個(gè)訂單在不同時(shí)間節(jié)點(diǎn)狀態(tài)信息的數(shù)據(jù)模型。 

馬蜂窩大數(shù)據(jù)架構(gòu)詳解:小白都能懂的數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)中臺(tái)
馬蜂窩大數(shù)據(jù)架構(gòu)詳解:小白都能懂的數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)中臺(tái)

基于維度建模的思路,在模型整合生產(chǎn)總線各節(jié)點(diǎn)核心信息之后,會(huì)根據(jù)這些節(jié)點(diǎn)信息進(jìn)一步擴(kuò)展常用的分析維度,以減少應(yīng)用層面頻繁關(guān)聯(lián)相關(guān)分析維度帶來的資源消耗,模型會(huì)反范式冗余相關(guān)維度信息,以獲取應(yīng)用層的使用便捷。最終建立一個(gè)整合旅游、交通、酒店等各業(yè)務(wù)線與各業(yè)務(wù)節(jié)點(diǎn)信息的馬蜂窩全流程訂單模型。

四、數(shù)據(jù)倉(cāng)庫(kù)工具鏈建設(shè)

為提升數(shù)據(jù)生產(chǎn)力,馬蜂窩數(shù)據(jù)倉(cāng)庫(kù)建立了一套工具鏈,來實(shí)現(xiàn)采集、研發(fā)、管理流程的自動(dòng)化?,F(xiàn)階段比較重要的有以下三大工具:

1. 數(shù)據(jù)同步工具

同步工具主要解決兩個(gè)問題:

  • 從源系統(tǒng)同步數(shù)據(jù)到數(shù)據(jù)倉(cāng)庫(kù)
  • 將數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)同步至其他環(huán)境

下面重點(diǎn)介紹從源系統(tǒng)同步數(shù)據(jù)到數(shù)據(jù)倉(cāng)庫(kù)。

馬蜂窩的數(shù)據(jù)同步設(shè)計(jì)支撐靈活的數(shù)據(jù)接入方式,可以選擇抽取方式以及加工方式。抽取方式主要包括增量抽取或者全量抽取,加工方式面向數(shù)據(jù)的存儲(chǔ)方式,是需要對(duì)數(shù)據(jù)進(jìn)行拉鏈?zhǔn)奖4?,或者以流水日志的方式進(jìn)行存儲(chǔ)。

接入時(shí),只需要填寫數(shù)據(jù)表信息配置以及具體的字段配置信息,數(shù)據(jù)就可以自動(dòng)接入到數(shù)據(jù)倉(cāng)庫(kù),形成數(shù)倉(cāng)的 ODS 層數(shù)據(jù)模型,如下: 

馬蜂窩大數(shù)據(jù)架構(gòu)詳解:小白都能懂的數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)中臺(tái)
馬蜂窩大數(shù)據(jù)架構(gòu)詳解:小白都能懂的數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)中臺(tái)

2. 任務(wù)調(diào)度平臺(tái)

我們使用 Airflow 配合自研的任務(wù)調(diào)度系統(tǒng),不僅能支持常規(guī)的任務(wù)調(diào)度,還可以支持任務(wù)調(diào)度系統(tǒng)各類數(shù)據(jù)重跑,歷史補(bǔ)數(shù)等需求。

別小看數(shù)據(jù)重跑、歷史補(bǔ)數(shù),這兩項(xiàng)功能是在選擇調(diào)度工具中重要的參考項(xiàng)。做數(shù)據(jù)的人都清楚,在實(shí)際數(shù)據(jù)處理過程中會(huì)面臨諸多的數(shù)據(jù)口徑變化、數(shù)據(jù)異常等,需要進(jìn)行數(shù)據(jù)重跑、刷新、補(bǔ)數(shù)等操作。

我們?cè)O(shè)計(jì)的「一鍵重跑」功能,可以將相關(guān)任務(wù)依賴的后置任務(wù)全部帶出,并支持選擇性地刪除或虛擬執(zhí)行任意節(jié)點(diǎn)的任務(wù):

  • 如果選擇刪除,這該任務(wù)之后所依賴的任務(wù)均不執(zhí)行
  • 如果選擇虛擬執(zhí)行,則會(huì)忽略(空跑)掉該任務(wù),后置的所有依賴任務(wù)還是會(huì)正常執(zhí)行。

如下是基于某一個(gè)任務(wù)重跑下游所有任務(wù)所列出的關(guān)系圖,選中具體的執(zhí)行節(jié)點(diǎn),就可以執(zhí)行忽略或者刪除。 

馬蜂窩大數(shù)據(jù)架構(gòu)詳解:小白都能懂的數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)中臺(tái)

3. 元數(shù)據(jù)管理工具

元數(shù)據(jù)范疇包括技術(shù)元數(shù)據(jù)、業(yè)務(wù)元數(shù)據(jù)、管理元數(shù)據(jù),在概念上不做過多闡述了。元數(shù)據(jù)管理在數(shù)據(jù)建設(shè)起著舉足輕重的作用,這部分在數(shù)倉(cāng)應(yīng)用中主要有 2 個(gè)點(diǎn):

(1)血緣管理

  • 血緣管理可以追溯數(shù)據(jù)加工整體鏈路,解析表的來龍去脈,用于支撐各類場(chǎng)景,如:
  • 支持上游變更對(duì)下游影響的分析與調(diào)整
  • 監(jiān)控各節(jié)點(diǎn)、各鏈路任務(wù)運(yùn)行成本,效率
  • 監(jiān)控?cái)?shù)據(jù)模型的依賴數(shù)量,確認(rèn)哪些是重點(diǎn)模型

如下是某一個(gè)數(shù)據(jù)模型中的血緣圖,上下游以不同顏色進(jìn)行呈現(xiàn): 

馬蜂窩大數(shù)據(jù)架構(gòu)詳解:小白都能懂的數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)中臺(tái)

(2)數(shù)據(jù)知識(shí)管理

通過對(duì)技術(shù)、業(yè)務(wù)元數(shù)據(jù)進(jìn)行清晰、詳盡地描述,形成數(shù)據(jù)知識(shí),給數(shù)據(jù)人員提供更好的使用向?qū)?。我們的?shù)據(jù)知識(shí)主要包括實(shí)體說明與屬性說明,具體如下: 

馬蜂窩大數(shù)據(jù)架構(gòu)詳解:小白都能懂的數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)中臺(tái)
馬蜂窩大數(shù)據(jù)架構(gòu)詳解:小白都能懂的數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)中臺(tái)

五、總結(jié)

企業(yè)的數(shù)據(jù)建設(shè)需要經(jīng)歷幾個(gè)大的步驟:

  • 第一步,業(yè)務(wù)數(shù)據(jù)化:顧名思義,一切業(yè)務(wù)都能通過數(shù)據(jù)反映,主要指的是將傳統(tǒng)線下流程線上化;
  • 第二步,數(shù)據(jù)智能化:光有數(shù)據(jù)還不行,還需要足夠的智能,如何通過智能化的數(shù)據(jù)支撐運(yùn)營(yíng)、營(yíng)銷及各類業(yè)務(wù),這是數(shù)據(jù)中臺(tái)當(dāng)前解決的主要問題;
  • 第三步,數(shù)據(jù)業(yè)務(wù)化:也就是我們常說的數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù),數(shù)據(jù)不能只是數(shù)據(jù),數(shù)據(jù)價(jià)值最大化在于可以驅(qū)動(dòng)新的業(yè)務(wù)創(chuàng)新,帶動(dòng)企業(yè)增長(zhǎng)。

目前大部企業(yè)目前都停留在第二個(gè)階段,因?yàn)檫@一步需要足夠夯實(shí),才能為第三步打好基礎(chǔ),這也是為什么各大企業(yè)要投入很大成本到大數(shù)據(jù)平臺(tái)、數(shù)據(jù)倉(cāng)庫(kù)乃至數(shù)據(jù)中臺(tái)的建設(shè)中。

馬蜂窩數(shù)據(jù)中臺(tái)的建設(shè)才剛剛起步。我們認(rèn)為,理想的數(shù)據(jù)中臺(tái)需要具備數(shù)據(jù)標(biāo)準(zhǔn)化、工具組件化、組織清晰化這三個(gè)核心前提。為了向這一目標(biāo)邁進(jìn),我們將建立統(tǒng)一、標(biāo)準(zhǔn)化的數(shù)據(jù)倉(cāng)庫(kù)作為當(dāng)下數(shù)據(jù)中臺(tái)的重點(diǎn)工作之一。

數(shù)據(jù)來源于業(yè)務(wù),最終也將應(yīng)用于業(yè)務(wù)。只有對(duì)數(shù)據(jù)足夠重視,與業(yè)務(wù)充分銜接,才能實(shí)現(xiàn)數(shù)據(jù)價(jià)值的最大化。在馬蜂窩,從管理層,到公司研發(fā)、產(chǎn)品、運(yùn)營(yíng)、銷售等各角色,對(duì)數(shù)據(jù)非常重視,數(shù)據(jù)產(chǎn)品的使用人數(shù)占公司員工比例高達(dá) 75%。

大量用戶的使用,驅(qū)動(dòng)著我們?cè)跀?shù)據(jù)中臺(tái)建設(shè)的路上不斷前進(jìn)。如何將新興技術(shù)能力應(yīng)用到數(shù)據(jù)倉(cāng)庫(kù)的建設(shè),如何以有限的成本高效解決企業(yè)在數(shù)據(jù)建設(shè)中面臨的問題,將是馬蜂窩數(shù)倉(cāng)建設(shè)一直的思考。

 

責(zé)任編輯:未麗燕 來源: 帆軟軟件
相關(guān)推薦

2020-03-22 15:49:27

Kafka馬蜂窩大數(shù)據(jù)平臺(tái)

2020-01-03 09:53:36

Kafka集群優(yōu)化

2024-04-22 13:36:00

數(shù)據(jù)中臺(tái)數(shù)據(jù)倉(cāng)庫(kù)大數(shù)據(jù)

2024-09-26 17:28:49

數(shù)據(jù)飛輪數(shù)據(jù)中臺(tái)

2025-03-12 03:00:00

2019-06-11 12:19:10

ABTest分流系統(tǒng)

2024-09-25 11:14:33

2024-09-24 18:42:47

數(shù)據(jù)飛輪數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)中臺(tái)

2020-01-03 09:40:13

大數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)分層

2024-09-23 21:48:57

2024-09-24 18:39:26

數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)中臺(tái)數(shù)據(jù)飛輪

2024-10-22 09:30:00

飛輪數(shù)據(jù)算法應(yīng)用

2013-03-20 16:23:53

數(shù)據(jù)清洗

2024-09-23 19:41:17

數(shù)據(jù)技術(shù)數(shù)據(jù)中臺(tái)數(shù)據(jù)治理

2024-10-23 10:21:41

數(shù)據(jù)飛輪數(shù)據(jù)中臺(tái)

2024-09-25 13:14:04

數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)中臺(tái)數(shù)據(jù)驅(qū)動(dòng)

2014-02-12 09:22:28

大數(shù)據(jù)

2024-09-22 11:03:11

數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)飛輪

2024-09-23 21:44:56

2024-09-29 21:24:17

數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)中臺(tái)數(shù)據(jù)飛輪
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)