從0到1,聊聊貨拉拉如何搭建數(shù)據(jù)指標(biāo)體系
一、背景
指標(biāo)體系是指一系列維度、有組織及結(jié)構(gòu)的指標(biāo)集合。構(gòu)建指標(biāo)體系主要是為公司業(yè)務(wù)目標(biāo)落地做輔助決策,以及監(jiān)控業(yè)務(wù)運行的穩(wěn)定性情況等。
具體從業(yè)務(wù)、技術(shù)及產(chǎn)品三個視角來闡述指標(biāo)體系構(gòu)建中的痛點:
1. 業(yè)務(wù)視角:
- 可信任性:業(yè)務(wù)口徑不一致,導(dǎo)致指標(biāo)數(shù)據(jù)不一致,影響到業(yè)務(wù)部門對數(shù)據(jù)的信任感;
- 可理解性:業(yè)務(wù)術(shù)語不一致,導(dǎo)致不同人對業(yè)務(wù)的理解不一致,從而導(dǎo)致數(shù)據(jù)存在略微的差異,增加溝通成本;
- 可衡量性:指標(biāo)與業(yè)務(wù)的真實相關(guān)程度,能否準(zhǔn)確衡量業(yè)務(wù)的變化,指導(dǎo)目標(biāo)的達(dá)成;
- 可追溯性:隨著業(yè)務(wù)的發(fā)展,業(yè)務(wù)及數(shù)據(jù)口徑的變更歷史較難回溯。
2. 技術(shù)視角
- 數(shù)據(jù)穩(wěn)定性:數(shù)據(jù)的產(chǎn)出是否穩(wěn)定及時;
- 數(shù)據(jù)質(zhì)量:數(shù)據(jù)是否準(zhǔn)確,完整、一致。
3. 產(chǎn)品視角
- 可訪問性:數(shù)據(jù)是否易于訪問;
- 合規(guī)性:使用是否安全合規(guī),如何防止數(shù)據(jù)泄漏的風(fēng)險等。
二、指標(biāo)體系構(gòu)建
1. 指標(biāo)設(shè)計
針對上述痛點,我們從以下三個方面去解決:
- 解決業(yè)務(wù)痛點:在指標(biāo)設(shè)計時首先選取核心業(yè)務(wù)成體系化的來搭建指標(biāo)體系,并將整個建設(shè)流程標(biāo)準(zhǔn)化。
- 解決技術(shù)痛點:將數(shù)據(jù)研發(fā)流程規(guī)范化,把握好數(shù)據(jù)模型的業(yè)務(wù)擴展性及 ETL 的性能問題,并做好數(shù)據(jù)鏈路及質(zhì)量監(jiān)控。
- 解決產(chǎn)品痛點:將建設(shè)的元數(shù)據(jù)產(chǎn)品化,數(shù)據(jù)的使用做到服務(wù)化。
對于建設(shè)范圍:先聚焦核心業(yè)務(wù),快速將核心業(yè)務(wù)的指標(biāo)體系搭建出來并落地應(yīng)用,然后再迭代優(yōu)化。切忌刻意地追求指標(biāo)的業(yè)務(wù)覆蓋面,避免導(dǎo)致需求范圍過大,實現(xiàn)周期太長,導(dǎo)致指標(biāo)的應(yīng)用落地嚴(yán)重延期。整個核心構(gòu)建過程如上圖中所示,目標(biāo)是圍繞賦能業(yè)務(wù)去設(shè)計指標(biāo)。
2. 指標(biāo)體系搭建
下面以貨拉拉為例,簡單介紹指標(biāo)體系搭建的思路(例子與實際業(yè)務(wù)不一定相符,僅供參考):
- 首先公司會制定業(yè)務(wù)的主要目標(biāo),然后依據(jù)參與人的業(yè)務(wù)軌跡梳理核心的業(yè)務(wù)過程;
- 然后拆解負(fù)責(zé)各個核心業(yè)務(wù)的相關(guān)部門的具體目標(biāo),接著業(yè)務(wù)部門依此制定落地的方案或策略;
- 最后為了指導(dǎo)目標(biāo)達(dá)成,再梳理各業(yè)務(wù)具體的衡量指標(biāo)。
3. 指標(biāo)維度拆解
上圖中列出了指標(biāo)及維度拆解中的一些經(jīng)典原則及常用數(shù)據(jù)模型。這里強調(diào)兩點:
- 遵循 MECE原則,尤其是在底層數(shù)據(jù)模型的設(shè)計過程中,最好將維度和指標(biāo)拆解地互斥且不交叉,這樣有利于保證上層應(yīng)用層維度及指標(biāo)組合的靈活性、同時也有利于提升復(fù)用率、降低整體的計算及研發(fā)成本;具體的拆分方法參考如上圖所示,二(多)分法、流程法等。
- 需要深入理解各核心業(yè)務(wù)場景的常用數(shù)據(jù)分析模型(比如上圖中 AARRR 等模型),結(jié)合自己公司的業(yè)務(wù)特點,選取合適的業(yè)務(wù)數(shù)據(jù)模型來搭建部門內(nèi)部的指標(biāo)體系。
三、指標(biāo)標(biāo)準(zhǔn)化建設(shè)
指標(biāo)體系建設(shè)的標(biāo)準(zhǔn)化流程可以參考以上流程圖,重點強調(diào)的內(nèi)容有以下兩點:
- 數(shù)據(jù)需求準(zhǔn)入評審:為了解決業(yè)務(wù)口徑描述不一致、業(yè)務(wù)口徑轉(zhuǎn)換為數(shù)據(jù)口徑的質(zhì)量問題,一定要成立一個指標(biāo)評審組織,至少由業(yè)務(wù)方、數(shù)據(jù)分析人員、數(shù)倉研發(fā)人員這三部分組成,此項工作人力投入價值最大,直接影響后續(xù)數(shù)據(jù)研發(fā)的效率、交付質(zhì)量及是否返工修復(fù)數(shù)據(jù)口徑等工作量。
- 數(shù)據(jù)研發(fā)的標(biāo)準(zhǔn)化:為了數(shù)據(jù)模型設(shè)計工作的高質(zhì)量開展,需要梳理好數(shù)據(jù)口徑;核心工作內(nèi)容是數(shù)據(jù)的維度及指標(biāo)梳理,落地為指標(biāo)維度矩陣,再進(jìn)一步拆解到事實層(DWD)的維度及原子指標(biāo),這樣可以更準(zhǔn)確地評估后續(xù)數(shù)據(jù)研發(fā)的工作量。
指標(biāo)體系建設(shè)過程中數(shù)據(jù)研發(fā)的工作重點:依據(jù)數(shù)倉的架構(gòu)主要集中在匯總層各業(yè)務(wù)主題域的指標(biāo)維度事實表的建設(shè)落地,其次是集市層,面向業(yè)務(wù)的多賬期、跨業(yè)務(wù)主題域、衍生指標(biāo)的建設(shè)工作等。
四、指標(biāo)元數(shù)據(jù)管理
指標(biāo)建設(shè)完成后,則需要進(jìn)行指標(biāo)元數(shù)據(jù)管理,主要有四部分內(nèi)容:
- 首先管理好指標(biāo)建設(shè)流程;前期可以先采用 SOP 等文檔落地,后續(xù)再產(chǎn)品化。
- 其次管理好數(shù)據(jù)模型,包括偏向技術(shù)的物理模型和偏向業(yè)務(wù)的邏輯模型。
- 然后管理好指標(biāo)及維度的元數(shù)據(jù)信息,包括業(yè)務(wù)數(shù)據(jù)域、業(yè)務(wù)口徑、數(shù)據(jù)口徑、血緣關(guān)系等。
- 最后將數(shù)據(jù)封裝成服務(wù),并將業(yè)務(wù)應(yīng)用方的使用和調(diào)用信息登記管理起來,以便后期的服務(wù)穩(wěn)定性分級管理及指標(biāo)體系建設(shè)的業(yè)務(wù)收益回收等。
對于指標(biāo)元數(shù)據(jù)管理方面,介紹以下三個相關(guān)定義:
- 數(shù)據(jù)需求=時間+維度+指標(biāo)
- 指標(biāo)=時間+修飾詞+原子指標(biāo)
- 維度=通用維度+個性化的業(yè)務(wù)維度
因此對應(yīng)的具體管理內(nèi)容主要是如上圖所示的三部分元數(shù)據(jù)的管理,修飾詞管理、指標(biāo)管理和維度管理。
五、指標(biāo)應(yīng)用&未來發(fā)展
對于指標(biāo)體系的主要應(yīng)用場景包括:業(yè)務(wù)報表和看板、特定的業(yè)務(wù)數(shù)據(jù)產(chǎn)品等,另外實際已落地的新場景是:結(jié)合 AI 大模型通過自然語言快速取數(shù),具體框架如上圖所示。
具體應(yīng)用場景功能設(shè)計上,對于衍生指標(biāo),即基礎(chǔ)指標(biāo)的四則運算、派生及衍生維度,關(guān)聯(lián)父子維度,或者簡單關(guān)聯(lián)轉(zhuǎn)化的維度,我們都是通過元數(shù)據(jù)配置來實現(xiàn)的,這樣極大提高了數(shù)據(jù)應(yīng)用的靈活性,并大大降低了數(shù)據(jù)及后端數(shù)據(jù)接口服務(wù)研發(fā)的成本,同時提高了需求響應(yīng)的及時性。
對于指標(biāo)體系應(yīng)用在未來的熱門發(fā)展方向主要體現(xiàn)在通過自然語言快速取數(shù)、歸因診斷及智能運營這三個方面:
- 自然語言快速取數(shù)及簡單可視化,在貨拉拉已經(jīng)接近落地,相關(guān)云廠商或者頭部互聯(lián)網(wǎng)公司也基本都有相關(guān)產(chǎn)品。這個場景的主要挑戰(zhàn)是如何降低錯誤率,個人理解在這個場景中可以拒答,但是不能給出錯誤數(shù)據(jù)。
- 診斷歸因,則處于探索逐步落地階段,前期主要先基于業(yè)務(wù)部門的分析經(jīng)驗來配置歸因的邏輯來實現(xiàn),后續(xù)再探索如何讓大模型通過對行業(yè)業(yè)務(wù)的理解學(xué)習(xí),結(jié)合數(shù)理統(tǒng)計分析算法來自主歸因。
- 智能運營場景,為了提高運營效率,進(jìn)一步對 AI 大模型提出了更高的定制化能力要求。傳統(tǒng)運營早已深入各行業(yè)公司的具體業(yè)務(wù),主要是基于個人經(jīng)驗和歷史沉淀的經(jīng)驗知識等,因此需要更深入理解行業(yè)及公司業(yè)務(wù)的運營知識。同時由于涉及到具體的運營策略及業(yè)務(wù)數(shù)據(jù),對于這部分的數(shù)據(jù)安全性也是一個挑戰(zhàn)。為了這個場景能更好地落地及推廣,還要求相關(guān)產(chǎn)品能具備通用化且安全的行業(yè)知識學(xué)習(xí)及更新能力,并最好將大模型行業(yè)知識的學(xué)習(xí)流程產(chǎn)品化,降低大家的學(xué)習(xí)使用成本,在保證運營效果的同時,大大減少公司的運營人力投入成本。