自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

滴滴為啥值3600億?看它的數(shù)據(jù)中臺就知道了

運維 數(shù)據(jù)庫運維 中臺
前年阿里開始講數(shù)據(jù)中臺業(yè)務(wù),去年以來這個概念很火直到最近。我在阿里待了 10 年的時間,也參與了中臺建設(shè),今天想跟大家分享一下背后的邏輯,還有我在滴滴的實踐,以及中臺本質(zhì)的問題是什么。

前年阿里開始講數(shù)據(jù)中臺業(yè)務(wù),去年以來這個概念很火直到最近。我在阿里待了 10 年的時間,也參與了中臺建設(shè),今天想跟大家分享一下背后的邏輯,還有我在滴滴的實踐,以及中臺本質(zhì)的問題是什么。

[[285357]]

圖片來自 Pexels

本文主要圍繞如下幾個部分展開:

  • 滴滴數(shù)據(jù)中臺發(fā)展
  • 滴滴精益數(shù)據(jù)管理體系
  • 滴滴數(shù)據(jù)系統(tǒng)組成
  • 中臺是買不來的

任何一個中臺,不管是技術(shù)中臺、AI 中臺,本質(zhì)上為了更好支撐業(yè)務(wù),讓業(yè)務(wù)能夠更好的去把用戶價值做出來。

從技術(shù)角度來講創(chuàng)造價值的核心就是兩點:

  • 保證穩(wěn)定且持續(xù)的研發(fā)生產(chǎn),持續(xù)輸出既有價值。
  • 在生產(chǎn)過程中去找到可以改進的地方,找到新的創(chuàng)新點,創(chuàng)造更大的新價值。

滴滴數(shù)據(jù)中臺發(fā)展

看幾組數(shù)據(jù),這幾組數(shù)據(jù)看起來挺大的,但目的不是為了吹牛逼,目的是為了講這個東西。

其實滴滴也好,阿里巴巴也好,這些大公司數(shù)據(jù)都經(jīng)歷了四個階段,每個階段有不同的挑戰(zhàn),相信在座的同學(xué)不同公司也處于不同的階段,或者說有可能也走到了這四個階段的下一次循環(huán)。

業(yè)務(wù)發(fā)展驅(qū)動數(shù)據(jù)進化

 

①業(yè)務(wù)信息化

其實滴滴很幸運,正好趕上了移動互聯(lián)網(wǎng)那一波,把個人的位置信息進行信息化了,同時智能手機價格急劇下降,從四五千到幾百塊錢,任何一個群體都能買到智能手機,最大的核心變革是什么?

你的位置與狀態(tài)隨時隨地都在線,這就是完成了第一個核心業(yè)務(wù)的信息化,滴滴趕上了這波一飛沖天。

②信息數(shù)據(jù)化

第二波當業(yè)務(wù)構(gòu)建起來各個地方有數(shù)據(jù)被記錄下來,如果 10 多年前有同學(xué)在做數(shù)據(jù),當時肯定會去跟 DBA 吵,你這個數(shù)據(jù)量太大了,DBA 肯定會說:你刪數(shù)據(jù)吧。

因為以前很多的數(shù)據(jù)是存在數(shù)據(jù)庫里面的,而從 2006 年開始從記錄事務(wù)本身到記錄過程。

這個背后的核心是什么?背后是邏輯范式的變化,因為有了互聯(lián)網(wǎng)?;ヂ?lián)網(wǎng)之前所有的交流、互動其實是中心節(jié)點下面有很多小節(jié)點單獨跟他溝通。

比如說我去和銀行辦業(yè)務(wù),我去打電話給某一個人都是這樣子的,最多一對 N,互相之間是沒有別的互動,去銀行辦各種業(yè)務(wù),顧客間是沒有互動的。

但是有了互聯(lián)網(wǎng)之后,所有的節(jié)點之間是可以被連通的,所有的節(jié)點是可以被連接的,所有的信息從記錄的節(jié)點上變成了這個信息是記錄到邊上,這種范式變成了什么呢?

數(shù)據(jù)的量巨大膨脹,這個時候面臨最大的問題是算不動存不了,包括我們在講很多的實時計算也是一樣的道理。

隨著我們的業(yè)務(wù)發(fā)展、人是需要實時進行反饋,那就意味著實時計算需要的計算能力和存儲能力變成更大的問題,當信息變成數(shù)據(jù)化之后一定會有這樣的情況。

當有更多的數(shù)據(jù)被記錄下來的時候,數(shù)據(jù)不再僅僅是 BI,意味著每個人開始去用數(shù)據(jù),每個人用的數(shù)據(jù)很有可能自己產(chǎn)生的結(jié)果,同時是別人的輸入。

這個時候就意味著一張公司里的數(shù)據(jù)網(wǎng)開始在編制起來,或者說最簡單的數(shù)據(jù)鏈條在編制起來。

這個時候會出現(xiàn)很多扯皮的事情了,上游說自己解決自己問題,數(shù)據(jù)的問題是自己用的,為什么要給你用?

你依賴我的數(shù)據(jù)就依賴,出問題我不負責(zé)。被依賴很多上游說要改一個東西,下游說不能改,你改了,所有的代碼也得改。

上游說不改怎么行呢,上面的業(yè)務(wù)要變。這個時候數(shù)據(jù)用的越多,扯皮事情就越來越多,為什么會扯皮呢?

不是大家有什么問題,而是公司里面沒有數(shù)據(jù)的文化,我們核心判斷這件事情誰對誰錯的價值觀,背后唯一判斷標準是什么呢?

很多公司是沒有的,因為數(shù)據(jù)越多,產(chǎn)生出來的各種扯皮就出現(xiàn)了。

③數(shù)據(jù)資產(chǎn)化

這樣就到第三個階段,每個地方都有大量的數(shù)據(jù),每個業(yè)務(wù)都在消費大量的數(shù)據(jù)。

廣告業(yè)務(wù)、運營、財務(wù)、現(xiàn)在還有越來越多的算法、人工智能,各個地方都在用數(shù)據(jù),每個部門都有數(shù)據(jù),每個部門都有自己的數(shù)據(jù)團隊,這個時候開始煙囪林立。

有些時候數(shù)據(jù)在一個地方用的好,可能在別的地方用的不好。當年在阿里的時候,2012 年左右的時候最大的問題,怎么把消費者的數(shù)據(jù)打通。

因為不同的業(yè)務(wù)環(huán)節(jié)里面同一個消費者 ID 可能都不一樣,到滴滴后來也面臨同樣的問題,快車、順風(fēng)車、出租車快速的發(fā)展,從來沒有考慮過數(shù)據(jù)打通問題。

每個部門都覺得數(shù)據(jù)是自己的私產(chǎn),我對這個數(shù)據(jù)質(zhì)量保證只為自己負責(zé)。數(shù)據(jù)資產(chǎn)從公司角度來講它是沒有被盤點的,只在點上產(chǎn)生價值。

在滴滴我們是面臨強監(jiān)管的公司,可能在別的公司大家沒有受到這么強的監(jiān)管。

所以數(shù)據(jù)本身的安全合規(guī)對于我們講是非常重要的事情,還好 2017 年加入到滴滴,對這件事情的重視程度比較高,第一個解決了隱私數(shù)據(jù)的處理,第二個數(shù)據(jù)分級管控,第三個數(shù)據(jù)的安全打標,還有關(guān)鍵的權(quán)限管理。

最近我跑的公司也比較多,發(fā)現(xiàn)做一些互聯(lián)網(wǎng)金融類的公司內(nèi)部的數(shù)據(jù)都沒有做權(quán)限管理,這是非??植赖囊患虑椤?/p>

第三個一定得有對應(yīng)的安全合規(guī)管控,這樣公司才能走的長久,不然數(shù)據(jù)做的越大,很有可能就成為公司歸零的大風(fēng)險。

第三個是數(shù)據(jù)資產(chǎn)面臨一個問題,可能這個資產(chǎn)在很久之前很多咨詢公司會講一個東西叫做數(shù)據(jù)治理。

包括像最近的 G20 各個政府的首腦也提到這個問題,數(shù)據(jù)越來越重要,數(shù)據(jù)需要流動起來才能產(chǎn)生價值,如果不把它標準化好,數(shù)據(jù)的價值是很難打通的。

但是我們可以發(fā)現(xiàn)很多的企業(yè)去做數(shù)據(jù)治理的時候,這個項目都是無疾而終,或者做了項目很好,但是用著用著這個數(shù)據(jù)又不行了,不得不過一段時間又提一個大項目勞民傷財去做這件事情,背后本質(zhì)上的問題是什么呢?

為什么數(shù)據(jù)治理這件事情這么困難,投入這么大資金去做,但是產(chǎn)出卻很少,而且數(shù)據(jù)是越治一會兒又難用了,能不能讓這個數(shù)據(jù)越用越好用呢?我們發(fā)現(xiàn)背后還是一些本質(zhì)上的東西去用的。

我們都在講用大數(shù)據(jù)去賦能別人,大數(shù)據(jù)去做廣告,大數(shù)據(jù)去賦能 AI,讓 AI 更高效解決各種問題。

但我們有沒有想過我們用數(shù)據(jù)能治理自己本身呢?這也是我們當時的思考。

我們重要核心問題在數(shù)據(jù)資產(chǎn)化這個階段要解決兩個問題:

  • 數(shù)據(jù)質(zhì)量混亂的問題。
  • 高投入低產(chǎn)出問題,我好像做了標準化的事情,做了治理的事情,好像不太管用。

最后,當數(shù)據(jù)梳理通順了,這個資產(chǎn)在公司里面流動起來,大概在 2018 年左右滴滴所有的數(shù)據(jù)在內(nèi)部都是開放的。

當然是分等級的,需要走相應(yīng)的合規(guī)申請流程,每一個人經(jīng)過相應(yīng)的安全申請都能獲得所有的數(shù)據(jù),相應(yīng)的合規(guī)數(shù)據(jù)都能做查詢、分析,甚至做研發(fā)。

④資產(chǎn)變現(xiàn)化

這樣的情況我們作用到第四個階段,怎么樣把數(shù)據(jù)的價值最大化?怎么樣變現(xiàn)?

現(xiàn)在我們來看一下主要三個方面:

一個是賦能人,讓數(shù)據(jù)的門檻下降,讓每一個人都能把數(shù)據(jù)用起來,這是我們背后非常難的理念。

在座各位很多都在做各種各樣數(shù)據(jù)產(chǎn)品,有的是面向于工程師,有的面向分析師,但我們希望是整個數(shù)據(jù)平臺體系能讓公司所有的人在他需要的時候把數(shù)據(jù)用起來,把數(shù)據(jù)做到平民化。

第二個現(xiàn)在越來越多系統(tǒng)應(yīng)用是數(shù)據(jù)密集型的,再往下一步走是數(shù)據(jù)智能化的,需要有算法、規(guī)則、數(shù)據(jù)來反饋這樣的應(yīng)用系統(tǒng),數(shù)據(jù)必須把它服務(wù)化,去和前臺的業(yè)務(wù)集成打通。

第三個滴滴是一個非常依賴數(shù)據(jù)的公司,后面我會講為什么,絕大部分業(yè)務(wù)是靠算法來去驅(qū)動的。

所以算法需要的大量特征本質(zhì)上就是來源于中臺數(shù)據(jù)再次加工,怎么能夠更好賦能 AI?這也是變現(xiàn)里面第三個難題。

滴滴究竟在數(shù)據(jù)方面和傳統(tǒng)的互聯(lián)網(wǎng)或者說 BATJ 這樣的公司有什么樣的不同?

左邊這個圖是工業(yè)領(lǐng)域常用的東西叫做資源投入和業(yè)務(wù)價值產(chǎn)出的微笑曲線,當一個公司在兩頭進行投入,同樣投入產(chǎn)出會更高,公司在研發(fā)、實驗、營銷、運營。

其實,前面的很多同學(xué)分享都提到這一點,我們?nèi)プ鰻I銷投入一塊錢到工程師那兒,我們能通過廣告收回來多少錢。

即便沒有廣告平臺,投入到自己的營銷上面拉了更多新客也會賺更多的錢,投入到研發(fā)也會讓產(chǎn)品競爭力更高,賺更多的錢。

但滴滴有點不一樣,我們除了在研發(fā)實驗投入資源產(chǎn)出的效益很高之外,我們在營銷領(lǐng)域產(chǎn)出并不高,我們更多是要把它投入到生產(chǎn)領(lǐng)域。

在日本精益思想里面,他們說了日本企業(yè)和中國企業(yè)最大的區(qū)別是什么?中國企業(yè)只知道在微笑的兩端引進新技術(shù)獲得增長,但不知道把中間這塊進行更好的管理,把微笑曲線變成武藏曲線。

這是一家日本企業(yè)都能活的很好很久的原因,他們把曲線拉的更平,從研發(fā)、實驗、生產(chǎn)、運營、營銷各個環(huán)節(jié)都能做到很好的競爭力。

為什么滴滴微笑曲線會是這樣呢?任何一家大型互聯(lián)網(wǎng)公司本質(zhì)上是這兩個商業(yè)模型的內(nèi)核雙輪驅(qū)動,網(wǎng)絡(luò)效應(yīng)和數(shù)據(jù)智能。

而且往往是網(wǎng)絡(luò)效應(yīng)是大于數(shù)據(jù)智能,但是滴滴卻是反著的,本身這個平臺沒有太大的網(wǎng)絡(luò)效應(yīng),乘客與乘客之間是不互動的,司機與司機也是不互動的。

司機和乘客之間的連接是靠當時的時刻和那個時間節(jié)點上空間正好能匹配,系統(tǒng)硬拉在一起的。

我們沒有太多的網(wǎng)絡(luò)效應(yīng),我們只有規(guī)模效應(yīng),乘客越多可能會吸引司機一下,司機說你這兒好拉活。

司機越多可能會吸引乘客一下,這塊我打車的概率也高一點,但本質(zhì)上這個護城河很低。

我們在這兒是沒有商業(yè)模式護城河,唯一一個護城河是來自于數(shù)據(jù)智能,怎么樣通過更好的算法找到更好的匹配,怎么去做供需的預(yù)測,怎么去做調(diào)度,怎么去做時間的分配,怎么去鼓勵司機在什么樣的情況下往哪個方向去。

我們在每一個出行環(huán)節(jié)里面我們都需要用數(shù)據(jù)進去結(jié)合起相應(yīng)的算法,把這個效率做到最高。

所以從這個角度來講在滴滴去做數(shù)據(jù)平臺或者做數(shù)據(jù)中后臺工作壓力非常大的。因為整個公司的護城河是依賴數(shù)據(jù)的,網(wǎng)絡(luò)效應(yīng)在我們這兒是大大縮小。

中臺數(shù)據(jù)體系建設(shè)的核心困難

我們再看一下為什么在滴滴中臺數(shù)據(jù)體系建設(shè)這么困難?數(shù)據(jù)其實是要在兩條價值線上去發(fā)揮價值。

第一個每天日常生產(chǎn)價值線,每天業(yè)務(wù)要保障正常運轉(zhuǎn),要從一個狀態(tài)變到另一個狀態(tài),用戶進來要從一個業(yè)務(wù)做完,要穩(wěn)定的生產(chǎn),讓我們客戶能打到車,這里面很多的算法通過數(shù)據(jù),生產(chǎn)加工到最后產(chǎn)生價值。

這里面隨時隨地在提三個詞,質(zhì)量、效率、成本,因為我們沒有大規(guī)模的網(wǎng)絡(luò)效應(yīng),我們依賴網(wǎng)絡(luò)效應(yīng)去做創(chuàng)新的空間沒有那么大,我們只能在各個業(yè)務(wù)的環(huán)節(jié),用數(shù)據(jù)去發(fā)現(xiàn)這樣的效率增加的地方,或者在里面去做模式的挖掘。

這樣對于數(shù)據(jù)來去驅(qū)動創(chuàng)新的壓力更大了,我們可能不像抖音,或者是說不像淘寶,我們可以做一個消費者靠主觀感受發(fā)現(xiàn)有哪些模式可以把網(wǎng)絡(luò)效應(yīng)激發(fā)出來。

對于我們來講必須用數(shù)據(jù)看整個滴滴出行網(wǎng)絡(luò)里面有些什么樣的模式,有些什么樣的問題,有些什么樣關(guān)聯(lián)的情況能夠被我們發(fā)現(xiàn)出來,有哪些 idea 去做實驗,一堆篩選以后找到一個真正產(chǎn)生正價值的 idea。

每個這樣的想法要通過大量的數(shù)據(jù)分析、數(shù)據(jù)驅(qū)動的方式,才能最終融入到數(shù)據(jù)生產(chǎn)價值線來。這個時候?qū)τ跀?shù)據(jù)平臺團隊來講意味著很糾結(jié)了,一條線要求穩(wěn)定。

另外一條線要求數(shù)據(jù)質(zhì)量高情況下還要快速,必須得盡快把相應(yīng)的數(shù)據(jù)支援到我,你希望把很多沒有穩(wěn)定下的數(shù)據(jù)業(yè)務(wù)背后的數(shù)據(jù)支援到我,這是非常困難的一件事情。

因為滴滴把競爭力放在了數(shù)據(jù)智能這塊,意味著我們是互聯(lián)企業(yè)里面對于數(shù)據(jù)場景使用最多的一個企業(yè)了。

總結(jié)了一下大概有 13 個主要數(shù)據(jù)使用場景,從最簡單的看報表、臨時分析、做對比,再去做相應(yīng)的聚類分析,再去做模式挖掘,再去做算法、人工智能驅(qū)動,每一個環(huán)節(jié)需要大量的數(shù)據(jù)和平臺支撐它。

另外,用的場景越多,涉及到的鏈路越復(fù)雜,這個背后代表的是團隊,大家知道了人多了就有江湖,有了江湖很多事情就很麻煩,組織上我們會面臨巨大的困難。

兩個不同的目標,這么多的場景,這么多的組織在一起,這時我們需要支撐 6 個最大業(yè)務(wù)場景的人員,數(shù)據(jù)工程人員,業(yè)務(wù)分析的人員,產(chǎn)品研發(fā)的人員,數(shù)據(jù)科學(xué)的人員,人工智能,其實背后還有一個財務(wù)。

每個人的訴求都不一樣,每個人在數(shù)據(jù)鏈條的環(huán)節(jié)都不一樣,他們每一個人的能量也不一樣,所以做一個數(shù)據(jù)平臺團隊是如履薄冰,我們面臨非常大的困難。

我們怎么來解呢?因為滴滴和車有關(guān)系,我們背后是這么復(fù)雜的,這條鏈是穩(wěn)定的高質(zhì)量數(shù)據(jù)交付,在整個全世界的生產(chǎn)制造環(huán)節(jié)里面,什么樣的鏈式制造在哪個行業(yè)里面最復(fù)雜、最穩(wěn)定的呢?

是汽車制造行業(yè)。在這里面做的最好的是豐田,我們就借鑒了豐田精益制造的理念,以它為基礎(chǔ)變成了我們精益數(shù)據(jù)的管理體系。

首先我們定義目標,我們究竟做數(shù)據(jù)平臺的目的是什么,是要處理更多的數(shù)據(jù),還是要算的更快,還是說出各種各樣很好看的報表。

我們認為最核心的是高價值、高可靠、高效率、低成本、少浪費的做數(shù)據(jù)服務(wù)的交付。

我們不一定做應(yīng)用,不一定自己去拿到很好的業(yè)務(wù)效果,但是我們關(guān)鍵是要把數(shù)據(jù)賦能業(yè)務(wù)的同學(xué),把數(shù)據(jù)的價值交付出去。

基于這樣的目標,我們認為最關(guān)鍵的點首先要有文化,不然組織間的摩擦?xí)泻艽蟆?/p>

這個東西也是和滴滴高層管理一起往下推,從廟堂和江湖之間一起去發(fā)力。

關(guān)鍵的兩個:一個是持續(xù)改進,我們認為數(shù)據(jù)平臺、數(shù)據(jù)體系或者數(shù)據(jù)中臺不是一天能夠建成的,也不是一個大項目做了數(shù)據(jù)治理,做了數(shù)據(jù)資產(chǎn)管理,這事就完事了。

很多企業(yè),尤其是傳統(tǒng)產(chǎn)業(yè)企業(yè)領(lǐng)導(dǎo)覺得數(shù)據(jù)這件事情交給 CIO 或者數(shù)據(jù)平臺的領(lǐng)導(dǎo)者就好了,把這個數(shù)據(jù)弄好,后面就好了,其實不是這樣子的。

數(shù)據(jù)是跟著業(yè)務(wù)在發(fā)展和生產(chǎn)的,必須得持續(xù)改進才能跟上業(yè)務(wù)的節(jié)奏。

數(shù)據(jù)本質(zhì)上背后是人,人用數(shù)據(jù),人開發(fā)的 AI 用數(shù)據(jù),我們必須得尊重人,尊重人是什么樣的意思?

尊重人的創(chuàng)意,我們應(yīng)該讓每一個人都有機會平等用上數(shù)據(jù),所以要把這個門檻降到最低。

第二個數(shù)據(jù)的鏈路里面涉及到的方方面面各種各樣的人,我們一定要讓每一個鏈路中的人意識到,你做的任何一件事情都有可能會影響到上游或者下游,那核心價值觀是不要給別人添麻煩,客戶第一。

以這個為基礎(chǔ)的價值觀遇到很多問題的時候,我們就回到這樣的初心,再來看怎么做持續(xù)改進。

滴滴精益數(shù)據(jù)管理體系

 

基于這樣的數(shù)據(jù)文化,我們?nèi)プ隽司娴臄?shù)據(jù)生產(chǎn)的體系,我們把它總結(jié)為以價值鏈來拉動。

在滴滴梳理出來了將近 2000 多條數(shù)據(jù)生產(chǎn)的鏈條一路,從數(shù)據(jù)的采集再到數(shù)據(jù)的使用,經(jīng)過這樣的梳理來判斷哪些數(shù)據(jù)產(chǎn)生的價值更大,哪些數(shù)據(jù)的影響面更廣。

基于這樣的數(shù)據(jù)價值鏈我們就做了下面相應(yīng)的工作,很多是像豐田生產(chǎn)流水線學(xué)習(xí)的。

第一個是分級,我們認為不可能把所有的數(shù)據(jù)問題用所有的精力解決掉,這也是不現(xiàn)實的,或者這個是浪費。

精益里面最關(guān)鍵一點是減少浪費,把所有的東西用同樣的方式做同樣的處理,所以第一個分級,對數(shù)據(jù)做了 T1、T2、T3 的分級。

第二個監(jiān)控,我們必須實時知道這個數(shù)據(jù)在怎么被加工處理,進入的情況是什么樣的,產(chǎn)出的情況是什么樣的,加工處理過程中間的產(chǎn)出各種日志是什么樣的。

在《管理》那本書里要提到要控制好任何一個生產(chǎn)線的質(zhì)量,最關(guān)鍵的就是持續(xù)統(tǒng)計管理。在生產(chǎn)過程中任何數(shù)據(jù)都被統(tǒng)計下來,來發(fā)現(xiàn)這里面的問題。

第三個復(fù)盤,有了監(jiān)控之后知道系統(tǒng)里面會出現(xiàn)哪些問題、變化,每一個這樣的異常、變化和問題都會有一個小組召開相應(yīng)的復(fù)盤。

從 2017 年 4 月份到 2019 年 1 月份做了 150 多次的復(fù)盤,復(fù)盤率超過了 89%,相應(yīng)每一次復(fù)盤對于系統(tǒng)的改進都是巨大的。

最后把復(fù)盤得到的從人員、流程、系統(tǒng)上得到改進的方案,通過系統(tǒng)的方式把它給沉淀下來。

我們認為只有通過自動化的方式,才能真正的去落地規(guī)范,才能真正落地文化和流程。

所以說在自動里面用了一個日文字,我們認為這個“働”,不僅僅是要流程串在一起,有一個程序讓它跑起來就行了,這里面需要人參與的。

人在這里面持續(xù)迭代更新它,人是最聰明的,以及現(xiàn)在人還可以做出人工智能來替它更高效優(yōu)化。

另外一條支柱我們有了穩(wěn)定的數(shù)據(jù)生產(chǎn)鏈,我們有方法可以讓它持續(xù)穩(wěn)定下來之后,另外開始著手建立數(shù)據(jù)創(chuàng)新的體系。

我們從哪兒去借鑒呢?這 20 多年來敏捷的軟件開發(fā)就在我們身邊,我們完完全全可以借鑒這套,包括從五年前開始火起來的 DevOps。

我認為是數(shù)據(jù)體系需要認認真真去學(xué)習(xí)這個方法論,而不是有些時候過于強調(diào)數(shù)據(jù)工程的獨特性。

我們把數(shù)據(jù)工程很多處理的方式歸結(jié)為 ETL 模型,但是隨著現(xiàn)在越來越多的應(yīng)用隨著數(shù)據(jù)驅(qū)動,大家現(xiàn)在看到數(shù)據(jù)實時計算平臺非?;馃?,本質(zhì)上是前臺的業(yè)務(wù)需要數(shù)據(jù)實時反饋來驅(qū)動它。

也就是說,大量的數(shù)據(jù)工程本身就應(yīng)該是和業(yè)務(wù)的應(yīng)用,用一套方法論體系,一套軟件工程體系去構(gòu)建。

這樣才能讓一個公司的軟件開發(fā)人員能夠更快速的去交付相應(yīng)的軟件價值,不然一個公司里面會越來越臃腫。

從這個角度來講我們?nèi)フJ認真真把軟件工程去看了一遍,創(chuàng)新要容忍混亂,混亂來自什么?

或者換句話說叫活力,活力來自于連接,連接越多活力越大,所以我們構(gòu)建一個創(chuàng)新網(wǎng),把整個數(shù)據(jù)平臺采集到的各種各樣數(shù)據(jù),以及數(shù)據(jù)在加工處理過程中,以及數(shù)據(jù)流動處理過程中間再次沉淀下來的數(shù)據(jù),我們都把它記錄下來,以及產(chǎn)生這個數(shù)據(jù)的物和人,也記錄下來,從而形成了背后數(shù)據(jù)的知識圖譜。

我們知道這個數(shù)據(jù)從哪兒來到哪兒去,被什么人來使用,使用的過程是什么樣的,使用的反饋是什么樣的,使用完之后沉淀下來的感悟是什么樣的,比如說分析方法論是什么樣的,數(shù)據(jù)工程師使用這個數(shù)據(jù)發(fā)現(xiàn)的問題是什么?

我們把這些東西都沉淀下來,并且和內(nèi)部的效能工具做打通,和運維數(shù)據(jù)做打通,和財務(wù)系統(tǒng)做打通,去和各種各樣的流程審批系統(tǒng)做打通,這樣構(gòu)建了數(shù)據(jù)創(chuàng)新的網(wǎng)絡(luò)。

我們再把相應(yīng)的用戶群進行分層,我們認為一部分人是直接用數(shù)據(jù)的,所以說把這個定義成用結(jié)果,這里面就是傳統(tǒng)的報表體系。

我們?yōu)榱税褕蟊淼臇|西做到更敏捷,我們做了一個什么事呢?我們發(fā)現(xiàn)公司很多的用戶不需要把它做的太漂亮,尤其是一線員工,更多是看數(shù)據(jù)來反饋前幾天的系統(tǒng)和系統(tǒng)上實時操作的結(jié)果是什么樣子的。

其實有自己的辦法去做相應(yīng)的可視化分析,我們把很多的報表再做了簡化,我們認為不用發(fā)很多可視化報表,就把它數(shù)據(jù)模板化就好了,并且給他一定的靈活性,第二步自配置。

我們現(xiàn)在每天可以產(chǎn)生 600 多個分析的小模板,來自于各個業(yè)務(wù)方向,復(fù)盤、實驗、測試,大家可以想到背后什么,每一個一線業(yè)務(wù)同學(xué),不管是產(chǎn)品還是運營,都在用數(shù)據(jù)驅(qū)動它做任何改進的事情,滴滴的創(chuàng)新就這樣起來。

第三個模仿做,這里面代表的思想是什么?一切皆代碼,很多情況下你要模仿別人做一個東西,你看花花綠綠的東西,你不知道背后的東西是什么,其實是很難模仿的。

我們盡可能在數(shù)據(jù)分析這一塊,把數(shù)據(jù)背后分析的代碼都開放給用戶。比如說我看到這樣的數(shù)據(jù)結(jié)果,我會讓它找到背后分析的代碼是什么,我看到這個報表,我會告訴他背后分析的 DSL 是什么。

這樣一些高階的用戶基于代碼更快速的理解背后的邏輯是什么,進一步模仿可以去做。

這樣會讓我們很多中低階的同學(xué),在這塊技能不是那么豐富的同學(xué)可以做一些偏高階的工作,降低成本,提升效率。

最后自主化,我們通過對于前面精益數(shù)據(jù)生產(chǎn)鏈路,去徹底打通數(shù)據(jù)從采集、加工、預(yù)處理、分析和系統(tǒng)對接再到服務(wù)化,我們打通了整個流程環(huán)節(jié),任何一個稍微懂一點數(shù)據(jù)的同學(xué),就能完成從數(shù)據(jù)的接入,再到數(shù)據(jù)的處理。

這樣不會有很多的數(shù)據(jù)門檻,不需要一個同學(xué)要去做分析的時候,要去做數(shù)據(jù)探索的時候,需要有相應(yīng)的工程師同學(xué)去配合他,才能完成相應(yīng)的動作。

基于這樣的方法論,我們就去開發(fā)數(shù)據(jù)系統(tǒng)的工具鏈,這個工具鏈要達到前面的分級監(jiān)控、復(fù)盤和自動化,要去能夠讓大家各個層面上方便降門檻去用數(shù)據(jù)。

在這里面產(chǎn)品設(shè)計秉承核心的方法論,第一個數(shù)據(jù)要越用越好用,要把數(shù)據(jù)引入到產(chǎn)品設(shè)計中驅(qū)動產(chǎn)品設(shè)計的優(yōu)化。

第二個目標是讓盡可能多的人能夠把數(shù)據(jù)用起來,所以數(shù)據(jù)工具之間必須去做強打通,讓每一個人都能完成數(shù)據(jù)處理工作,這是產(chǎn)品設(shè)計的核心方法論,我們還通過相應(yīng)的指標體系來去衡量是否在往這個方向去發(fā)展。

數(shù)據(jù)基礎(chǔ)設(shè)施,還是基于開源的體系來去做?;谶@樣的方式做了兩年,2017 年 4 月份加入到滴滴,第二天就出了很大的故障。

從那個時候開始一直到年底基本上每周兩次,每天晚上被短信吵起來很多次,我下面的幾十號兄弟每天都得起來好幾次。

滴滴數(shù)據(jù)系統(tǒng)組成

我們有了這套東西我們持續(xù)改正之后,從用戶價值來講每個 Q 都會做 NPS 調(diào)研,打 8 分、9 分、10 分的人減去打 1 分、2 分的人,打 5、6 分的人我們不認為他滿意。

這個是非??量痰模芏喙竞芏喈a(chǎn)品 NPS 能做到 30% 是不錯了,從 2017 年的 4 月份 19% 還詬病比較多的,到最近的一次調(diào)研做到 60%。

在相應(yīng)的數(shù)據(jù)生產(chǎn)這一塊,事故從一年十幾次其實是二十次到去年可能只發(fā)生了一次。

我們核心的數(shù)據(jù)產(chǎn)出時間最晚的處理時間已經(jīng)提前到了 5 點,我們把所有數(shù)據(jù)采集的生產(chǎn)鏈路實時化,根據(jù)后面的用戶需要來選擇究竟是實時還是準實時,還是小時,還是按天。

另外,我們創(chuàng)新體系里面有一個衡量的指標,我們的同事每天都在問很多問題,這些代表在思考解決很多新問題,可能在組合很多情況去解決復(fù)雜問題,我們認為這都在做微創(chuàng)新,從兩天任務(wù)變到了 2 萬個,有了十倍的增加。

為了把這兩套體系連接起來,發(fā)揮更大的作用,我們構(gòu)建的智能數(shù)據(jù)目錄,相當于每周會有 20% 的員工在高頻的使用。

相當于 20% 的員工在去找公司里面有哪些數(shù)據(jù)可以幫助到他做各種各樣業(yè)務(wù)的問題,目前也在系統(tǒng)性對外進行輸出。

另外,敏捷的數(shù)據(jù)治理,很多時候是數(shù)據(jù)治好一段時間,然后又壞,怎么能夠讓它好用起來呢?第一個必須得全面量化,第二個改變思路。

以前的思路是我的數(shù)據(jù)治理目標數(shù)據(jù)質(zhì)量好,我們想數(shù)據(jù)質(zhì)量好的本質(zhì)是什么?

能夠把數(shù)據(jù)用起來,我們認為所有的數(shù)據(jù)治理目標是讓更多人把數(shù)據(jù)用起來,能夠用起來的第一點是量化,數(shù)據(jù)怎么在被使用。

我們把整個數(shù)據(jù)體系里面的任何數(shù)據(jù)存儲引擎,數(shù)據(jù)分析的產(chǎn)品,用戶的日志都記錄下來。

我們希望對用戶行為進行相應(yīng)的結(jié)構(gòu)化,我們來看用戶在怎么用這些數(shù)據(jù),我們在看數(shù)據(jù)依賴關(guān)系是什么,哪些數(shù)據(jù)是高價值的,哪些數(shù)據(jù)是低價值的,哪些數(shù)據(jù)是影響面寬的,我們形成了幾百萬個節(jié)點,將近 4 億條邊的數(shù)據(jù)圖譜。

基于這樣的圖譜,借鑒了 Google 的 PageRank 算法,我們來計算出來哪些數(shù)據(jù)價值高,哪些數(shù)據(jù)的影響面廣。

我們做了一些對比,通過專家做這個評測,我們發(fā)現(xiàn)用算法算出來的,基本上和專家的打分是一致的,所以很快應(yīng)用到生產(chǎn)體系里面去。

我們用這種東西來衡量治理的效果是什么樣的,實時監(jiān)控,每天都產(chǎn)出這樣的情況來,從 2018 年初 40 分到現(xiàn)在 70 分,我們整體的數(shù)據(jù)使用處于持續(xù)好轉(zhuǎn)的階段,現(xiàn)在應(yīng)該說還比較不錯。

因為我對數(shù)據(jù)進行量化,我知道哪些是高價值的數(shù)據(jù),高影響的數(shù)據(jù),我們發(fā)現(xiàn)非常有趣的現(xiàn)象,10% 的數(shù)據(jù)支撐了公司 90% 的業(yè)務(wù)和使用。

所以我們只需投入更少的資源去解決那 10% 的數(shù)據(jù)治理問題,我們可以讓這些資源每天盯著,10% 的數(shù)據(jù)量。

我們可以通過全面的量化做到重點的攻關(guān)和突破,而其他的 90% 使用眾包和 AI。

我們有了知識圖譜之后可以構(gòu)建各種各樣的算法來提示大家或者驅(qū)動大家做什么樣的優(yōu)化,舉一個最簡單的例子,我們通過解析,發(fā)現(xiàn)大量數(shù)據(jù)處理的模式。

我們把這些都推給了相應(yīng)的數(shù)據(jù)工程師,他們拿到這個東西之后可以快速做相應(yīng)的改進。

這樣讓我們的數(shù)據(jù)倉庫又能快速的響應(yīng)需求的同時,上面各種各樣業(yè)務(wù)創(chuàng)新人員去做數(shù)據(jù)查詢,性能也得到更好的提升。

最后數(shù)據(jù)的文化,我們一年多的時間將近兩年做了 150 次的復(fù)盤,每一次復(fù)盤都落地到從流程、人員到系統(tǒng),都有詳細的改進計劃,我們成立了專門全鏈路的小組來去跟進,每一塊必須得落地到位。

基于這樣整體的建設(shè),我們整個中臺用戶使用的活躍度,從兩年前的 1700 人到 5000+ 人,現(xiàn)在數(shù)據(jù)最新是 5400 左右。

相當于滴滴 49% 的員工一周會用一次數(shù)據(jù),這在整個行業(yè)里面相當高的,我們做了一些調(diào)研,但不是特別全面,發(fā)現(xiàn)這個數(shù)據(jù)大概在 20-25%。

基于這樣的方法論,我們系統(tǒng)這樣去搭建的,這個和阿里的數(shù)據(jù)中臺的組成部分或者網(wǎng)易數(shù)據(jù)中臺組成部分很類似。

核心還是前面方法論,我想說的東西是什么呢?這個東西就像武器,先進的武器大家是可以買得來的,可能花錢買或者雇人能夠造的出來,各種各樣的經(jīng)驗大家也能夠借鑒。

但是一支能打勝仗的隊伍,只有本國的軍隊、自己的軍事理論,再加上持續(xù)的訓(xùn)練和實戰(zhàn)才能錘煉出來,勝利不是靠買來的。

這些只是你需要的武器而已,你需要公司的文化、公司組織、公司業(yè)務(wù)來去靈活制定數(shù)據(jù)體系的方法論,才能拿到相應(yīng)的結(jié)果。

這就是我們產(chǎn)品做出來的情況,這是智能的數(shù)據(jù)目錄,讓數(shù)據(jù)越用越好用的方式。

所有的數(shù)據(jù)資產(chǎn)在這兒都能通過檢索的方式做到,基本上這樣的數(shù)據(jù)還能做推薦,把它變成相應(yīng)的數(shù)據(jù)支持實體,做及時的溝通,還能評價,還能 diss 你,很多同學(xué)也能點贊。

讓數(shù)據(jù)持續(xù)可靠,從最開始怎么做好技術(shù)質(zhì)量,再到怎么找到相應(yīng)的數(shù)據(jù),再到最后更簡單的去使用數(shù)據(jù)。數(shù)據(jù)的服務(wù)化,數(shù)據(jù)能夠持續(xù)被人依賴,被服務(wù)依賴。

實時數(shù)據(jù)的集成,我沒有把它寫成數(shù)據(jù)的實時計算,我認為更多是把數(shù)據(jù)集成,把集成好的數(shù)據(jù)交付給更多的前臺業(yè)務(wù)應(yīng)用去使用。

監(jiān)控其實是里面價值最低的,更多是怎么能夠驅(qū)動前臺實時響應(yīng)類的應(yīng)用,來給用戶發(fā)揮價值。

 

這是運營輕量級分析的流程,就像剛剛提到的從兩年前的 2000 次再到現(xiàn)在的 2 萬次。

這是數(shù)據(jù)可能今后發(fā)揮價值最大的地方,去賦能 AI。通過建立好數(shù)據(jù)中臺服務(wù)層,再把它演變成對應(yīng)的特征層,來驅(qū)動出這樣強化學(xué)習(xí)的營銷體系。

中臺是買不來的

最后想講的感悟,數(shù)據(jù)中臺不是買來的,也不是簡單地把數(shù)據(jù)相應(yīng)的模塊系統(tǒng)放在公司里面搭建起來就 OK 的。

它其實是尊重公司內(nèi)部的客觀經(jīng)濟規(guī)律,包括公司的文化、組織、人員、業(yè)務(wù)模式管理和治理的結(jié)果。

其實更多的是需要大家用同樣的價值觀面向長期用戶價值合理的分工,以及基于分工下合理的協(xié)同,怎么去梳理出價值鏈?怎么梳理出創(chuàng)新網(wǎng)?

本質(zhì)上做這樣的事情,所以說到最后中臺其實是組織和體系建設(shè)的一個成果,背后是靠大數(shù)據(jù)技術(shù)和系統(tǒng)來做支撐。

[[285359]]

作者:張茂森

張茂森,滴滴首席工程師,負責(zé)滴滴數(shù)據(jù)平臺建設(shè)和數(shù)據(jù)產(chǎn)品商業(yè)化工作。致力于企業(yè)級敏捷數(shù)據(jù)體系的落地。曾在阿里負責(zé)量子恒道店鋪分析產(chǎn)品技術(shù)架構(gòu),打造從零到 300 萬賣家的數(shù)據(jù)分析服務(wù),曾負責(zé)阿里云 dataworks 5k+ 項目整體架構(gòu)師工作。最早實現(xiàn)數(shù)據(jù)安全計算產(chǎn)品淘寶御膳房平臺,用數(shù)據(jù)賦能電商生態(tài)。

 

責(zé)任編輯:武曉燕 來源: DBAplus 社群
相關(guān)推薦

2019-12-16 16:21:10

架構(gòu)技術(shù)棧微信半月刊

2022-07-01 13:38:48

霧計算邊緣計算

2020-07-20 10:20:30

this前端代碼

2023-07-27 08:40:45

PawSQL數(shù)據(jù)庫

2019-06-05 15:20:00

MongoDBNoSQL數(shù)據(jù)庫

2018-10-31 11:41:49

Python代碼語言

2018-04-02 08:59:33

2017-12-13 12:30:33

LinuxUnix文件系統(tǒng)

2016-03-09 19:52:02

無線應(yīng)用Wi-Fi定位

2021-11-27 12:08:49

網(wǎng)絡(luò)攻擊微軟網(wǎng)絡(luò)安全

2021-08-10 23:09:55

區(qū)塊鏈數(shù)據(jù)技術(shù)

2019-05-16 08:51:22

物聯(lián)網(wǎng)獲利IOT

2022-04-02 20:28:12

Reactcotnext前端

2019-12-02 08:27:43

Dubbo高并發(fā)分布式

2023-07-26 08:22:17

JavaIO流

2022-01-17 21:13:32

Windows 10Windows微軟

2018-03-13 11:09:16

屏幕刷新率電腦

2019-08-20 13:45:01

阿里巴巴面試Java

2021-05-07 06:15:32

編程開發(fā)端口掃描

2023-05-09 13:55:08

GPT-4AI
點贊
收藏

51CTO技術(shù)棧公眾號