大道至簡(jiǎn)的數(shù)據(jù)治理方法論
數(shù)據(jù)分析師的角色猶如一位大廚,原料有問(wèn)題,大廚肯定烹飪不出色香味俱佳的大菜,數(shù)據(jù)有問(wèn)題,數(shù)據(jù)分析師得出的結(jié)論自然也就不可靠。
如果你是一位大廚,剛剛眉飛色舞地給客人描繪了如何搭配一道色香味俱佳的大菜,甚至連炒菜的手法都一一交代了,當(dāng)你備好了各種為這道菜增鮮增色的調(diào)料后準(zhǔn)備烹飪時(shí),才發(fā)現(xiàn)所需的主要原料有問(wèn)題。
數(shù)據(jù)分析師的角色猶如一位大廚,原料有問(wèn)題,大廚肯定烹飪不出色香味俱佳的大菜,數(shù)據(jù)有問(wèn)題,數(shù)據(jù)分析師得出的結(jié)論自然也就不可靠,再好的數(shù)據(jù)分析方法論也只是建立在失真的數(shù)據(jù)基礎(chǔ)上,苦心構(gòu)建的數(shù)據(jù)體系當(dāng)然也被白白浪費(fèi)了。
過(guò)往的項(xiàng)目中,筆者也時(shí)常遇到這樣的情況,客戶(hù)用永洪科技的產(chǎn)品做了一些精美專(zhuān)業(yè)的數(shù)據(jù)報(bào)告,卻因數(shù)據(jù)不準(zhǔn)而影響了報(bào)告的使用價(jià)值。
前兩篇文章筆者分別探討了面對(duì)數(shù)據(jù)指標(biāo)如何分析,以及如何構(gòu)建系統(tǒng)化的數(shù)據(jù)體系,本文是“數(shù)據(jù)化運(yùn)營(yíng)方法論系列”文章的第三篇,重點(diǎn)探討的核心話(huà)題是——數(shù)據(jù)治理。
備注:
***篇《大道至簡(jiǎn)的數(shù)據(jù)分析方法論》鏈接http://yonghongtech.com/html/news/company/2016/0129/460.html
第二篇《大道至簡(jiǎn)的數(shù)據(jù)體系構(gòu)建方法論》鏈接http://yonghongtech.com/html/news/media/2016/0308/466.html
數(shù)據(jù)治理是一項(xiàng)基礎(chǔ)工作,在很多人眼中是一項(xiàng)苦活兒累活兒,但是越是這樣的工作越是不能忽視,基礎(chǔ)打扎實(shí)了,上層建筑才會(huì)更穩(wěn)固。
下面,筆者先從臟數(shù)據(jù)的種類(lèi)及處理方法談起。
臟數(shù)據(jù)的種類(lèi)及處理方法
首先,我們來(lái)了解一下臟數(shù)據(jù)的種類(lèi),明白我們可能會(huì)面對(duì)哪些問(wèn)題。
1 數(shù)據(jù)缺失:缺一些記錄,或者一條記錄里缺一些值(空值),或者兩者都缺。原因可能有很多種,系統(tǒng)導(dǎo)致的或人為導(dǎo)致的可能性都存在。如果有空值,為了不影響分析的準(zhǔn)確性,要么不將空值納入分析范圍,要么進(jìn)行補(bǔ)值。前者會(huì)減少分析的樣本量,后者需要根據(jù)分析的計(jì)算邏輯,選擇用平均數(shù)、零、或者等比例隨機(jī)數(shù)等來(lái)填補(bǔ)。如果是缺一些記錄,若業(yè)務(wù)系統(tǒng)中還有這些記錄,則通過(guò)系統(tǒng)再次導(dǎo)入,若業(yè)務(wù)系統(tǒng)也沒(méi)有這些記錄了,只能手工補(bǔ)錄或者放棄。
2 數(shù)據(jù)重復(fù):相同的記錄出現(xiàn)多條,這種情況相對(duì)好處理,去掉重復(fù)記錄即可。但是怕就怕不完全重復(fù),比如兩條會(huì)員記錄,其余值都一樣,就是住址不一樣,這就麻煩了,有時(shí)間屬性的還能判斷以新值為準(zhǔn),沒(méi)有時(shí)間屬性的就無(wú)從下手了,只能人工判斷處理。
3 數(shù)據(jù)錯(cuò)誤:數(shù)據(jù)沒(méi)有嚴(yán)格按照規(guī)范記錄。比如異常值,價(jià)格區(qū)間明明是100以?xún)?nèi),偏偏有價(jià)格=200的記錄;比如格式錯(cuò)誤,日期格式錄成了字符串;比如數(shù)據(jù)不統(tǒng)一,有的記錄叫北京,有的叫BJ,有的叫beijing。對(duì)于異常值,可以通過(guò)區(qū)間限定來(lái)發(fā)現(xiàn)并排除;對(duì)于格式錯(cuò)誤,需要從系統(tǒng)級(jí)別找原因;對(duì)于數(shù)據(jù)不統(tǒng)一,系統(tǒng)無(wú)能為力,因?yàn)樗⒉皇钦嬲?ldquo;錯(cuò)誤”,系統(tǒng)并不知道BJ和beijing是同一事物,只能人工干預(yù),做一張清洗規(guī)則表,給出匹配關(guān)系,***列是原始值,第二列是清洗值,用規(guī)則表去關(guān)聯(lián)原始表,用清洗值做分析,再好一些的通過(guò)近似值算法自動(dòng)發(fā)現(xiàn)可能不統(tǒng)一的數(shù)據(jù)。
4 數(shù)據(jù)不可用:數(shù)據(jù)正確,但不可用。比如地址寫(xiě)成“北京海淀中關(guān)村”,想分析“區(qū)”級(jí)別的區(qū)域時(shí)還要把“海淀”拆出來(lái)才能用。這種情況***從源頭解決,即數(shù)據(jù)治理。事后補(bǔ)救只能通過(guò)關(guān)鍵詞匹配,且不一定能全部解決。
BI對(duì)數(shù)據(jù)的要求
接下來(lái),我們了解一下BI對(duì)數(shù)據(jù)的要求,結(jié)合上面臟數(shù)據(jù)的種類(lèi),中間的規(guī)避手段就是數(shù)據(jù)治理。
1 結(jié)構(gòu)化:數(shù)據(jù)必須是結(jié)構(gòu)化的。這可能是句廢話(huà),如果數(shù)據(jù)是大段的文本,比如微博,那就不能用BI做量化的分析,而是用分詞技術(shù)做語(yǔ)義的分析,比如常說(shuō)的輿情分析。語(yǔ)義分析不像BI的量化分析一樣***計(jì)算準(zhǔn)確,而是有概率的,人的語(yǔ)言千變?nèi)f化,人自己都不能保證完全理解到位,系統(tǒng)就更不可能了,只能盡可能提高準(zhǔn)確率。
2 規(guī)范性:數(shù)據(jù)足夠規(guī)范。這么說(shuō)比較含糊,簡(jiǎn)單來(lái)講就是解決了上述各類(lèi)臟數(shù)據(jù)的問(wèn)題,把所有臟數(shù)據(jù)洗成“干凈數(shù)據(jù)”。
3 可關(guān)聯(lián):如果想將兩個(gè)維度/指標(biāo)做關(guān)聯(lián)分析,這兩個(gè)維度/指標(biāo)必須能關(guān)聯(lián)上,要么在同一張表里,要么在兩張有可關(guān)聯(lián)字段的表里。
數(shù)據(jù)治理的原則
前面講了臟數(shù)據(jù)的處理方法,但那些都是治標(biāo)不治本的應(yīng)對(duì)方法,且需要長(zhǎng)期耗費(fèi)大量時(shí)間和人力來(lái)做這種痛苦的工作。要想從根本上改善臟數(shù)據(jù)的問(wèn)題,還是需要做好數(shù)據(jù)治理的規(guī)范工作。
簡(jiǎn)單來(lái)講,數(shù)據(jù)治理就是要約束輸入,規(guī)范輸出。
1 約束輸入:你永遠(yuǎn)想不到用戶(hù)會(huì)輸入哪些值,所以別給用戶(hù)太多發(fā)揮的空間,做好約束工作。該用戶(hù)填寫(xiě)的,系統(tǒng)必須設(shè)置為“必填”;值有固定選項(xiàng)的,一定用列表讓用戶(hù)選,別再手工輸入;系統(tǒng)在錄入提交時(shí)就做好檢查,格式不對(duì),值不在正常范圍內(nèi),直接報(bào)錯(cuò)的情況必須讓用戶(hù)重新輸入;設(shè)計(jì)錄入表單時(shí)盡量原子化字段,比如上面說(shuō)的地址,設(shè)計(jì)時(shí)就分成國(guó)家、省、市、區(qū)、詳細(xì)地址等多個(gè)字段,避免事后拆分;錄入數(shù)據(jù)保存的數(shù)據(jù)表也盡量統(tǒng)一,不要產(chǎn)生有大量相同數(shù)據(jù)的表,造成數(shù)據(jù)重復(fù)隱患。
2 規(guī)范輸出:老板看不同人做的報(bào)表,同一個(gè)“收益率”指標(biāo),每張報(bào)表的值都不一樣,老板的內(nèi)心一定是崩潰的,不知該罵誰(shuí),只能全罵。排除計(jì)算錯(cuò)誤的情況,一般都是統(tǒng)計(jì)口徑不一致造成的。所以要統(tǒng)一語(yǔ)義,做一個(gè)公司級(jí)別的語(yǔ)義字典(不是數(shù)據(jù)庫(kù)的數(shù)據(jù)字典)。所有給人看的報(bào)告上的指標(biāo)名稱(chēng),都要在語(yǔ)義字典中備案,語(yǔ)義字典明確定義其統(tǒng)計(jì)口徑和含義。不同統(tǒng)計(jì)口徑的指標(biāo)必須用不同的名詞。如果發(fā)現(xiàn)一個(gè)詞已經(jīng)在語(yǔ)義字典中有了,就必須走流程申請(qǐng)注冊(cè)一個(gè)新詞到語(yǔ)義字典。
數(shù)據(jù)治理的落地
臟數(shù)據(jù)的處理需要ETL工具,語(yǔ)義字典不一定要借助于系統(tǒng)。事實(shí)上,由于這類(lèi)系統(tǒng)過(guò)于復(fù)雜,國(guó)內(nèi)鮮見(jiàn)實(shí)施成功的案例,用Excel加制度就能達(dá)到很好的效果。
關(guān)于落地推廣策略,說(shuō)來(lái)也簡(jiǎn)單,老大拍板說(shuō)必須實(shí)行,再用優(yōu)先話(huà)語(yǔ)權(quán)吸引一個(gè)部門(mén)試點(diǎn),再橫向擴(kuò)展。哪個(gè)部門(mén)先落地,哪個(gè)部門(mén)就能按***自己習(xí)慣的用詞來(lái)命名指標(biāo),相當(dāng)于占坑。后面的部門(mén)都要遵從前人的標(biāo)準(zhǔn),重名但意義不同的指標(biāo)需要另外找詞兒命名。這樣就不怕沒(méi)人積極主動(dòng)。
以上,就是精煉版的數(shù)據(jù)治理方法論。大家都知道這是個(gè)苦活,但是筆者還要提醒的是,越晚動(dòng)手越苦。有了經(jīng)驗(yàn)以后,做新業(yè)務(wù)系統(tǒng)設(shè)計(jì)時(shí),大家就可以充分考慮數(shù)據(jù)治理的規(guī)范了。
作者敬告:
由于時(shí)間關(guān)系和水平有限,文中或有不妥之處還請(qǐng)讀者多多諒解。如果希望一起探討數(shù)據(jù)分析方法論和數(shù)據(jù)體系構(gòu)建方法論等相關(guān)話(huà)題,歡迎讀者通過(guò)tylerwang@yonghongtech.com或微信號(hào)tyler_wangtong與本文作者永洪科技副總裁王桐取得聯(lián)絡(luò)(轉(zhuǎn)載文章請(qǐng)務(wù)必注明出處并附帶這段作者信息)。