京東出品!寫給大家看的數(shù)據(jù)分析思路
美國(guó)前郵政部長(zhǎng),美國(guó)百貨商店之父,約翰·華納梅克(John Wanamaker)感嘆到:「我在廣告上的投資有一半是無(wú)用的,但是問(wèn)題是我不知道是哪一半」。這種類似的感嘆現(xiàn)在也經(jīng)常發(fā)生在我們身邊。
小 A 同學(xué):在項(xiàng)目結(jié)束后,拿到了項(xiàng)目數(shù)據(jù),看看自己的方案是否有帶來(lái)數(shù)據(jù)上的增長(zhǎng),但面對(duì)一堆 Excel 表里一堆密密麻麻的數(shù)字,卻不知從何下手……
小 B 同學(xué):拿到了自己花大精力投入的項(xiàng)目數(shù)據(jù),滿懷期待地想來(lái)驗(yàn)證自己在項(xiàng)目中推動(dòng)落地的好幾個(gè)方案,還把項(xiàng)目過(guò)往數(shù)據(jù)也找來(lái)進(jìn)行對(duì)比,一頓操作之后,看到整體數(shù)據(jù)上漲了,但因?yàn)橛绊懸蛩靥貏e多,具體是哪些方案產(chǎn)生了作用卻無(wú)從知曉……
我們更常遇到的情況是不知道該如何去運(yùn)用數(shù)據(jù),讓數(shù)據(jù)帶來(lái)實(shí)際上的作用。本文將圍繞實(shí)際的數(shù)據(jù)分析步驟,更細(xì)化地來(lái)講講具體是如何進(jìn)行下去的。
數(shù)據(jù)分析6步曲
數(shù)據(jù)分析主要分為 6 大步驟:構(gòu)建 X 問(wèn)題 – 提出假設(shè) & 選擇指標(biāo) – 數(shù)據(jù)采集與整理 – 數(shù)據(jù)分析 – 數(shù)據(jù)呈現(xiàn) – 提出后續(xù)建議。下文將圍繞這 6 步詳細(xì)講解每一步具體是如何做的。
1. 構(gòu)建X問(wèn)題
從本質(zhì)上來(lái)說(shuō),數(shù)據(jù)分析的最終目的在于解決問(wèn)題。帶著不同的出發(fā)點(diǎn)得到的數(shù)據(jù)結(jié)果可能會(huì)很不一樣。所以,一切分析的開(kāi)始必須要先識(shí)別要解決的重要問(wèn)題是什么,以及這個(gè)問(wèn)題為什么是最重要的。這兩個(gè)問(wèn)題將引導(dǎo)我們進(jìn)入構(gòu)建問(wèn)題的過(guò)程,也就是明確數(shù)據(jù)分析的目的。
從哪入手
有預(yù)判類的分析,可以從已有的策略方案出發(fā),尋找相應(yīng)定量衡量方法。例如,嘗試通過(guò)強(qiáng)化某促銷 A 頁(yè)面利益點(diǎn)等相關(guān)信息,從而促進(jìn)用戶購(gòu)買,此案例則可以直接預(yù)設(shè) X 問(wèn)題為:「強(qiáng)化利益信息是否可以提升轉(zhuǎn)化率」。
而無(wú)預(yù)判類(發(fā)現(xiàn)問(wèn)題或機(jī)會(huì))的分析,構(gòu)建問(wèn)題的起點(diǎn)往往是業(yè)務(wù)角度的商業(yè)目標(biāo),通過(guò)指標(biāo)拆解、經(jīng)驗(yàn)判斷、橫向?qū)Ρ?、邏輯推?dǎo)等方式來(lái)尋找有效的實(shí)現(xiàn)方式。例如,某電商促銷頁(yè)面 B 的核心目標(biāo)是「提升 GMV(銷售額)」,而 GMV=流量×轉(zhuǎn)化率×客單價(jià),就可以圍繞提升轉(zhuǎn)化率、客單價(jià)等指標(biāo)出發(fā)去尋找解決方案。
判斷是否重要
有預(yù)判類的問(wèn)題,可以直接尋找指標(biāo)評(píng)估驗(yàn)證結(jié)果可靠與否即可。
無(wú)預(yù)判類(發(fā)現(xiàn)問(wèn)題或機(jī)會(huì))的則可以通過(guò)評(píng)估該問(wèn)題解決后,能夠?qū)ψ钪匾纳虡I(yè)目標(biāo)帶來(lái)的增益會(huì)有多大。例如,上述提升 GMV 的案例中,通過(guò)橫向?qū)Ρ认嗤愴?yè)面的數(shù)據(jù),發(fā)現(xiàn)此頁(yè)面的轉(zhuǎn)化率為 1.8%,明顯低于同類頁(yè)面 4.7% 的轉(zhuǎn)化率,而流量和客單價(jià)與同類頁(yè)面基本持平,故判斷轉(zhuǎn)化率極有可能是「提升 GMV(銷售額)」的關(guān)鍵點(diǎn),所以可定義「提升轉(zhuǎn)化率的關(guān)鍵因素是什么」為此頁(yè)面數(shù)據(jù)分析的重要問(wèn)題。
定義X問(wèn)題
可以根據(jù)不同的類型用一個(gè)問(wèn)句來(lái)表達(dá),如何/哪種/是否/原因是什么等。根據(jù)經(jīng)驗(yàn),細(xì)化之后的常見(jiàn)問(wèn)題有以下幾類,每類都可以用一個(gè) X 問(wèn)題來(lái)描述。
- 實(shí)驗(yàn)驗(yàn)證類,已經(jīng)有了假設(shè)和方案,待驗(yàn)證效果,如 A\B\C 三種策略,哪種效果更有利于提升轉(zhuǎn)化率或策略 A 是否有助于提升轉(zhuǎn)化率;
- 尋找原因類,看到了某現(xiàn)象,希望尋找背后的原因,如導(dǎo)致跳失率急劇上升的原因是什么;
- 結(jié)果呈現(xiàn)類,不帶預(yù)判的呈現(xiàn)事實(shí),如通過(guò)數(shù)據(jù)呈現(xiàn)項(xiàng)目 D 的轉(zhuǎn)化與售賣情況;
- 預(yù)測(cè)類,通過(guò)尋找事物發(fā)生的規(guī)律,來(lái)預(yù)測(cè)接下來(lái)可能發(fā)生的事件,如一年之中用戶購(gòu)買美妝用品是否存在時(shí)間上的購(gòu)買規(guī)律,美妝類目運(yùn)營(yíng)可依據(jù)此規(guī)律來(lái)制定年度活動(dòng)計(jì)劃。
注意
問(wèn)題的范圍不可過(guò)于寬泛。往往要得出一個(gè)可靠且明確的結(jié)論,會(huì)需要收集數(shù)據(jù)并將數(shù)據(jù)應(yīng)用到一個(gè)可檢驗(yàn)的假設(shè)身上。如果問(wèn)題太寬泛,數(shù)據(jù)收集就會(huì)變得非常困難。舉個(gè)反例:「項(xiàng)目 D 的數(shù)據(jù)效果是否有變好」,這個(gè)例子中,「是否有變好」可能的方向有拉新效果是否有變好/銷售是否有變好/跳失情況有變好等非常多種方向,每個(gè)方向都做探索將使你本次分析駛?cè)霟o(wú)邊大海迷失方向。但也不要過(guò)早地限制問(wèn)題范圍,剛開(kāi)始時(shí),可以開(kāi)放性地思考問(wèn)題,在腦中形成一些可供選擇的方向。例如,「可能帶來(lái) D 項(xiàng)目的銷售變好的可能情況是 1、2、3,通過(guò)初步數(shù)據(jù)來(lái)看 3 的可能性會(huì)更高一些」,然后就可以往 3 的方向深入分析下去了。
2. 提出假設(shè),選擇指標(biāo)
在上一步中,我們已經(jīng)明確了 X 問(wèn)題,即數(shù)據(jù)分析的目標(biāo)。接下來(lái),我們將圍繞 X 問(wèn)題,提出該問(wèn)題的結(jié)論假設(shè),并建立模型(選擇衡量指標(biāo))來(lái)驗(yàn)證假設(shè)是否成立。
提出假設(shè)
針對(duì)有預(yù)設(shè)的問(wèn)題,假設(shè)可以直接來(lái)源于問(wèn)題,如方案 A 有助于提升轉(zhuǎn)化率。對(duì)于沒(méi)有實(shí)現(xiàn)預(yù)設(shè)的問(wèn)題,則需要我們圍繞問(wèn)題進(jìn)行窮舉可能的假設(shè),如頁(yè)面 E 的跳失率急劇下降,可能原因有:
- 流量來(lái)源的用戶質(zhì)量變差了;
- 流量入口放錯(cuò)了信息,導(dǎo)致用戶進(jìn)入后預(yù)期不符;
- 首屏商品選品問(wèn)題;
- 首屏信息設(shè)計(jì)用戶無(wú)法理解/無(wú)吸引力;
- 頁(yè)面加載出現(xiàn)問(wèn)題等。
- 根據(jù)假設(shè),選擇衡量指標(biāo)
不同類型的假設(shè),衡量方式會(huì)不一樣,有些假設(shè)可能還需要定性調(diào)研配合來(lái)驗(yàn)證。在電商定量數(shù)據(jù)范圍來(lái)看,可以參考以下思路:
- 關(guān)于流量的假設(shè),可選取流量相關(guān)的指標(biāo)如瀏覽 UV/PV、各渠道流量來(lái)源 UV/PV;
- 關(guān)于銷售類的假設(shè),可選取訂單相關(guān)的指標(biāo),如引入訂單金額、引入訂單數(shù)量、轉(zhuǎn)化率、UV 價(jià)值;
- 關(guān)于用戶行為的假設(shè),可以選取頁(yè)面操作相關(guān)的指標(biāo),如點(diǎn)擊 UV/PV、頁(yè)面點(diǎn)擊率、曝光點(diǎn)擊率、人均點(diǎn)擊次數(shù)、瀏覽深度等;
- 關(guān)于用戶人群的假設(shè),可以選取用戶畫(huà)像數(shù)據(jù),如性別、年齡、城市線級(jí)、新老用戶等,且可同時(shí)結(jié)合頁(yè)面操作數(shù)據(jù)進(jìn)行細(xì)化人群行為分析。
3. 數(shù)據(jù)采集與整理
數(shù)據(jù)源分為定量數(shù)據(jù)和定性數(shù)據(jù),定性數(shù)據(jù)更偏用研方法,本文將注重講定量數(shù)據(jù)的采集與整理。
數(shù)據(jù)采集
各平臺(tái)的原始數(shù)據(jù)正在進(jìn)入指數(shù)級(jí)爆炸的階段,僅從電商平臺(tái)來(lái)看,各類數(shù)據(jù)指標(biāo)都非常的多而復(fù)雜。在采集之前的一個(gè)階段,必不可少的是與數(shù)據(jù)產(chǎn)品或開(kāi)發(fā)人員明確:數(shù)據(jù)指標(biāo)的計(jì)算規(guī)則以及需要的數(shù)據(jù)指標(biāo)列表(包括對(duì)應(yīng)的時(shí)間段、平臺(tái)端),防止等到要提數(shù)的時(shí)候結(jié)果發(fā)現(xiàn)沒(méi)有數(shù)據(jù)或者數(shù)據(jù)計(jì)算方式不合理。
數(shù)據(jù)整理
數(shù)據(jù)整理的第一步是數(shù)據(jù)清洗,原始的數(shù)據(jù)表往往含有不少臟數(shù)據(jù),如測(cè)試數(shù)據(jù)、異常值、空缺等等,直接用來(lái)計(jì)算分析可能會(huì)導(dǎo)致數(shù)據(jù)結(jié)論有偏差或無(wú)法計(jì)算。數(shù)據(jù)清洗就是要將原始數(shù)據(jù)表處理成可方便計(jì)算分析的干凈整潔的數(shù)據(jù)表。主要包括:
- 刪除重復(fù)數(shù)據(jù),可通過(guò) Excel 的 COUNTIF 函數(shù)或者篩選排序來(lái)進(jìn)行操作;
- 檢查數(shù)據(jù)格式,原始數(shù)據(jù)里可能會(huì)有特殊格式如 N/A、####、性別為數(shù)值等情況,可根據(jù)實(shí)際情況判斷如何處理;
- 檢查異常數(shù)據(jù),可以著重關(guān)注極小值和極大值,小數(shù)點(diǎn),負(fù)數(shù)等,明顯不符合實(shí)際情況的,可以排查原因,選擇刪除或重新提取數(shù)據(jù);
- 處理缺失數(shù)據(jù),這個(gè)最常見(jiàn)的情況,一般情況可接受的標(biāo)準(zhǔn)是缺失值在 10% 以下,超過(guò)就需要酌情看是否有辦法重新提取了;
- 檢查數(shù)據(jù)邏輯錯(cuò)誤,可以抽樣選取數(shù)據(jù)進(jìn)行計(jì)算檢查,如計(jì)算頁(yè)面點(diǎn)擊率=點(diǎn)擊 UV/頁(yè)面瀏覽 UV,假如算出頁(yè)面點(diǎn)擊率大于100%,就可能是有數(shù)據(jù)異常了,需要重新排查指標(biāo)統(tǒng)計(jì)方式是否正確等。
數(shù)據(jù)加工計(jì)算
數(shù)據(jù)整理好之后,可以進(jìn)行初始的數(shù)據(jù)加工了。因?yàn)樵紨?shù)據(jù)可能并不符合我們的分析需求,比如,我們想看的是某模塊的數(shù)據(jù),但原始數(shù)據(jù)是拆成每一個(gè)點(diǎn)擊位的數(shù)據(jù),我們就需要把每個(gè)點(diǎn)擊位的數(shù)據(jù)進(jìn)行求和等操作,轉(zhuǎn)化成模塊數(shù)據(jù)。還有一些常見(jiàn)的情況是利用標(biāo)準(zhǔn)的行業(yè)計(jì)算公式,將某幾個(gè)指標(biāo)進(jìn)行數(shù)理計(jì)算得到另一個(gè)指標(biāo),如訂單 UV 價(jià)值=GMV/頁(yè)面 UV、訂單轉(zhuǎn)化率=引入訂單數(shù)/頁(yè)面 UV、人均點(diǎn)擊次數(shù)=點(diǎn)擊 PV/點(diǎn)擊 UV等,通過(guò)這一步的操作,我們將能初步看到要驗(yàn)證假設(shè)需要的一些基本指標(biāo)的數(shù)據(jù)了。
4. 數(shù)據(jù)分析
數(shù)據(jù)整理完之后就到了真正的重頭戲——數(shù)據(jù)分析了,也是含金量最高的一步。做數(shù)據(jù)分析有一個(gè)非?;A(chǔ)但又極其重要的思路,那就是對(duì)比,基本上 90% 以上的分析都離不開(kāi)對(duì)比。沿著假設(shè)及衡量指標(biāo)的思路,我們有了一個(gè)假設(shè)「X 策略可以提升 A 頁(yè)面轉(zhuǎn)化率」,且定義了此假設(shè)的衡量指標(biāo)為「頁(yè)面轉(zhuǎn)化率」,當(dāng)我們拿到頁(yè)面轉(zhuǎn)化率指標(biāo)后,轉(zhuǎn)化率需要達(dá)到多少才算好呢?是否是因?yàn)?X 策略帶來(lái)的提升,還是可能是時(shí)間規(guī)律上的自然上漲?這時(shí)就可以通過(guò)對(duì)比來(lái)分析了。
- 縱比:在時(shí)間維度上,對(duì)比頁(yè)面 A 在使用 X 策略后,頁(yè)面轉(zhuǎn)化率是否提升了?
- 橫比:選取同時(shí)期的同類頁(yè)面-頁(yè)面 B,橫向?qū)Ρ壤享?yè)面 A、新頁(yè)面 A、B 三個(gè)頁(yè)面的轉(zhuǎn)化率對(duì)比情況。
- 與經(jīng)驗(yàn)值對(duì)比:可以拉取更長(zhǎng)的時(shí)間段,看 A 頁(yè)面的轉(zhuǎn)化率變化規(guī)律,看使用 X 策略是否高于時(shí)間規(guī)律上的預(yù)期值;可以選取更多同類頁(yè)面,選取同時(shí)期的轉(zhuǎn)化率對(duì)比,看 A 的轉(zhuǎn)化率處于哪個(gè)位置?
- 與業(yè)務(wù)目標(biāo)對(duì)比:假如大的業(yè)務(wù)目標(biāo)其實(shí)是 GMV 為 2000w,在頁(yè)面瀏覽 UV 和 UV 價(jià)值穩(wěn)定的情況下,計(jì)算目標(biāo)轉(zhuǎn)化率=目標(biāo) GMV/頁(yè)面瀏覽 UV/UV 價(jià)值,然后對(duì)比目標(biāo)轉(zhuǎn)化和目前轉(zhuǎn)化的差距。
各個(gè)角度的對(duì)比都能幫助你更清晰地理解目前指標(biāo)的情況,然后就可以據(jù)此繼續(xù)做下一步計(jì)劃了。