我們一起解密數(shù)據(jù)分析
本文轉(zhuǎn)載自微信公眾號(hào)「曉陽的數(shù)據(jù)小站」,作者曉陽的數(shù)據(jù)小站。轉(zhuǎn)載本文請(qǐng)聯(lián)系曉陽的數(shù)據(jù)小站公眾號(hào)。
|0x00 數(shù)據(jù)分析做什么
數(shù)據(jù)分析的定義,在百度百科上是這樣介紹的:“用適當(dāng)?shù)慕y(tǒng)計(jì)分析方法對(duì)收集來的大量數(shù)據(jù)進(jìn)行分析,將它們加以匯總和理解并消化,以求最大化地開發(fā)數(shù)據(jù)的功能,發(fā)揮數(shù)據(jù)的作用。”這句話的理解比較費(fèi)勁,那么簡(jiǎn)單一點(diǎn)講,數(shù)據(jù)分析就是發(fā)現(xiàn)有用的信息,提供結(jié)論并支持決策。
有道是“數(shù)據(jù)在手,天下我有”,但如何尋找出數(shù)據(jù)中潛在的價(jià)值,就是分析師的重要工作了。
數(shù)據(jù)分析大概有兩種不同的發(fā)展方向,一種是偏向業(yè)務(wù)分析,需要對(duì)業(yè)務(wù)有比較深的理解,在此基礎(chǔ)上,通過數(shù)據(jù)來尋找業(yè)務(wù)增長(zhǎng)的套路,例如用戶增長(zhǎng)、網(wǎng)站分析、經(jīng)營分析等;另一種是偏向數(shù)據(jù)挖掘,更加注重技術(shù)、尤其是算法能力的應(yīng)用,需要對(duì)常見算法的應(yīng)用熟練掌握。實(shí)際工作中,由于數(shù)據(jù)挖掘需要非常好的技術(shù)功底,因此絕大多數(shù)人都是偏向業(yè)務(wù)進(jìn)行分析。
|0x01 數(shù)據(jù)分析的工作內(nèi)容
那么數(shù)據(jù)分析的童鞋,日常主要在做什么呢?簡(jiǎn)而言之,在做三件事:業(yè)務(wù)的現(xiàn)狀是什么、為什么會(huì)發(fā)生、未來將要如何(或如何改進(jìn))。
現(xiàn)狀分析,就是告訴業(yè)務(wù)決策者,過去發(fā)生了什么事情,并且通常以報(bào)表的形式呈現(xiàn)出來。所以分析師不光要能夠做日?qǐng)?bào)、周報(bào),還需要自己來搭建報(bào)表平臺(tái),通過分析關(guān)鍵的指標(biāo),來掌握業(yè)務(wù)的運(yùn)營情況。
原因分析,是在業(yè)務(wù)現(xiàn)狀的基礎(chǔ)上,分析為什么會(huì)發(fā)生這些事情。比如指標(biāo)上升或者下降了,是因?yàn)槭裁丛蛟斐傻?或者是分析不同渠道對(duì)于最終轉(zhuǎn)化的貢獻(xiàn)情況。分析的過程,通常會(huì)通過專題的形式展示出來。
預(yù)測(cè)分析,則是告訴業(yè)務(wù),未來會(huì)發(fā)生什么。預(yù)測(cè)其實(shí)是一件很重要的工作,不論是企業(yè)經(jīng)營目標(biāo)的制定,或者是相關(guān)策略的落實(shí),都需要預(yù)測(cè)未來可能的情況,來保證業(yè)務(wù)的健康可持續(xù)發(fā)展。例如電商大促的到來,銷量會(huì)得到很大的提升,那么對(duì)應(yīng)的預(yù)算、物流、商家要做怎樣的應(yīng)對(duì),都依賴于數(shù)據(jù)來提供預(yù)測(cè)。
|0x02 相關(guān)概念的解釋
還是有人會(huì)產(chǎn)生疑問:“數(shù)據(jù)分析”、“數(shù)據(jù)科學(xué)”、“數(shù)據(jù)驅(qū)動(dòng)”、“商業(yè)智能”,這些概念都有怎樣的不同呢?
首先說一下“商業(yè)智能”,英文是Business intelligence,這是我們常說的BI,其主要價(jià)值,在于通過一系列的數(shù)據(jù)技術(shù),從數(shù)據(jù)中挖掘隱藏的客觀規(guī)律,總結(jié)這些規(guī)律背后的原因,并用于指導(dǎo)公司業(yè)務(wù)的發(fā)展。大多數(shù)情況下,BI分析師的工作,就是通過SQL、Python等語言,將已經(jīng)統(tǒng)計(jì)好的數(shù)據(jù),結(jié)合數(shù)據(jù)模型或者是分析框架,來對(duì)業(yè)務(wù)進(jìn)行各種分析,并做成有價(jià)值的報(bào)表或者報(bào)告的形式,供業(yè)務(wù)方進(jìn)行分析。
再講講“數(shù)據(jù)科學(xué)”,這個(gè)概念就要寬泛的多,通常指在跨學(xué)科的領(lǐng)域中,通過數(shù)據(jù)來尋找到解決問題的方法。數(shù)據(jù)科學(xué)的概念其實(shí)比較模糊,屬于寬口徑的概念,在不同的行業(yè)里所做的事情,可能是截然不同的。在互聯(lián)網(wǎng)行業(yè)中,數(shù)據(jù)科學(xué)大約代表:先通過探索分析發(fā)現(xiàn)問題,然后再用數(shù)據(jù)建模去解決問題。
那么“數(shù)據(jù)驅(qū)動(dòng)”又如何理解?數(shù)據(jù)驅(qū)動(dòng)的字面意思是將數(shù)據(jù)來作為生產(chǎn)資料,通過科學(xué)的方法,來推動(dòng)業(yè)務(wù)的優(yōu)化提高。在互聯(lián)網(wǎng)行業(yè)里,數(shù)據(jù)驅(qū)動(dòng)又可以分為數(shù)據(jù)驅(qū)動(dòng)產(chǎn)品、數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)兩個(gè)方向,比如通過A/B測(cè)試來尋找最優(yōu)的推薦算法,或者是設(shè)計(jì)實(shí)驗(yàn)來指導(dǎo)產(chǎn)品迭代更新的方向,等等。
因此,在一家公司中,不同數(shù)據(jù)崗位的分工大體如下:數(shù)據(jù)工程師負(fù)責(zé)數(shù)據(jù)平臺(tái)的搭建、數(shù)據(jù)倉庫的建設(shè),以確保數(shù)據(jù)被正確的計(jì)算和方便的獲取;數(shù)據(jù)分析師根據(jù)數(shù)據(jù)來描述或者是分析相應(yīng)的問題,這其中包括了“商業(yè)智能”來做報(bào)表,或者是“數(shù)據(jù)科學(xué)”來尋找數(shù)據(jù)模型,最終都是“數(shù)據(jù)驅(qū)動(dòng)”業(yè)務(wù)增長(zhǎng)或產(chǎn)品迭代。
|0x03 如何來做數(shù)據(jù)分析
數(shù)據(jù)分析雖然需要的基礎(chǔ)知識(shí)非常多,屬于入門門檻比較高的那一種,但實(shí)際的工作卻大體遵循如下的步驟,細(xì)節(jié)可以有不同:
明確分析目的 - 確定思路框架 - 準(zhǔn)備數(shù)據(jù) - 分析數(shù)據(jù) - 展示數(shù)據(jù) - 報(bào)告撰寫。
一,明確分析目的,非常重要,目的不明確會(huì)導(dǎo)致分析的過程十分盲目。這里會(huì)有一個(gè)假設(shè),即分析師需要懂業(yè)務(wù),并且有自己對(duì)于業(yè)務(wù)的理解,如果沒有相應(yīng)的專業(yè)知識(shí),通常分析的結(jié)果就沒有特別大的價(jià)值。那么什么是懂業(yè)務(wù)?大體上就是需要明白企業(yè)的商業(yè)模式是怎樣的,通過什么樣的關(guān)系能夠產(chǎn)生商業(yè)價(jià)值。如果是2B方向,還需要懂一些管理學(xué)的內(nèi)容,了解數(shù)據(jù)如何輔助公司的經(jīng)營管理。
二,確定思路框架,是通過怎樣的指標(biāo)、哪些角度來進(jìn)行分析。其實(shí)業(yè)界有一些非常通過的方法,可以讓我們快速開展業(yè)務(wù)的同時(shí),能夠保證“MECE原則”,即對(duì)于一個(gè)重大的議題,能夠做到不重疊、不遺漏的分類,而且能夠借此有效把握問題的核心,并成為有效解決問題的方法。
常見的思路框架包括:決策樹管理分析法、PEST行業(yè)分析法、5W2H問題分析法、4P營銷理論、SWOT競(jìng)爭(zhēng)力分析模型…… 這里的方法論非常多,一些細(xì)分方向也有自己的成套理論,比如“用戶增長(zhǎng)”常用的AARRR漏斗模型、RFM理論等。這里就不一一展開了,網(wǎng)上能夠搜到大把的資源,但有一點(diǎn)需要注意,就是掌握模型切記只掌握個(gè)大概,因?yàn)槊總€(gè)模型是相應(yīng)知識(shí)體系的總結(jié),只能交給你思路,而無法交給你哪些坑應(yīng)該避免、什么情況下不起作用,等等。
三,準(zhǔn)備數(shù)據(jù),這個(gè)工作通常由數(shù)倉團(tuán)隊(duì)完成,一些流量場(chǎng)景,需要采集數(shù)據(jù)的,也可以通過數(shù)據(jù)埋點(diǎn)平臺(tái)來自動(dòng)完成。當(dāng)然,成熟的團(tuán)隊(duì)會(huì)通過建立自己的指標(biāo)體系,來靈活的支持業(yè)務(wù)的發(fā)展。
四,分析數(shù)據(jù),以上文提到的現(xiàn)狀、原因與預(yù)測(cè)分析為例,可以衍生出很多相應(yīng)的分析方法。我們?nèi)粘B牭奖容^多的假設(shè)檢驗(yàn)、回歸分析、聚類分析等,都是在分析數(shù)據(jù)階段需要用到的專業(yè)知識(shí)。
常見的分析方法有:A/B測(cè)試、描述分析、假設(shè)檢驗(yàn)、信度分析、推斷分析、相關(guān)分析、回歸分析、聚類分析、時(shí)間序列分析…… 在使用分析方法時(shí),需要注意的一點(diǎn)是口徑要一致,例如指標(biāo)的口徑范圍、計(jì)算方法、計(jì)量單位等進(jìn)行檢查。
五,展示數(shù)據(jù),一般情況下是通過圖表和表格來展示數(shù)據(jù),通常是能用圖說明的,就不要用表格,除非表格能夠提供更多的信息。
詳情見下圖。
所以有句話說道:數(shù)據(jù)分析無非四種方法:“比較”、“分布”、“構(gòu)成”、“聯(lián)系”。
六,報(bào)告撰寫,根據(jù)分析框架,圖文并茂的寫一個(gè)好故事吧,記得要有清晰的結(jié)論。
|0x04 A/B測(cè)試
俗話說,“增長(zhǎng)團(tuán)隊(duì)有三寶:埋點(diǎn)、漏斗、AB測(cè)”,埋點(diǎn)是數(shù)據(jù)平臺(tái)的功能,漏斗是分析問題的思路,但為什么要單獨(dú)提一下A/B測(cè)試?是因?yàn)橛辛藬?shù)據(jù)分析的方法之后,我們還需要數(shù)據(jù)分析的平臺(tái),來對(duì)分析的成果快速的進(jìn)行實(shí)驗(yàn)??梢哉f,A/B測(cè)試是支持?jǐn)?shù)據(jù)決策最有力的工具。
A/B測(cè)試針對(duì)2種以上的方案,不論是一整套產(chǎn)品方案,還是一個(gè)小元素的改動(dòng),只要變量是唯一的,那么我們就可以對(duì)同一組人群,進(jìn)行隨機(jī)的分組,在同等的時(shí)間維度內(nèi),將實(shí)驗(yàn)組和對(duì)照組的結(jié)果進(jìn)行對(duì)比,來衡量那種方案更好。
其實(shí)很多開發(fā)與測(cè)試的同學(xué)不太理解A/B測(cè)試的重要性,因?yàn)閺拈_發(fā)的視角出發(fā),這些內(nèi)容確實(shí)會(huì)增加很多的動(dòng)作量。但如果從業(yè)務(wù)的角度出發(fā),那作用可就大了,不論是爭(zhēng)議方案的對(duì)比、還是產(chǎn)品轉(zhuǎn)化率的提升、亦或是多個(gè)數(shù)據(jù)策略的貢獻(xiàn)分配、再或者是產(chǎn)品功能保持簡(jiǎn)潔的方法,都需要大量的實(shí)驗(yàn)來驗(yàn)證我們的想法。在互聯(lián)網(wǎng)公司中,我們并不缺少想法,但我們需要驗(yàn)證想法的工具,讓數(shù)據(jù)來消除我們的收益淹沒、認(rèn)知偏差、僥幸心理和收益分配矛盾。
在實(shí)際的工作中,A/B測(cè)試并不簡(jiǎn)單的代表分成兩個(gè)實(shí)驗(yàn)組,就完事了,因?yàn)槲覀冃枰紤]“辛普森悖論”的存在。辛普森悖論是指在某個(gè)條件下的兩組數(shù)據(jù),分別討論時(shí)都會(huì)滿足某種性質(zhì),可是一旦合并考慮,卻可能導(dǎo)致相反的結(jié)論。如果不了解辛普森悖論,盲目的解讀試驗(yàn)結(jié)論,很容易得出錯(cuò)誤的結(jié)論。因此,我們通常會(huì)設(shè)計(jì)更多的參照,以驗(yàn)證我們想法的正確性,比如AA測(cè)試,或者AAB測(cè)試,這都需要一些經(jīng)驗(yàn)的累積。
36Kr曾在一篇報(bào)道中寫道,“頭條發(fā)布一個(gè)新APP,其名字都必須打N個(gè)包放到各大應(yīng)用市場(chǎng)進(jìn)行多次A/B測(cè)試而決定,張一鳴告訴同事:哪怕你有99.9%的把握那是最好的一個(gè)名字,測(cè)一下又有神馬關(guān)系呢?”
|0x05 數(shù)據(jù)化運(yùn)營
數(shù)據(jù)分析如果持續(xù)的做下去,那么它的目標(biāo)就不僅僅是運(yùn)營看板或者是分析報(bào)告了,而是走向“數(shù)據(jù)化運(yùn)營”的發(fā)展路線中。
“數(shù)據(jù)化運(yùn)營”的概念很火,但其實(shí)很多人對(duì)它有誤解,認(rèn)為這就是將“運(yùn)營”的工作線上化了而已,但其實(shí)不然。在百度百科中,對(duì)“數(shù)據(jù)化運(yùn)營”的定義是:“數(shù)據(jù)化運(yùn)營是指通過數(shù)據(jù)化的工具、技術(shù)和方法,對(duì)運(yùn)營過程中的各個(gè)環(huán)節(jié)進(jìn)行科學(xué)的分析,為數(shù)據(jù)使用者提供專業(yè)、準(zhǔn)確的行業(yè)數(shù)據(jù)解決方案,從而達(dá)到優(yōu)化運(yùn)營效果和效率、降低運(yùn)營成本、提高效益的目的。”
但在互聯(lián)網(wǎng)行業(yè)中,“數(shù)據(jù)化運(yùn)營”的核心思路在于,基于“用戶”的行為和屬性,對(duì)“用戶”進(jìn)行運(yùn)營。因?yàn)榛ヂ?lián)網(wǎng)產(chǎn)品的生命周期,就是一個(gè)閉環(huán)的模型:用戶獲取、用戶活躍、用戶留存、口碑傳播、付費(fèi)轉(zhuǎn)化。這其中的每一個(gè)環(huán)節(jié),都是一個(gè)漏斗,通過對(duì)數(shù)據(jù)進(jìn)行分析,來運(yùn)營指標(biāo)的增長(zhǎng),或者是指導(dǎo)產(chǎn)品成長(zhǎng)。例如最經(jīng)典的啤酒與尿布的故事,就是一個(gè)典型的場(chǎng)景,通過發(fā)現(xiàn)用戶行為的關(guān)聯(lián),來設(shè)置合理的運(yùn)營策略,提升最終的產(chǎn)品銷量。
就像精益創(chuàng)業(yè)中提到的“MVP”理論一樣,不論是數(shù)據(jù)分析制定的各種策略,或者是企業(yè)的不同戰(zhàn)術(shù)打法,其實(shí)都不一定是奏效的,而在執(zhí)行策略的同時(shí),通過數(shù)據(jù)的沉淀,來不斷驗(yàn)證策略打法的有效性,最終發(fā)現(xiàn)那個(gè)最合適的“MVP”功能,是數(shù)據(jù)化運(yùn)營的核心導(dǎo)向。
現(xiàn)在的數(shù)據(jù)化運(yùn)營體系已經(jīng)變得更加復(fù)雜,不僅是因?yàn)闃I(yè)務(wù)場(chǎng)景的設(shè)計(jì)越來越復(fù)雜,也因?yàn)闄C(jī)器學(xué)習(xí)、因果推斷等新技術(shù)的應(yīng)用,使得一些感性的數(shù)據(jù)能夠被利用起來,讓我們的運(yùn)營能夠更加清楚的看到業(yè)務(wù)與目標(biāo)的差距在哪里、應(yīng)該通過哪些手段來彌補(bǔ)GAP,調(diào)整方法會(huì)產(chǎn)生怎樣的影響,最終形成我們口中的“數(shù)據(jù)智能”。
|0xFF 尾記
KPMG(畢馬威)的Swami Chandrasekaran分享過一個(gè)數(shù)據(jù)科學(xué)家的學(xué)習(xí)路線圖,包括了數(shù)據(jù)的基本原理、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、數(shù)據(jù)可視化、大數(shù)據(jù)處理等方面的推薦知識(shí),感興趣的可以學(xué)習(xí)一下。原本是2013年寫的,部分內(nèi)容可能需要更新,但個(gè)人覺得這種類似地鐵線路圖的方式,很適合作為自己學(xué)習(xí)的思維導(dǎo)圖。
圖片