如何做好大數(shù)據(jù)分析?你需要這個(gè)思維框架
數(shù)據(jù)分析,拆開(kāi)來(lái)看其實(shí)是幾個(gè)方面:工具、理論、業(yè)務(wù)
工具,指的是我們從事數(shù)據(jù)分析所使用的具體工具,如 SQL、Excel、Python、R、SAS等;
理論,指的是我們從事數(shù)據(jù)分析時(shí)所依賴(lài)的理論基礎(chǔ),如概率論、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)及相關(guān)的建模和分析框架;
業(yè)務(wù),指的是數(shù)據(jù)分析落地的具體場(chǎng)景,輸入和輸出以及要解決的具體問(wèn)題。
工具和理論都是比較容易速成的,這也是為什么各類(lèi)網(wǎng)課主要集中在這些領(lǐng)域。
業(yè)務(wù)是依賴(lài)于在行業(yè)的經(jīng)驗(yàn),因此,轉(zhuǎn)行最好先在同行業(yè)里面轉(zhuǎn),可以借用之前對(duì)于行業(yè)的業(yè)務(wù)理解,快速上手。
以上三個(gè)方面固然重要,但并不是數(shù)據(jù)分析的全部。還需再加一個(gè)維度,就是思維模式。
也就是,我們除了數(shù)據(jù)分析的工具、理論以及業(yè)務(wù)知識(shí),還需要具備數(shù)據(jù)分析的思維。
那么什么叫做數(shù)據(jù)分析思維呢?
我認(rèn)為可以分為三個(gè)方面:
01 定量思維
迪斯尼通過(guò)草坪規(guī)劃道路的故事大家也許都聽(tīng)過(guò):
在迪斯尼樂(lè)園提前開(kāi)放的半年里,草地被踩出許多小道,這些踩出的小道有寬有窄,優(yōu)雅自然。第二年,格羅培斯讓人按這些踩出的痕跡鋪設(shè)了人行道。1971年在倫敦國(guó)際園林建筑藝術(shù)研討會(huì)上,迪斯尼樂(lè)園的路徑設(shè)計(jì)被評(píng)為世界最佳設(shè)計(jì)。
后來(lái),迪斯尼還推出了 MagicBand,這個(gè)手環(huán)可以在園內(nèi)支付,可作為酒店房卡,可以用來(lái)當(dāng) FastPass,可以用來(lái)停車(chē)等等,通過(guò)這些環(huán)節(jié)收集的數(shù)據(jù),就可以知道哪幾個(gè)項(xiàng)目最熱門(mén),哪幾個(gè)項(xiàng)目不太熱門(mén),什么位置餐廳人滿(mǎn)為患,說(shuō)明還需要增加配置,什么地方餐廳無(wú)人問(wèn)津,可能要做優(yōu)化……
等等,時(shí)間一長(zhǎng),積累的數(shù)據(jù)就有了各種價(jià)值,看起來(lái)無(wú)法測(cè)量的東西,通過(guò)巧妙的收集數(shù)據(jù),都可以測(cè)量。
這就是數(shù)據(jù)思維第一條,萬(wàn)物皆可測(cè)。
02 相關(guān)思維
大數(shù)據(jù)時(shí)代,隨著算力的不斷加強(qiáng),原來(lái)小樣本的計(jì)算已經(jīng)可以升級(jí)為全樣本計(jì)算,并且可以發(fā)現(xiàn)變量間的相關(guān)關(guān)系,用來(lái)代替原來(lái)小樣本中推導(dǎo)出的因果關(guān)系。
最經(jīng)典的例子就是08年的 Google Flu:
Google流感趨勢(shì)(Google Flu Trends,GFT)是Google于2008年推出的一款預(yù)測(cè)流感的產(chǎn)品。Google認(rèn)為,某些搜索字詞有助于了解流感疫情。Google流感趨勢(shì)會(huì)根據(jù)匯總的Google搜索數(shù)據(jù),近乎實(shí)時(shí)地對(duì)全球當(dāng)前的流感疫情進(jìn)行估測(cè)
一個(gè)搜索行為,和一個(gè)疾病的發(fā)生,看似不相關(guān)的兩件事情,存在強(qiáng)相關(guān),這在原來(lái)是不可想象的。
不過(guò),盡信數(shù)據(jù)不如無(wú)數(shù)據(jù),一定要找到業(yè)務(wù)含義。
就拿 Google Flu 來(lái)說(shuō),在研究成果公布以后,研究人員發(fā)現(xiàn)結(jié)果不再準(zhǔn)確了。經(jīng)過(guò)反復(fù)確認(rèn)和調(diào)研,發(fā)現(xiàn)因?yàn)楹芏嗳说弥诉@項(xiàng)成果,抱著好奇的心態(tài)嘗試搜索關(guān)鍵字——盡管他們周?chē)⑽闯霈F(xiàn)相關(guān)病例,導(dǎo)致預(yù)測(cè)結(jié)果不再準(zhǔn)確。
當(dāng)你觀測(cè)的對(duì)象知道你在觀測(cè)他的時(shí)候,觀測(cè)結(jié)果就不再準(zhǔn)確了。
03 實(shí)驗(yàn)思維
告別拍腦袋決策,告別依賴(lài)個(gè)人審美決策,告別依賴(lài)個(gè)人經(jīng)驗(yàn)決策,通過(guò)實(shí)際的數(shù)據(jù)表現(xiàn)來(lái)決策。同時(shí),根據(jù)實(shí)驗(yàn)結(jié)果不斷的迭代和優(yōu)化模型。
當(dāng)然,實(shí)驗(yàn)的前提是測(cè)量,必須先將所有實(shí)驗(yàn)的數(shù)據(jù)采集下來(lái),才能根據(jù)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行決策,同時(shí),根據(jù)數(shù)據(jù)分析的結(jié)果,可能某些人群針對(duì)某個(gè)方案更加有效,這又會(huì)用到相關(guān)思維,即某些要素的相關(guān)性決定了最后的數(shù)據(jù)表現(xiàn)。
通過(guò)以上三個(gè)思維模式,我們可以將實(shí)際中的業(yè)務(wù)問(wèn)題進(jìn)行拆解,轉(zhuǎn)化為數(shù)據(jù)分析問(wèn)題。
這么說(shuō)可能還是比較抽象,具體來(lái)看看如何應(yīng)用。
在廣告營(yíng)銷(xiāo)領(lǐng)域,有一個(gè)著名的說(shuō)法
這是相當(dāng)長(zhǎng)的一段時(shí)間,廣告營(yíng)銷(xiāo)行業(yè)最大的痛點(diǎn),蒙著眼睛放廣告,來(lái)了客戶(hù)也不知道是廣告帶來(lái)的,還是自己找上門(mén)來(lái)的,或者其他渠道推薦來(lái)的。
那么,用上數(shù)據(jù)分析思維的廣告營(yíng)銷(xiāo),會(huì)變成什么樣子呢?
運(yùn)用定量思維,那就是營(yíng)銷(xiāo)效果要可以度量。一個(gè)廣告投出去,我需要知道到底帶來(lái)了多少轉(zhuǎn)化,每個(gè)渠道的轉(zhuǎn)化率怎樣,以及這些客戶(hù)的后續(xù)活躍程度如何,是不是假量?是不是羊毛黨?是不是僵尸戶(hù)?等等。
那么如何度量呢?我們自然可以想到,要檢測(cè)轉(zhuǎn)化率,那就要對(duì)每個(gè)渠道進(jìn)來(lái)的客戶(hù)打標(biāo)簽,定期出報(bào)表,監(jiān)控每個(gè)標(biāo)簽下客戶(hù)的活躍情況等等,自然的就形成了客戶(hù)分群經(jīng)營(yíng),分群營(yíng)銷(xiāo),分群活動(dòng)投放等等策略。
運(yùn)用相關(guān)思維,那就是通過(guò)相關(guān)性分析,使得廣告的投放更加精準(zhǔn)。減少無(wú)效的廣告投放,在更相關(guān)的人群上投放他們感興趣的廣告,提升轉(zhuǎn)化率,節(jié)省營(yíng)銷(xiāo)費(fèi)用。
那么如何進(jìn)行相關(guān)性分析呢?通過(guò)前期采集的數(shù)據(jù),使用 Apriori 、Collaborative Filtering 等算法,找出用戶(hù)特征、用戶(hù)行為及其最終購(gòu)買(mǎi)之前的相關(guān)關(guān)系,從而優(yōu)化投放及推薦模型。
運(yùn)用實(shí)驗(yàn)思維,那就是通過(guò)實(shí)驗(yàn),判斷哪個(gè)投放模型更優(yōu),哪個(gè)投放渠道更優(yōu),同時(shí)根據(jù)反饋不斷迭代和優(yōu)化模型。
那么如何進(jìn)行實(shí)驗(yàn)?zāi)兀孔匀皇峭ㄟ^(guò) A/B Test 方法,隨機(jī)均分流量到不同的投放模型上,同時(shí)采集客戶(hù)的反饋,不斷的根據(jù)反饋迭代和優(yōu)化模型。
總的來(lái)說(shuō),做好數(shù)據(jù)分析,除了掌握工具、理論和業(yè)務(wù),還需要具備數(shù)據(jù)分析的思維,有了數(shù)據(jù)分析的思維框架,更容易將業(yè)務(wù)、理論和工具貫通,形成自己的數(shù)據(jù)分析框架,更好、更有效的進(jìn)行數(shù)據(jù)分析工作。