一邊吃粽子,一邊思考流量數(shù)據(jù)分析!
前戲
粽子節(jié)了嘛,突然想吃粽子了,咋辦,買粽子唄!現(xiàn)在情景轉(zhuǎn)換一下,假設(shè)你是某飲食網(wǎng)的數(shù)據(jù)分析師,現(xiàn)在某粽子界大亨想拿錢砸你老板(打廣告)。
老板:“寶器過來一下“
寶器:“好的老板”
老板:“有個(gè)粽子界土豪要砸我們”
寶器:“誰敢砸你?老板等著我叫人”
老板:“我問的是咱如何收費(fèi)!”
寶器:“好嘞老板,下周給你出個(gè)報(bào)價(jià)報(bào)告”
(背景吹比結(jié)束)
作為數(shù)據(jù)分析師你可能想到的是CPC、CPS這一類的關(guān)鍵字,但到底是用CPC還是其他方式計(jì)費(fèi),如何計(jì)費(fèi),給哪條渠道線推廣?什么樣的用戶可能適合粽子大亨?這些問題都需要你對(duì)公司網(wǎng)站流量數(shù)據(jù)從采集到到分析有全面深刻的理解。
目錄概覽
以下內(nèi)容為個(gè)人現(xiàn)階段業(yè)務(wù)分析與學(xué)習(xí)理解,內(nèi)容將從數(shù)據(jù)采集到用戶分析(績(jī)效指標(biāo)KPI)這條線路展開。主要內(nèi)容目錄如下:
流量數(shù)據(jù)分析
數(shù)據(jù)采集
何為“埋點(diǎn)“?
說白了就是收集數(shù)據(jù),首先你想到可能可能是爬蟲爬取,但你要搞清楚,現(xiàn)在是在公司的產(chǎn)品線,難道你能通過爬蟲爬到“寶器點(diǎn)開了××搜素框”這樣的行為事件嗎?很明顯這是不現(xiàn)實(shí)的。
那類似于這樣的用戶行為事件怎樣采集數(shù)據(jù)呢?答案是通過“埋點(diǎn)”,所謂埋點(diǎn),指的就是針對(duì)用戶行為事件捕獲、處理和發(fā)送的相關(guān)技術(shù)及實(shí)施過程。
舉個(gè)栗子:如果京東內(nèi)部運(yùn)營(yíng)人員想看一下如下圖“粽情端午節(jié)”這個(gè)活動(dòng)的效果,研發(fā)人員可以通過在下圖紅色箭頭所指地方“埋點(diǎn)”,當(dāng)用戶點(diǎn)擊這一欄的時(shí)候,后臺(tái)將會(huì)觸發(fā)并上報(bào)這樣一條用戶點(diǎn)擊行為數(shù)據(jù)。
埋點(diǎn)作用?
- 用于流量監(jiān)測(cè)(在線情況、PV、UV指標(biāo)等等分析)
- 便于構(gòu)建用戶行為路徑(通過埋點(diǎn)獲取用戶的行為數(shù)據(jù)鏈路)
- 通過對(duì)買點(diǎn)數(shù)據(jù)的分析,判斷產(chǎn)品和活動(dòng)等效果及未來走向
- 監(jiān)控應(yīng)用運(yùn)行狀態(tài),方便問題定位和追蹤
- 為營(yíng)銷決策提供數(shù)據(jù)支持
- 實(shí)施AB Testting
流量數(shù)據(jù)采集底層表與字段
埋點(diǎn)時(shí)為了收集數(shù)據(jù),但不是所有的數(shù)據(jù)都需要采集上來。首先得知道業(yè)務(wù)需求是什么,比如現(xiàn)在BOSS想看一下近7天的的DAU走勢(shì),這時(shí)候分析師就要思考怎么計(jì)算DAU,之后再和產(chǎn)品人員討論如何埋點(diǎn)可以得到某個(gè)“字段”用于計(jì)算DAU(可以在用戶啟動(dòng)APP的時(shí)候埋點(diǎn)上報(bào)一條日志標(biāo)識(shí))。
在實(shí)際的操作中,有以下的幾個(gè)方面的數(shù)據(jù)可以被采集:
用戶的系統(tǒng)屬性特征
- 操作系統(tǒng)
- 瀏覽器
- 域名
- 訪問速度
- 網(wǎng)絡(luò)狀態(tài)(2G、3G、4G等等)
- 其他
用戶的訪問特征
- 開始訪問時(shí)間
- 結(jié)束訪問時(shí)間、
- 第一次訪問、最后一次訪問
- 點(diǎn)擊的URL
用戶來源特征
- 網(wǎng)絡(luò)的內(nèi)容信息類型
- 內(nèi)容分類
- 來訪URL
產(chǎn)品特征
- 產(chǎn)品編號(hào)
- 產(chǎn)品類別
- 產(chǎn)品顏色
- 產(chǎn)品價(jià)格
- 產(chǎn)品數(shù)量等等
所以綜上可能流量數(shù)據(jù)采集底層表如下(這里只做簡(jiǎn)單的列舉,更多請(qǐng)自行查閱思考):
數(shù)據(jù)處理(ETL)
目的:根據(jù)后續(xù)的指標(biāo)統(tǒng)計(jì)需求,過濾分離出各種不同主題(不同欄目path)的基礎(chǔ)數(shù)據(jù)(創(chuàng)建不同的中間表表示)。
方法:一般直接通過HQL按維度和指標(biāo)提取數(shù)據(jù)(可能從原始底層采集表提取比較困難,原始表也需要經(jīng)過ETL將業(yè)務(wù)系統(tǒng)的數(shù)據(jù)經(jīng)過抽取、清洗轉(zhuǎn)換之后加載到數(shù)據(jù)倉(cāng)庫(kù))。之后可能根據(jù)業(yè)務(wù)需求將基礎(chǔ)性指標(biāo)腳本固化,推送到內(nèi)部BI平臺(tái)制作報(bào)表展示。
舉個(gè)栗子,計(jì)算一下近7日UV、登錄用戶及訪問IP等指標(biāo):
- SELECT dt,
- COUNT(DISTINCT deviceid) AS uv ,
- COUNT(DISTINCT CASE WHEN length(trim(user_id)) > 0 THEN user_id else NULL end) AS login_users ,
- COUNT(DISTINCT ip) AS ip_num ,
- COUNT(session_id) AS session_num
- FROM dwd_caiji_table
- WHERE dt between sysdate(-7) and sysdate()
- GROUP BY dt
問題:
可能很多朋友想問前面提到的通過HQL來提取數(shù)據(jù)而不是用SQL,實(shí)際上HIVE-SQL設(shè)計(jì)的目的就是想讓會(huì)SQL而不會(huì)MapReduce編程的人也能使用Hadoop進(jìn)行數(shù)據(jù)處理(畢竟公司實(shí)際的數(shù)據(jù)量都是TB、PB甚至更大)。
目前流行的大數(shù)據(jù)相關(guān)的計(jì)算框架能處理大量的數(shù)據(jù)和計(jì)算,基本是依賴于分布式計(jì)算框架(比如MapReduce),而分布式計(jì)算,是一個(gè)集群共同承擔(dān)計(jì)算任務(wù),理想狀態(tài)下是每個(gè)計(jì)算節(jié)點(diǎn)應(yīng)當(dāng)承擔(dān)相近數(shù)據(jù)量的計(jì)算任務(wù),但實(shí)際情況可能因?yàn)閿?shù)據(jù)分配的嚴(yán)重不均衡導(dǎo)致數(shù)據(jù)傾斜。
所以在做ETL的時(shí)候需要考慮數(shù)據(jù)傾斜的問題,相關(guān)內(nèi)容過多請(qǐng)自行查閱。
指標(biāo)統(tǒng)計(jì)與用戶分析
說明:限于篇幅,將目錄3、4串在一起。
產(chǎn)品數(shù)據(jù)化是有非常有好處的,優(yōu)點(diǎn):
- 可視化:用戶行為可視化,可清晰的了解用戶行為
- 可追蹤:定位產(chǎn)品問題
- 可驗(yàn)證:數(shù)據(jù)支撐和驗(yàn)證
- 可預(yù)測(cè):通過數(shù)據(jù)變化,預(yù)測(cè)后期走向
而數(shù)據(jù)化的前提是需要一些指標(biāo)來衡量,這里寶器將指標(biāo)分成網(wǎng)站的流量指標(biāo)和用戶行為指標(biāo),意思是說一部分幾乎是通用性分析指標(biāo),一部分會(huì)根據(jù)不同的業(yè)務(wù)需求場(chǎng)景而設(shè)定。
針對(duì)每個(gè)指標(biāo)的具體含義如果有不理解的還需要各位自行查閱。需要了解的是每個(gè)指標(biāo)的定義 、作用。
舉個(gè)栗子,DAU:
定義:Daily Active User(日活躍用戶)
作用:可以用戶衡量產(chǎn)品(如京東app)的活躍度,可用于了解用戶增長(zhǎng)和減少趨勢(shì)。
現(xiàn)在重點(diǎn)講一下寶器對(duì)用戶分析(績(jī)效指標(biāo)KPI)的一些看法,首先個(gè)人是將用戶分析分成兩類,一類是基礎(chǔ)性分析,一類是模型策略分析。說的簡(jiǎn)單點(diǎn)就是想通過基礎(chǔ)性的指標(biāo)分析,調(diào)整運(yùn)營(yíng)策略,并根據(jù)不同的商業(yè)需求,搭建用戶分析模型體系。
1、基礎(chǔ)性分析
基礎(chǔ)性分析指標(biāo)分成兩種,一種是針對(duì)新用戶,一種是針對(duì)老用戶,而新用戶對(duì)應(yīng)著拉新和轉(zhuǎn)化。而針對(duì)老用戶可分成活躍、留存、跳出、回購(gòu)。舉個(gè)栗子:
拉新(渠道):
京東往往具備 APP、移動(dòng)端、微信端、PC端渠道,其中根據(jù)不同的業(yè)務(wù),流量偏重有所不同,隨著手機(jī)移動(dòng)設(shè)備的越來越智能化和大屏化,一般情況下,電商節(jié)618數(shù)據(jù)表明,非PC端消費(fèi)的用戶最多?,F(xiàn)在的商業(yè)機(jī)構(gòu)更加注重非PC端(微信、APP、移動(dòng)端)的營(yíng)銷,所以了解用戶使用的設(shè)備和渠道能夠使得運(yùn)營(yíng)和利潤(rùn)最大化。
轉(zhuǎn)化:
指用戶進(jìn)行了相應(yīng)目標(biāo)行動(dòng)的訪問次數(shù)與總訪問次數(shù)的比率。相應(yīng)的行動(dòng)可以是用戶登錄、用戶注冊(cè)、用戶訂閱、用戶下載、用戶購(gòu)買等一系列用戶行為,因此網(wǎng)站轉(zhuǎn)化率是一個(gè)廣義的概念。簡(jiǎn)而言之,就是當(dāng)訪客訪問網(wǎng)站的時(shí)候,把訪客轉(zhuǎn)化成網(wǎng)站常駐用戶,也可以理解為訪客到用戶的轉(zhuǎn)換。
針對(duì)老用戶的活躍、留存、跳出、回購(gòu)?fù)砜芍苯铀阉飨嚓P(guān)關(guān)鍵字自行閱讀。
2、模型策略分析
我相信授人以魚不如授人以漁,這是非常重要的一部分內(nèi)容,也不可能就在一篇推文中講清楚。這里將這部分內(nèi)容對(duì)應(yīng)的一些參考學(xué)習(xí)鏈接放上,更多理解還需自己領(lǐng)悟:
用戶行為事件模型:
http://www.woshipm.com/data-analysis/686576.html
用戶行為路徑分析:
http://www.woshipm.com/data-analysis/704261.html
用戶體驗(yàn)分析:
http://www.woshipm.com/discuss/53005.html。
https://www.jianshu.com/p/f10f706d3ddd?from=groupmessage
用戶畫像分析:
用戶畫像。
用戶價(jià)值評(píng)分與精準(zhǔn)營(yíng)銷:
https://wenku.baidu.com/view/7e156f087275a417866fb84ae45c3b3567ecdd18.html
漏斗模型分析:
http://www.woshipm.com/data-analysis/697156.html
流量貨幣化:
https://baike.baidu.com/item/%E6%B5%81%E9%87%8F%E8%B4%A7%E5%B8%81%E5%8C%96/17219976
本文參考:
- https://www.cnblogs.com/yjd_hycf_space/p/7772722.html。
- https://www.cnblogs.com/shujuxiong/p/10218727.html。
- https://blog.csdn.net/haoyuexihuai/article/details/53453100。
- https://blog.csdn.net/wuxintdrh/article/details/81990385。
- https://www.admin5.com/article/20180629/862661.shtml。
結(jié)語(yǔ):
勿忘初心,做自己,還年輕,在路上,Over!