當(dāng)我們談大數(shù)據(jù)分析的時(shí)候,我們在談什么?
數(shù)據(jù)分析是一個(gè)大話題,借這篇筆記整理一下自己的思路:數(shù)據(jù)分析是什么?涉及到哪些技術(shù)?有哪些數(shù)據(jù)公司玩家?如何定位數(shù)據(jù)分析的價(jià)值?如果選擇數(shù)據(jù)分析作為自己的職業(yè),需要掌握什么樣的基本概念?希望幫助對于數(shù)據(jù)分析有興趣的同學(xué)快速入門!
前言
數(shù)據(jù)的一面是銀彈(Silver Bullet):無所不能,增長黑客(Growth Hacking),決策分析(Decision Making);數(shù)據(jù)的另外一面是鏡子(Reflection):可以看清楚很多茍且和遠(yuǎn)方的田野。如何發(fā)現(xiàn)利用數(shù)據(jù)的價(jià)值,就是數(shù)據(jù)分析的目標(biāo)。
數(shù)據(jù)分析的重要性可以分為兩點(diǎn):
***是幫助核心業(yè)務(wù)(Business)成長,找到和驗(yàn)證業(yè)務(wù)增長點(diǎn)
第二是有效的業(yè)務(wù)推動(Marketing),提高推廣的效率(ROI)。
我把營銷(Marketing)作為獨(dú)立的數(shù)據(jù)分析角度,因?yàn)閿?shù)字營銷極度依賴于數(shù)據(jù)分析,并且有一些通用的分析模型,它同時(shí)也是一個(gè)非常大的產(chǎn)業(yè),它是各個(gè)軟件巨擘必爭之地。
最近十幾年,數(shù)據(jù)的收集和處理能力大大提升,越來越多的傳感器和數(shù)據(jù)收集,許多大公司的數(shù)據(jù)正在從TB級別走向PB級別?;ヂ?lián)網(wǎng)公司之間的模式競爭,也轉(zhuǎn)戰(zhàn)到對于數(shù)據(jù)價(jià)值的挖掘的能力上,很多時(shí)候也就是速度和效率的競爭。不要迷信數(shù)據(jù),更不要忽視數(shù)據(jù)。很多時(shí)候,數(shù)據(jù)是你業(yè)務(wù)的指南針和護(hù)城河。
數(shù)據(jù)量快速增長,數(shù)據(jù)分析人才緊缺,數(shù)據(jù)分析工具依賴性,數(shù)據(jù)分析服務(wù)的強(qiáng)需求都反映了公司從粗放型到精細(xì)化的轉(zhuǎn)型。
1. 什么是數(shù)據(jù)分析(Data Analysis)?
為了理解數(shù)據(jù)分析,首先理解一下數(shù)據(jù)的概念。管理學(xué)家羅素·艾可夫在1989的《 “From Data to Wisdom”,Human SystemsManagement 》提出了DIKW體系體系,這是關(guān)于數(shù)據(jù)、信息、知識及智慧的一個(gè)模型,***詮釋了四者的關(guān)系。Data(數(shù)據(jù))->Information(信息)->Knowledge(知識)->Wisdom(智慧)。
2. 數(shù)據(jù)分析的技術(shù)
數(shù)據(jù)分析在技術(shù)上定義:以發(fā)現(xiàn)有用信息,知識和洞察為目的,進(jìn)行數(shù)據(jù)收集,處理,清晰,過濾,以支持決策制定。
行業(yè)里也有幾個(gè)相關(guān)的概念,常常會引起混淆,花點(diǎn)時(shí)間解釋一下:
商務(wù)智能(Business Intelligence): BI是在商業(yè)數(shù)據(jù)上進(jìn)行價(jià)值挖掘的過程,BI的歷史很長,很多時(shí)候會特別指通過數(shù)據(jù)倉庫的技術(shù),進(jìn)行業(yè)務(wù)報(bào)表和分析的過程,分析通常利用數(shù)據(jù)的聚合(Aggregation)和分片(Slice)的能力。技術(shù)上BI包括ETL(數(shù)據(jù)轉(zhuǎn)換),數(shù)據(jù)倉庫(Data Warehouse),OLAP(聯(lián)機(jī)分析處理),數(shù)據(jù)挖掘(Data Mining)。
數(shù)據(jù)挖掘(Data Mining):數(shù)據(jù)挖掘是指在大量數(shù)據(jù)中自動搜索隱藏于其中的有著特殊關(guān)系性(屬于Association rule learning)的信息的過程。很多年前,它一直是一個(gè)熱門的研究生專業(yè),直到信息檢索專業(yè)的出現(xiàn)。
聯(lián)機(jī)分析處理(OLAP):其實(shí)是一個(gè)建立數(shù)據(jù)系統(tǒng)的方法,核心思想就是建立多維度的數(shù)據(jù)立方體,以維度(Dimension)和度量(Measure)為基本概念,輔以元數(shù)據(jù),實(shí)現(xiàn)可以鉆取(Drill-down/up)、切片(Slice)、切塊(Dice)等靈活、系統(tǒng)、直觀的數(shù)據(jù)展現(xiàn)。
數(shù)據(jù)分析也是一種藝術(shù)(Art),所謂藝術(shù)就是結(jié)合技術(shù),想象力,經(jīng)驗(yàn)和意愿的綜合因素的平衡和融合。數(shù)據(jù)分析也是一個(gè)經(jīng)驗(yàn)和想象力的融合:它涉及到數(shù)學(xué)算法,統(tǒng)計(jì)分析,工具和軟件工程的一種結(jié)合,***的目的是解決業(yè)務(wù)的問題,幫助人從數(shù)據(jù)中獲得智慧。
下面列了幾個(gè)常用的分析技術(shù)范式:
1. 統(tǒng)計(jì)模型:利用統(tǒng)計(jì)模型處理數(shù)據(jù)的方法
2. 探索式(exploratory):不設(shè)定假設(shè)目標(biāo),自由發(fā)掘和探索
3. 穩(wěn)定性(Stability of Results):分析結(jié)果的穩(wěn)定性評估,又是進(jìn)行交叉驗(yàn)證。
4. 假定驗(yàn)證(HypothesisTesting):預(yù)先設(shè)定好結(jié)論,通過測試校驗(yàn)結(jié)論
下面是涉及到算法,工程,統(tǒng)計(jì)等的相關(guān)技術(shù),每一種細(xì)分技術(shù)都是一個(gè)大學(xué)問,好的數(shù)據(jù)科學(xué)家,可以游曳穿行其中,找到數(shù)據(jù)中有價(jià)值的洞察。
3. 數(shù)據(jù)從業(yè)者的職業(yè)名稱
從事數(shù)據(jù)的工作者,歷史上我見識過了不少名稱,包括“數(shù)據(jù)分析師”,“數(shù)據(jù)經(jīng)理”,“運(yùn)營分析師”,“軟件工程師”,“算法工程師”,“策略分析師”,“數(shù)據(jù)科學(xué)家” 等等。其中最酷的名字還是LinkedIn發(fā)明的“數(shù)據(jù)科學(xué)家(Data Scientist)”,這個(gè)名稱也被Forbes評為本世紀(jì)最”性感“的工作了。我估計(jì),這是全世界最多的科學(xué)家團(tuán)體了,小時(shí)候總覺得科學(xué)家必須白發(fā)蒼蒼才行的,現(xiàn)在很多同學(xué)剛畢業(yè)就是”數(shù)據(jù)科學(xué)家“,很讓人羨慕。
數(shù)據(jù)分析實(shí)際上是三個(gè)方面的融合,包括數(shù)據(jù),工程和業(yè)務(wù)。數(shù)據(jù)是智慧的原礦石,工程是采礦機(jī),業(yè)務(wù)是指北針,只有三個(gè)方面融合起來,才能最有效的發(fā)現(xiàn)數(shù)據(jù)的價(jià)值。我相信一個(gè)好的數(shù)據(jù)分析師必須有工程背景,必須對數(shù)據(jù)敏感,而且愿意主動解決業(yè)務(wù)問題。
4. 數(shù)據(jù)分析公司的生態(tài)圈
數(shù)據(jù)分析的的公司非常多,大大小小,林林總總。有小而美的硅谷創(chuàng)業(yè)公司,有老牌大公司的老樹新花。很多創(chuàng)業(yè)公司的市值一路飆升到無法接盤的狀態(tài)。例如,Palantir估值已經(jīng)到了200億美元,但是最近可持續(xù)的收入?yún)s不斷減少,引來不少麻煩。
我把數(shù)據(jù)分析公司分為三類:
***類是基礎(chǔ)服務(wù)提供者,主要提供一些軟件工具,Hadoop和Spark的生態(tài)公司,幫助數(shù)據(jù)基礎(chǔ)架構(gòu)的建設(shè),也包括一些數(shù)據(jù)可視化公司。
第二類是通用分析服務(wù)提供公司,包括Palantir,IBM的Watson Analytics,SAS, Google Analytics 等等,這類公司提供數(shù)據(jù)分析服務(wù)或者工具,利用專家背景,系統(tǒng)規(guī)模和數(shù)據(jù)資源,幫助解決客戶的問題,特別是很多老牌公司通過收購傳統(tǒng)數(shù)據(jù)分析公司,快速重新包裝成新的高大上產(chǎn)品。
第三類是專注行業(yè)的數(shù)據(jù)分析公司,例如生物信息,市場營銷分析等等。
5. 三種常見的業(yè)務(wù)分析模型:GrowthHacker,AARRR,LTV
看完了欣欣向榮的數(shù)據(jù)分析行業(yè),是不是感到有些熱血沸騰。不過我們還是要回到現(xiàn)實(shí)的的,落地的數(shù)據(jù)分析任務(wù)。大部分互聯(lián)網(wǎng)公司,面臨的業(yè)務(wù)增長的壓力,都希望通過數(shù)據(jù)分析來提升競爭力。其中,有三種常見的業(yè)務(wù)運(yùn)營增長模型。
1. 黑客文化的Growth Hacker
2. 經(jīng)典的AARRR漏斗模型
3. 游戲中的LTV模型
1) 增長黑客(Growth Hacker)的數(shù)據(jù)和分析
GrowthHacking,它指的是一種用戶增長的方式,簡單說就是通過某些手段和策略幫幫助公司形成快速成長,通常是數(shù)據(jù)驅(qū)動的方法。對創(chuàng)業(yè)公司、特別是初創(chuàng)公司來說,在沒有廣告預(yù)算、市場營銷活動以及市場推廣專員的情況下,GrowthHacking 也可以獲得良好的效果。
2) AARRR模型
AARRR是Acquisition、Activation、Retention、Revenue、Refer,這個(gè)五個(gè)單詞的縮寫,分別對應(yīng)這一款移動應(yīng)用生命周期中的5個(gè)重要環(huán)節(jié)。每一個(gè)環(huán)節(jié)都有些關(guān)鍵指標(biāo),可以進(jìn)行數(shù)據(jù)分析,找到提升的機(jī)會。
3) 生命周期價(jià)值(LTV)模型:
LTV是LifeTime Value,它是游戲行業(yè)用于衡量用戶價(jià)值的一種方式和模型。LTV是指在一定時(shí)間內(nèi),某一客戶可能為企業(yè)帶來的利潤額.顧客終身價(jià)值是指企業(yè)在獲得新顧客后的一段時(shí)間內(nèi),每一位顧客的平均利潤凈現(xiàn)值。由于游戲有很強(qiáng)的時(shí)間相關(guān)性,因此LTV會累計(jì)一段時(shí)間的數(shù)據(jù)。
6. 幾個(gè)有特點(diǎn)的數(shù)據(jù)分析工具
從公司類型上來說,數(shù)據(jù)分析公司簡單可以分為兩類:1傳統(tǒng)大型IT公司 2互聯(lián)網(wǎng)創(chuàng)新公司。很多傳統(tǒng)大公司都涌入數(shù)據(jù)分析行業(yè),大多都是希望利用自己的客戶,硬件和軟件優(yōu)勢,通過數(shù)據(jù)分析轉(zhuǎn)型成SaaS服務(wù)提供商,例如IBM,Oracle等。另外一個(gè)就是互聯(lián)網(wǎng)創(chuàng)新公司,大量數(shù)據(jù)科學(xué)家形成了大大小小數(shù)據(jù)分析創(chuàng)業(yè)公司,很多都聚焦在一個(gè)細(xì)分行業(yè),其中包括Qualtrics,Mulesoft,Medallia等,超過80%的數(shù)據(jù)分析公司在美國的加州。
這里介紹幾個(gè)市面上的分析工具,對于浩瀚的數(shù)據(jù)分析市場來說,只是窺豹一斑,但是他們確實(shí)幾類數(shù)據(jù)分析公司的代表:老牌軟硬件公司,互聯(lián)網(wǎng)公司,手機(jī)生態(tài)公司。
1. Google Analytics Suite 360
2. IBM Watson Analytics
3. Apple App Analytics
4. MixPanel
1) GoogleAnalytics Suite 360
2016年3月15日,谷歌發(fā)布了全新的數(shù)據(jù)服務(wù)GoogleAnalytics 360 套件,為廣告主和互聯(lián)網(wǎng)公司提供更優(yōu)秀的數(shù)據(jù)服務(wù)。相比之前的Google Analytics,整個(gè)產(chǎn)品線有了極大的豐富,包括6大產(chǎn)品,覆蓋埋點(diǎn),分析,可視化,定向,轉(zhuǎn)化,歸因等方面,全方面貼近廣告主的需求。
數(shù)據(jù)是廣告主的核心利益的護(hù)城河和運(yùn)行效率指南針,數(shù)據(jù)一定要靠譜,全面。Google的數(shù)據(jù)服務(wù)套件升級,可以幫助廣告主更加高效的投放。特別是GoogleAudience 360(DMP)的加入,看來谷歌也越來越重視“以人為本”營銷。Facebook對廣告主提供了優(yōu)秀的數(shù)據(jù)服務(wù)(社交數(shù)據(jù),按效果優(yōu)化計(jì)費(fèi)等),Google也感受到了壓力,提升數(shù)據(jù)服務(wù)也是順勢而為之。
詳細(xì)內(nèi)容參考文章《谷歌推出Google Analytics 360套件:為廣告主而生的數(shù)據(jù)服務(wù)》
2) IBM Watson Analytics
IBM收購了多家BI技術(shù)公司后,而后結(jié)合鼎鼎大名的Watson,在2014年推出了IBM Watson Analytics。有IBM朋友介紹,這是IBM最接地氣的軟件之一,可以自助注冊并且可以免費(fèi)試用大部分功能。
它提供全方位的自助服務(wù)分析功能,包含數(shù)據(jù)細(xì)化和倉儲服務(wù),以便他們更快捷地獲取和準(zhǔn)備數(shù)據(jù),從而進(jìn)行分析和可視化處理。WatsonAnalytics還實(shí)現(xiàn)了諸如數(shù)據(jù)準(zhǔn)備、預(yù)測性分析以及可視化分析等眾多步驟的自動化,確保營銷、銷售、運(yùn)營、財(cái)務(wù)及人力資源等諸多數(shù)據(jù)密集型業(yè)務(wù)從業(yè)人員能夠快速、智能地獲取洞察。
WatsonAnalytics是基于Watson認(rèn)知技術(shù)構(gòu)建的一個(gè)創(chuàng)新云分析平臺,擁有自然語言認(rèn)知查詢、預(yù)測性分析以及可視化分析能力,能讓商業(yè)人士跨越IT專業(yè)知識的障礙,獲取與數(shù)據(jù)分析師相同的由認(rèn)知驅(qū)動的預(yù)測性和指導(dǎo)性分析能力。
3) AppleApp Analytics
蘋果于2015年的開發(fā)大會(2015,WWDC)上正式推出了Apple App Analytics提供如下功能:
· 查看用戶訪問App Store應(yīng)用頁面的頻率
· 應(yīng)用數(shù)據(jù):啟動應(yīng)用的數(shù)量,Crash,用戶停留時(shí)間
· 用戶ID系統(tǒng):使用Apple ID,而不是設(shè)備ID
· 營銷分析:創(chuàng)建自定義、可追蹤的營銷鏈接,找出最多的引薦來源
很多運(yùn)營指標(biāo)和已有統(tǒng)計(jì)分析數(shù)據(jù)不同,導(dǎo)致各種數(shù)據(jù)
相較于其他統(tǒng)計(jì)服務(wù)者(Flurry, App Annie,GA等),Apple App Analytics不需要開發(fā)者寫任何代碼,也不要求在應(yīng)用里集成特定的SDK。當(dāng)然,這對于支持的統(tǒng)計(jì)力度有一些限制,事實(shí)上到目前為止,App Analytics只能提供一些應(yīng)用啟動數(shù)據(jù),日活,留存,使用時(shí)長等基本數(shù)據(jù)而已。它的一個(gè)很大優(yōu)勢是集成了App Store的各種數(shù)據(jù),創(chuàng)建訪問App Store可跟蹤的鏈接等。
大部分時(shí)候,它也只是App開發(fā)工具的一個(gè)參考而已,而且Apple AppAnalytics的很多數(shù)據(jù)和其他的統(tǒng)計(jì)平臺的數(shù)據(jù)并不一致,開發(fā)者需要花很多時(shí)間理解其中的不一致。例如,Apple的UV是根據(jù)Apple ID統(tǒng)計(jì)的,大部分統(tǒng)計(jì)工具使用的是蘋果的設(shè)備ID,例如AAID等。
4) MixPanel
MixPanel是美國一個(gè)領(lǐng)先的一個(gè)移動數(shù)據(jù)分析公司,主要用于移動和PC的分析平臺,通過打點(diǎn)客戶端,將數(shù)據(jù)上報(bào)到服務(wù)器,進(jìn)行留存,分組,漏斗,A/B測試等服務(wù)。另外,它也支持可視化打點(diǎn)功能,幫助運(yùn)營人員靈活配置。它也把打點(diǎn)服務(wù)/數(shù)據(jù)分析服務(wù)從免費(fèi)方式轉(zhuǎn)向收費(fèi)增值服務(wù)的一個(gè)領(lǐng)先者。另外一些類似的數(shù)據(jù)服務(wù)公司,還包括專門做A/B測試的Optimizely,KISSMetrics和Leanplum等。
小結(jié)
數(shù)據(jù)分析從來就是一個(gè)熱門詞,像人工智能一樣,從來都吸引眼球;很多時(shí)候,數(shù)據(jù)也被濫用成了一把上方寶劍,誰不服就用數(shù)據(jù)砸誰。
實(shí)際上,數(shù)據(jù)告訴你的更多的是眼前的茍且,而我們需要思考的更多的是詩和遠(yuǎn)方。數(shù)據(jù)分析可以給我們提供很多的數(shù)字,但卻無法代替的我們的思考:如何簡化問題?如何抽象和分解復(fù)雜?如何排除萬難?數(shù)據(jù)分析只會讓工作更加有意思和挑戰(zhàn)!
【本文為51CTO專欄作者“歐陽辰”的原創(chuàng)稿件,轉(zhuǎn)載請聯(lián)系作者本人獲取授權(quán)】