挨踢部落直播課堂第六期:精益化數(shù)據(jù)分析—如何讓你的企業(yè)具有BAT一樣的分析能力
原創(chuàng)每一個(gè)企業(yè)建設(shè)大數(shù)據(jù)平臺時(shí)都希望建設(shè)的大而全,但是實(shí)踐證明可持續(xù)的大數(shù)據(jù)平臺都通過精益化數(shù)據(jù)分析理論逐步建立而成的。精益化數(shù)據(jù)分析的理論就是通過建立最小的商業(yè)閉環(huán),逐步驗(yàn)證和擴(kuò)大數(shù)據(jù)分析平臺最終實(shí)現(xiàn)與BAT一樣的數(shù)據(jù)分析能力。其中,核心技術(shù)、業(yè)務(wù)分析目標(biāo)在不斷成長都會遇到各種挑戰(zhàn)。今天,易觀CTO郭煒老師分享了企業(yè)建設(shè)大數(shù)據(jù)平臺中精益化建設(shè)思路以及建設(shè)月活5.2億大數(shù)據(jù)分析平臺成長歷程。
主要分享內(nèi)容如下
一、精益化數(shù)據(jù)分析
二、常見的精益化數(shù)據(jù)分析場景
三、大數(shù)據(jù)技術(shù)框架迭代與擴(kuò)展
四、用戶精益化分析到大數(shù)據(jù)平臺
各位好,我是易觀CTO郭煒,非常高興今天能夠在這里和大家做一個(gè)分享。希望能讓大家有所收獲。 我今天演講的題目是精益化數(shù)據(jù)分析——如何讓你的企業(yè)具有BAT一樣的分析能力。
先簡單介紹一下我自己:
郭煒先生2016年加入易觀,擔(dān)任易觀CTO,構(gòu)建易觀技術(shù)團(tuán)隊(duì)完成易觀大數(shù)據(jù)采集、平臺、數(shù)據(jù)挖掘等技術(shù)架構(gòu)與體系,從無到有完成易觀混合云搭建、易觀SDK升級并發(fā)布易觀秒算實(shí)時(shí)計(jì)算平臺,目前易觀大數(shù)據(jù)平臺日處理數(shù)據(jù)量30T,252億條,月活用戶5.2億。
郭煒先生畢業(yè)于北京大學(xué),加入易觀之前,曾任聯(lián)想研究院大數(shù)據(jù)總監(jiān),萬達(dá)電商數(shù)據(jù)部總經(jīng)理,并曾在中金、IBM、Teradata公司擔(dān)任大數(shù)據(jù)方向重要崗位,對大數(shù)據(jù)前沿領(lǐng)域研究,包括視頻、智能WIFI等大數(shù)據(jù)軟硬數(shù)據(jù)一體技術(shù)有獨(dú)特的見解。
一、精益化數(shù)據(jù)分析
先說說,精益化數(shù)據(jù)分析思路的由來——精益創(chuàng)業(yè)
精益創(chuàng)業(yè)(Lean Startup)由硅谷創(chuàng)業(yè)家Eric Rise2012年8月在其著精益創(chuàng)業(yè)作《精益創(chuàng)業(yè)》一書中首度提出。
三個(gè)重點(diǎn):最小可用品(MVP)、客戶反饋、快速迭代。
精益化數(shù)據(jù)分析是什么呢?
精益化分析的核心就是以業(yè)務(wù)最小閉環(huán)開始,每次形成業(yè)務(wù)效果的閉環(huán),達(dá)到業(yè)務(wù)目標(biāo),再擴(kuò)展下一步的大數(shù)據(jù)分析內(nèi)容,或者建立相關(guān)的系統(tǒng),或者建立相關(guān)的平臺。
? 最小化可行產(chǎn)品進(jìn)行優(yōu)化,而不是對其設(shè)定硬指標(biāo) v.s. 決策層說“我們要建設(shè)大數(shù)據(jù)項(xiàng)目“
? 與最終客戶與業(yè)務(wù)保持同步 v.s. “先有平臺再加業(yè)務(wù)”
? 業(yè)務(wù)閉環(huán),并形成針對大數(shù)據(jù)的數(shù)據(jù)分析 v.s. “管理層看到了Dashboard”
? 增速/轉(zhuǎn)型/創(chuàng)新 ——***的挑戰(zhàn),在于企業(yè)文化的改變
這幾點(diǎn),一定是優(yōu)先選擇前者,我10幾年的數(shù)據(jù)從業(yè)經(jīng)歷而言,不要漫無目的為了大數(shù)據(jù)而大數(shù)據(jù),這樣大數(shù)據(jù)平臺即使建立起來了也不能長久,一定是有策略的建立精益化化大數(shù)據(jù)平臺。
重要事情重復(fù)三遍,不要漫無目的為了大數(shù)據(jù)而大數(shù)據(jù),這樣大數(shù)據(jù)平臺即使建立起來了也不能長久,一定是有策略的建立精益化化大數(shù)據(jù)平臺。
不要漫無目的為了大數(shù)據(jù)二大數(shù)據(jù),這樣大數(shù)據(jù)平臺即使建立起來了也不能長久,一定是有策略的建立精益化化大數(shù)據(jù)平臺。
不要漫無目的為了大數(shù)據(jù)而大數(shù)據(jù),這樣大數(shù)據(jù)平臺即使建立起來了也不能長久,一定是有策略的建立精益化化大數(shù)據(jù)平臺。那么怎么建設(shè)呢,我個(gè)人建議先從互聯(lián)網(wǎng)/移動(dòng)互聯(lián)網(wǎng)用戶運(yùn)營開始,因?yàn)檫@塊在近些年來痛點(diǎn)比較明顯,業(yè)務(wù)閉環(huán)也比較容易尋找。
大家知道,互聯(lián)網(wǎng)進(jìn)入下半場以后,我們過去做一個(gè)APP不用做什么活動(dòng)就能心大量新增用戶的日子一去不復(fù)返了,現(xiàn)在哪怕精準(zhǔn)拉新的效果也不一定好,所以,目前對現(xiàn)有的這些用戶如何進(jìn)一步運(yùn)營成為現(xiàn)在主要的業(yè)務(wù)需求。
大家可以看到,中國人口的增長,已經(jīng)不是像每年百分之幾的增長,而是被每年零點(diǎn)幾在增長,同樣移動(dòng)互聯(lián)網(wǎng)的用戶的增長也日漸趨緩,所以現(xiàn)在不是看怎么去拿新,而是看我們怎樣對留住用戶提高用戶的收入。
獲客難、留不住用戶、挖不到價(jià)值是現(xiàn)在互聯(lián)網(wǎng)運(yùn)營人員身上的三座大山。
精益化數(shù)據(jù)分析下的用戶全生命周期管理就是一個(gè)重要的抓手:在獲客的時(shí)候精準(zhǔn)營銷,提高渠道的ROI,在成熟用戶里提高ARPU,在用戶離開的時(shí)候,去用各種各樣的條件挽留他。這就需要對用戶的行為、屬性、渠道特征、忠誠度分析做各種各樣的分析。
其中、獲客、留存、轉(zhuǎn)化就是精益化數(shù)據(jù)運(yùn)營的主要需求,圖中列舉了各種需要做的數(shù)據(jù)分析的指標(biāo)供大家參考。
大數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)增長節(jié)奏怎樣把控?我建議分四步走,先對用戶、會員做內(nèi)部的統(tǒng)一(這部分建議是企業(yè)自己來梳理完成,各種各樣的數(shù)據(jù)只有企業(yè)自己最清晰);第二部,自己建立/外部采購互聯(lián)網(wǎng)用戶生命周期管理的平臺——這塊可以最快的看到效果,符合精益化思路;第三部,建立企業(yè)大數(shù)據(jù)平臺,將互聯(lián)網(wǎng)與內(nèi)部系統(tǒng)打通;第四部,可以利用自己的數(shù)字資產(chǎn)建立數(shù)據(jù)服務(wù)或者進(jìn)一步升級企業(yè)的人工智能平臺。
二、常見的精益化數(shù)據(jù)分析場景
下面分享一下常用的精益化數(shù)據(jù)分析的場景。
精益化數(shù)據(jù)分析,面對用戶這方面,用戶全生命周期管理的核心方法論是AARCE模型,每一個(gè)步驟都會有很多的分析可以做,下面我舉個(gè)比較常見的場景:
尋找優(yōu)質(zhì)渠道,提升關(guān)鍵路徑轉(zhuǎn)化,找回流失用戶,提升用戶留存和活躍度是幾個(gè)最常見的精益化分析模型。
對于每個(gè)企業(yè)的運(yùn)營和市場部來講,如果找到合適的渠道,發(fā)展用戶是每天都要面臨的問題,衡量每一個(gè)渠道的質(zhì)量情況,轉(zhuǎn)化情況,留存情況就是一個(gè)典型的精益化數(shù)據(jù)分析場景。
衡量渠道的時(shí)候,可以從新增、留存、防刷量幾個(gè)角度來做數(shù)據(jù)分析。大部分的渠道都會存在一些水分,無論是自建還是外購,幫助企業(yè)節(jié)約渠道費(fèi)用,找到更合適的渠道會直接讓管理層感受到大數(shù)據(jù)的作用,我個(gè)人經(jīng)驗(yàn)是,數(shù)據(jù)分析的業(yè)務(wù)閉環(huán),距離錢越近的分析越容易獲得公司的認(rèn)可。光有渠道發(fā)展還是不夠的,還需要提高用戶的轉(zhuǎn)化,這里也有一些常用的指標(biāo)和方法給大家參考
這是每一個(gè)產(chǎn)品經(jīng)理會遇到的問題
每一個(gè)關(guān)鍵路徑,都需要下轉(zhuǎn)化分析,看究竟那些用戶留下來了,那些用戶離開了。更重要的是,要看離開的這些用戶是否到競爭對手哪里去了,或者留下來的用戶是不是我們的目標(biāo)客群。
這需要每個(gè)公司建立自己的用戶畫像系統(tǒng),對流失的客戶做全景的用戶行為洞察。說到流失,每個(gè)公司在建立精益化大數(shù)據(jù)分析平臺的時(shí)候,都會有一個(gè)很典型的功能,就是召回流失用戶,一般說來,都要先定義流失用戶-->流失原因分析-->流失營銷活動(dòng)-->營銷活動(dòng)效果評估這幾步
每次活動(dòng),是不是有效的觸達(dá)了你的定義的人群,是不是有效形成了挽留,都是需要仔細(xì)評估的。前面簡單講了一些場景,其實(shí)這樣的里例子還有很多,每個(gè)從業(yè)者需要根據(jù)自己企業(yè)的場景來做自己的一些場景設(shè)計(jì)。
三、大數(shù)據(jù)技術(shù)框架迭代與擴(kuò)展
下面我講講精益化大數(shù)據(jù)分析時(shí)技術(shù)上有哪些坑需要填。每一個(gè)數(shù)據(jù)分析其實(shí)都是從采集-->接受-->計(jì)算-->查詢-->挖掘-->服務(wù)來做的。
我說說我在易觀的經(jīng)驗(yàn),目前公有云和私有云非?;鸨?。不過我選擇的是供應(yīng)商提供的混合云,它既有公有云可擴(kuò)展的特點(diǎn)、也有私有云的性能保證?,F(xiàn)在易觀SDK的月活在5.2億,日活7800萬。這套混合云架構(gòu),支撐了這樣大的一個(gè)數(shù)據(jù)規(guī)模,每天運(yùn)轉(zhuǎn),提供給易觀內(nèi)部分析師、外部的產(chǎn)品正常運(yùn)作,到現(xiàn)在已經(jīng)2年了,所以我很推薦做底層架構(gòu)的小伙伴嘗試混合云這種模式。
這里簡單列舉了混合云的一些優(yōu)勢。光有底層架構(gòu)還不行,這樣大的數(shù)據(jù),接收的方法需要特殊優(yōu)化,云+端的控制策略就尤為重要了,如果沒有做好,每天數(shù)億的設(shè)備就會形成一個(gè)ddos,把你的服務(wù)器集群沖垮。
這里列舉了,在數(shù)據(jù)采集和數(shù)據(jù)接收時(shí)的一些策略選擇,以及通用的數(shù)據(jù)采集應(yīng)該具有那些技術(shù)框架和模塊給大家參考。這些框架可以支持到月活數(shù)億級別,所以大家可以放心使用。時(shí)間不太多了哈,我挑兩個(gè)大數(shù)據(jù)處理和查詢中比較大的坑再說一下。
一個(gè)是我們內(nèi)部的需求,需要選擇具有一部分標(biāo)簽特性用戶,看他們的用戶行為特征是什么:例如,看95后,愛看視頻的女性,晚上10:00-11:00經(jīng)常打開APP的Top5。數(shù)據(jù)存儲邏輯結(jié)構(gòu)很簡單,一個(gè)是用戶標(biāo)簽表,用戶ID,標(biāo)簽ID;另一個(gè)是用戶ID,時(shí)間戳,APP名稱。簡單的想法就是join一下,where一下orderby。但是大家要知道,易觀有21.9億的用戶畫像了,用戶行為每天252億條,一個(gè)月就有數(shù)千億條了,怎么能簡單的join就解決了呢?每個(gè)企業(yè)也會遇到類似的情況,我的建議就是,去Join!在大數(shù)據(jù)環(huán)境下不要用join來解決任何問題,先用ES做用戶過濾,然后將用戶行為篩選縱轉(zhuǎn)橫變成bitmap,再通過與或關(guān)系來計(jì)算***結(jié)果,感興趣的小伙伴可以另外討論,今天不能深入講了。
另一個(gè)就是有序轉(zhuǎn)化漏斗的問題,就是我前面舉的具體的例子,每個(gè)人都想知道到底多少用戶從瀏覽商品-->下單-->付款,是要按照順序來的,不能先付款,再瀏覽,使用大數(shù)據(jù)解決這個(gè)問題就難了,因?yàn)橛脩粜袨闀浅4螅绾握业接行虻霓D(zhuǎn)化組合,而且要秒級別返回,是一個(gè)很有挑戰(zhàn)的問題,前段時(shí)間,我也組織了一個(gè)OLAP大賽,很多牛人、牛公司來參加這個(gè)問題的比賽,開源組的***名也獲得了10萬元獎(jiǎng)金。這里我給出一個(gè)簡單思路,供大家參考研習(xí),2018年7月開始我還會舉辦這樣的比賽,也歡迎大家來玩。
當(dāng)然技術(shù)是無止境的,還有個(gè)重要樣的技術(shù)我們會要逐步去迭代。
四、用戶精益化分析到大數(shù)據(jù)平臺
***時(shí)間不多了,我簡單把易觀內(nèi)部的大數(shù)據(jù)平臺和大家分享一下,希望對大家有啟發(fā)。
數(shù)據(jù)存儲部分,易觀用了HDFS、Spark和Hive,也用了presto和greenplum,這塊幾個(gè)開源大數(shù)據(jù)存儲的對比如下。
這里需要強(qiáng)調(diào)的是,大家不要把眼睛都放在大數(shù)據(jù)存儲平臺上,資源的調(diào)度平臺,數(shù)據(jù)治理的服務(wù)也同樣重要。這塊時(shí)間不多了,大家可以線下或者搜我過去的文章來進(jìn)一步了解。
***也歡迎大家訪問ark.analysys.cn。體驗(yàn)易觀的大數(shù)據(jù)服務(wù),還是強(qiáng)調(diào)那一點(diǎn),大數(shù)據(jù)分析只是過程,不是結(jié)果。只有形成業(yè)務(wù)閉環(huán)的精益化分析才是可持續(xù)發(fā)展之路。圖里是我的微信和微博,歡迎大家關(guān)注。
以下問題是來自51CTO開發(fā)者社群小伙伴們的提問和分享
Q:東營日報(bào)-志道:郭老師,現(xiàn)在很多單位要求做大數(shù)據(jù),概念比較空,有什么好的思路不管是從技術(shù)還是產(chǎn)品方面,去給領(lǐng)導(dǎo)或者同事講清楚嗎?
A:易觀CTO郭煒老師:我覺得大數(shù)據(jù)的確容易很***半部分的精益化思路給你借鑒,一定要找到業(yè)務(wù)閉環(huán),做大數(shù)據(jù)你為了解決什么業(yè)務(wù)問題。前面兩部分講的精益化給你參考,也推薦你2本書,一個(gè)是《精益化創(chuàng)業(yè)》,一個(gè)是《精益化數(shù)據(jù)分析》。包括今天PPT中很多的思路也得益于Eric給我的啟發(fā)。
Q:東營日報(bào)-志道:很感謝。我們是報(bào)業(yè)單位,現(xiàn)在領(lǐng)導(dǎo)對大數(shù)據(jù)這塊比較感興趣,讓我們拿方案,束手無策,其實(shí)這也是行業(yè)的需求,每個(gè)行業(yè)都有自己的數(shù)據(jù),如果挖掘加以利用就是很好的數(shù)據(jù)分析,但是作為我們自己做這樣的方案比較難,咱們易觀有這樣的方案嗎?
A:易觀CTO郭煒老師:具體需求我們互加一下私聊。
Q:數(shù)據(jù)-unicorn-北京:私有部署的化,是否會授權(quán)二次開發(fā)?
A:易觀CTO郭煒老師:當(dāng)然。
Q:王軍-北京-hadoop:我現(xiàn)在使用hbase+phoenix做oltp查詢,現(xiàn)在join一張kw級別的表和一張10w級別的表很慢,需要30秒,這個(gè)怎么優(yōu)化?我是用hbase+phoenix做oltp,用hive on spark 做olap。olap的數(shù)據(jù)處理完后放到hbase做查詢,現(xiàn)在問題是oltp查詢很慢。維度不固定,我想問問怎么優(yōu)化hbase+phoenix,現(xiàn)在問題是通過phoenix查詢hbase數(shù)據(jù)比較慢,kw表join一張10w的表時(shí)間需要40秒。這個(gè)肯定接受不了。key基本就是幾個(gè)字段的組合?,F(xiàn)在是分析出來的數(shù)據(jù)放到hbase,需要在hbase進(jìn)行查詢。
A:易觀CTO郭煒老師:你用hadoop做?我建議你試用一下Greenplum。
A:數(shù)據(jù)-unicorn-北京:建議分析一下應(yīng)用場景,再選取數(shù)據(jù)庫。如果維度不固定,又要查詢快,mongodb是不錯(cuò)的選擇。如果是數(shù)據(jù)處理,比如join之類,hive的優(yōu)勢比較明顯,或者存儲用hive,調(diào)用使用Presto(暫時(shí)不是很成熟隱藏問題較多,比如數(shù)據(jù)類型等)。
A:半個(gè)開發(fā)-小星星-廣州:這個(gè)不能完全賴在數(shù)據(jù)庫上,首先索引、sql優(yōu)化什么的這些先排除掉。印象中,mysql數(shù)據(jù)瓶頸應(yīng)該在3kw左右,pg多一點(diǎn)。當(dāng)然,還得看where條件的寫法,像 or、<>、表達(dá)式左邊有計(jì)算等等,會使索引失效。
【51CTO原創(chuàng)稿件,合作站點(diǎn)轉(zhuǎn)載請注明原文作者和出處為51CTO.com】