自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

創(chuàng)業(yè)公司做數(shù)據(jù)分析(一)開篇

大數(shù)據(jù) 數(shù)據(jù)分析
了解“認(rèn)知心理學(xué)”的朋友應(yīng)該知道:人類對事物的認(rèn)知,總是由淺入深。然而,每個人思考的深度千差萬別,關(guān)鍵在于思考的方式。通過提問三部曲:WHAT->HOW->WHY,可以幫助我們一步步地從事物的表象深入到事物的本質(zhì)。比如學(xué)習(xí)一個新的技術(shù)框架,需要逐步搞清楚她是什么、如何使用、為什么這樣設(shè)計,由淺入深。

了解“認(rèn)知心理學(xué)”的朋友應(yīng)該知道:人類對事物的認(rèn)知,總是由淺入深。然而,每個人思考的深度千差萬別,關(guān)鍵在于思考的方式。通過提問三部曲:WHAT->HOW->WHY,可以幫助我們一步步地從事物的表象深入到事物的本質(zhì)。比如學(xué)習(xí)一個新的技術(shù)框架,需要逐步搞清楚她是什么、如何使用、為什么這樣設(shè)計,由淺入深。

[[182926]]

“WHY+HOW+WHAT”,是筆者最鐘愛的一種思維模式。其使用方法不僅限于上述認(rèn)知過程中的思考方式,通過不同的順序組合,可以使用在不同的場景。比如,在籌劃一個項目時,采用“WHY->WHAT->HOW”的思考方式,先搞清楚為什么要做這個項目,然后是需要做哪些工作來完成這個項目,***考慮怎么做、技術(shù)選型。這個思考方式也將被廣泛使用在本系列的各個文章中。

[[182927]]

在過去的一年里,筆者加入了一家移動互聯(lián)網(wǎng)創(chuàng)業(yè)公司,工作之一便是負(fù)責(zé)數(shù)據(jù)業(yè)務(wù)的建設(shè),陸陸續(xù)續(xù)完成了一些數(shù)據(jù)系統(tǒng)的實現(xiàn),來滿足公司的數(shù)據(jù)需求。在創(chuàng)業(yè)公司中做數(shù)據(jù)相關(guān)的事情,而且是從零做起,肯定不像很多大公司那樣分工明細(xì),所有的工作都要保證在有限的資源下來滿足需求。回想起來也蠻有意思,因此想做些總結(jié)分享,結(jié)合我們的系統(tǒng)來談一談如何做數(shù)據(jù)分析。如果有寫的不好的地方,還請網(wǎng)友指正。

作為系列文章的開篇,本文將按照“WHY->WHAT->HOW”的思考方式來闡述下面三個問題:

  1. 創(chuàng)業(yè)公司為什么需要做數(shù)據(jù)分析?
  2. 創(chuàng)業(yè)公司做數(shù)據(jù)分析,需要做哪些事情?
  3. 如何實現(xiàn)這些數(shù)據(jù)上的需求?

WHY

隨著移動互聯(lián)網(wǎng)的發(fā)展和大數(shù)據(jù)思維的普及,越來越多的創(chuàng)業(yè)者、投資人開始重視數(shù)據(jù)的作用,而不再是隨便拍腦袋。“數(shù)據(jù)驅(qū)動決策”、“精準(zhǔn)化運營”、“產(chǎn)品快速迭代”這些概念被越來越多的人提出和使用,其背后都離不開精準(zhǔn)的數(shù)據(jù)分析。對于大多數(shù)互聯(lián)網(wǎng)創(chuàng)業(yè)公司來說,其背后沒有強大的資源與財主支撐,如何在有限的人力、物力下快速摸索、少走彎路是至關(guān)重要的,而基于“數(shù)據(jù)驅(qū)動”來做決策、運營與產(chǎn)品將起到一個關(guān)鍵的作用。讓我們來看兩個例子。

【例一】

微信公眾號早已成為各家運營的主戰(zhàn)場之一,利用微信的關(guān)系鏈來轉(zhuǎn)發(fā)H5海報頁面是眾多線上活動和拉新的一個重要方式。然而,不管是做某個線上推廣活動,還是通過線下某個渠道引導(dǎo)用戶分享、注冊,我們都需要指標(biāo)來衡量活動效果,從而摸清運營的方向。數(shù)據(jù),便是關(guān)鍵!該活動帶來的瀏覽量、分享量、新注冊用戶數(shù)、用戶留存率都是重要的指標(biāo),而這一切都離不開有效的數(shù)據(jù)追蹤與分析。如果同時有100個這樣的渠道活動,如何統(tǒng)籌各個數(shù)據(jù)分析也將是一件無法忽視的事情。(下圖呈現(xiàn)的是某次活動的傳播網(wǎng)絡(luò)的一部分)

[[182928]]

【例二】

每逢節(jié)假日,國內(nèi)各個旅游景點都是人山人海,盡管大家都知道外出游玩會遭遇這種情況,但是還是抱著一絲僥幸心理出行,畢竟好不容易有了假期嘛。在今年十一時,筆者就曾利用百度景區(qū)熱力分布圖來提前觀察,從而避開了一些高峰期和人滿為患的景區(qū),大家不妨也試一試。

回到正題,對于很多創(chuàng)業(yè)公司,特別基于LBS提供服務(wù)的企業(yè)來說,都期望搞清楚“用戶在哪里”、“哪里是用戶感興趣的地方”,從而摸清早期的投入方向,畢竟全面開花、四處征戰(zhàn)的方式是不適于創(chuàng)業(yè)公司的。通過位置數(shù)據(jù),來分析用戶集中在哪些區(qū)域,主要分布在商業(yè)區(qū)還是高校,是否受到交通因素影響等等,當(dāng)然,具體需要結(jié)合業(yè)務(wù)來做了。另一方面,還可以聚合出用戶的常駐位置,可以對用戶位置與商戶位置的距離進(jìn)行分析等等,從而形成推薦方案,優(yōu)化產(chǎn)品與服務(wù)。

創(chuàng)業(yè)公司做數(shù)據(jù)分析(一)開篇

WHAT

對于大多數(shù)互聯(lián)網(wǎng)創(chuàng)業(yè)公司,在做數(shù)據(jù)分析時,一定要結(jié)合自己的業(yè)務(wù),把握一個度,在投入可控的范圍內(nèi)達(dá)到效果即可。數(shù)據(jù)深度挖掘、機器學(xué)習(xí)、推薦算法等等,這些技術(shù)名詞背后都需要投入一定的人力、物力來支撐,即使是大廠來玩,產(chǎn)出也相對有限,而且很多時候?qū)嶋H工程效果不盡人意。舉個列子,很多高端的“推薦算法”在投入使用后,其效果遠(yuǎn)不如“看了又看”來的簡單有效。當(dāng)然,如果你的公司就是做數(shù)據(jù)這方面的業(yè)務(wù),那是另一回事了。

要搞清楚需要做什么,不妨先結(jié)合自身業(yè)務(wù)思考一下,現(xiàn)階段自己需要什么數(shù)據(jù)來驅(qū)動決策、運營與產(chǎn)品。具體業(yè)務(wù)方面的數(shù)據(jù)需求,各家都不一樣。從筆者接觸的情況來看,早期大部分的數(shù)據(jù)需求集中在兩塊:運營數(shù)據(jù)的統(tǒng)計分析、產(chǎn)品使用情況的統(tǒng)計分析。后期隨著產(chǎn)品線的發(fā)展,一般會延伸出一些與產(chǎn)品相關(guān)的數(shù)據(jù)業(yè)務(wù),比如線上推薦。

從流程上看,需要做的事情集中在三部分:數(shù)據(jù)采集、數(shù)據(jù)處理和數(shù)據(jù)可視化,伴隨著數(shù)據(jù)的變遷:原始數(shù)據(jù)->分析結(jié)果->圖表呈現(xiàn)。首先,基礎(chǔ)數(shù)據(jù)源的建設(shè)是做好數(shù)據(jù)分析的關(guān)鍵,因為如果數(shù)據(jù)源本身出了問題,那么后面做的所有工作都是沒有意義的,而且如果沒有提前做好數(shù)據(jù)采集,后期想做分析時也沒有數(shù)據(jù)可做。

其次,數(shù)據(jù)分析的最終結(jié)果是需要呈現(xiàn)給別人看的,可能是公司高層,也可能是市場業(yè)務(wù)人員,直接將一堆數(shù)據(jù)丟給他們顯然是不現(xiàn)實的,通常都需要轉(zhuǎn)換為圖表的形式,這便是數(shù)據(jù)可視化的工作。而從原始數(shù)據(jù)源到分析結(jié)果的過程,便歸納為數(shù)據(jù)處理,其涵蓋了數(shù)據(jù)提取、數(shù)據(jù)建模、數(shù)據(jù)分析等多個步驟。

創(chuàng)業(yè)公司做數(shù)據(jù)分析(一)開篇

HOW

現(xiàn)如今國內(nèi)的互聯(lián)網(wǎng)環(huán)境發(fā)展的越來越好,第三方服務(wù)提供商越來越多。所以很多情況下我們都有兩個選擇:接入第三方、自己做。

數(shù)據(jù)分析這塊,便有很多第三方服務(wù),筆者將其劃分為傳統(tǒng)數(shù)據(jù)統(tǒng)計服務(wù)與新興的數(shù)據(jù)公司。前者以百度統(tǒng)計、google analysis為代表,通過嵌入其SDK在前端采集數(shù)據(jù),在后臺便可以查看相應(yīng)的統(tǒng)計數(shù)據(jù)。這種方式的好處是簡單、免費,使用非常普及,是很多初創(chuàng)企業(yè)的***。

缺點也很明顯,一是這樣的統(tǒng)計只能分析一些基本的訪問量、點擊率、活躍用戶量,滿足基本需求,無法結(jié)合業(yè)務(wù)數(shù)據(jù)來做深度分析;二是需要在前端很多地方埋點上報,耦合性較強;三是數(shù)據(jù)存儲在第三方的服務(wù)器中,無法直接獲取到數(shù)據(jù)源。

后者以神策、GrowingIO、諸葛IO為代表,這些公司也正是看到了傳統(tǒng)數(shù)據(jù)統(tǒng)計服務(wù)的缺點,從而提出相應(yīng)的解決方案,各有特色。但是,需要不菲的接入費用,私有部署的費用更多,而這筆費用對于一個初創(chuàng)企業(yè)來說,還是蠻多的。另一方面他們更加側(cè)重于電商領(lǐng)域的數(shù)據(jù)分析,因為這個領(lǐng)域的分析模式已經(jīng)基本成型,適合做成模板來使用。

選擇自己做的話,可以結(jié)合自身的業(yè)務(wù),做的更靈活,同時也可以盡早摸索數(shù)據(jù)業(yè)務(wù),逐步建立相應(yīng)的數(shù)據(jù)系統(tǒng)。當(dāng)然,自己做并不代表是造輪子,而是要充分利用開源框架來實現(xiàn)相應(yīng)的功能。

鑒于各家的業(yè)務(wù)都不同,而拋開業(yè)務(wù)談架構(gòu)都是耍流氓,所以在接下來的文章中,筆者將結(jié)合自己接觸的業(yè)務(wù)來探討一些數(shù)據(jù)系統(tǒng)的實現(xiàn)。下圖所示便是現(xiàn)階段我們的數(shù)據(jù)系統(tǒng)架構(gòu),主要分為數(shù)據(jù)采集、數(shù)據(jù)處理與數(shù)據(jù)應(yīng)用三層。

從下往上,數(shù)據(jù)采集層負(fù)責(zé)從前端App、H5頁面、服務(wù)器日志采集數(shù)據(jù),通過Kafka接入后存入Elasticsearch與neo4j中,同時業(yè)務(wù)數(shù)據(jù)庫也是很重要的數(shù)據(jù)源;數(shù)據(jù)處理層負(fù)責(zé)數(shù)據(jù)的抽取、清洗、建模,然后存入MongoDB與MySQL中,整個過程由Airflow任務(wù)調(diào)度管理系統(tǒng)來進(jìn)行管理與監(jiān)控;產(chǎn)出的數(shù)據(jù)最終提供給應(yīng)用層使用。

也許有人要說,連Hadoop都沒用到,怎么號稱自己在做數(shù)據(jù)分析呢。筆者曾經(jīng)也做過考慮和嘗試,最終暫時擱置了Hadoop,主要是數(shù)據(jù)增長相對緩慢并且沒有很明顯的需求,目前這個架構(gòu)可以在較長一段時間內(nèi)應(yīng)對數(shù)據(jù)需求了。

創(chuàng)業(yè)公司做數(shù)據(jù)分析(一)開篇

點擊查看:

創(chuàng)業(yè)公司做數(shù)據(jù)分析(二)運營數(shù)據(jù)系統(tǒng)

創(chuàng)業(yè)公司做數(shù)據(jù)分析(三)用戶行為數(shù)據(jù)采集系統(tǒng)

創(chuàng)業(yè)公司做數(shù)據(jù)分析(四)ELK日志系統(tǒng)

創(chuàng)業(yè)公司做數(shù)據(jù)分析(五)微信分享追蹤系統(tǒng)

創(chuàng)業(yè)公司做數(shù)據(jù)分析(六)數(shù)據(jù)倉庫的建設(shè)

責(zé)任編輯:未麗燕 來源: 36大數(shù)據(jù)
相關(guān)推薦

2017-02-09 17:51:18

數(shù)據(jù)分析數(shù)據(jù)系統(tǒng)互聯(lián)網(wǎng)

2017-04-06 21:29:58

數(shù)據(jù)分析ELK架構(gòu)

2017-02-09 15:33:51

數(shù)據(jù)分析采集

2017-04-06 22:15:07

數(shù)據(jù)分析數(shù)據(jù)存儲數(shù)據(jù)倉庫

2017-04-06 22:40:52

數(shù)據(jù)分析追蹤系統(tǒng)微信

2016-05-10 13:55:36

2020-05-15 15:09:51

R語言數(shù)據(jù)分析

2017-07-06 15:44:33

2023-12-29 10:04:47

數(shù)據(jù)分析

2013-10-16 10:40:15

Facebook收購數(shù)據(jù)分析

2024-12-29 19:36:04

2016-09-30 01:04:45

數(shù)據(jù)分析數(shù)據(jù)

2019-06-26 11:10:47

Python數(shù)據(jù)分析Excel

2020-07-22 07:49:14

數(shù)據(jù)分析技術(shù)IT

2018-05-18 09:18:00

數(shù)據(jù)分析報告數(shù)據(jù)收集

2012-05-31 09:33:28

數(shù)據(jù)分析

2009-05-06 08:31:28

IBM收購Exeros

2013-05-14 10:01:57

Luchy Sort

2015-11-20 10:38:58

數(shù)據(jù)分析

2012-11-27 09:46:36

大數(shù)據(jù)運算云計算
點贊
收藏

51CTO技術(shù)棧公眾號