自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

終于有人講清楚數(shù)據(jù)分析全流程了!

大數(shù)據(jù) 數(shù)據(jù)分析
數(shù)據(jù)分析的流程是什么樣的?從工作事務(wù)的角度出發(fā),我們可以將數(shù)據(jù)分析的工作流程劃分為10個(gè)模塊:界定問(wèn)題、制定方案、定義數(shù)據(jù)、獲取數(shù)據(jù)、理解數(shù)據(jù)、處理數(shù)據(jù)、驗(yàn)證方案、評(píng)估方案、實(shí)施方案和評(píng)價(jià)效用。本文就數(shù)據(jù)分析流程進(jìn)行詳細(xì)地講解,以及用三個(gè)不同復(fù)雜程度的實(shí)例來(lái)說(shuō)明如何利用數(shù)據(jù)分析工作流程來(lái)指導(dǎo)實(shí)踐。

 從最初的做數(shù)據(jù)管理工作,到逐漸負(fù)責(zé)指標(biāo)體系梳理、預(yù)警機(jī)制搭建、BI系統(tǒng)建設(shè)、商業(yè)分析等工作,我越來(lái)越認(rèn)同——“要做什么”是比“要怎么做”更加重要的問(wèn)題。

一個(gè)數(shù)據(jù)分析問(wèn)題,例如“分析一下競(jìng)品的情況”,讓人感覺(jué)無(wú)從下手。通常是因?yàn)檫@個(gè)問(wèn)題過(guò)于抽象,過(guò)于復(fù)雜,從而讓我們不知道“要做什么”。這時(shí)候我們就需要對(duì)問(wèn)題進(jìn)行拆解,把抽象的問(wèn)題變具象,把復(fù)雜的問(wèn)題變簡(jiǎn)單。

這個(gè)拆解過(guò)程就要求一個(gè)數(shù)據(jù)分析師對(duì)數(shù)據(jù)分析的整體框架有所了解。換言之,Ta應(yīng)該能夠回答:

[[359888]]

從工作事務(wù)的角度出發(fā),我們可以將數(shù)據(jù)分析的工作流程劃分為10個(gè)模塊。該劃分基于 “跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程”( CRISP-DM),修改、擴(kuò)充。目的在于涵蓋商業(yè)分析的工作內(nèi)容。

圖1 - 數(shù)據(jù)分析的工作流程

完成這10個(gè)模塊的工作,需要我們回答以下10類問(wèn)題。

這10類問(wèn)題圍繞著“問(wèn)題”、“數(shù)據(jù)”、“方案”三個(gè)核心關(guān)鍵詞展開。

1. 問(wèn)題

界定問(wèn)題:需要解決的問(wèn)題是什么?

制定方案:針對(duì)這個(gè)問(wèn)題,(從數(shù)據(jù)出發(fā))給出的解決方案是什么?

2. 數(shù)據(jù)

定義數(shù)據(jù):根據(jù)預(yù)設(shè)的解決方案,需要的數(shù)據(jù)有哪些,是什么樣形式的?

獲取數(shù)據(jù):所需的數(shù)據(jù)是可得的嗎?從哪里可以獲?。?/p>

理解數(shù)據(jù):獲取的數(shù)據(jù)蘊(yùn)含了哪些信息?

處理數(shù)據(jù):為了執(zhí)行解決方案,我們還需要對(duì)數(shù)據(jù)進(jìn)行哪些處理?

 3. 方案

驗(yàn)證方案:根據(jù)現(xiàn)有的數(shù)據(jù),預(yù)設(shè)的解決方案可行嗎?最初的問(wèn)題可解嗎?

評(píng)估方案:內(nèi)部評(píng)估,預(yù)設(shè)的方案多大程度上解決了最初的問(wèn)題?需要如何改進(jìn)?

實(shí)施方案:以什么方式,能準(zhǔn)時(shí)、保質(zhì)保量的交付解決方案?

評(píng)價(jià)效用:外部評(píng)價(jià),實(shí)施后的解決方案效果如何?有多少價(jià)值?產(chǎn)生了什么影響?需要如何改進(jìn)?

[[359889]]

以上提出的數(shù)據(jù)分析工作流程的描述,還是挺抽象的。

以下,用三個(gè)不同復(fù)雜程度的實(shí)例來(lái)說(shuō)明——如何利用數(shù)據(jù)分析工作流程的方法論來(lái)指導(dǎo)實(shí)際工作。

一、簡(jiǎn)單模式:“好好,這份業(yè)績(jī)報(bào)表以后你來(lái)刷新維護(hù)。”

我的第一項(xiàng)數(shù)據(jù)分析工作,就是定期刷新一份已經(jīng)設(shè)計(jì)好的業(yè)績(jī)報(bào)表。這份工作非常棒,因?yàn)檫@項(xiàng)工作只涉及了工作流程中3個(gè)模塊:⑥ 處理數(shù)據(jù)、⑨ 實(shí)施方案、⑩ 評(píng)價(jià)效用。

圖2 - 業(yè)績(jī)報(bào)表刷新涉及的工作流程

而至于其他模塊:

  1. 界定問(wèn)題:在報(bào)表設(shè)計(jì)之初,就已經(jīng)界定好了問(wèn)題:我們要評(píng)估一下業(yè)績(jī)的現(xiàn)狀。
  2. 制定方案:并制定了一個(gè)交付物為報(bào)表的解決方案;這個(gè)報(bào)表中包含了我們用來(lái)衡量業(yè)績(jī)的諸多指標(biāo),如:銷售額,產(chǎn)能、產(chǎn)品結(jié)構(gòu)等。
  3. 定義數(shù)據(jù):計(jì)算這些指標(biāo)所需的源數(shù)據(jù)也已經(jīng)定義好了。
  4. 獲取數(shù)據(jù):可以直接從公司內(nèi)部的系統(tǒng)獲取數(shù)據(jù)。
  5. 理解數(shù)據(jù) 、驗(yàn)證方案 、評(píng)估方案這三個(gè)模塊,前輩們也已經(jīng)完成了。

所以更新業(yè)績(jī)報(bào)表工作,只需要處理從系統(tǒng)中獲取的數(shù)據(jù);然后制作報(bào)表,并交付。對(duì)該項(xiàng)工作效用的評(píng)價(jià)方式為:及時(shí)性與準(zhǔn)確性。

二、復(fù)雜模式:“好好,買了份咨詢公司的數(shù)據(jù),你分析一下市場(chǎng)情況。最好能夠預(yù)測(cè)下季度的銷量。”

假設(shè)你是麻雀水果貿(mào)易公司的數(shù)據(jù)分析師?,F(xiàn)在老板從百靈鳥咨詢公司買來(lái)了一份整個(gè)市場(chǎng)的銷量數(shù)據(jù)。要求你根據(jù)這份數(shù)據(jù),分析一下市場(chǎng)的情況,并對(duì)后續(xù)的銷量做出預(yù)測(cè)。

這項(xiàng)工作的需求是相對(duì)明確的,這是一個(gè)描述現(xiàn)狀和預(yù)測(cè)未來(lái)的需求。數(shù)據(jù)的來(lái)源,老板也花了數(shù)十萬(wàn)美金幫我們搞定了。所以我們不需要花太多的精力在① 界定問(wèn)題 和 ④ 獲取數(shù)據(jù)的模塊。

圖3 - 市場(chǎng)評(píng)估與銷量預(yù)測(cè)的工作流程

我們粗略的看一下其他部分的模塊應(yīng)該要怎么做:

制定方案:

針對(duì)描述現(xiàn)狀和預(yù)測(cè)未來(lái)的需求,我們分別制定方案給出響應(yīng)。

對(duì)于描述現(xiàn)狀的需求,我們給出解決方案A。從宏觀到微觀分為三個(gè)層次描述市場(chǎng)狀況:行業(yè)、公司、產(chǎn)品。

對(duì)于預(yù)測(cè)未來(lái)的需求,我們用多元線性回歸模型作為解決方案B。

所以對(duì)于這項(xiàng)工作,我們將有兩個(gè)交付物:一份分析報(bào)告,以及一個(gè)預(yù)測(cè)模型。

定義數(shù)據(jù):為了能夠落地方案A與方案B,我們需要:

宏觀經(jīng)濟(jì)的數(shù)據(jù);

市場(chǎng)上產(chǎn)品的銷量數(shù)據(jù),并且這些數(shù)據(jù)要能夠區(qū)分品牌、區(qū)分銷售渠道、區(qū)分價(jià)位等;

此外產(chǎn)品本身特性的數(shù)據(jù);

以及咨詢公司提供的一些二手資料、結(jié)論等。

理解數(shù)據(jù):我們要對(duì)咨詢公司提供的數(shù)據(jù)做一些探索性的工作,獲取更多的信息。

當(dāng)我們獲取的信息量更多之后,或許我們可以回到 ② 方案制定 的模塊,做出更好的設(shè)計(jì)。

也可能我們發(fā)現(xiàn),目前的數(shù)據(jù),不足以支撐我們的分析需求。那么就要回到 ③ 獲取數(shù)據(jù) 的模塊,補(bǔ)充所需的數(shù)據(jù)。

數(shù)據(jù)處理:將數(shù)據(jù)加工為我們所需要的形式,指標(biāo)等。這個(gè)過(guò)程的實(shí)施,可以是使用python、Excel、ETL流程等任何工具、方式、手段。

驗(yàn)證方案:將處理好的數(shù)據(jù)代入解決方案,得到結(jié)果。如果沒(méi)能順利得到結(jié)果,定位一下是②~⑥的哪個(gè)環(huán)節(jié)出了問(wèn)題。

評(píng)估方案:評(píng)估得到的結(jié)果是否解決了最初的兩個(gè)需求。例如:

方案A的分析報(bào)告,是否給出了我司在市場(chǎng)中地位的結(jié)論。

方案B的預(yù)測(cè)模型,對(duì)過(guò)往季度的銷售額的預(yù)測(cè)準(zhǔn)確度如何。

如果還有可改進(jìn)的部分,在保證交付的前提下,返回模塊 ⑦ 驗(yàn)證方案 進(jìn)行優(yōu)化。

實(shí)施方案:將兩個(gè)交付物交付給老板,以及相關(guān)干系人(部門)。

評(píng)價(jià)效用:收集他們的意見與反饋。分析報(bào)告是否給相關(guān)決策提供支撐,預(yù)測(cè)模型在下季度的準(zhǔn)確度如何?

三、地獄模式:“找點(diǎn)數(shù)據(jù),分析一下吧。”

這時(shí)候
需求很難界定
方案無(wú)從談起
數(shù)據(jù)沒(méi)有來(lái)源
驗(yàn)證依靠幻想
實(shí)施更不可能
(有一說(shuō)一,這不就是科學(xué)家的工作嗎?)

 

 

責(zé)任編輯:梁菲 來(lái)源: 人工智能愛好者社區(qū)
相關(guān)推薦

2020-07-29 09:21:34

Docker集群部署隔離環(huán)境

2021-07-05 22:22:24

協(xié)議MQTT

2019-07-07 08:18:10

MySQL索引數(shù)據(jù)庫(kù)

2024-04-01 10:09:23

AutowiredSpring容器

2023-08-14 11:35:16

流程式轉(zhuǎn)化率數(shù)據(jù)指標(biāo)

2021-04-10 10:37:04

OSITCP互聯(lián)網(wǎng)

2020-10-16 17:20:21

索引MySQL數(shù)據(jù)庫(kù)

2024-02-23 08:08:21

2022-01-05 09:27:24

讀擴(kuò)散寫擴(kuò)散feed

2021-01-29 10:50:04

數(shù)據(jù)中臺(tái)數(shù)據(jù)數(shù)據(jù)管理

2019-05-22 08:43:45

指令集RISC-V開源

2020-04-23 10:21:57

Linux 網(wǎng)絡(luò)編程 數(shù)據(jù)

2022-07-04 11:27:02

標(biāo)簽數(shù)據(jù)指標(biāo)標(biāo)簽體系

2024-02-27 14:27:16

2023-05-29 13:59:00

GPTOpenAI監(jiān)督微調(diào)

2019-06-19 14:58:38

服務(wù)器負(fù)載均衡客戶端

2024-07-01 13:45:18

2020-03-02 15:17:37

云原生CNCF容器

2019-07-04 09:13:04

中臺(tái)百度團(tuán)隊(duì)

2021-02-25 08:21:38

高可用風(fēng)險(xiǎn)故障
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)