自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

數(shù)據(jù)科學(xué)家 / 統(tǒng)計(jì)學(xué)家應(yīng)該養(yǎng)成哪些好習(xí)慣?

大數(shù)據(jù) 數(shù)據(jù)分析
做過(guò)一點(diǎn)統(tǒng)計(jì)模型,做過(guò)一點(diǎn)數(shù)據(jù)分析,現(xiàn)在工作名字叫數(shù)據(jù)科學(xué)家,厚著臉皮拋磚引玉,聊聊數(shù)據(jù)分析中需要養(yǎng)成的良好習(xí)慣。

[[188234]]

做過(guò)一點(diǎn)統(tǒng)計(jì)模型,做過(guò)一點(diǎn)數(shù)據(jù)分析,現(xiàn)在工作名字叫數(shù)據(jù)科學(xué)家,厚著臉皮拋磚引玉,聊聊數(shù)據(jù)分析中需要養(yǎng)成的良好習(xí)慣。

1. 了解數(shù)據(jù)分析的目的/需求

做數(shù)據(jù)分析的新人可能都遇到過(guò),辛辛苦苦花了幾個(gè)小時(shí)做出來(lái)的結(jié)果,跟客戶 / 合作伙伴 / PM / 老板要的不是一個(gè)東西,運(yùn)氣好的話回去修補(bǔ)一下,花個(gè)半小時(shí)之類的,運(yùn)氣不好的話直接推倒重來(lái),搞不好又得晚上加班了。

比如說(shuō)下午六點(diǎn),正準(zhǔn)備收拾東西回家,PM 跟你說(shuō)想看知乎用戶的活躍度,跟數(shù)據(jù)分析師提出需求說(shuō),我們來(lái)看看大家使用時(shí)長(zhǎng)吧。那么問(wèn)題來(lái)了,是看平均呢還是看中位數(shù)?是看某一種客戶端比如移動(dòng)端嗎,或者是想每種客戶端都分開(kāi)來(lái)看?要根據(jù)用戶的注冊(cè)時(shí)間來(lái)做下劃分嗎?是否想看具體某個(gè)城市的?

甚至再退后一步,PM 想看這個(gè)干什么?僅僅是好奇,還是現(xiàn)在有個(gè)很重要的決定需要以此為基礎(chǔ)?數(shù)據(jù)分析師需要以此來(lái)決定這件事情的優(yōu)先級(jí),是可以推回去的呢?還是說(shuō)需要立馬動(dòng)手做,下班之前就需要給結(jié)果的。

二十歲的人生,三十年的工作經(jīng)驗(yàn),都是加班鬧的。   

 

2. 用常識(shí)來(lái)驗(yàn)證結(jié)果

雖然說(shuō)數(shù)據(jù)說(shuō)話,但是前提是數(shù)據(jù)來(lái)源、分析過(guò)程、解讀等都是正確的。如何保證結(jié)果的正確性,最基本的一點(diǎn)就是不同方面來(lái)快速驗(yàn)證一下數(shù)量級(jí)。

比如說(shuō) PM 想看知乎用戶使用 Live 的數(shù)量,發(fā)現(xiàn)迄今為止有 50 萬(wàn) iPhone 用戶點(diǎn)擊了 Live 的頁(yè)面,2 萬(wàn)安卓用戶點(diǎn)擊了 Live 的頁(yè)面。同時(shí)還知道知乎有五百萬(wàn) iPhone 日活,而安卓的日活是三千萬(wàn),由此可見(jiàn) iPhone 用戶就是舍得花錢啊,同時(shí)安卓用戶那里還有很大的機(jī)會(huì)。然后簡(jiǎn)單比較一下可以發(fā)現(xiàn),二者的參與率差了 150 倍,常識(shí)判斷這差得有點(diǎn)太大了,難以解釋。再仔細(xì)研究一下數(shù)據(jù)來(lái)源發(fā)現(xiàn),原來(lái)安卓客戶端的數(shù)據(jù)記錄是取樣 1% 的,所以直接看只有 2 萬(wàn)安卓用戶點(diǎn)擊,但實(shí)際上應(yīng)該在兩百萬(wàn)左右,這樣一來(lái) iPhone 和安卓的差別就比較合理了。

時(shí)刻謹(jǐn)記常識(shí)

   

3. 時(shí)刻注意數(shù)據(jù)分析的結(jié)果是否具有誤導(dǎo)性

經(jīng)常說(shuō)的一句話叫“數(shù)據(jù)會(huì)說(shuō)謊”。然后數(shù)據(jù)自身是不會(huì)說(shuō)謊的,而是取決于如何做數(shù)據(jù)分析、如何展示結(jié)果。有時(shí)候是數(shù)據(jù)分析無(wú)意中引入了誤導(dǎo)性元素,比如說(shuō)不合理的坐標(biāo)軸,有時(shí)候是刻意引入某些誤導(dǎo)性元素,以達(dá)到特別的目的,這些都是應(yīng)該盡量避免的。

比如說(shuō)下圖同樣的增幅,因?yàn)橛昧瞬煌?y 軸,左右看起來(lái)就完全不一樣了。如果聽(tīng)眾沒(méi)有仔細(xì)看坐標(biāo)軸而僅僅看圖形的話,妥妥的就被忽悠了。   

 

此外還有一些數(shù)據(jù)分析中常見(jiàn)的錯(cuò)誤,可以參考下面文章:

數(shù)據(jù)分析中會(huì)常犯哪些錯(cuò)誤,如何解決?

4. 想想你的聽(tīng)眾是誰(shuí)

數(shù)據(jù)很多時(shí)候不僅僅是一個(gè)人埋頭苦干,還需要跟人交流,比如說(shuō)跟合作伙伴的溝通,跟老板的溝通,跟其他組員的溝通,跟不同部門的人溝通。針對(duì)不同的聽(tīng)眾,相應(yīng)的需要強(qiáng)調(diào)不同方面。

比如說(shuō)跟合作伙伴溝通的時(shí)候,可能他們知道你做這個(gè)的目的是什么,可能會(huì)對(duì)結(jié)果更感興趣,以及由數(shù)據(jù)提供了什么建議或者決定。至于具體數(shù)據(jù)來(lái)源或者分析方法之類對(duì)他們來(lái)說(shuō)不是那么重要,大多數(shù)時(shí)候只要確保數(shù)據(jù)分析師知道自己在做什么就可以了。

跟老板溝通結(jié)果的時(shí)候,大部分時(shí)候可能他們知道你做的大致方向,對(duì)分析思路的方法基本一點(diǎn)就通,細(xì)節(jié)方面可能無(wú)法面面俱到。

而跟不同部門的人溝通的時(shí)候,分享數(shù)據(jù)分析的結(jié)果之前,***還能講講這件事情的目的,一些背景,大方向是什么諸如此類。 

 

[[188235]]

 

5. 動(dòng)手之前先看看這件事情是不是已經(jīng)有人做過(guò)了

這點(diǎn)在大一點(diǎn)的公司尤其明顯,PM 或者老板提出一個(gè)需求,或者數(shù)據(jù)分析師自己對(duì)某一個(gè)問(wèn)題感興趣,然后想也沒(méi)想,就 SQL 寫(xiě)得飛快跑了起來(lái)。很快一天過(guò)去了,產(chǎn)出了一大堆數(shù)據(jù)和報(bào)表,被自己的高效感動(dòng)了,收拾書(shū)包回家。

晚上打開(kāi)電腦,突然不知道哪根經(jīng)搭錯(cuò)了,想白天做的這個(gè)事情會(huì)不會(huì)已經(jīng)有人做過(guò)了呢?于是內(nèi)網(wǎng)搜了一下,豁然發(fā)現(xiàn)某個(gè)角落里有一堆早就做好的 pipeline,數(shù)據(jù)、報(bào)表一應(yīng)俱全,90% 想要的結(jié)果都在里面了,真是不知道該哭還是想笑。

數(shù)據(jù)分析很多時(shí)候是不需要重新造輪子的。 

 

 

 

6. 數(shù)據(jù)大小很重要又不重要

幾年前,有個(gè)大數(shù)據(jù)的笑話,Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it. 看不懂的請(qǐng) google translate.

幾年過(guò)去了,teenage 應(yīng)該也長(zhǎng)大成人不再是 teenage sex 了,很多時(shí)候大家是真的在做大數(shù)據(jù)了。雖然 size matters,但是數(shù)據(jù)分析師更應(yīng)該關(guān)注數(shù)據(jù)能提供什么價(jià)值。

本來(lái)想放個(gè) size matters 的圖,然后 google 了一下之后,出來(lái)的都是辦公室不宜的,所以你們自己腦補(bǔ)吧。

7. So what?

描述性的數(shù)據(jù)據(jù)分析很重要,是了解用戶,了解產(chǎn)品,感受大方向的基礎(chǔ)。比如針對(duì)知乎活躍用戶做個(gè)畫(huà)像,發(fā)現(xiàn) 55% 男性,40% 女性(別問(wèn)我剩下 5% 怎么回事),70% 年薪百萬(wàn),80% 985/211,90% 健身,100% 都是活躍用戶(廢話),如此種種。這么一大堆圖表、信息堆起來(lái)之后,需要仔細(xì)想想這到底說(shuō)明了什么問(wèn)題?對(duì)改進(jìn)產(chǎn)品有什么啟示,比如說(shuō)開(kāi)個(gè)健身爆照專欄輪帶逛?如果僅僅是停留在描述性數(shù)據(jù)分析階段的話,那么就無(wú)法發(fā)揮數(shù)據(jù)的***作用,從數(shù)據(jù)的角度引導(dǎo)產(chǎn)品的改進(jìn)。

ps. 引導(dǎo)產(chǎn)品改進(jìn)可以是多個(gè)方面的,數(shù)據(jù)引導(dǎo)僅僅是其中的一部分。

8. 保持好奇心

數(shù)據(jù)分析不是一個(gè)新的學(xué)科,但是工具、內(nèi)容、應(yīng)用方向等一直在不斷改變,所以保持好奇心,持續(xù)學(xué)習(xí)進(jìn)步,探索新領(lǐng)域?qū)﹂L(zhǎng)期發(fā)展是最重要的一點(diǎn),(個(gè)人認(rèn)為)沒(méi)有之一。 

[[188236]]

 

責(zé)任編輯:龐桂玉 來(lái)源: 36大數(shù)據(jù)
相關(guān)推薦

2019-07-03 15:21:47

數(shù)據(jù)科學(xué)統(tǒng)計(jì)數(shù)據(jù)數(shù)據(jù)結(jié)構(gòu)

2015-08-28 09:41:24

統(tǒng)計(jì)

2021-01-29 14:38:36

數(shù)據(jù)科學(xué)數(shù)據(jù)科學(xué)家統(tǒng)計(jì)學(xué)

2017-08-04 15:53:10

大數(shù)據(jù)真?zhèn)螖?shù)據(jù)科學(xué)家

2016-08-02 17:00:12

Hadoop大數(shù)據(jù)系統(tǒng)

2012-12-06 15:36:55

CIO

2012-12-26 10:51:20

數(shù)據(jù)科學(xué)家

2020-08-28 13:49:13

數(shù)據(jù)統(tǒng)計(jì)學(xué)面試

2019-12-13 07:58:34

數(shù)據(jù)科學(xué)數(shù)據(jù)科學(xué)家統(tǒng)計(jì)

2018-12-24 08:37:44

數(shù)據(jù)科學(xué)家數(shù)據(jù)模型

2019-11-26 11:19:40

統(tǒng)計(jì)數(shù)據(jù)互聯(lián)網(wǎng)

2018-02-28 15:03:03

數(shù)據(jù)科學(xué)家數(shù)據(jù)分析職業(yè)

2019-04-09 09:00:01

數(shù)據(jù)科學(xué)代碼編寫(xiě)

2018-10-16 14:37:34

數(shù)據(jù)科學(xué)家數(shù)據(jù)分析數(shù)據(jù)科學(xué)

2012-06-12 09:33:59

2015-10-20 09:30:49

菜鳥(niǎo)數(shù)據(jù)科學(xué)家養(yǎng)成

2023-07-18 15:02:50

論文AI

2021-03-27 10:57:37

數(shù)據(jù)科學(xué)家數(shù)據(jù)科學(xué)大數(shù)據(jù)

2012-12-25 09:58:50

數(shù)據(jù)科學(xué)家大數(shù)據(jù)

2019-06-10 06:22:40

編碼數(shù)據(jù)科學(xué)代碼
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)