自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

挨踢部落故事匯(33):“小白”帶你分分鐘玩轉(zhuǎn)數(shù)據(jù)分析

原創(chuàng)
移動(dòng)開(kāi)發(fā)
數(shù)據(jù)小白從最初的職場(chǎng)菜鳥(niǎo),到“表姐”,到大數(shù)據(jù)產(chǎn)品,直到現(xiàn)在仍然在數(shù)據(jù)領(lǐng)域翻山越嶺。是什么力量使她對(duì)數(shù)據(jù)如此著迷?數(shù)據(jù)分析高級(jí)工程師又是怎么煉就的?且聽(tīng)下文分曉。

【51CTO.com原創(chuàng)稿件】數(shù)據(jù)小白從最初的職場(chǎng)菜鳥(niǎo),到“表姐”,到大數(shù)據(jù)產(chǎn)品,直到現(xiàn)在仍然在數(shù)據(jù)領(lǐng)域翻山越嶺。是什么力量使她對(duì)數(shù)據(jù)如此著迷?數(shù)據(jù)分析高級(jí)工程師又是怎么煉就的?且聽(tīng)下文分曉。

小白是個(gè)85后的姑娘,坦率、樂(lè)觀、好奇。因?yàn)樾瞻?,朋友都叫她小白。就是因?yàn)橛幸活w好奇心所以開(kāi)啟了數(shù)據(jù)小白之路。

[[213353]]

小白·數(shù)據(jù)分析高級(jí)工程師

小白畢業(yè)于二流院校的應(yīng)用數(shù)學(xué)統(tǒng)計(jì)專業(yè),在校階段學(xué)了一些統(tǒng)計(jì)相關(guān)知識(shí),讀了一些統(tǒng)計(jì)周邊書(shū)籍,輕松的寫了兩篇論文發(fā)表在統(tǒng)計(jì)領(lǐng)域期刊上。畢業(yè)后抱著一顆數(shù)據(jù)心投入職場(chǎng),加入了北漂行列。第一份工作在一家教育公司,做科研氛圍比較濃的教育行業(yè)數(shù)據(jù)分析,之后依次在電子商務(wù)、教育、咨詢、傳統(tǒng)制造業(yè)企業(yè)里摸爬滾打,從最初的職場(chǎng)菜鳥(niǎo),到“表姐”,到大數(shù)據(jù)產(chǎn)品,直到現(xiàn)在仍然在數(shù)據(jù)領(lǐng)域翻山越嶺。

初入職場(chǎng),小白如何才能變強(qiáng)大

有一次,數(shù)據(jù)小白接到獵頭電話推薦一家互聯(lián)網(wǎng)金融公司的算法攻城獅職位,小白的那顆不安定的心開(kāi)始蠢蠢欲動(dòng),于是約了時(shí)間走進(jìn)了那家互聯(lián)網(wǎng)金融公司,遇見(jiàn)了一位不修邊幅、帶著不羈的面試官。小白被面試官的一通發(fā)問(wèn),問(wèn)的暈頭轉(zhuǎn)向,不過(guò)其中有一個(gè)問(wèn)題讓小白很感興趣(補(bǔ)充一下:小白的算法能力弱弱的,僅限于可以熟練調(diào)用R開(kāi)源軟件中的算法包)。那就是大家一直都很糾結(jié)的模型的簡(jiǎn)單與復(fù)雜,模型的精度提高及造成的過(guò)擬合問(wèn)題如何解決。借此機(jī)會(huì),跟大家一起分享一點(diǎn)她的粗淺認(rèn)知。

模型復(fù)雜度和過(guò)擬合

模型簡(jiǎn)單與復(fù)雜的認(rèn)知:模型過(guò)于簡(jiǎn)單可能會(huì)造成分類不準(zhǔn)或者預(yù)測(cè)不精的后果,在目前大的數(shù)據(jù)質(zhì)量普遍較低的環(huán)境下,會(huì)造成一些人對(duì)模型的復(fù)雜度的追求以彌補(bǔ)數(shù)據(jù)質(zhì)量的缺陷,最終使算法模型的復(fù)雜度不斷提高。但是復(fù)雜程度高的模型一定是好模型嗎?

來(lái)看一張圖(有圖有真相哈)

此圖來(lái)源于統(tǒng)計(jì)之都論壇

上圖橫坐標(biāo)是模型復(fù)雜度,縱坐標(biāo)是預(yù)測(cè)誤差;明確表示了隨著模型復(fù)雜度的提高,訓(xùn)練集的預(yù)測(cè)誤差逐步減小直至接近于0(擬合的很棒啊,誤差無(wú)線接近于0,此處有撒花,此處有掌聲),等等……測(cè)試集的誤差好像不太完美啊,怎么翹尾巴了呢?這就是常說(shuō)的“過(guò)擬合”現(xiàn)象。所以模型的選擇不是越復(fù)雜越好,而是選擇最好的模型(當(dāng)然是某一個(gè)模型集中),最好的模型就是在新的數(shù)據(jù)上預(yù)測(cè)誤差等指標(biāo)表現(xiàn)好的。

模型出現(xiàn)“過(guò)擬合”現(xiàn)象應(yīng)該如何解決呢?正則化!正則化!!正則化!?。。ㄖ匾氖聝赫f(shuō)三遍)還有一句廢話就是:擁有更多更廣維度的高質(zhì)量數(shù)據(jù)勝過(guò)一個(gè)好模型,大數(shù)據(jù)時(shí)代數(shù)據(jù)為王哈?。。?o:p>

常見(jiàn)坑:數(shù)據(jù)定義和數(shù)據(jù)理解

數(shù)據(jù)理解是每個(gè)數(shù)據(jù)分析必備的能力,但是數(shù)據(jù)定義在過(guò)往的一些粗放型管理中卻是缺失的,這時(shí)候如果一個(gè)分析師沿用經(jīng)驗(yàn)認(rèn)知來(lái)理解數(shù)據(jù)的話,不論后期的分析和算法模型多么嚴(yán)謹(jǐn)多么高端都會(huì)大打折扣,甚至是徒勞無(wú)功的。

給大家安利一下:1998年NASA發(fā)射火星氣象探測(cè)器,1999年探測(cè)器失聯(lián)。究其原因是人為因素,火星氣候探測(cè)者號(hào)上的飛行系統(tǒng)軟件使用公制單位牛頓計(jì)算推進(jìn)器動(dòng)力,而地面人員輸入的方向校正量和推進(jìn)器參數(shù)則使用英制單位磅力,導(dǎo)致探測(cè)器進(jìn)入大氣層的高度有誤,最終瓦解破裂。

舉一個(gè)工作經(jīng)歷的案例:業(yè)務(wù)場(chǎng)景是需要做一些業(yè)務(wù)指標(biāo)的可視化,在數(shù)據(jù)流計(jì)算過(guò)程中突然領(lǐng)導(dǎo)發(fā)現(xiàn)不對(duì)啊,我的業(yè)績(jī)指標(biāo)怎么少了?這個(gè)鍋誰(shuí)背呢?做數(shù)據(jù)的?。。≈缶涂上攵?,所有冠以“數(shù)據(jù)”tittle的全部開(kāi)始打雞血查,邏輯,沒(méi)問(wèn)題!存儲(chǔ)任務(wù),沒(méi)問(wèn)題!數(shù)據(jù)同步時(shí)間點(diǎn),沒(méi)問(wèn)題!領(lǐng)導(dǎo)翻白眼,肯定錯(cuò)了,沒(méi)問(wèn)題怎么會(huì)數(shù)據(jù)不對(duì)?心里沒(méi)準(zhǔn)兒已經(jīng)開(kāi)始問(wèn)候你的情商、智商都是重傷了。最后的最后什么原因呢?生產(chǎn)庫(kù)一個(gè)業(yè)務(wù)字段的長(zhǎng)度變長(zhǎng)了,你可以理解成類似于15位的身份證號(hào)碼突然開(kāi)始慢慢變成18位了。

這種坑怎么破?高端的叫法現(xiàn)在有一個(gè)領(lǐng)域正在發(fā)展起來(lái):數(shù)據(jù)治理,還有DAMA的認(rèn)證,含金量蠻高;Low點(diǎn)的玩法一個(gè)小小數(shù)據(jù)分析師那就追著業(yè)務(wù)人員,厚著臉皮請(qǐng)教吧,不要趕腳你的問(wèn)題弱智啊,沒(méi)準(zhǔn)兒以前就是這么弱弱的玩法。

數(shù)據(jù)群體性結(jié)論預(yù)測(cè)個(gè)體

剛才的坑是分析人員對(duì)業(yè)務(wù)理解的認(rèn)知誤區(qū),下面的坑是業(yè)務(wù)人員對(duì)分析結(jié)論的認(rèn)知誤區(qū)。

同樣舉個(gè)栗子,大概兩年前大數(shù)據(jù)是一個(gè)神一般的存在,目前大家的認(rèn)識(shí)開(kāi)始有些分歧,一部分人低估大數(shù)據(jù)的力量,為啥呢?很多人砸了錢沒(méi)聽(tīng)見(jiàn)響動(dòng)。一部分人仍然執(zhí)迷于大數(shù)據(jù)研究,一部分人開(kāi)始客觀的認(rèn)識(shí)到大數(shù)據(jù)威力不是一蹴而就的,不是你掛了個(gè)大數(shù)據(jù)XXX的部門,請(qǐng)幾個(gè)工程師就能駕馭大數(shù)據(jù)這個(gè)利器的。今天不去糾結(jié)大數(shù)據(jù),只是舉個(gè)數(shù)據(jù)分析的例子,也是小白的一次項(xiàng)目經(jīng)歷。

項(xiàng)目目的:做在線教育學(xué)員的二次消費(fèi)行為分析(電商的二次營(yíng)銷辣么成功,老客戶開(kāi)發(fā)成本比新客戶開(kāi)發(fā)成本低辣么多),很有意義的項(xiàng)目啊,但是請(qǐng)注意:是學(xué)歷在線教育。

項(xiàng)目過(guò)程:項(xiàng)目中各路數(shù)據(jù)大俠拿出華山論劍的本事兒,清洗數(shù)據(jù),建立模型,模型檢驗(yàn),模型精度評(píng)估,看著這一連串的招式舞的行文流水,最終結(jié)論:模型檢驗(yàn)準(zhǔn)確率90%以上(歷史數(shù)據(jù)顯示不再報(bào)名的學(xué)生達(dá)90%以上),但是已有的數(shù)據(jù)特征指標(biāo)對(duì)模型的解釋度只有10%,言外之意是啥呢?要補(bǔ)指標(biāo),需要補(bǔ)啥樣的呢?方向不清晰,牽涉也比較大,所以作罷。

項(xiàng)目后期:領(lǐng)導(dǎo)又出場(chǎng)了,項(xiàng)目有結(jié)論了,來(lái)預(yù)測(cè)一下吧,哪個(gè)學(xué)生可以再來(lái)學(xué)一次?只告訴我是誰(shuí)能來(lái)就好了。數(shù)據(jù)分析師是不是有點(diǎn)無(wú)語(yǔ)凝噎的趕腳了?做不做都是背鍋俠。這種坑怎么破?讓時(shí)間的洪流帶走一切吧?。?!

【寫在最后】

以上是小白個(gè)人的一些粗淺認(rèn)知,數(shù)據(jù)探知的過(guò)程中有時(shí)候是枯燥無(wú)聊的,有時(shí)候透過(guò)數(shù)據(jù)看清客觀存在又是激動(dòng)人心、成就感十足的;愿能與各位在數(shù)據(jù)和技術(shù)領(lǐng)域孜孜不倦探索的小伙伴們一同成長(zhǎng),也祝51CTO越辦越好。

如果你也愿意分享你的故事,請(qǐng)加51CTO開(kāi)發(fā)者QQ交流群 669593076聯(lián)系群主小官,期待你精彩的故事!

51CTO開(kāi)發(fā)者交流群⑦群 669593076

【51CTO原創(chuàng)稿件,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文作者和出處為51CTO.com】

責(zé)任編輯:何星 來(lái)源: 51CTO
相關(guān)推薦

2017-01-18 16:37:43

開(kāi)發(fā)者故事

2016-12-30 16:43:53

開(kāi)發(fā)者故事

2017-03-21 11:19:57

開(kāi)發(fā)者故事

2017-11-28 14:15:38

開(kāi)發(fā)者故事

2017-01-10 14:59:03

開(kāi)發(fā)者故事

2017-09-15 11:39:47

2017-01-11 17:25:23

開(kāi)發(fā)者故事

2017-03-01 15:57:48

開(kāi)發(fā)者故事

2017-07-06 14:59:27

2017-01-16 17:24:08

開(kāi)發(fā)者故事

2017-01-19 13:40:56

開(kāi)發(fā)者故事

2017-03-10 11:32:49

開(kāi)發(fā)者故事

2017-01-18 11:07:20

開(kāi)發(fā)者故事

2017-01-05 15:30:59

開(kāi)發(fā)者故事

2017-04-21 15:50:52

開(kāi)發(fā)者故事

2017-10-23 13:15:51

2017-04-25 15:39:30

開(kāi)發(fā)者故事

2018-07-04 17:42:58

開(kāi)發(fā)者故事

2017-03-24 16:43:09

開(kāi)發(fā)者故事

2017-01-13 16:36:29

開(kāi)發(fā)者故事
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)