自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

備好數(shù)據(jù)后,數(shù)據(jù)科學(xué)家還要做什么?

大數(shù)據(jù) 數(shù)據(jù)分析
在這個(gè)數(shù)據(jù)科學(xué)越來(lái)越火的時(shí)代,數(shù)據(jù)科學(xué)家的工作到底是怎樣的呢?下面,我?guī)Т蠹易哌M(jìn)真實(shí)的數(shù)據(jù)科學(xué)世界。

大數(shù)據(jù)文摘出品

編譯:元元、張馨月

在這個(gè)數(shù)據(jù)科學(xué)越來(lái)越火的時(shí)代,數(shù)據(jù)科學(xué)家的工作到底是怎樣的呢?

數(shù)據(jù)科學(xué)越來(lái)越火,很多人都想轉(zhuǎn)行入坑數(shù)據(jù)科學(xué)家,這當(dāng)然是好事??墒呛芏嗳硕家詾閿?shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)等等流行詞對(duì)應(yīng)的工作,就是把數(shù)據(jù)塞進(jìn)Sckit-Learn這個(gè)算法庫(kù)里而已。

事實(shí)遠(yuǎn)遠(yuǎn)沒(méi)有那么簡(jiǎn)單,下面我?guī)Т蠹易哌M(jìn)真實(shí)的數(shù)據(jù)科學(xué)世界。

讓我們從數(shù)據(jù)搜集完成后開(kāi)始講起。

問(wèn)題闡述

“數(shù)據(jù)消耗”反映了特定服務(wù)類別數(shù)據(jù)的下載和上傳量,比如社交網(wǎng)絡(luò),音頻等等。我們來(lái)看一個(gè)具體的例子。假設(shè)我們研究的是一個(gè)計(jì)數(shù)器,利用該計(jì)數(shù)器可以查看與亞馬遜網(wǎng)絡(luò)服務(wù)(Amazon Web Service,簡(jiǎn)稱為AWS)連接的機(jī)器數(shù)量。

如果我們直接對(duì)原始數(shù)據(jù)進(jìn)行分類,我們會(huì)得到如下結(jié)果:

我們可以注意到,這是對(duì)數(shù)據(jù)進(jìn)行線性判別分析(Linear discriminant analysis,簡(jiǎn)稱為L(zhǎng)DA)后的二維示意圖。理論上講,LDA的結(jié)果可以體現(xiàn)出原數(shù)據(jù)的 ± 90%;雖然不是100%,但是這里我們可以看出,直接對(duì)數(shù)據(jù)進(jìn)行分類完全沒(méi)有意義。有人建議我換別的算法或者調(diào)整超參數(shù),但是其實(shí),把算法直接套在原數(shù)據(jù)上的想法糟透了。

理解數(shù)據(jù)

現(xiàn)在,我們來(lái)挖掘一番。數(shù)據(jù)到底長(zhǎng)什么樣?我強(qiáng)烈建議初學(xué)者多花些時(shí)間觀察理解數(shù)據(jù),而不要急著輸入“from sklearn.cluster import KMeans”這樣的代碼行。這里我們研究一下這個(gè)例子的一個(gè)數(shù)據(jù)特征,但是請(qǐng)注意,大多數(shù)數(shù)據(jù)特征都是相似的。

下面是AWS計(jì)數(shù)器的結(jié)果(其實(shí)不是,但是我們就假定它是吧)

從上到下:總數(shù),平均值,標(biāo)準(zhǔn)差,最小值,25分位,中位數(shù),75分位,***值

我們可以看到,幾乎所有的數(shù)值都為0。不過(guò)您仔細(xì)看會(huì)發(fā)現(xiàn),其實(shí)有些值達(dá)到3千萬(wàn)。您用這樣的數(shù)值直接計(jì)算出來(lái)的距離值,再帶入LDA算法中就不可能有意義。即使您縮小數(shù)據(jù)的規(guī)模使所有的數(shù)值都在0—1之間,那么絕大部分的數(shù)值也都會(huì)在0到大概0.0000005之間,對(duì)計(jì)算距離也沒(méi)有幫助。

如果我們只看非零的數(shù)值,分布就很有意思了:

數(shù)據(jù)處理

上圖看起來(lái)像是LogNormal分布。現(xiàn)在我們就可以進(jìn)行簡(jiǎn)單的數(shù)據(jù)標(biāo)準(zhǔn)化了。采用Box-Cox法可以轉(zhuǎn)化LogNormal分布。這個(gè)方法可以把包含LogNormal在內(nèi)的許多分布盡可能的標(biāo)準(zhǔn)化。

轉(zhuǎn)換的過(guò)程就是把下面公式中的lamda值最小化。

我們的數(shù)據(jù)集中有大量的0,所以lamda值最小化后的結(jié)果如下圖所示:(請(qǐng)注意:我們需要大于0的結(jié)果,因此我們先給每個(gè)數(shù)值加上1之后再用公式計(jì)算:

您可以看到上圖中大概在9的位置有一個(gè)小突起,這就是我們大多非0值的位置。從計(jì)算距離的角度看,現(xiàn)在我們的數(shù)據(jù)分布已經(jīng)比原來(lái)的好太多倍了,但是仍然有進(jìn)步的空間。

讓我們重新審視這個(gè)例子中數(shù)據(jù)的背景。我們想要根據(jù)機(jī)器的行為對(duì)其分類。在“機(jī)器對(duì)機(jī)器”的世界里,機(jī)器的行為包含了大量信息。“機(jī)器使用了亞馬遜網(wǎng)絡(luò)服務(wù)”這件事聽(tīng)起來(lái)很滑稽,但其實(shí)含義非常重要。

我們給這些機(jī)器編碼,讓它們承擔(dān)特定的任務(wù),比如報(bào)告天氣、展示廣告等等。它們做任務(wù)的代碼都是編寫好的,因而它們不可能隨機(jī)的開(kāi)始在臉書(shū)或者其他平臺(tái)上操作。

事實(shí)上,它們可以使用一項(xiàng)服務(wù)(比如說(shuō)AWS)本身就包含了大量信息?;谏厦娴姆治?,我決定對(duì)數(shù)據(jù)集中非零的數(shù)值進(jìn)行標(biāo)準(zhǔn)化,使其規(guī)模在0.5到1之間;而對(duì)值為零的數(shù)據(jù)點(diǎn)保持不變。那么怎么標(biāo)準(zhǔn)化呢?當(dāng)然是采用Box-Cox轉(zhuǎn)化法——而且只對(duì)非零值進(jìn)行轉(zhuǎn)化。

請(qǐng)看下圖的結(jié)果比較。左圖是變換所有數(shù)據(jù)后得到的位于0—1區(qū)間的分布。右圖是放大的0.5—1區(qū)間的分布。

雖然說(shuō)左圖看起來(lái)沒(méi)有比前面的方法提升很多,但是我向您保證,在后面應(yīng)用算法的過(guò)程中兩者的區(qū)別很大。

結(jié)果

下面我們對(duì)經(jīng)過(guò)預(yù)處理的數(shù)據(jù)重新分類。不需任何手動(dòng)調(diào)整我們就得到了如下結(jié)果。

結(jié)論

我發(fā)現(xiàn)人們常??吹剿惴ň腿缤蛄穗u血,一頭扎進(jìn)建模的過(guò)程中。有的人甚至說(shuō),你不需要理解算法背后的數(shù)學(xué)原理。

我不贊同這個(gè)觀點(diǎn)。我認(rèn)為還是應(yīng)該理解一個(gè)算法的基本原理,至少要能理解到知道什么樣的數(shù)據(jù)輸入才是有意義的。

比如說(shuō),我們剛才舉例用的K-Means算法的基本原理就是點(diǎn)之間的距離,那么當(dāng)您擁有“千萬(wàn)”這樣的數(shù)量級(jí)時(shí),您就不能期望直接把數(shù)據(jù)帶入算法就會(huì)獲得合適的結(jié)果,因?yàn)檫@時(shí)數(shù)值范圍太大了。

綜上所述,一遍一遍地檢查數(shù)據(jù),直到對(duì)它了然于胸,然后再讓這些高級(jí)的算法完成后續(xù)的工作。

相關(guān)報(bào)道:

https://towardsdatascience.com/this-is-what-i-really-do-as-a-data-scientist-d637ed747ef9

【本文是51CTO專欄機(jī)構(gòu)大數(shù)據(jù)文摘的原創(chuàng)譯文,微信公眾號(hào)“大數(shù)據(jù)文摘( id: BigDataDigest)”】

     大數(shù)據(jù)文摘二維碼

戳這里,看該作者更多好文

責(zé)任編輯:趙寧寧 來(lái)源: 51CTO專欄
相關(guān)推薦

2018-06-19 09:00:25

數(shù)據(jù)科學(xué)數(shù)據(jù)算法

2017-08-04 15:53:10

大數(shù)據(jù)真?zhèn)螖?shù)據(jù)科學(xué)家

2020-04-29 13:45:42

機(jī)器學(xué)習(xí)ML數(shù)據(jù)科學(xué)家

2019-08-26 09:47:56

數(shù)據(jù)科學(xué)家數(shù)據(jù)分析

2012-12-26 10:51:20

數(shù)據(jù)科學(xué)家

2018-12-24 08:37:44

數(shù)據(jù)科學(xué)家數(shù)據(jù)模型

2018-02-28 15:03:03

數(shù)據(jù)科學(xué)家數(shù)據(jù)分析職業(yè)

2018-02-07 14:41:16

數(shù)據(jù)科學(xué)家數(shù)據(jù)分析數(shù)學(xué)

2018-10-16 14:37:34

數(shù)據(jù)科學(xué)家數(shù)據(jù)分析數(shù)據(jù)科學(xué)

2012-06-12 09:33:59

2018-01-25 14:19:32

深度學(xué)習(xí)數(shù)據(jù)科學(xué)遷移學(xué)習(xí)

2018-08-20 19:24:40

數(shù)據(jù)科學(xué)數(shù)據(jù)清理數(shù)據(jù)分析

2019-04-26 14:27:07

大數(shù)據(jù)數(shù)據(jù)科學(xué)數(shù)據(jù)工程師

2012-12-27 09:52:23

數(shù)據(jù)科學(xué)家大數(shù)據(jù)

2014-07-03 09:38:19

2016-08-02 17:00:12

Hadoop大數(shù)據(jù)系統(tǒng)

2016-04-11 14:15:06

數(shù)據(jù)科學(xué)數(shù)據(jù)挖掘工具

2020-03-20 14:40:48

數(shù)據(jù)科學(xué)Python學(xué)習(xí)

2020-04-09 15:32:20

數(shù)據(jù)科學(xué)AutoML代智能

2022-04-25 09:48:31

數(shù)據(jù)科學(xué)崗位離職
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)