自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

數(shù)據(jù)科學(xué)家必備的5種離群點(diǎn)/異常檢測(cè)方法

大數(shù)據(jù)
在統(tǒng)計(jì)學(xué)中,離群值是不屬于某個(gè)總體的數(shù)據(jù)點(diǎn),它是一種與其他值相差甚遠(yuǎn)的異常觀察,是一種與其他結(jié)構(gòu)良好的數(shù)據(jù)不同的觀察值。

什么是異常/異常值?

在統(tǒng)計(jì)學(xué)中,離群值是不屬于某個(gè)總體的數(shù)據(jù)點(diǎn),它是一種與其他值相差甚遠(yuǎn)的異常觀察,是一種與其他結(jié)構(gòu)良好的數(shù)據(jù)不同的觀察值。

例如,您可以清楚地看到列表中的異常值:[20,24,22,19,29,184300,30,18]。當(dāng)觀察值只是一組數(shù)字并且是一維時(shí),很容易識(shí)別它,但是當(dāng)你有數(shù)千個(gè)觀察值或多維值時(shí),你需要更聰明的方法來(lái)檢測(cè)這些值。這就是本文將要介紹的內(nèi)容。

為什么我們關(guān)心異常?

離群點(diǎn)的檢測(cè)是數(shù)據(jù)挖掘的核心問(wèn)題之一。數(shù)據(jù)的不斷擴(kuò)展和持續(xù)增長(zhǎng)以及物聯(lián)網(wǎng)設(shè)備的普及,使我們重新思考我們處理異常的方式,以及通過(guò)觀察這些異常情況可以構(gòu)建的用例。

我們現(xiàn)在有智能手表和腕帶,可以每隔幾分鐘檢測(cè)我們的心跳。檢測(cè)心跳數(shù)據(jù)中的異常有助于預(yù)測(cè)心臟病。交通模式的異常有助于預(yù)測(cè)事故。它還可以用來(lái)識(shí)別網(wǎng)絡(luò)基礎(chǔ)設(shè)施和服務(wù)器之間的通信瓶頸。因此,建立在檢測(cè)異常之上的用例和解決方案是無(wú)限的。

我們需要檢測(cè)異常的另一個(gè)原因是,在為機(jī)器學(xué)習(xí)模型準(zhǔn)備數(shù)據(jù)集時(shí),檢測(cè)所有異常值非常重要,要么去掉它們,要么分析它們,以了解為什么會(huì)有異常。

現(xiàn)在,讓我們從最簡(jiǎn)單的方法開(kāi)始探索5種常見(jiàn)的異常檢測(cè)方法。

方法1 - 標(biāo)準(zhǔn)差:

  • 在統(tǒng)計(jì)學(xué)中,如果一個(gè)數(shù)據(jù)分布近似正態(tài)分布,那么大約68%的數(shù)據(jù)值在平均值的一個(gè)標(biāo)準(zhǔn)差內(nèi),約95%在兩個(gè)標(biāo)準(zhǔn)差內(nèi),約99.7%在三個(gè)標(biāo)準(zhǔn)差內(nèi)。

因此,如果有任何數(shù)據(jù)點(diǎn)超過(guò)標(biāo)準(zhǔn)偏差的3倍,那么這些點(diǎn)很可能是異常或異常值。

讓我們看看代碼。

此代碼的輸出是一個(gè)值大于80小于-40的值的列表。請(qǐng)注意,我傳遞的數(shù)據(jù)集是一維數(shù)據(jù)集?,F(xiàn)在,讓我們探索多維數(shù)據(jù)集的更高級(jí)方法。

方法2 - 箱體圖

箱體圖是通過(guò)分位數(shù)對(duì)數(shù)值數(shù)據(jù)的圖形化描述。這是一種非常簡(jiǎn)單但有效的方法來(lái)可視化異常值。把上下胡須(whisker)看作是數(shù)據(jù)分布的邊界。任何顯示在胡須上方或下方的數(shù)據(jù)點(diǎn)都可以被視為異常值或異常值。下面是繪制箱體圖的代碼:

 

  1. import seaborn as sns  
  2. import matplotlib.pyplot as plt  
  3. sns.boxplot(data=random_data) 

上面的代碼顯示下面的圖。如您所見(jiàn),它認(rèn)為高于75或低于-35的所有數(shù)據(jù)都是異常值。結(jié)果與上述方法1非常接近。

箱體圖剖析:

  • 四分位間距(IQR)的概念用于構(gòu)建箱線圖。IQR是統(tǒng)計(jì)學(xué)中的一個(gè)概念,通過(guò)將數(shù)據(jù)集分成四分位數(shù)來(lái)衡量統(tǒng)計(jì)離散度和數(shù)據(jù)可變性。

簡(jiǎn)單地說(shuō),根據(jù)數(shù)據(jù)的值以及它們與整個(gè)數(shù)據(jù)集的比較,任何數(shù)據(jù)集或任何一組觀測(cè)值被劃分為四個(gè)定義的區(qū)間。四分位數(shù)將數(shù)據(jù)分為三個(gè)點(diǎn)和四個(gè)區(qū)間。

四分位間距(IQR)很重要,因?yàn)樗糜诙x異常值。它是第三個(gè)四分位數(shù)和第一個(gè)四分位數(shù)之間的差值(IQR=Q3-Q1)。這種情況下的異常值定義為低于(Q1−1.5x IQR)或boxplot下須或以上(Q3+1.5x IQR)或boxplot上須的觀測(cè)值。

方法3-DBScan聚類:

  • DBScan是一種將數(shù)據(jù)分組的聚類算法。它也可以作為一種基于密度的異常檢測(cè)方法,無(wú)論是單維數(shù)據(jù)還是多維數(shù)據(jù)。其他的聚類算法,如k-means 和hierarchal聚類也可以用來(lái)檢測(cè)異常值。在本例中,我將向您展示一個(gè)使用DBScan的示例,但是在開(kāi)始之前,讓我們先介紹一些重要的概念。DBScan有三個(gè)重要概念:

核心點(diǎn):為了理解核心點(diǎn)的概念,我們需要關(guān)注一些用于定義DBScan作業(yè)的超參數(shù)。第一個(gè)超參數(shù)(HP)是min_samples。這只是組成集群所需的最小核心點(diǎn)數(shù)量。第二重要的超參數(shù)HP是eps。eps是兩個(gè)樣本被視為在同一個(gè)聚類之間的最大距離。

邊界點(diǎn)與核心點(diǎn)在同一個(gè)集群中,但距離集群中心遠(yuǎn)得多。

 

Source:https://stackoverflow.com/questions/34394641/dbscan-clustering-what-happens-when-border-point-of-one-cluster-is-considered

 

其他的一切都被稱為噪聲點(diǎn),那些是不屬于任何簇的數(shù)據(jù)點(diǎn)。它們可以是異常的或非異常的,需要進(jìn)一步的研究?,F(xiàn)在,讓我們看看代碼。

以上代碼的輸出是94。這是噪聲點(diǎn)的總數(shù)。SKLearn將噪波點(diǎn)標(biāo)記為(-1)。這種方法的缺點(diǎn)是維數(shù)越高,精度就越低。你還需要做一些假設(shè),比如估計(jì)eps的確切值,這可能很有挑戰(zhàn)性。

方法4-孤立森林:

  • 孤立森林是一種無(wú)監(jiān)督學(xué)習(xí)算法,屬于集成決策樹(shù)家族。這種方法不同于以往的所有方法。之前所有的方法都是試圖找到數(shù)據(jù)的正常區(qū)域,然后識(shí)別出這個(gè)定義區(qū)域之外的任何異常值或異常值。

這種方法的效果不同。它顯式地隔離異常值,而不是通過(guò)為每個(gè)數(shù)據(jù)點(diǎn)分配分?jǐn)?shù)來(lái)分析和構(gòu)造正常點(diǎn)和區(qū)域。它利用了一個(gè)事實(shí),即異常是少數(shù)數(shù)據(jù)點(diǎn),并且它們的屬性值與正常實(shí)例的屬性值大不相同。該算法適用于高維數(shù)據(jù)集,是一種非常有效的異常檢測(cè)方法。由于本文關(guān)注的是實(shí)現(xiàn),而不是技術(shù)訣竅,因此我將不再進(jìn)一步討論算法的工作原理。此文將詳細(xì)介紹它的工作原理。

現(xiàn)在,讓我們探索一下代碼:

此代碼將輸出數(shù)組中每個(gè)數(shù)據(jù)點(diǎn)的預(yù)測(cè)。如果結(jié)果為-1,則表示此特定數(shù)據(jù)點(diǎn)為異常值。如果結(jié)果為1,則表示數(shù)據(jù)點(diǎn)不是異常值。

方法5-隨機(jī)森林:

  • 隨機(jī)森林(RCF)算法是亞馬遜用于檢測(cè)異常的無(wú)監(jiān)督算法。它也通過(guò)關(guān)聯(lián)異常分?jǐn)?shù)來(lái)工作。低分值表示數(shù)據(jù)點(diǎn)被視為“正常”。高值表示數(shù)據(jù)中存在異常。“低”和“高”的定義取決于應(yīng)用,但通常的做法是,分?jǐn)?shù)超過(guò)平均分的三個(gè)標(biāo)準(zhǔn)差被視為異常。詳細(xì)的算法可以在此文中找到。

這個(gè)算法的優(yōu)點(diǎn)在于它可以處理非常高維的數(shù)據(jù)。它還可以處理實(shí)時(shí)流數(shù)據(jù)(內(nèi)置于AWS Kinesis分析)以及離線數(shù)據(jù)。

我將在下面的視頻中更詳細(xì)地解釋這個(gè)概念:

  • 這篇論文中給出了一些與孤立森林比較的性能指標(biāo)。本文的結(jié)果表明,RCF比孤立森林更準(zhǔn)確、更快速。

完整的示例代碼可以在這里找到:

  • awslabs/amazon-sagemaker-examplesExample notebooks that show how to apply machine learning and deep learning in Amazon SageMaker …github.com

結(jié)論:

我們生活在一個(gè)數(shù)據(jù)以秒為單位變大的世界。如果使用不當(dāng),數(shù)據(jù)的價(jià)值會(huì)隨著時(shí)間的推移而減少。在流中在線或離線在數(shù)據(jù)集中發(fā)現(xiàn)異常對(duì)于識(shí)別業(yè)務(wù)中的問(wèn)題或構(gòu)建一個(gè)在問(wèn)題發(fā)生之前就潛在地發(fā)現(xiàn)問(wèn)題的主動(dòng)解決方案,或者甚至在為ML準(zhǔn)備數(shù)據(jù)集的探索性數(shù)據(jù)分析(EDA)階段,都是至關(guān)重要的。我希望您能發(fā)現(xiàn)本文有用,請(qǐng)告訴我您的想法在下面的評(píng)論部分思考。

責(zé)任編輯:未麗燕 來(lái)源: 雷鋒網(wǎng)
相關(guān)推薦

2018-03-27 11:02:55

2019-07-30 12:05:20

數(shù)據(jù)科學(xué)采樣算法

2016-08-02 17:00:12

Hadoop大數(shù)據(jù)系統(tǒng)

2017-08-04 15:53:10

大數(shù)據(jù)真?zhèn)螖?shù)據(jù)科學(xué)家

2020-11-02 13:44:35

算法數(shù)據(jù)科學(xué)Python

2019-11-29 18:03:27

數(shù)學(xué)R語(yǔ)言算法

2016-05-11 10:36:16

數(shù)據(jù)科學(xué)家數(shù)據(jù)科學(xué)大數(shù)據(jù)

2017-01-23 16:00:25

數(shù)據(jù)科學(xué)家大數(shù)據(jù)數(shù)學(xué)家

2019-12-11 19:19:19

算法數(shù)據(jù)科學(xué)家代碼

2019-06-05 15:17:45

2019-03-25 21:18:41

數(shù)據(jù)科學(xué)家大數(shù)據(jù)技能

2019-09-11 14:34:13

排序算法數(shù)據(jù)科學(xué)

2019-12-13 07:58:34

數(shù)據(jù)科學(xué)數(shù)據(jù)科學(xué)家統(tǒng)計(jì)

2016-09-22 14:28:33

數(shù)據(jù)科學(xué)家算法

2012-12-26 10:51:20

數(shù)據(jù)科學(xué)家

2017-08-22 10:25:43

IT人才數(shù)據(jù)科學(xué)HR

2018-12-24 08:37:44

數(shù)據(jù)科學(xué)家數(shù)據(jù)模型

2018-02-28 15:03:03

數(shù)據(jù)科學(xué)家數(shù)據(jù)分析職業(yè)

2012-12-06 15:36:55

CIO

2019-09-26 08:43:34

算法數(shù)據(jù)庫(kù)Python
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)