自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

數(shù)據(jù)科學(xué)異常值檢測(cè)原理之經(jīng)驗(yàn)法則

大數(shù)據(jù)
數(shù)據(jù)樣本符合標(biāo)準(zhǔn)正態(tài)分布,正態(tài)分布的核心是中心極限定理即:如果一個(gè)事物受到多種因素的影響,不管每個(gè)因素本身是什么分布,它們加總后,結(jié)果的平均值就是正態(tài)分布。

前提:

數(shù)據(jù)樣本符合標(biāo)準(zhǔn)正態(tài)分布,正態(tài)分布的核心是中心極限定理即:如果一個(gè)事物受到多種因素的影響,不管每個(gè)因素本身是什么分布,它們加總后,結(jié)果的平均值就是正態(tài)分布。如果要符合正態(tài)分布則這些因素必須彼此獨(dú)立,彼此不獨(dú)立的各項(xiàng)因素會(huì)互相加強(qiáng)影響,那么就構(gòu)不成正態(tài)分布。(還有對(duì)數(shù)正態(tài)分布是指各種因素對(duì)結(jié)果的影響不是相加,而是相乘)

經(jīng)驗(yàn)法則原理:

標(biāo)準(zhǔn)正態(tài)分布下的曲線為鐘型曲線,期望值μ決定了其位置,其標(biāo)準(zhǔn)差σ決定了分布的幅度。當(dāng)μ = 0,σ = 1時(shí)的正態(tài)分布是標(biāo)準(zhǔn)正態(tài)分布。因此對(duì)于一組數(shù)據(jù),如果符合正態(tài)分布,則可以通過(guò)經(jīng)驗(yàn)法則來(lái)檢測(cè)異常值,同圖中可以發(fā)現(xiàn),68.2%的測(cè)量值落在μ值處正負(fù)一個(gè)標(biāo)準(zhǔn)差σ的區(qū)間內(nèi),95.4%的測(cè)量值將落在μ值處正負(fù)兩個(gè)標(biāo)準(zhǔn)差σ的區(qū)間內(nèi),99.7%的值落在μ值處正負(fù)三個(gè)標(biāo)準(zhǔn)差σ的區(qū)間內(nèi)。因此,對(duì)于一組符合正態(tài)分布的數(shù)據(jù),如果某個(gè)值距離μ值超過(guò)三個(gè)標(biāo)準(zhǔn)差σ則可以判斷這個(gè)值屬于異常數(shù)據(jù)。

數(shù)據(jù)科學(xué)異常值檢測(cè)原理—經(jīng)驗(yàn)法則

計(jì)算步驟:

μ值:μ是遵從正態(tài)分布的隨機(jī)變量的均值,由于前提是各種因素對(duì)結(jié)果的影響為相加,因此μ值的計(jì)算可以為樣本數(shù)據(jù)的算術(shù)平均值。

標(biāo)準(zhǔn)差σ:所有數(shù)據(jù)減去其平均值的平方和,所得結(jié)果除以該組數(shù)之個(gè)數(shù)N(數(shù)據(jù)集為總體數(shù)據(jù)情況,一般用于大數(shù)據(jù)算法)或者個(gè)數(shù)N減1(數(shù)據(jù)集為樣本數(shù)據(jù)情況,認(rèn)為數(shù)據(jù)集不是總體數(shù)據(jù)而是總體數(shù)據(jù)的一部分,一般用于統(tǒng)計(jì)學(xué)),再把所得值開根號(hào),所得之?dāng)?shù)就是這組數(shù)據(jù)的標(biāo)準(zhǔn)差。

數(shù)據(jù)科學(xué)異常值檢測(cè)原理—經(jīng)驗(yàn)法則

判斷邏輯:計(jì)算μ+3σ,μ-3σ,當(dāng)單個(gè)數(shù)據(jù)大于μ+3σ或者小于μ-3σ時(shí),認(rèn)為此數(shù)據(jù)為異常值,因?yàn)榘凑战?jīng)驗(yàn)法則,此數(shù)據(jù)在數(shù)據(jù)集的99.7%范圍外。

 

責(zé)任編輯:未麗燕 來(lái)源: 阿里云棲社區(qū)
相關(guān)推薦

2018-08-16 10:05:07

2018-09-17 15:30:05

機(jī)器學(xué)習(xí)密度異常值

2024-01-25 08:00:00

機(jī)器學(xué)習(xí)異常值檢測(cè)方法

2022-09-22 15:42:02

機(jī)器學(xué)習(xí)異常值工具

2019-09-09 15:28:04

數(shù)據(jù)科學(xué)帕累托法則工具

2022-09-21 23:41:40

機(jī)器學(xué)習(xí)開源數(shù)據(jù)

2020-09-04 16:17:15

數(shù)據(jù)科學(xué)離群點(diǎn)檢測(cè)

2011-07-07 18:15:41

軟件開發(fā)

2020-11-02 13:44:35

算法數(shù)據(jù)科學(xué)Python

2010-11-24 09:15:02

JavaScriptWeb開發(fā)者

2009-12-22 16:03:03

WCF異常

2020-12-06 15:42:22

數(shù)據(jù)科學(xué)家數(shù)據(jù)科學(xué)人工智能

2020-06-16 13:32:02

數(shù)據(jù)科學(xué)家大數(shù)據(jù)系統(tǒng)

2019-01-23 09:36:02

數(shù)據(jù)科學(xué)項(xiàng)目數(shù)據(jù)科學(xué)數(shù)據(jù)科學(xué)家

2021-01-15 12:22:35

異常檢測(cè)工具

2021-09-14 10:39:16

入侵檢測(cè)數(shù)據(jù)泄露日志文件

2017-04-07 10:11:42

AR教育經(jīng)驗(yàn)

2019-09-11 09:04:47

編程語(yǔ)言代碼程序

2013-05-06 10:45:34

數(shù)據(jù)科學(xué)家數(shù)據(jù)分析

2009-07-30 18:32:42

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)