數(shù)據(jù)科學(xué)異常值檢測(cè)原理之經(jīng)驗(yàn)法則
前提:
數(shù)據(jù)樣本符合標(biāo)準(zhǔn)正態(tài)分布,正態(tài)分布的核心是中心極限定理即:如果一個(gè)事物受到多種因素的影響,不管每個(gè)因素本身是什么分布,它們加總后,結(jié)果的平均值就是正態(tài)分布。如果要符合正態(tài)分布則這些因素必須彼此獨(dú)立,彼此不獨(dú)立的各項(xiàng)因素會(huì)互相加強(qiáng)影響,那么就構(gòu)不成正態(tài)分布。(還有對(duì)數(shù)正態(tài)分布是指各種因素對(duì)結(jié)果的影響不是相加,而是相乘)
經(jīng)驗(yàn)法則原理:
標(biāo)準(zhǔn)正態(tài)分布下的曲線為鐘型曲線,期望值μ決定了其位置,其標(biāo)準(zhǔn)差σ決定了分布的幅度。當(dāng)μ = 0,σ = 1時(shí)的正態(tài)分布是標(biāo)準(zhǔn)正態(tài)分布。因此對(duì)于一組數(shù)據(jù),如果符合正態(tài)分布,則可以通過(guò)經(jīng)驗(yàn)法則來(lái)檢測(cè)異常值,同圖中可以發(fā)現(xiàn),68.2%的測(cè)量值落在μ值處正負(fù)一個(gè)標(biāo)準(zhǔn)差σ的區(qū)間內(nèi),95.4%的測(cè)量值將落在μ值處正負(fù)兩個(gè)標(biāo)準(zhǔn)差σ的區(qū)間內(nèi),99.7%的值落在μ值處正負(fù)三個(gè)標(biāo)準(zhǔn)差σ的區(qū)間內(nèi)。因此,對(duì)于一組符合正態(tài)分布的數(shù)據(jù),如果某個(gè)值距離μ值超過(guò)三個(gè)標(biāo)準(zhǔn)差σ則可以判斷這個(gè)值屬于異常數(shù)據(jù)。
計(jì)算步驟:
μ值:μ是遵從正態(tài)分布的隨機(jī)變量的均值,由于前提是各種因素對(duì)結(jié)果的影響為相加,因此μ值的計(jì)算可以為樣本數(shù)據(jù)的算術(shù)平均值。
標(biāo)準(zhǔn)差σ:所有數(shù)據(jù)減去其平均值的平方和,所得結(jié)果除以該組數(shù)之個(gè)數(shù)N(數(shù)據(jù)集為總體數(shù)據(jù)情況,一般用于大數(shù)據(jù)算法)或者個(gè)數(shù)N減1(數(shù)據(jù)集為樣本數(shù)據(jù)情況,認(rèn)為數(shù)據(jù)集不是總體數(shù)據(jù)而是總體數(shù)據(jù)的一部分,一般用于統(tǒng)計(jì)學(xué)),再把所得值開根號(hào),所得之?dāng)?shù)就是這組數(shù)據(jù)的標(biāo)準(zhǔn)差。
數(shù)據(jù)科學(xué)異常值檢測(cè)原理—經(jīng)驗(yàn)法則
判斷邏輯:計(jì)算μ+3σ,μ-3σ,當(dāng)單個(gè)數(shù)據(jù)大于μ+3σ或者小于μ-3σ時(shí),認(rèn)為此數(shù)據(jù)為異常值,因?yàn)榘凑战?jīng)驗(yàn)法則,此數(shù)據(jù)在數(shù)據(jù)集的99.7%范圍外。