自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

一文解讀貝塞爾修正:樣本方差為何用 n?1而非n?

大數(shù)據(jù) 數(shù)據(jù)分析
當(dāng)樣本均值大于總體均值時(shí),低值部分的數(shù)據(jù)點(diǎn)會比總體均值更接近樣本均值,依然導(dǎo)致方差的低估。同樣地,由于正態(tài)分布的對稱性,低估的區(qū)域依然大于高估的區(qū)域,因此我們通過將偏差除以 n?1 來修正這種低估,確保樣本方差是總體方差的無偏估計(jì)。


前幾天使用duckdb進(jìn)行數(shù)據(jù)分析過程中,發(fā)現(xiàn)結(jié)果不一致,仔細(xì)翻閱Duckdb文檔中stddev_pop和stddev_samp、var_pop和var_samp 的描述和公式差異:

  • stddev_pop(x):總體標(biāo)準(zhǔn)差

圖片

  • stddev_samp(x):樣本標(biāo)準(zhǔn)差

圖片

  • var_pop(x):總體方差(無貝塞爾修正)

圖片

  • var_samp(x):樣本方差(包含貝塞爾修正)

圖片

為什么會有兩個(gè)標(biāo)準(zhǔn)差、兩個(gè)方差的定義,為啥一個(gè)除以n而另一個(gè)除以n-1;為何要貝塞爾修正(Bessel’s Correction)?

總體方差和樣本方差

在統(tǒng)計(jì)分析中,總體方差和樣本方差是衡量數(shù)據(jù)分散程度的重要指標(biāo)??傮w方差(The population variance)是描述整個(gè)數(shù)據(jù)集的離散程度,也就是說我們手上的數(shù)據(jù)集是整個(gè)數(shù)據(jù)集,它計(jì)算的是數(shù)據(jù)點(diǎn)與總體均值的差異程度??傮w方差的公式如下:

圖片

其中 n 是數(shù)據(jù)集的數(shù)據(jù)點(diǎn)數(shù)量。在計(jì)算總體方差時(shí),我們可以直接使用 n 作為除數(shù),因?yàn)槲覀円呀?jīng)有了整個(gè)數(shù)據(jù)集的所有信息。

與此相對,樣本方差(The sample variance)是從總體中抽取的樣本數(shù)據(jù)的離散程度,也就是我們計(jì)算的數(shù)據(jù)集只是整體的一部分,通過手上的數(shù)據(jù)集來估計(jì)總體的方差,例如在產(chǎn)品質(zhì)量分析過程,我們檢驗(yàn)的產(chǎn)品可能只是所有產(chǎn)品的抽樣部分檢測。由于樣本數(shù)據(jù)僅是總體的一個(gè)子集,它不包含所有的信息,因此樣本方差往往會低估總體方差。為了彌補(bǔ)這一點(diǎn),我們需要進(jìn)行貝塞爾修正,將除數(shù)從 n 調(diào)整為 n?1,這樣可以更準(zhǔn)確地估計(jì)總體方差。樣本方差的公式如下:

圖片

對于標(biāo)準(zhǔn)差,總體標(biāo)準(zhǔn)差(The population standard deviation)是總體方差的平方根,而樣本標(biāo)準(zhǔn)差(he sample standard deviation)則是樣本方差的平方根。標(biāo)準(zhǔn)差與方差的區(qū)別在于,標(biāo)準(zhǔn)差與原始數(shù)據(jù)的單位相同,更便于解釋。

貝塞爾修正

圖片

為什么在(貝塞爾修正)計(jì)算樣本方差時(shí)除以 n?1,我們需要分析使用樣本均值代替總體均值時(shí)會發(fā)生什么。在實(shí)際應(yīng)用中,我們通常只能依賴樣本數(shù)據(jù)。其原理如下:

計(jì)算樣本方差時(shí),我們會找到每個(gè)數(shù)據(jù)點(diǎn)與樣本均值的偏差,平方這些偏差,并計(jì)算它們的平均值。然而,樣本均值通常不等于總體均值,這導(dǎo)致使用樣本均值會低估總體的方差或分布。

以下是幾種可能的情況:

1. 樣本均值小于總體均值(xˉ<μ)時(shí)的情況

當(dāng)樣本均值(xˉ)小于總體均值(μ)時(shí),樣本中的大部分?jǐn)?shù)據(jù)點(diǎn)離樣本均值更近,而不是離總體均值更近。結(jié)果是,數(shù)據(jù)點(diǎn)與均值之間的距離(偏差)變小,導(dǎo)致方差的計(jì)算偏小,即低估了實(shí)際的方差。因?yàn)槲覀冎荒軓臉颖局蝎@取數(shù)據(jù),無法收集所有總體數(shù)據(jù)。在樣本數(shù)據(jù)中,接近總體均值的一部分?jǐn)?shù)據(jù)的偏差(絕對值或平方差)會大于樣本均值的偏差,而接近樣本均值的部分?jǐn)?shù)據(jù)偏差則更小。由于正態(tài)分布的對稱性,低估的區(qū)域大于高估的區(qū)域,因此方差會被低估。

為了補(bǔ)償方差的低估,使用 n?1代替 n 來計(jì)算方差,這就是貝塞爾修正(Bessel’s Correction)。

2. 樣本均值大于總體均值(xˉ>μ)時(shí)的情況

當(dāng)樣本均值大于總體均值時(shí),低值部分的數(shù)據(jù)點(diǎn)會比總體均值更接近樣本均值,依然導(dǎo)致方差的低估。同樣地,由于正態(tài)分布的對稱性,低估的區(qū)域依然大于高估的區(qū)域,因此我們通過將偏差除以 n?1 來修正這種低估,確保樣本方差是總體方差的無偏估計(jì)。

無論是樣本均值小于總體均值還是大于總體均值,都會導(dǎo)致方差的低估。通過貝塞爾修正(使用 n?1而非 n)可以補(bǔ)償這種低估,使得樣本方差更加接近總體方差,從而得到無偏的估計(jì)。

貝塞爾修正(Bessel’s Correction)的核心在于將樣本數(shù)據(jù)的方差除以 n?1,而不是 n,這種修正確保了我們在使用樣本數(shù)據(jù)來估算總體方差時(shí),得到的是一個(gè)無偏估計(jì)。無偏估計(jì)的意思是,隨著樣本數(shù)量的增加,估算的樣本方差會逐漸趨近于總體方差。

貝塞爾修正(Bessel’s Correction)的好處在于,它修正了由于樣本均值比總體均值更接近樣本數(shù)據(jù)的現(xiàn)象,避免了方差估計(jì)的系統(tǒng)性偏差。舉個(gè)例子,如果我們直接使用樣本均值來計(jì)算樣本方差(除以 n),可能會低估樣本數(shù)據(jù)的離散程度,從而導(dǎo)致我們對總體方差的估計(jì)值偏小。通過貝塞爾修正,我們的樣本方差可以更好地反映總體方差的真實(shí)情況。

在計(jì)算樣本方差或標(biāo)準(zhǔn)差時(shí),除以 n?1看似一個(gè)微小的變化,但它對于獲得總體方差的無偏估計(jì)至關(guān)重要。這個(gè)調(diào)整稱為貝塞爾修正,它補(bǔ)償了由于依賴樣本均值而非真實(shí)總體均值所導(dǎo)致的低估問題。


責(zé)任編輯:武曉燕 來源: 新語數(shù)據(jù)故事匯
相關(guān)推薦

2024-12-23 14:46:24

2022-06-20 09:09:26

IDaaSIAM身份即服務(wù)

2021-10-11 10:19:48

Javascript 高階函數(shù)前端

2021-09-02 10:24:54

JavaScript前端語言

2023-01-14 07:55:03

2023-12-26 01:14:20

函數(shù)式編程死鎖

2020-11-30 12:32:40

PyTorch語義分割python

2021-09-09 10:26:26

Javascript 文檔對象前端

2019-10-11 08:51:11

Http協(xié)議Dubbo

2019-11-25 11:04:22

Http協(xié)議Dubbo

2022-08-29 07:31:48

HashMap線程擴(kuò)容

2021-09-06 10:21:27

JavaScript表單對象 前端

2023-05-04 08:24:52

ChatGPT產(chǎn)品經(jīng)理工業(yè)革命

2024-03-25 08:18:31

2024-10-11 13:30:00

2020-01-17 09:00:00

HashMapJava編程語言

2018-01-17 22:14:01

2024-01-11 07:32:00

2023-05-09 10:28:27

2020-06-16 15:48:40

蘋果英特爾芯片
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號