一文解讀貝塞爾修正:樣本方差為何用 n?1而非n?
前幾天使用duckdb進(jìn)行數(shù)據(jù)分析過程中,發(fā)現(xiàn)結(jié)果不一致,仔細(xì)翻閱Duckdb文檔中stddev_pop和stddev_samp、var_pop和var_samp 的描述和公式差異:
- stddev_pop(x):總體標(biāo)準(zhǔn)差
- stddev_samp(x):樣本標(biāo)準(zhǔn)差
- var_pop(x):總體方差(無貝塞爾修正)
- var_samp(x):樣本方差(包含貝塞爾修正)
為什么會有兩個(gè)標(biāo)準(zhǔn)差、兩個(gè)方差的定義,為啥一個(gè)除以n而另一個(gè)除以n-1;為何要貝塞爾修正(Bessel’s Correction)?
總體方差和樣本方差
在統(tǒng)計(jì)分析中,總體方差和樣本方差是衡量數(shù)據(jù)分散程度的重要指標(biāo)??傮w方差(The population variance)是描述整個(gè)數(shù)據(jù)集的離散程度,也就是說我們手上的數(shù)據(jù)集是整個(gè)數(shù)據(jù)集,它計(jì)算的是數(shù)據(jù)點(diǎn)與總體均值的差異程度??傮w方差的公式如下:
其中 n 是數(shù)據(jù)集的數(shù)據(jù)點(diǎn)數(shù)量。在計(jì)算總體方差時(shí),我們可以直接使用 n 作為除數(shù),因?yàn)槲覀円呀?jīng)有了整個(gè)數(shù)據(jù)集的所有信息。
與此相對,樣本方差(The sample variance)是從總體中抽取的樣本數(shù)據(jù)的離散程度,也就是我們計(jì)算的數(shù)據(jù)集只是整體的一部分,通過手上的數(shù)據(jù)集來估計(jì)總體的方差,例如在產(chǎn)品質(zhì)量分析過程,我們檢驗(yàn)的產(chǎn)品可能只是所有產(chǎn)品的抽樣部分檢測。由于樣本數(shù)據(jù)僅是總體的一個(gè)子集,它不包含所有的信息,因此樣本方差往往會低估總體方差。為了彌補(bǔ)這一點(diǎn),我們需要進(jìn)行貝塞爾修正,將除數(shù)從 n 調(diào)整為 n?1,這樣可以更準(zhǔn)確地估計(jì)總體方差。樣本方差的公式如下:
對于標(biāo)準(zhǔn)差,總體標(biāo)準(zhǔn)差(The population standard deviation)是總體方差的平方根,而樣本標(biāo)準(zhǔn)差(he sample standard deviation)則是樣本方差的平方根。標(biāo)準(zhǔn)差與方差的區(qū)別在于,標(biāo)準(zhǔn)差與原始數(shù)據(jù)的單位相同,更便于解釋。
貝塞爾修正
為什么在(貝塞爾修正)計(jì)算樣本方差時(shí)除以 n?1,我們需要分析使用樣本均值代替總體均值時(shí)會發(fā)生什么。在實(shí)際應(yīng)用中,我們通常只能依賴樣本數(shù)據(jù)。其原理如下:
計(jì)算樣本方差時(shí),我們會找到每個(gè)數(shù)據(jù)點(diǎn)與樣本均值的偏差,平方這些偏差,并計(jì)算它們的平均值。然而,樣本均值通常不等于總體均值,這導(dǎo)致使用樣本均值會低估總體的方差或分布。
以下是幾種可能的情況:
1. 樣本均值小于總體均值(xˉ<μ)時(shí)的情況
當(dāng)樣本均值(xˉ)小于總體均值(μ)時(shí),樣本中的大部分?jǐn)?shù)據(jù)點(diǎn)離樣本均值更近,而不是離總體均值更近。結(jié)果是,數(shù)據(jù)點(diǎn)與均值之間的距離(偏差)變小,導(dǎo)致方差的計(jì)算偏小,即低估了實(shí)際的方差。因?yàn)槲覀冎荒軓臉颖局蝎@取數(shù)據(jù),無法收集所有總體數(shù)據(jù)。在樣本數(shù)據(jù)中,接近總體均值的一部分?jǐn)?shù)據(jù)的偏差(絕對值或平方差)會大于樣本均值的偏差,而接近樣本均值的部分?jǐn)?shù)據(jù)偏差則更小。由于正態(tài)分布的對稱性,低估的區(qū)域大于高估的區(qū)域,因此方差會被低估。
為了補(bǔ)償方差的低估,使用 n?1代替 n 來計(jì)算方差,這就是貝塞爾修正(Bessel’s Correction)。
2. 樣本均值大于總體均值(xˉ>μ)時(shí)的情況
當(dāng)樣本均值大于總體均值時(shí),低值部分的數(shù)據(jù)點(diǎn)會比總體均值更接近樣本均值,依然導(dǎo)致方差的低估。同樣地,由于正態(tài)分布的對稱性,低估的區(qū)域依然大于高估的區(qū)域,因此我們通過將偏差除以 n?1 來修正這種低估,確保樣本方差是總體方差的無偏估計(jì)。
無論是樣本均值小于總體均值還是大于總體均值,都會導(dǎo)致方差的低估。通過貝塞爾修正(使用 n?1而非 n)可以補(bǔ)償這種低估,使得樣本方差更加接近總體方差,從而得到無偏的估計(jì)。
貝塞爾修正(Bessel’s Correction)的核心在于將樣本數(shù)據(jù)的方差除以 n?1,而不是 n,這種修正確保了我們在使用樣本數(shù)據(jù)來估算總體方差時(shí),得到的是一個(gè)無偏估計(jì)。無偏估計(jì)的意思是,隨著樣本數(shù)量的增加,估算的樣本方差會逐漸趨近于總體方差。
貝塞爾修正(Bessel’s Correction)的好處在于,它修正了由于樣本均值比總體均值更接近樣本數(shù)據(jù)的現(xiàn)象,避免了方差估計(jì)的系統(tǒng)性偏差。舉個(gè)例子,如果我們直接使用樣本均值來計(jì)算樣本方差(除以 n),可能會低估樣本數(shù)據(jù)的離散程度,從而導(dǎo)致我們對總體方差的估計(jì)值偏小。通過貝塞爾修正,我們的樣本方差可以更好地反映總體方差的真實(shí)情況。
在計(jì)算樣本方差或標(biāo)準(zhǔn)差時(shí),除以 n?1看似一個(gè)微小的變化,但它對于獲得總體方差的無偏估計(jì)至關(guān)重要。這個(gè)調(diào)整稱為貝塞爾修正,它補(bǔ)償了由于依賴樣本均值而非真實(shí)總體均值所導(dǎo)致的低估問題。