自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<blockquote id="xpoie"><p id="xpoie"></p></blockquote>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

一文解讀貝塞爾修正：樣本方差為何用 n?1而非n？

作者：新叔 2024-12-30 00:00:02

大數(shù)據(jù) 數(shù)據(jù)分析

當(dāng)樣本均值大于總體均值時(shí)，低值部分的數(shù)據(jù)點(diǎn)會比總體均值更接近樣本均值，依然導(dǎo)致方差的低估。同樣地，由于正態(tài)分布的對稱性，低估的區(qū)域依然大于高估的區(qū)域，因此我們通過將偏差除以 n?1 來修正這種低估，確保樣本方差是總體方差的無偏估計(jì)。

前幾天使用duckdb進(jìn)行數(shù)據(jù)分析過程中，發(fā)現(xiàn)結(jié)果不一致，仔細(xì)翻閱Duckdb文檔中stddev_pop和stddev_samp、var_pop和var_samp 的描述和公式差異：

stddev_pop(x)：總體標(biāo)準(zhǔn)差

stddev_samp(x)：樣本標(biāo)準(zhǔn)差

var_pop(x)：總體方差（無貝塞爾修正）

var_samp(x)：樣本方差（包含貝塞爾修正）

為什么會有兩個(gè)標(biāo)準(zhǔn)差、兩個(gè)方差的定義，為啥一個(gè)除以n而另一個(gè)除以n-1;為何要貝塞爾修正（Bessel’s Correction）？

總體方差和樣本方差

在統(tǒng)計(jì)分析中，總體方差和樣本方差是衡量數(shù)據(jù)分散程度的重要指標(biāo)?？傮w方差（The population variance）是描述整個(gè)數(shù)據(jù)集的離散程度，也就是說我們手上的數(shù)據(jù)集是整個(gè)數(shù)據(jù)集，它計(jì)算的是數(shù)據(jù)點(diǎn)與總體均值的差異程度?？傮w方差的公式如下：

其中 n 是數(shù)據(jù)集的數(shù)據(jù)點(diǎn)數(shù)量。在計(jì)算總體方差時(shí)，我們可以直接使用 n 作為除數(shù)，因?yàn)槲覀円呀?jīng)有了整個(gè)數(shù)據(jù)集的所有信息。

與此相對，樣本方差（The sample variance）是從總體中抽取的樣本數(shù)據(jù)的離散程度,也就是我們計(jì)算的數(shù)據(jù)集只是整體的一部分，通過手上的數(shù)據(jù)集來估計(jì)總體的方差，例如在產(chǎn)品質(zhì)量分析過程，我們檢驗(yàn)的產(chǎn)品可能只是所有產(chǎn)品的抽樣部分檢測。由于樣本數(shù)據(jù)僅是總體的一個(gè)子集，它不包含所有的信息，因此樣本方差往往會低估總體方差。為了彌補(bǔ)這一點(diǎn)，我們需要進(jìn)行貝塞爾修正，將除數(shù)從 n 調(diào)整為 n?1，這樣可以更準(zhǔn)確地估計(jì)總體方差。樣本方差的公式如下：

對于標(biāo)準(zhǔn)差，總體標(biāo)準(zhǔn)差（The population standard deviation）是總體方差的平方根，而樣本標(biāo)準(zhǔn)差（he sample standard deviation）則是樣本方差的平方根。標(biāo)準(zhǔn)差與方差的區(qū)別在于，標(biāo)準(zhǔn)差與原始數(shù)據(jù)的單位相同，更便于解釋。

貝塞爾修正

為什么在（貝塞爾修正）計(jì)算樣本方差時(shí)除以 n?1，我們需要分析使用樣本均值代替總體均值時(shí)會發(fā)生什么。在實(shí)際應(yīng)用中，我們通常只能依賴樣本數(shù)據(jù)。其原理如下：

計(jì)算樣本方差時(shí)，我們會找到每個(gè)數(shù)據(jù)點(diǎn)與樣本均值的偏差，平方這些偏差，并計(jì)算它們的平均值。然而，樣本均值通常不等于總體均值，這導(dǎo)致使用樣本均值會低估總體的方差或分布。

以下是幾種可能的情況：

1. 樣本均值小于總體均值（xˉ<μ）時(shí)的情況

當(dāng)樣本均值（xˉ）小于總體均值（μ）時(shí)，樣本中的大部分?jǐn)?shù)據(jù)點(diǎn)離樣本均值更近，而不是離總體均值更近。結(jié)果是，數(shù)據(jù)點(diǎn)與均值之間的距離（偏差）變小，導(dǎo)致方差的計(jì)算偏小，即低估了實(shí)際的方差。因?yàn)槲覀冎荒軓臉颖局蝎@取數(shù)據(jù)，無法收集所有總體數(shù)據(jù)。在樣本數(shù)據(jù)中，接近總體均值的一部分?jǐn)?shù)據(jù)的偏差（絕對值或平方差）會大于樣本均值的偏差，而接近樣本均值的部分?jǐn)?shù)據(jù)偏差則更小。由于正態(tài)分布的對稱性，低估的區(qū)域大于高估的區(qū)域，因此方差會被低估。

為了補(bǔ)償方差的低估，使用 n?1代替 n 來計(jì)算方差，這就是貝塞爾修正（Bessel’s Correction）。

2. 樣本均值大于總體均值（xˉ>μ）時(shí)的情況

當(dāng)樣本均值大于總體均值時(shí)，低值部分的數(shù)據(jù)點(diǎn)會比總體均值更接近樣本均值，依然導(dǎo)致方差的低估。同樣地，由于正態(tài)分布的對稱性，低估的區(qū)域依然大于高估的區(qū)域，因此我們通過將偏差除以 n?1 來修正這種低估，確保樣本方差是總體方差的無偏估計(jì)。

無論是樣本均值小于總體均值還是大于總體均值，都會導(dǎo)致方差的低估。通過貝塞爾修正（使用 n?1而非 n）可以補(bǔ)償這種低估，使得樣本方差更加接近總體方差，從而得到無偏的估計(jì)。

貝塞爾修正（Bessel’s Correction）的核心在于將樣本數(shù)據(jù)的方差除以 n?1，而不是 n，這種修正確保了我們在使用樣本數(shù)據(jù)來估算總體方差時(shí)，得到的是一個(gè)無偏估計(jì)。無偏估計(jì)的意思是，隨著樣本數(shù)量的增加，估算的樣本方差會逐漸趨近于總體方差。

貝塞爾修正（Bessel’s Correction）的好處在于，它修正了由于樣本均值比總體均值更接近樣本數(shù)據(jù)的現(xiàn)象，避免了方差估計(jì)的系統(tǒng)性偏差。舉個(gè)例子，如果我們直接使用樣本均值來計(jì)算樣本方差（除以 n），可能會低估樣本數(shù)據(jù)的離散程度，從而導(dǎo)致我們對總體方差的估計(jì)值偏小。通過貝塞爾修正，我們的樣本方差可以更好地反映總體方差的真實(shí)情況。

在計(jì)算樣本方差或標(biāo)準(zhǔn)差時(shí)，除以 n?1看似一個(gè)微小的變化，但它對于獲得總體方差的無偏估計(jì)至關(guān)重要。這個(gè)調(diào)整稱為貝塞爾修正，它補(bǔ)償了由于依賴樣本均值而非真實(shí)總體均值所導(dǎo)致的低估問題。

責(zé)任編輯：武曉燕來源：新語數(shù)據(jù)故事匯

貝塞爾數(shù)據(jù)低值

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="jrra0"><p id="jrra0"></p></sub>