終于把統(tǒng)計學中的抽樣方法搞懂了!?。?/h1>
大家好,我是小寒
今天給大家介紹統(tǒng)計學中的一個關鍵概念,抽樣
抽樣是一種從總體中選取部分個體(樣本)以獲得關于總體的信息的方法。
由于在大多數(shù)情況下直接研究整個總體的每一個個體并不實際,因此抽樣為我們提供了在不完全觀測總體的情況下推斷總體特征的手段。
抽樣的理論和技術被廣泛用于統(tǒng)計學、社會科學、市場調(diào)查和其他需要分析數(shù)據(jù)的領域。
抽樣的關鍵概念
- 總體(Population)
總體是我們感興趣的所有個體的集合。
例如,在一個調(diào)查中,總體可能是一個國家的所有公民。 - 樣本(Sample)
樣本是從總體中選取的個體集合。通過研究樣本,可以推斷總體的特征。 - 抽樣誤差(Sampling Error)
由于樣本僅代表總體的一部分,因此樣本統(tǒng)計量(如樣本均值)與總體參數(shù)(如總體均值)之間可能存在差異。
這種差異被稱為抽樣誤差。 - 代表性樣本
代表性樣本是可以充分反映總體特征的樣本,確保樣本與總體之間的差異最小。
常見的抽樣方法
簡單隨機抽樣
簡單隨機抽樣是一種最基本的抽樣方法。
在這種方法中,每個個體都有相等的機會被選中,樣本的選擇是完全隨機的。
import pandas as pd
import numpy as np
# 創(chuàng)建一個樣本數(shù)據(jù)集
np.random.seed(1)
data = pd.DataFrame({
'ID': range(1, 101),
'Age': np.random.randint(18, 65, 100),
'Gender': np.random.choice(['Male', 'Female'], 100),
'Region': np.random.choice(['North', 'South', 'East', 'West'], 100)
})
print("數(shù)據(jù)集示例:\n", data.head())
# 簡單隨機抽樣,從數(shù)據(jù)集中隨機抽取 20 個樣本
sample_simple_random = data.sample(n=20, random_state=1)
print("簡單隨機抽樣結(jié)果:\n", sample_simple_random)
分層抽樣
分層抽樣是將總體按某些特征劃分成若干層(即“分層”),然后在每一層內(nèi)獨立地進行隨機抽樣。
該方法適用于總體異質(zhì)性較大,但在層內(nèi)相對同質(zhì)的情況。
圖片
優(yōu)點,能確保每一層都有代表,適合于人口組成復雜的情況,能夠提高樣本代表性和統(tǒng)計效率。
缺點,要求對總體進行分層,分層的選擇可能會影響結(jié)果。
# 分層抽樣,按“Gender”列分層,每層中抽取20%的樣本
stratified_sample = data.groupby('Gender', group_keys=False).apply(lambda x: x.sample(frac=0.2, random_state=1))
print("分層抽樣結(jié)果:\n", stratified_sample)
集群抽樣
集群抽樣是將總體劃分為若干個群體(“集群”),然后隨機選取一些集群,再對選中的集群內(nèi)的個體進行全面或抽樣。
常見于地理分布廣泛、總體較大且難以獲取總體列表的情況。
圖片
優(yōu)點,實施成本低,適合于大規(guī)模分布式總體。
缺點,如果集群間差異較大,樣本可能缺乏代表性,從而影響精確性。
# 集群抽樣,按“Region”列分成集群,隨機選取2個集群
selected_clusters = data['Region'].sample(n=2, random_state=1).values
cluster_sample = data[data['Region'].isin(selected_clusters)]
print("集群抽樣結(jié)果:\n", cluster_sample)
系統(tǒng)抽樣
系統(tǒng)抽樣是在總體列表中按照某一固定間隔(例如每隔 k 個個體)抽取樣本。
常用于生產(chǎn)線上的質(zhì)量檢測和大規(guī)模數(shù)據(jù)的快速抽樣。
優(yōu)點,易于執(zhí)行,節(jié)省時間和成本,尤其適用于大規(guī)模順序數(shù)據(jù)。
缺點,如果總體中的個體有周期性分布,可能會導致樣本的系統(tǒng)性偏差。
# 系統(tǒng)抽樣:按每5個選取一個樣本
interval = 5
systematic_sample = data.iloc[::interval, :]
print("系統(tǒng)抽樣結(jié)果:\n", systematic_sample)
便利抽樣
便利抽樣是基于可方便獲得的樣本進行抽樣,往往用于初步探索性研究。
優(yōu)點,成本低、快速、便于實施,適合于資源有限或時間緊迫的情況。
缺點,容易產(chǎn)生偏差,樣本代表性較差,難以推論到總體。
# 便利抽樣:直接選取數(shù)據(jù)集的前15行(假設前15行是方便采集的樣本)
convenience_sample = data.head(15)
print("便利抽樣結(jié)果:\n", convenience_sample)