數(shù)據(jù)科學(xué)家95%的時(shí)間都在使用的11個(gè)基本分布
繼上次盤點(diǎn)《數(shù)據(jù)科學(xué)家95%的時(shí)間都在使用的11個(gè)基本圖表》之后,今天將為大家?guī)頂?shù)據(jù)科學(xué)家95%的時(shí)間都在使用的11個(gè)基本分布。掌握這些分布,有助于我們更深入地理解數(shù)據(jù)的本質(zhì),并在數(shù)據(jù)分析和決策過程中做出更準(zhǔn)確的推斷和預(yù)測。
1. 正態(tài)分布
正態(tài)分布(Normal Distribution),也被稱為高斯分布(Gaussian Distribution),是一種連續(xù)型概率分布。它具有一個(gè)對稱的鐘形曲線,以均值(μ)為中心,標(biāo)準(zhǔn)差(σ)為寬度。正態(tài)分布在統(tǒng)計(jì)學(xué)、概率論、工程學(xué)等多個(gè)領(lǐng)域具有重要的應(yīng)用價(jià)值。
正態(tài)分布的概率密度函數(shù)為:
其中,μ是均值,σ是標(biāo)準(zhǔn)差。概率密度函數(shù)表示在給定值x附近,單位區(qū)間內(nèi)正態(tài)分布的隨機(jī)變量取值的概率密度。
正態(tài)分布在實(shí)際中的應(yīng)用:例如人的身高和體重分布近似于正態(tài)分布;考試成績通常呈正態(tài)分布,高分和低分的人數(shù)較少,中間分?jǐn)?shù)的人數(shù)較多。
2. 伯努利分布
伯努利分布(Bernoulli Distribution)是一種離散型概率分布,用于描述只有兩種可能結(jié)果的單次隨機(jī)試驗(yàn)。伯努利試驗(yàn)可以是正面或反面,成功或失敗,是或否等。例如,拋硬幣、檢測產(chǎn)品是否合格、某人是否購買某種產(chǎn)品等。
伯努利分布的概率質(zhì)量函數(shù)為:
其中,p是成功的概率,取值范圍在0和1之間。當(dāng)p=0.5時(shí),伯努利分布趨近于均勻分布。
伯努利分布在實(shí)際中的應(yīng)用:例如二項(xiàng)分布就是伯努利分布的n次獨(dú)立重復(fù)試驗(yàn)。
3. 二項(xiàng)分布
二項(xiàng)分布(Binomial Distribution)是一種離散型概率分布,用于描述在n次獨(dú)立重復(fù)試驗(yàn)中成功次數(shù)的概率分布。每次試驗(yàn)只有兩種可能的結(jié)果:成功(記為1)或失敗(記為0)。成功的概率為p,失敗的概率為1-p。
二項(xiàng)分布的概率質(zhì)量函數(shù)為:
其中,P(X=k)表示成功次數(shù)為k的概率,是組合數(shù),表示從n次試驗(yàn)中選擇k次成功的組合數(shù)。p是成功的概率,取值范圍在0和1之間。n是試驗(yàn)次數(shù)。
二項(xiàng)分布在實(shí)際中的應(yīng)用:如在醫(yī)學(xué)研究中,患者接受某種治療的成功率;在工程中,產(chǎn)品在生產(chǎn)過程中的合格率等。
4. 泊松分布
泊松分布(Poisson Distribution)是一種離散型概率分布,用于描述在固定時(shí)間內(nèi),事件發(fā)生的次數(shù)的概率分布。泊松分布適用于那些事件相互獨(dú)立,且平均發(fā)生速率恒定的情況。
泊松分布的概率質(zhì)量函數(shù)為:
其中,P(X=k)表示在固定時(shí)間內(nèi)事件發(fā)生k次的概率,λ表示事件的平均發(fā)生速率,即在單位時(shí)間內(nèi)事件發(fā)生的平均次數(shù)。e是自然常數(shù),約為2.718。k是事件發(fā)生的次數(shù)。
泊松分布在實(shí)際中的應(yīng)用:例如在電話呼叫中心,每分鐘打進(jìn)的電話數(shù)量可以看作是泊松分布,平均每分鐘打進(jìn)的電話數(shù)量即為λ。
5. 指數(shù)分布
指數(shù)分布(Exponential Distribution)是一種連續(xù)型概率分布,用于描述在固定時(shí)間內(nèi),事件發(fā)生的概率。指數(shù)分布適用于那些事件相互獨(dú)立,且平均發(fā)生速率恒定的情況。
指數(shù)分布的概率密度函數(shù)為:
其中,f(x,λ)表示在給定時(shí)間x內(nèi)事件發(fā)生的概率密度。λ表示事件的平均發(fā)生速率,即在單位時(shí)間內(nèi)事件發(fā)生的平均次數(shù)。e是自然常數(shù),約為2.718。
指數(shù)分布在實(shí)際中的應(yīng)用:放射性衰變中,放射性原子核衰變的時(shí)間可以看作是指數(shù)分布,平均衰變時(shí)間即為λ。
6. 伽瑪分布
伽瑪分布(Gamma Distribution)是一種連續(xù)型概率分布,用于描述在給定時(shí)間內(nèi),事件發(fā)生的概率。伽瑪分布適用于那些事件相互獨(dú)立,且平均發(fā)生速率恒定的情況。
伽瑪分布的概率密度函數(shù)為:
其中,f(x)表示在給定時(shí)間x內(nèi)事件發(fā)生的概率密度。α和β分別表示形狀參數(shù)和速率參數(shù)。α決定了伽瑪分布的形狀,取值范圍為0到正無窮。β表示事件的平均發(fā)生速率,即在單位時(shí)間內(nèi)事件發(fā)生的平均次數(shù),取值范圍為0到正無窮。e是自然常數(shù),約為2.718。
伽瑪分布在實(shí)際中的應(yīng)用:例如放射性衰變:在放射性衰變中,放射性原子核衰變的時(shí)間可以看作是伽瑪分布,平均衰變時(shí)間即為β/α。
7. 貝塔分布
貝塔分布(Beta distribution)是一種連續(xù)型概率分布,用于描述一組數(shù)值中成功次數(shù)的概率分布。它具有兩個(gè)參數(shù),分別表示成功概率的期望值(mean)和標(biāo)準(zhǔn)差(standard deviation)。
貝塔分布的概率密度函數(shù)如下:
其中,x表示成功的次數(shù),α和β分別表示分布的形狀參數(shù)。
貝塔分布在許多實(shí)際問題中都有應(yīng)用,例如,在基因編輯中,研究人員可能會(huì)使用貝塔分布來預(yù)測基因編輯技術(shù)成功編輯某個(gè)目標(biāo)位點(diǎn)的概率。在金融領(lǐng)域,貝塔分布可以用于描述資產(chǎn)價(jià)格的波動(dòng)性,或者用于計(jì)算投資組合的預(yù)期收益。
8. 均勻分布
均勻分布是一種概率分布,用于描述一組數(shù)值在某個(gè)區(qū)間內(nèi)均勻地分布。均勻分布有兩種類型:離散均勻分布和連續(xù)均勻分布。
離散均勻分布:如果一個(gè)離散隨機(jī)變量X具有以下概率分布:P(X=k) = k/(n+1),其中k為非負(fù)整數(shù),n為區(qū)間內(nèi)的整數(shù),那么稱X服從離散均勻分布。連續(xù)均勻分布:如果一個(gè)連續(xù)隨機(jī)變量X的概率密度函數(shù)為f(x) = 1/(b-a)!
均勻分布的特點(diǎn)是,在給定的區(qū)間內(nèi),每個(gè)數(shù)值都有相同的機(jī)會(huì)出現(xiàn)。例如,拋一枚公正的硬幣,正面和反面出現(xiàn)的概率都是1/2,這就是一種均勻分布。
9. 對數(shù)正態(tài)分布
對數(shù)正態(tài)分布(Log-normal distribution)是一種連續(xù)型概率分布,它的特點(diǎn)是隨機(jī)變量的對數(shù)服從正態(tài)分布。換句話說,如果一個(gè)隨機(jī)變量X的對數(shù)ln(X)服從正態(tài)分布,那么這個(gè)隨機(jī)變量X就服從對數(shù)正態(tài)分布。
對數(shù)正態(tài)分布的概率密度函數(shù)為:
其中,μ是對數(shù)正態(tài)分布的均值,σ是對數(shù)正態(tài)分布的標(biāo)準(zhǔn)差。
對數(shù)正態(tài)分布在許多實(shí)際應(yīng)用中都有重要意義,例如金融領(lǐng)域(股票價(jià)格、收益率等)、生物學(xué)(生長速率等)、經(jīng)濟(jì)學(xué)(消費(fèi)支出等)等。
10. T分布
T分布,是一種連續(xù)型概率分布,主要用于小樣本情況下描述均值的分布。t分布與正態(tài)分布(Normal distribution)類似,但它的尾部可以向左右延伸,取決于自由度(k)的大小。t分布廣泛應(yīng)用于統(tǒng)計(jì)推斷,例如在假設(shè)檢驗(yàn)中用于評估樣本均值與總體均值之間的顯著性差異。
t分布的期望和方差如下:
E(t)=0
Var(t)=k/(k-1)
t分布的自由度(k)表示的是樣本size(n)與總體標(biāo)準(zhǔn)差之間的關(guān)系。當(dāng) k > 30時(shí),t分布接近正態(tài)分布;當(dāng)k接近1時(shí),t分布變?yōu)榭挛鞣植迹–auchy distribution)。
在實(shí)際應(yīng)用中,當(dāng)樣本量較大(n>30)時(shí),可以使用正態(tài)分布來進(jìn)行假設(shè)檢驗(yàn),此時(shí)可以使用z統(tǒng)計(jì)量構(gòu)建置信區(qū)間。而當(dāng)樣本量較?。╪<30)時(shí),由于正態(tài)分布的假設(shè)不滿足,需要使用t分布來進(jìn)行檢驗(yàn)。通過t分布,可以更準(zhǔn)確地評估樣本均值與總體均值之間的差異,從而做出合理的決策。
11. Weibull分布
Weibull分布(Weibull distribution)是一種連續(xù)型概率分布。
Weibull分布的概率密度函數(shù)為:
其中, x是隨機(jī)變量,λ是比例參數(shù)(scale),k是形狀參數(shù)(shape),當(dāng) k = 1時(shí),韋伯分布是指數(shù)分布。而如果λ=1時(shí),則稱為最小化的韋伯分布。