數(shù)據(jù)科學(xué)家都應(yīng)該知道這5個(gè)概率分布
概率分布就像3D眼鏡。它們使熟練的數(shù)據(jù)科學(xué)家能夠識(shí)別完全隨機(jī)變量中的模式。
在某種程度上,大多數(shù)數(shù)據(jù)科學(xué)或機(jī)器學(xué)習(xí)技能都是基于對(duì)數(shù)據(jù)概率分布的某些假設(shè)。
這使得概率知識(shí)成為統(tǒng)計(jì)學(xué)家構(gòu)建工具箱的基礎(chǔ)。如果你正在思考如何成為一名數(shù)據(jù)科學(xué)家,那么這是***步。
廢話少說,讓我們開門見山吧!
什么是概率分布?
在概率論和統(tǒng)計(jì)學(xué)中,隨機(jī)變量是一個(gè)可以隨機(jī)取不同值的變量,比如“我看到的下一個(gè)人的身高”或“我下一個(gè)拉面碗里廚師頭發(fā)的數(shù)量”。
給定一個(gè)隨機(jī)變量X,我們想描述它取哪個(gè)值。更重要的是,我們想要描述變量取某個(gè)值x的可能性有多大。
例如,如果X是“我女朋友養(yǎng)了多少只貓”,那么這個(gè)數(shù)字可能是1,甚至可以是5或10。
當(dāng)然,一個(gè)人不可能擁有負(fù)數(shù)的貓。
因此我們希望用一種明確的數(shù)學(xué)方法來表示變量X可以取的每一個(gè)可能的值,以及事件(X= x)的可能性。
為了做到這一點(diǎn),我們定義了一個(gè)函數(shù)P,使得P(X = x)是變量X值為x的概率。
我們也可以用P(X < x)或者P(X > x)來代替離散值。這非常重要。
P是變量的密度函數(shù),它表征變量的分布。
隨著時(shí)間的推移,科學(xué)家們已經(jīng)意識(shí)到,自然界和現(xiàn)實(shí)生活中的許多事物往往表現(xiàn)相似,變量共享一個(gè)分布,或具有相同的密度函數(shù)(或類似的函數(shù))。
要使P成為一個(gè)實(shí)際的密度函數(shù),需要一些條件。
- P(X =x) <= 1 對(duì)于任意值X, P(X =x)必須小于等于1
- P(X =x) >= 0 對(duì)于任意值X, P(X =x)必須大于等于0
- 對(duì)于任意值X,P(X =x) 所有值的和為1(X取任意值的概率,加起來等于1)
離散與連續(xù)隨機(jī)變量分布
隨機(jī)變量可以分為兩組:離散隨機(jī)變量和連續(xù)隨機(jī)變量。
離散隨機(jī)變量
離散變量有一組離散的可能值,每個(gè)值的概率都是非零的。
例如,當(dāng)我們拋硬幣時(shí),如果我們說
- X = " 1如果硬幣是正面,0如果是反面"
P(X = 1) = P(X = 0) = 0.5
但是請(qǐng)注意,離散集不一定是有限的。
幾何分布,事件發(fā)生的概率為p,試驗(yàn)k次才得到***次成功的概率:

k可以取任何非負(fù)的正整數(shù)。
注意所有可能值的概率之和仍然是1。
連續(xù)隨機(jī)變量
如果說
- X =“從我頭上隨機(jī)拔下的一根頭發(fā)的長度,以毫米為單位(沒有舍入)”
X可以取哪些值?我們知道負(fù)數(shù)在這里沒有任何意義。
但是,如果你說的是1毫米,而不是1.1853759……或者類似的東西,我要么懷疑你的測(cè)量技能,要么懷疑你的測(cè)量報(bào)告錯(cuò)誤。
連續(xù)隨機(jī)變量可以取給定(連續(xù))區(qū)間內(nèi)的任何值。
如果X為連續(xù)性隨機(jī)變量,則用f(x)表示X的概率分布密度函數(shù)。
用P(a < X < b)表示X位于值a和b之間的概率。
為了得到X取任一指定實(shí)數(shù)a的概率,需要把X的密度函數(shù)從a積分到b。
現(xiàn)在您已經(jīng)知道了概率分布是什么,讓我們來學(xué)習(xí)一些最常見的分布!
一、伯努利概率分布
伯努利分布的隨機(jī)變量是最簡單的隨機(jī)變量之一。
它表示一個(gè)二進(jìn)制事件:“這件事發(fā)生”vs“這件事沒有發(fā)生”,并以值p作為唯一的參數(shù),表示事件發(fā)生的概率。
伯努利分布的隨機(jī)變量B的密度函數(shù)為:
- P(B = 1) = p, P(B =0)= (1- p)
這里B=1表示事件發(fā)生了,B=0表示事件沒有發(fā)生。
注意這兩個(gè)概率加起來是1,因此不可能有其他值。
二、均勻概率分布
均勻隨機(jī)變量有兩種:離散隨機(jī)變量和連續(xù)隨機(jī)變量。
離散均勻分布將取(有限的)一組值S,并為每個(gè)值分配1/n的概率,其中n是S中的元素?cái)?shù)量。
這樣,如果變量Y在{1,2,3}中是均勻的,那么每一個(gè)值出現(xiàn)的概率都是33%。
骰子就是一個(gè)非常典型的離散均勻隨機(jī)變量,典型骰子有一組值{1,2,3,4,5,6},元素?cái)?shù)量為6,每個(gè)值出現(xiàn)的概率是1/6。
連續(xù)均勻分布只取兩個(gè)值a和b作為參數(shù),并在它們之間的區(qū)間內(nèi)為每個(gè)值分配相同的密度。
這意味著Y在一個(gè)區(qū)間(從c到d)取值的概率與它的大小相對(duì)整個(gè)區(qū)間(從b到a)的大小成正比。
因此,如果Y在a和b之間均勻分布,則

這樣,如果Y是1和2之間的均勻隨機(jī)變量,
- P(1 < X < 2)=1, P(1 < X < 1.5) = 0.5
Python的隨機(jī)包的隨機(jī)方法就采樣了一個(gè)在0到1之間均勻分布的連續(xù)變量。
有趣的是,可以證明,在給定均勻隨機(jī)值生成器和一些微積分的情況下,可以對(duì)任何其他分布進(jìn)行采樣。
三、正態(tài)概率分布

正態(tài)分布變量在自然界中很常見,它們是常態(tài),這就是這個(gè)名字的由來。
如果你把你所有的同事召集起來,測(cè)量他們的身高,或者給他們稱重,然后用結(jié)果繪制一個(gè)直方圖,結(jié)果很可能接近正態(tài)分布。
如果你取任意一個(gè)隨機(jī)變量的樣本,對(duì)這些測(cè)量值取平均值,重復(fù)這個(gè)過程很多次,這個(gè)平均值也會(huì)有一個(gè)正態(tài)分布。這個(gè)事實(shí)很重要,它被稱為統(tǒng)計(jì)學(xué)基本定理。
正態(tài)分布變量:
- 呈對(duì)稱鐘形曲線, 以均值為中心(通常稱為μ)。
- 可以取實(shí)空間上的所有值,正態(tài)曲線由均數(shù)所在處開始,分別向左右兩側(cè)逐漸均勻下降。標(biāo)準(zhǔn)差σ決定了分布的幅度。
- 幾乎無處不在
大多數(shù)情況下,如果你測(cè)量任何經(jīng)驗(yàn)數(shù)據(jù),并且它是對(duì)稱的,一般可假設(shè)它是正態(tài)分布。
例如,擲K個(gè)骰子,然后把結(jié)果相加,就會(huì)得到正態(tài)分布。
四、對(duì)數(shù)正態(tài)分布概率分布

對(duì)數(shù)正態(tài)概率分布是正態(tài)概率分布中較少見的一類。
如果變量Y = log(X)遵循正態(tài)分布,則稱變量X為對(duì)數(shù)正態(tài)分布。
在直方圖中,對(duì)數(shù)正態(tài)分布是不對(duì)稱的,標(biāo)準(zhǔn)差σ越大分布越不對(duì)稱。
我認(rèn)為對(duì)數(shù)正態(tài)分布值得一提,因?yàn)榇蠖鄶?shù)以貨幣為基礎(chǔ)的變量都是這樣的。
如果你看與錢有關(guān)的任何變量的概率分布,比如
- 某銀行最近一次轉(zhuǎn)賬的金額。
- 華爾街***成交量。
- 公司特定季度收益。
它們通常不會(huì)是正態(tài)概率分布,更接近于對(duì)數(shù)正態(tài)隨機(jī)變量。
(如果你能想到你在工作中遇到的任何其他對(duì)數(shù)正態(tài)變量,請(qǐng)?jiān)谠u(píng)論中發(fā)表你的看法!尤其是財(cái)務(wù)以外的事情)。
五、指數(shù)概率分布

指數(shù)概率分布也隨處可見,與泊松分布概率概念緊密相連。
泊松分布直接從維基百科中剽竊而來,它是“一個(gè)事件以恒定的平均速率連續(xù)獨(dú)立地發(fā)生的過程”。
這意味著,如果:
- 你有很多事情要做。
- 它們以一定的速度發(fā)生(不隨時(shí)間改變)。
- 任何一個(gè)成功的事件都不應(yīng)該影響另一個(gè)成功的事件。
泊松分布可能是發(fā)送到服務(wù)器的請(qǐng)求、發(fā)生在超市的交易、或者在某個(gè)湖中捕魚的鳥。
想象一下頻率為λ的泊松分布(比如,事件每秒發(fā)生一次)。
指數(shù)隨機(jī)變量模擬事件發(fā)生后,下一個(gè)事件發(fā)生所需的時(shí)間。
有趣的是,在泊松分布中,事件可以發(fā)生在任何時(shí)間間隔內(nèi)0到∞之間的任何地方(概率遞減)。
這意味著無論你等待多久,事件發(fā)生的可能性都不是零。這也意味著它可能在很短的時(shí)間內(nèi)發(fā)生很多次。
在課堂上,我們常開玩笑說公交車到站是泊松分布。我認(rèn)為,當(dāng)你給一些人發(fā)送WhatsApp消息時(shí)的響應(yīng)時(shí)間也符合這個(gè)標(biāo)準(zhǔn)。
λ參數(shù)調(diào)節(jié)活動(dòng)的頻率。它將使事件實(shí)際發(fā)生所需的預(yù)期時(shí)間以某個(gè)值為中心。
這意味著,如果我們知道每15分鐘就有一輛出租車經(jīng)過我們的街區(qū),即使理論上我們可以永遠(yuǎn)等下去,我們極有可能等不到30分鐘。
數(shù)據(jù)科學(xué)中的指數(shù)概率分布
這是指數(shù)分布隨機(jī)變量的密度函數(shù):

假設(shè)你有一個(gè)變量的樣本,想看看它是否可以用指數(shù)分布變量來建模。
***λ參數(shù)可以很容易地估計(jì)為采樣值平均值的倒數(shù)。
指數(shù)變量非常適合建模任何罕見但巨大的離群值。
這是因?yàn)樗鼈兛梢匀∪魏畏秦?fù)的值,但以較小的值為中心,隨著值的增長頻率降低。
在特別是異常繁重的樣本中,你可能想要估計(jì)λ中位數(shù)而不是平均值, 因?yàn)橹形粩?shù)對(duì)異常值更為穩(wěn)健。在這一點(diǎn)上,你的利益可能會(huì)有所不同,所以對(duì)它持保留態(tài)度。
結(jié)論
總而言之,作為數(shù)據(jù)科學(xué)家,我認(rèn)為學(xué)習(xí)基礎(chǔ)知識(shí)非常重要。
概率和統(tǒng)計(jì)可能不像深度學(xué)習(xí)或無監(jiān)督機(jī)器學(xué)習(xí)那么浮華,但它們是數(shù)據(jù)科學(xué)的基石,更是機(jī)器學(xué)習(xí)的基石。
根據(jù)我的經(jīng)驗(yàn),提供具有特性的機(jī)器學(xué)習(xí)模型,而不知道他們遵循哪種分布是一個(gè)糟糕的選擇。
記住指數(shù)分布和正態(tài)分布的普遍性,以及較罕見的對(duì)數(shù)正態(tài)分布也是很好的。
在訓(xùn)練機(jī)器學(xué)習(xí)模型時(shí),了解它們的特性、用途和表現(xiàn)將扭轉(zhuǎn)格局。在進(jìn)行任何類型的數(shù)據(jù)分析時(shí),將它們牢記于心通常也是有好處的!