對連續(xù)概率分布的一個常見誤解 原創(chuàng)
考慮下面這個連續(xù)概率分布的概率密度函數(shù),它表示的是從A點到B點可能花費的時間。
這是一個連續(xù)隨機(jī)變量t取值區(qū)間為[1,5]的均勻分布,其概率密度函數(shù)可以表示成下面形式。
那么,問題來了!
Q)他從A點到達(dá)B點花費3分鐘的概率P(T=3)是多少?
哇哦!上述答案都是錯的,正確答案是:0。
有的人可能會立馬抗議,并表示為什么在擲色子中每個點的概率就是1/6呢?
因為擲色子實驗結(jié)果是離散的,離散隨機(jī)變量的概率分布稱為概率質(zhì)量函數(shù)(PMF),PMF中的每個值代表的就是概率。
而連續(xù)隨機(jī)變量的概率分布稱為概率密度函數(shù)(PDF),PDF中每個點對應(yīng)的值不是概率,而是概率密度,也就是在該點附近取值的相對可能性。
是不是有點繞?不過沒關(guān)系,只要知道它不是概率就行了,后面我們講似然的時候還會提到。
對于概率密度函數(shù),我們只能通過積分來計算某個區(qū)間的概率。
例如,一個人從A點到達(dá)B點花費2到4分鐘的概率。
擴(kuò)展閱讀
似然vs概率
首先讓我們先來看一下概率和似然的區(qū)別。
先來看下劍橋詞典給出的解釋。
● Probability: the level of possibility of something happening or being true.
● Likelihood: the chance that something will happen.
這兩個概念非常容易被混淆,在字典中似然被解釋成概率的代名詞。
然而,在統(tǒng)計學(xué)中,似然和概率卻有著非常大的區(qū)別。
概率通常用于預(yù)測一個事件發(fā)生的可能性。
例如,擲色子出現(xiàn)偶數(shù)的概率,機(jī)器學(xué)習(xí)模型預(yù)測輸入是貓的概率。
在計算概率時,模型的參數(shù)是已知的,并且是可信的。
例如,我們計算拋硬幣正反面的概率時,通常會假設(shè)并且相信硬幣是無偏的。
相反,似然用于解釋已經(jīng)發(fā)生的事件。
與概率不同(參數(shù)已知,且可信),似然是在已知觀測數(shù)據(jù)下,幫助我們判定參數(shù)是否可靠。
例如,我們將在2D數(shù)據(jù)上擬合一條直線,參數(shù)是斜率m和截距c。
在此,似然被定義為數(shù)據(jù)點為某些特定參數(shù)值提供的支持。
當(dāng)m=2,c=1時,觀測數(shù)據(jù)的似然是多少?
當(dāng)m=3,c=2時,觀測數(shù)據(jù)的似然是多少?
最大似然估計(MLE)
上面的定義就被應(yīng)用到了最大似然估計(MLE)中。
MLE用于根據(jù)已知的觀測數(shù)據(jù)來估計模型的參數(shù)。其核心思想是,通過尋找使觀測數(shù)據(jù)最有可能(即似然最大)的參數(shù)值。
舉個例子。
線性回歸模型的參數(shù)有多種求解方法,例如,最小二乘法(OLS),梯度下降法。
今天我們應(yīng)用概率方法,用最大似然估計(MLE)來求解模型的參數(shù)。
- 定義模型
β0、β1為待求解參數(shù)。
假設(shè)誤差項服從正太分布:
也就是說y服從正太分布:
y的概率密度函數(shù)為:
2.構(gòu)造似然函數(shù)
根據(jù)獨立同分布假設(shè),整個數(shù)據(jù)集的似然函數(shù)就是各個數(shù)據(jù)點在PDF中對應(yīng)概率密度的乘積:
帶入f:
3.取對數(shù)似然
根據(jù)對數(shù)函數(shù)的性質(zhì),可以將上述似然函數(shù)轉(zhuǎn)換為對數(shù)似然函數(shù):
進(jìn)一步簡化:
4.最大化似然函數(shù)
對數(shù)似然函數(shù)對參數(shù)導(dǎo)數(shù),并令導(dǎo)數(shù)為零,得到參數(shù)的最大似然估計值:
本文轉(zhuǎn)載自公眾號人工智能大講堂
原文鏈接:??https://mp.weixin.qq.com/s/vMLzJMoxbCGxiX0PxDT43g???
