從最大似然估計(jì)開始,你需要打下的機(jī)器學(xué)習(xí)基石
概率論是機(jī)器學(xué)習(xí)與深度學(xué)習(xí)的基礎(chǔ)知識,很多形式化的分析都是以概率的形式進(jìn)行討論。而這些討論或多或少都離不開最大似然估計(jì),因?yàn)樗菂?shù)估計(jì)的基礎(chǔ)之一,也是構(gòu)建模型的基石。在本文中,我們從最大似然估計(jì)到貝葉斯推理詳細(xì)地討論了機(jī)器學(xué)習(xí)的概率論基石,并希望能為讀者的預(yù)習(xí)與復(fù)習(xí)提供優(yōu)秀的參考資源。
什么是參數(shù)?
在機(jī)器學(xué)習(xí)中,我們經(jīng)常使用一個模型來描述生成觀察數(shù)據(jù)的過程。例如,我們可以使用一個隨機(jī)森林模型來分類客戶是否會取消訂閱服務(wù)(稱為流失建模),或者我們可以用線性模型根據(jù)公司的廣告支出來預(yù)測公司的收入(這是一個線性回歸的例子)。每個模型都包含自己的一組參數(shù),這些參數(shù)最終定義了模型本身。
我們可以把線性模型寫成 y = mx + c 的形式。在廣告預(yù)測收入的例子中,x 可以表示廣告支出,y 是產(chǎn)生的收入。m 和 c 則是這個模型的參數(shù)。這些參數(shù)的不同值將在坐標(biāo)平面上給出不同的直線(見下圖)。
參數(shù)值不同的三個線性模型
因此,參數(shù)為模型定義了一個藍(lán)圖。只有將參數(shù)選定為特定值時,才會給出一個描述給定現(xiàn)象的模型實(shí)例。
最大似然估計(jì)的直觀解釋
最大似然估計(jì)是一種確定模型參數(shù)值的方法。確定參數(shù)值的過程,是找到能最大化模型產(chǎn)生真實(shí)觀察數(shù)據(jù)可能性的那一組參數(shù)。
上述的定義可能聽起來還是有點(diǎn)模糊,那么讓我們通過一個例子來幫助理解。
假設(shè)我們從某個過程中觀察了 10 個數(shù)據(jù)點(diǎn)。例如,每個數(shù)據(jù)點(diǎn)可以代表一個學(xué)生回答特定考試問題的時間長度(以秒為單位)。這 10 個數(shù)據(jù)點(diǎn)如下圖所示:
我們觀察到的 10 個(假設(shè)的)數(shù)據(jù)點(diǎn)
我們首先要決定哪個模型最適合描述生成數(shù)據(jù)的過程,這一步至關(guān)重要。至少,我們應(yīng)該對使用哪種模型有一個不錯的想法。這個判斷通常來自于一些領(lǐng)域內(nèi)專家,但我們不在這里討論這個問題。
對于這些數(shù)據(jù),我們假設(shè)數(shù)據(jù)生成過程可以用高斯分布(正態(tài)分布)進(jìn)行充分描述。對以上數(shù)值目測一番就可以得知,高斯分布是合理的,因?yàn)檫@ 10 個點(diǎn)的大部分都集中在中間,而左邊和右邊的點(diǎn)都很少。(因?yàn)槲覀冎皇褂昧?10 個數(shù)據(jù)點(diǎn),做出這樣的草率決定是不明智的,但考慮到我是用某個確定的分布函數(shù)生成這些數(shù)據(jù)點(diǎn),我們就湊合著用吧)。
回想一下高斯分布有兩個參數(shù):均值μ和標(biāo)準(zhǔn)差σ。這些參數(shù)的不同值會對應(yīng)不同的曲線(就像上面的直線一樣)。我們想知道「哪條曲線最可能產(chǎn)生我們觀察到的數(shù)據(jù)點(diǎn)」?(見下圖)。用最大似然估計(jì)法,我們會找到與數(shù)據(jù)擬合得最好的 μ、σ 的值。
10 個數(shù)據(jù)點(diǎn)和可能得出這些數(shù)據(jù)的高斯分布。f_1 是均值為 10、方差為 2.25(方差等于標(biāo)準(zhǔn)偏差的平方)的正態(tài)分布,也可以表示為 f_1∼N(10, 2.25)。其它曲線為 f_2∼N(10, 9)、f_3∼N(10, 0.25)、f_4∼N(8,2.25)。最大似然的目標(biāo)是找到最有可能生成已知觀察數(shù)據(jù)分布的參數(shù)值。
我生成這 10 個數(shù)據(jù)的真實(shí)分布是 f_1~N(10, 2.25),也就是上圖中的藍(lán)色曲線。
計(jì)算最大似然估計(jì)
現(xiàn)在我們對最大似然估計(jì)有了直觀的理解,我們可以繼續(xù)學(xué)習(xí)如何計(jì)算參數(shù)值了。我們找到的參數(shù)值被稱為最大似然估計(jì)(maximum likelihood estimates,MLE)。
我們同樣將用一個例子來演示這個過程。假設(shè)這次有三個數(shù)據(jù)點(diǎn),我們假設(shè)它們是從一個被高斯分布充分描述的過程生成的。這些點(diǎn)是 9、9.5 和 11。那么如何用最大似然估計(jì)逼近這個高斯分布的參數(shù) μ 和 σ 呢?
我們要計(jì)算的是同時觀察到所有這些數(shù)據(jù)的概率,也就是所有觀測數(shù)據(jù)點(diǎn)的聯(lián)合概率分布。因此,我們需要計(jì)算一些可能很難算出來的條件概率。我們將在這里做出第一個假設(shè),假設(shè)每個數(shù)據(jù)點(diǎn)都是獨(dú)立于其他數(shù)據(jù)點(diǎn)生成的。這個假設(shè)能讓計(jì)算更容易些。如果事件(即生成數(shù)據(jù)的過程)是獨(dú)立的,那么觀察所有數(shù)據(jù)的總概率就是單獨(dú)觀察到每個數(shù)據(jù)點(diǎn)的概率的乘積(即邊緣概率的乘積)。
從高斯分布中生成的單個數(shù)據(jù)點(diǎn) x 的(邊緣)概率是:
在表達(dá)式 P(x; μ, σ) 中的分號是為了強(qiáng)調(diào)在分號后的符號都是概率分布的參數(shù)。所以千萬不要把這個與條件概率相混淆。條件概率一般會用豎線來表達(dá),比如說 P(A| B)。
在我們的例子中,同時觀察到這三個數(shù)據(jù)點(diǎn)的總(聯(lián)合)概率是:
我們只要找出能夠讓上述表達(dá)式最大化的μ、σ值就可以了。
如果你在數(shù)學(xué)課上學(xué)過微積分,那么你可能會意識到有一種技巧可以幫助我們找到函數(shù)的最大值(和最小值)。我們所要做的就是求出函數(shù)的導(dǎo)數(shù),把導(dǎo)函數(shù)設(shè)為零然后重新變換方程,使其參數(shù)成為方程的未知數(shù)。然后就這樣,我們將得到參數(shù)的 MLE 值。我將串講一下這些步驟,但我假設(shè)讀者知道如何對常用函數(shù)進(jìn)行微分。
對數(shù)似然函數(shù)
上述的總概率表達(dá)式實(shí)際上是很難微分,所以它幾乎總是通過對表達(dá)式取自然對數(shù)進(jìn)行簡化。這完全沒問題,因?yàn)樽匀粚?shù)是一個單調(diào)遞增的函數(shù)。這意味著,如果 x 軸上的值增加,y 軸上的值也會增加(見下圖)。這一點(diǎn)很重要,因?yàn)樗_保了概率的最大對數(shù)值出現(xiàn)在與原始概率函數(shù)相同的點(diǎn)上。因此,我們可以用更簡單的對數(shù)概率來代替原來的概率。
原函數(shù)的單調(diào)性,左邊是 y = x,右邊是(自然)對數(shù)函數(shù) y = ln(x)。
這是一個非單調(diào)函數(shù)的例子,因?yàn)閺淖笾劣?f(x) 會上升,然后下降,然后又上升。
取初始表達(dá)式的對數(shù)能得到:
我們可以用對數(shù)的運(yùn)算法則再一次簡化這個表達(dá)式,得到:
這個表達(dá)式可以通過求導(dǎo)得到最大值。在這個例子中,我們要找到平均值 μ。為此我們對函數(shù)求 μ 的偏導(dǎo)數(shù),得到:
最后,設(shè)置等式的左邊為零,然后以μ為未知數(shù)整理式子,可以得到:
這樣我們就得到了 μ 的最大似然估計(jì)。我們可以用同樣的方法得到 σ 的最大似然估計(jì),這留給有興趣的讀者自己練習(xí)。
最大似然估計(jì)小結(jié)
1. 最大似然估計(jì)總是能精確地得到解嗎?
簡單來說,不能。更有可能的是,在真實(shí)的場景中,對數(shù)似然函數(shù)的導(dǎo)數(shù)仍然是難以解析的(也就是說,很難甚至不可能人工對函數(shù)求微分)。因此,一般采用期望最大化(EM)算法等迭代方法為參數(shù)估計(jì)找到數(shù)值解,但總體思路還是一樣的。
2. 為什么叫「最大似然(最大可能性)」,而不是「最大概率」呢?
好吧,這只是統(tǒng)計(jì)學(xué)家們賣弄學(xué)問(但也是有充分的理由)。大多數(shù)人傾向于混用「概率」和「似然度」這兩個名詞,但統(tǒng)計(jì)學(xué)家和概率理論家都會區(qū)分這兩個概念。通過觀察這個等式,我們可以更好地明確這種混淆的原因。
這兩個表達(dá)式是相等的!所以這是什么意思?我們先來定義 P(data; μ, σ) 它的意思是「在模型參數(shù)μ、σ條件下,觀察到數(shù)據(jù) data 的概率」。值得注意的是,我們可以將其推廣到任意數(shù)量的參數(shù)和任何分布。
另一方面,L(μ, σ; data) 的意思是「我們在觀察到一組數(shù)據(jù) data 之后,參數(shù) μ、σ 取特定的值的似然度?!?/p>
上面的公式表示,給定參數(shù)后數(shù)據(jù)的概率等于給定數(shù)據(jù)后參數(shù)的似然度。但是,盡管這兩個值是相等的,但是似然度和概率從根本上是提出了兩個不同的問題——一個是關(guān)于數(shù)據(jù)的,另一個是關(guān)于參數(shù)值的。這就是為什么這種方法被稱為最大似然法(極大可能性),而不是最大概率。
3. 什么時候最小二乘參數(shù)估計(jì)和最大似然估計(jì)結(jié)果相同?
最小二乘法是另一種常用的機(jī)器學(xué)習(xí)模型參數(shù)估計(jì)方法。結(jié)果表明,當(dāng)模型向上述例子中一樣被假設(shè)為高斯分布時,MLE 的估計(jì)等價于最小二乘法。
直覺上,我們可以通過理解兩種方法的目的來解釋這兩種方法之間的聯(lián)系。對于最小二乘參數(shù)估計(jì),我們想要找到最小化數(shù)據(jù)點(diǎn)和回歸線之間距離平方之和的直線(見下圖)。在最大似然估計(jì)中,我們想要最大化數(shù)據(jù)同時出現(xiàn)的總概率。當(dāng)待求分布被假設(shè)為高斯分布時,最大概率會在數(shù)據(jù)點(diǎn)接近平均值時找到。由于高斯分布是對稱的,這等價于最小化數(shù)據(jù)點(diǎn)與平均值之間的距離。
有隨機(jī)高斯噪聲的回歸線
上一部分討論了機(jī)器學(xué)習(xí)和統(tǒng)計(jì)模型中參數(shù)估計(jì)的最大似然法。在下文我們將討論貝葉斯推理的參數(shù)估計(jì),并解釋該方法如何可作為最大似然法的推廣,以及兩者等價的條件。
閱讀本文需要理解一些基本的概率論知識,例如邊緣概率和條件概率。此外,了解高斯分布有助于理解,但并不是必要的。
貝葉斯定理
在介紹貝葉斯推理之前,理解貝葉斯定理是很有必要的。貝葉斯定理的意義在于使我們能利用已有的知識或信念(通常稱為先驗(yàn)的)幫助計(jì)算相關(guān)事件的概率。例如,如果想知道在炎熱和晴朗的天氣中賣出冰淇淋的概率,貝葉斯定理可以使用「在其它類型天氣中可能賣出冰淇淋數(shù)量」的先驗(yàn)知識。
1. 數(shù)學(xué)定義
貝葉斯定理的數(shù)學(xué)定義如下:
其中,A 和 B 是事件,P(A|B) 是給定事件 B 發(fā)生時,事件 A 發(fā)生的條件概率,P(B|A) 同理。P(A) 和 P(B) 分別是事件 A 和事件 B 的邊緣概率。
2. 示例
假定一副撲克牌里有 52 張牌,其中 26 張是紅色的,26 張是黑色的。那么當(dāng)牌是紅色的時候,牌上數(shù)字為 4 的概率是多少?
我們將牌為數(shù)字 4 設(shè)為事件 A,將牌為紅色設(shè)為事件 B。因此我們需要計(jì)算的概率是 P(A|B)=P(4|red),接下來,我們使用貝葉斯定理計(jì)算這個概率值:
- P(B|A) = P(red|4) = 1/2
- P(A) = P(4) = 4/52 = 1/13
- P(B) = P(red) = 1/2
然后根據(jù)貝葉斯定理可得到:P(4|red)=P(red|4)·P(4)/P(red)=1/13。
3. 為什么貝葉斯定理能結(jié)合先驗(yàn)信念?
僅僅看數(shù)學(xué)公式很難理解這一點(diǎn)。我們將再次借用冰淇淋和天氣的例子。
令 A 為賣出冰淇淋的事件,B 為天氣的事件。我們的問題是「給定天氣的類型,賣出冰淇淋的概率是多少?」用數(shù)學(xué)符號表示為 P(A=ice cream sale | B=type of weather)。
貝葉斯定理右邊的 P(A) 被稱為先驗(yàn)概率。在我們的例子中即 P(A = ice cream sale) 是賣出冰淇淋的邊緣概率(其中天氣是任何類型)。一般而言,這個概率都是已知的,因此其被稱為先驗(yàn)概率。例如我通過查看數(shù)據(jù)了解到 100 個人中有 30 個買了冰淇淋,因此 P(A = ice cream sale)=30/100=0.3,而這都是在了解任何天氣的信息之前知道的。
注意:先驗(yàn)知識本身并不是完全客觀的,可能帶有主觀成分,甚至是完全的猜測。而這也會對最終的條件概率計(jì)算產(chǎn)生影響,我將在后面解釋。
貝葉斯推理
1. 定義
首先,(統(tǒng)計(jì))推理是從數(shù)據(jù)中推導(dǎo)群體分布或概率分布的性質(zhì)的過程。最大似然法也是同樣的,如可以通過一系列的觀察數(shù)據(jù)點(diǎn)確定平均值的最大似然估計(jì)。
因此,貝葉斯推理不過是利用貝葉斯定理從數(shù)據(jù)中推導(dǎo)群體分布或概率分布的性質(zhì)的過程。
2. 使用貝葉斯定理處理數(shù)據(jù)分布
以上例子使用的都是離散概率,有時可能需要使用連續(xù)的概率分布。即賣出冰淇淋的概率可能不只是 0.3,還可能是 0.25 或 0.4 以及其它任何可能值,每個概率對應(yīng)一個先驗(yàn)信念,因而是一個函數(shù) f(x),如下圖所示。該分布被稱為先驗(yàn)分布(prior distribution)。
上圖中的兩個分布曲線都可以作為上述例子的先驗(yàn)分布,其中兩者的峰值都在 x=0.3 處。在 x≠0.3 處,f≠0,意味著我們并不完全確定 0.3 就是賣出冰淇淋的真實(shí)概率。藍(lán)線表示先驗(yàn)概率的值更可能在 0-0.5 之間,而黃線表示先驗(yàn)概率可能在 0-1 之間的任何值。相對而言,黃線表示的先驗(yàn)分布比藍(lán)線的「更加不確定」。
在處理模型的時候,大部分都需要用到概率分布的形式。
貝葉斯定理的模型形式
模型形式的貝葉斯定理將使用不同的數(shù)學(xué)符號。
我們將用Θ取代事件 A。Θ是我們感興趣的事件,它代表了參數(shù)的集合。因此如果要估計(jì)高斯分布的參數(shù)值,那么Θ代表了平均值μ和標(biāo)準(zhǔn)差σ,用數(shù)學(xué)形式表示為Θ = {μ, σ}。
我們用 data 或 y={y1, y2, …, yn} 取代事件 B,它代表了觀察數(shù)據(jù)的集合。
其中 P(Θ) 是先驗(yàn)分布,它代表了我們相信的參數(shù)值分布,和上述例子中代表賣出冰淇淋的概率分布類似。等式左邊的 P(Θ|data) 稱為后驗(yàn)分布,它代表利用觀察數(shù)據(jù)計(jì)算了等式右邊之后的參數(shù)值分布。而 P(data| Θ) 和似然度分布類似。
因此我們可以使用 P(data|Θ) 更新先驗(yàn)信度以計(jì)算參數(shù)的后驗(yàn)分布。
等等,為什么忽略了 P(data)?
因?yàn)槲覀冎粚?shù)的分布感興趣,而 P(data) 對此并沒有任何參考價值。而 P(data) 的真正重要性在于它是一個歸一化常數(shù),它確保了計(jì)算得到的后驗(yàn)分布的總和等于 1。
在某些情況下,我們并不關(guān)心歸一化,因此可以將貝葉斯定理寫成這樣的形式:
其中 ∝ 表示符號左邊正比于符號右邊的表達(dá)式。
貝葉斯推斷示例
現(xiàn)在我們來展示一個貝葉斯推斷的示例。該示例要算出氫鍵鍵長。你無需知道什么是氫鍵(hydrogen bond),我只是用它舉例。
我用上圖因?yàn)樗兄诓鸱置芗谋?,且與我們要展示的示例有某種關(guān)聯(lián)。不要擔(dān)心,無需理解上圖也可以理解貝葉斯推斷。
假設(shè)氫鍵是 3.2Å—4.0Å。該信息將構(gòu)成我的先驗(yàn)知識。就概率分布而言,我將將其形式化為均值 μ = 3.6Å、標(biāo)準(zhǔn)差 σ = 0.2Å 的高斯分布(見下圖)。
氫鍵鍵長的先驗(yàn)分布
我們現(xiàn)在選取一些數(shù)據(jù)(由均值為 3Å 和標(biāo)準(zhǔn)差為 0.4Å 的高斯分布隨機(jī)生成的 5 個數(shù)據(jù)點(diǎn)),代表了氫鍵的測量長度(圖 3 中的黃色點(diǎn))。我們可以從這些數(shù)據(jù)點(diǎn)中推導(dǎo)出似然度分布,即下圖中黃色線表示的似然度分布。注意從這 5 個數(shù)據(jù)點(diǎn)得到的最大似然度估計(jì)小于 3Å(大約 2.8Å)。
氫鍵長度的先驗(yàn)分布(藍(lán)線),和由 5 個數(shù)據(jù)點(diǎn)導(dǎo)出的似然度分布(黃線)。
現(xiàn)在我們有兩個高斯分布。由于忽略了歸一化常數(shù),因此已經(jīng)可以計(jì)算非歸一化的后驗(yàn)分布了。高斯分布的一般定義如下:
我們需要將上述的兩個分布乘起來,然后得到下圖的粉線所示的后驗(yàn)分布。
藍(lán)色分布和黃色分布的乘積得到粉色的后驗(yàn)分布。
現(xiàn)在我們得到了氫鍵鍵長的后驗(yàn)分布,可以從中推導(dǎo)出統(tǒng)計(jì)特征。例如,我們可以使用分布的期望值估計(jì)鍵長,或者計(jì)算方差以量化對結(jié)果的不確定度。對后驗(yàn)分布的最常用的統(tǒng)計(jì)計(jì)算是眾數(shù),它被用于估計(jì)感興趣參數(shù)的真實(shí)值。在這個例子中,后驗(yàn)分布是一個高斯分布,因此平均值等于眾數(shù)(以及中位數(shù)),而氫鍵長度的 MAP 估計(jì)在分布的峰值處,大約 3.2Å。
結(jié)語
1. 為什么我經(jīng)常使用高斯分布?
你將注意到在我所有涉及分布的實(shí)例中,我使用了高斯分布。其中一個原因是它使數(shù)學(xué)變的更容易。但是對貝葉斯推理實(shí)例來說,它需要計(jì)算 2 個分布的乘積。此外,因?yàn)楦咚狗植加幸粋€特殊的屬性,使其易于計(jì)算分布的乘積。對于高斯似然函數(shù)來說,高斯分布與它自己共軛,因此如果我把一個高斯似然函數(shù)乘以一個高斯先驗(yàn)分布,我將得到一個高斯后驗(yàn)函數(shù)。事實(shí)是后驗(yàn)和先驗(yàn)都來自相同的分布族(均為高斯),這意味著它們可被稱為共軛分布。在這種情況下,先驗(yàn)分布被稱為共軛先驗(yàn)。
在很多推理情景中,似然和先驗(yàn)被選擇,從而得到的分布是共軛的,因?yàn)樗箶?shù)學(xué)變的更簡單。數(shù)據(jù)科學(xué)中的一個實(shí)例是隱狄利克雷分配(LDA),它是一個無監(jiān)督學(xué)習(xí)算法,可以發(fā)現(xiàn)若干個文本文檔(語料庫)中的主題。
2. 當(dāng)我們獲取新數(shù)據(jù),會發(fā)生什么?
貝葉斯推理的最大優(yōu)勢之一是使用它無需有大量數(shù)據(jù)。事實(shí)上貝葉斯框架允許你有數(shù)據(jù)后實(shí)時、迭代地更新你的信念。其工作如下:你有一個關(guān)于什么的先驗(yàn)信念(比如參數(shù)值),接著你接收到一些數(shù)據(jù)。你可以通過計(jì)算后驗(yàn)分布更新你的信念,就像上面我們做的那樣。隨后,甚至有更多的數(shù)據(jù)進(jìn)來。因此我們的后驗(yàn)成為新的先驗(yàn)。我們可以通過從新數(shù)據(jù)中獲得的似然更新的新的先驗(yàn),并再次獲得一個新后驗(yàn)。這一循環(huán)可無限持續(xù),因此你可以不斷更新你的信念。
卡爾曼過濾器(及其變體)是很好的一個實(shí)例。它在很多場景中使用,可能數(shù)據(jù)科學(xué)中最醒目就是其在自動駕駛汽車上的應(yīng)用。在我的數(shù)學(xué)蛋白質(zhì)晶體學(xué)博士學(xué)位期間,我曾使用一種名為 Unscented 卡爾曼過濾器的變體,并為實(shí)現(xiàn)它們的開源軟件包做出了貢獻(xiàn)。
3. 把先驗(yàn)用作 regulariser
我們在上述氫鍵長度實(shí)例中產(chǎn)生的數(shù)據(jù)表明,2.8Å是最佳估計(jì)。但是,如果我們的估計(jì)只依據(jù)數(shù)據(jù),則存在過擬合的風(fēng)險。如果數(shù)據(jù)收集過程出現(xiàn)差錯,這將是一個嚴(yán)重的問題。我們可以在貝葉斯框架中使用先驗(yàn)解決這一問題。在我們的實(shí)例中,使用一個以 3.6Å為中心的高斯先驗(yàn)得到了一個后驗(yàn)分布,給出的氫鍵長度的 MAP 估計(jì)為 3.2Å。這表明我們的先驗(yàn)在估計(jì)參數(shù)值時可以作為 regulariser。
先驗(yàn)與似然上的權(quán)重數(shù)量取決于兩個分布之間的相對不確定性。在下圖中我們可以看到這一點(diǎn)。顏色與上面一樣,藍(lán)色表征先驗(yàn)分布,黃色表征似然分布,粉紅表征后驗(yàn)分布。左圖中我們看到藍(lán)線不如黃線那么延展。因此后驗(yàn)要遠(yuǎn)比似然更相似于先驗(yàn)。右圖中則情況相反。
因此如果我們愿意增加參數(shù)的正則化,我們可以選擇縮小與似然性相關(guān)的先驗(yàn)分布。
4. 什么時候 MAP 估計(jì)與最大似然估計(jì)相等?
當(dāng)先驗(yàn)分布均勻之時,MAP 估計(jì)與 MLE 相等。下圖是均勻分布的一個實(shí)例。
均勻分布
我們可以看到均勻分布給 X 軸(水平線)上的每個值分布相同的權(quán)重。直觀講,它表征了最有可能值的任何先驗(yàn)知識的匱乏。在這一情況中,所有權(quán)重分配到似然函數(shù),因此當(dāng)我們把先驗(yàn)與似然相乘,由此得到的后驗(yàn)極其類似于似然。因此,最大似然方法可被看作一種特殊的 MAP。
【本文是51CTO專欄機(jī)構(gòu)“機(jī)器之心”的原創(chuàng)譯文,微信公眾號“機(jī)器之心( id: almosthuman2014)”】