自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

深入淺出樸素貝葉斯理論

企業(yè)動(dòng)態(tài)
概率論是機(jī)器學(xué)習(xí)中的重要角色,那么何謂概率?我們?cè)谛W(xué)里就聽老師講過拋硬幣時(shí)正面朝上的概率為0.5,這句話又代表著何含義呢?

概率論是機(jī)器學(xué)習(xí)中的重要角色,那么何謂概率?我們?cè)谛W(xué)里就聽老師講過拋硬幣時(shí)正面朝上的概率為0.5,這句話又代表著何含義呢?對(duì)于概率的理解往往有兩種不同的方式,其一是所謂的頻率論解釋(Frequentist Interpretation)。這種觀點(diǎn)中,概率代表著某個(gè)事件在較長(zhǎng)范圍內(nèi)的出現(xiàn)頻次。譬如這里的拋硬幣問題可以闡述為,如果我們拋?zhàn)銐虻拇螖?shù),我們會(huì)觀測(cè)到正面朝上的次數(shù)與反面朝上的次數(shù)基本相同。另一種即時(shí)所謂的貝葉斯解釋(Bayesian Interpretation),我們認(rèn)為概率是用來衡量某件事的不確定性(uncertainty),其更多地與信息相關(guān)而不再是重復(fù)嘗試的次數(shù)。用貝葉斯理論闡述拋硬幣問題則為下一次拋硬幣時(shí)正面朝上的可能性與反面朝上的可能性相差無幾。貝葉斯解釋的***優(yōu)勢(shì)在于我們可以去為事件的不確定性建立具體的模型而不再依賴于多次試驗(yàn)得出的頻次結(jié)果。譬如我們要去預(yù)測(cè)2020年世界杯的冠軍,我們肯定不能讓球隊(duì)比賽很多次來觀測(cè)頻次計(jì)算概率,這件事只會(huì)發(fā)生零或一次,反正是無法重復(fù)發(fā)生的。基于貝葉斯理論我們便可以利用可觀測(cè)到的數(shù)據(jù)推測(cè)該事件的結(jié)果概率,典型的應(yīng)用是垃圾郵件過濾系統(tǒng)中,我們可以根據(jù)帶標(biāo)簽的訓(xùn)練數(shù)據(jù)來對(duì)新的郵件進(jìn)行判斷。

樸素貝葉斯

貝葉斯定理緣起于托馬斯.貝葉斯(1702-1761),一位英國(guó)長(zhǎng)老會(huì)牧師和業(yè)余數(shù)學(xué)家。在他去世后發(fā)表的論文“論有關(guān)機(jī)遇問題的求解”中, 貝葉斯定理的現(xiàn)代形式實(shí)際上歸因于拉普拉斯(1812)。拉普拉斯重新發(fā)現(xiàn)了貝葉斯定理,并把它用來解決天體力學(xué)、醫(yī)學(xué)甚至法學(xué)的問題。但自19世紀(jì)中葉起,隨著頻率學(xué)派(在下文有時(shí)也稱作經(jīng)典統(tǒng)計(jì))的興起,概率的貝葉斯解釋逐漸被統(tǒng)計(jì)學(xué)主流所拒絕。現(xiàn)代貝葉斯統(tǒng)計(jì)學(xué)的復(fù)興肇始于Jeffreys(1939),在1950年代,經(jīng)過Wald(1950), Savage(1954), Raiffic&Schlaifer(1961), Lindley(1972), De Finetti(1974)等人的努力,貝葉斯統(tǒng)計(jì)學(xué)逐漸發(fā)展壯大,并發(fā)展出了貝葉斯統(tǒng)計(jì)決策理論這個(gè)新分支。特別是到1990年代以后,隨著計(jì)算方法MCMC在貝葉斯統(tǒng)計(jì)領(lǐng)域的廣泛應(yīng)用,解決了貝葉斯統(tǒng)計(jì)學(xué)長(zhǎng)期存在的計(jì)算困難的問題,從而推動(dòng)了貝葉斯統(tǒng)計(jì)在理論和應(yīng)用領(lǐng)域的長(zhǎng)足發(fā)展。貝葉斯統(tǒng)計(jì)學(xué)廣泛應(yīng)用于各個(gè)學(xué)科。就本書的主題而言,從認(rèn)知學(xué)科、政治學(xué)到從自然語言處理和社會(huì)網(wǎng)絡(luò)分析,貝葉斯方法都起到了舉足輕重的作用。

概述

貝葉斯定理,也稱為貝葉斯法則現(xiàn)在是概率論教科書的重要內(nèi)容。一般我們習(xí)慣于它的離散(事件)形式:

P(Ai|B)=fracP(B|Ai)P(Ai)sumP(B|Aj)P(Aj) A的后驗(yàn)概率=frac(A的似然度∗A的先驗(yàn)概率)標(biāo)準(zhǔn)化常量

其中

  • B稱為觀測(cè)變量
  • Ai稱為參數(shù)/隱變量
  • P(Ai)稱為先驗(yàn)概率,表示在對(duì)樣本觀測(cè)前我們關(guān)于這個(gè)問題已經(jīng)具有的知識(shí)
  • P(Ai|B)稱為后驗(yàn)概率,是在進(jìn)行了新觀測(cè)之后對(duì)原有知識(shí)的更新
  • P(B|Ai)稱為似然。
  • P(B)=sumP(B|Aj)P(Aj) 稱為Evidence,即數(shù)據(jù)是由該模型得出的證據(jù)

貝葉斯定理作為一種概率計(jì)算可用于多個(gè)領(lǐng)域內(nèi)進(jìn)行概率推理。今天,我們用貝葉斯法則過濾垃圾郵件,為網(wǎng)站用戶推薦唱片、電影和書籍。它滲透到了互聯(lián)網(wǎng)、語言和語言處理、人工智能、機(jī)器學(xué)習(xí)、金融、天文學(xué)和物理學(xué)乃至國(guó)家安全等各個(gè)領(lǐng)域。這里我們選用一個(gè)簡(jiǎn)單的案例進(jìn)行分析,假設(shè)有方形和圓形的兩種盒子,盒子內(nèi)有紅、黃、白三種顏色的球。方盒有3個(gè),每個(gè)里邊有紅球70只、黃球10只、白球20只;圓盒有5個(gè),每個(gè)里邊有紅球20只、黃球75只、白球5只?,F(xiàn)在先任取一個(gè)盒子,再?gòu)暮兄腥稳∫磺?,能不能通過求得顏色推斷它最有可能取自哪個(gè)盒子?為表示方便,記方盒=A,圓盒=B,紅球=R,黃球=Y,白球=W 使用貝葉斯定理進(jìn)行計(jì)算:

  1. P(A|R)=fracP(R|A)P(A)P(R)=0.118125 

貝葉斯理論最基礎(chǔ)的使用就是在分類問題中,也就是所謂的生成式分類器(Generative Classifier),其基本形式如下所示:

  1. p(y=c|vecx,vectheta)proptop(vecx|y=c,vectheta)p(y=c|vectheta) 

在訓(xùn)練階段,我們基于帶有標(biāo)簽的訓(xùn)練集的輔助來尋找合適的類條件概率/似然概率p(vecx|y=c,vectheta),并且推導(dǎo)出模型參數(shù)vectheta,其定義了我們期望在某類中出現(xiàn)某類型數(shù)據(jù)的概率。***在預(yù)測(cè)階段,我們基于類條件概率/似然概率來計(jì)算數(shù)據(jù)vecx從屬于各個(gè)類的后驗(yàn)概率,并且選擇概率***的為其預(yù)測(cè)值。

貝葉斯理論思維模式

在我們孩提時(shí)代,爸媽希望教會(huì)我們某個(gè)詞匯的含義時(shí),他們首先會(huì)給我們展示很多的正例。譬如對(duì)于狗這個(gè)單詞,爸媽可能會(huì)說:看那條狗狗好可愛,或者,小心狗狗。不過爸媽不會(huì)像機(jī)器一樣給我們展示所謂的負(fù)例,他們不會(huì)指著一只貓說:這貨不是狗,最多就是當(dāng)孩子們認(rèn)錯(cuò)的時(shí)候,父母會(huì)予以糾正。心理學(xué)家研究表明,人們可以單純地從正例中學(xué)習(xí)概念,而不一定需要負(fù)例的介入。而這種認(rèn)知單詞的學(xué)習(xí)過程可以抽象概括為所謂的概念學(xué)習(xí)(Concept Learning),在某些意義上很類似于二元分類。譬如我們可以定義當(dāng)x為某個(gè)概念C的實(shí)例時(shí)f(x)=1,否則f(x)=0。而學(xué)習(xí)的過程即是構(gòu)建這個(gè)指示函數(shù)f,該函數(shù)定義了哪些元素屬于概念C。當(dāng)我們?cè)试S這個(gè)函數(shù)具有一定的不確定性時(shí),我們就可以通過概率計(jì)算得出所謂的模糊集(Fuzzy Set)。還需要提到的是,標(biāo)準(zhǔn)的二維分類是同時(shí)需要正負(fù)例存在的,不過我們也可以單純地從正例中學(xué)習(xí)。

闡述完了基本的概念,接下來我們會(huì)以一個(gè)簡(jiǎn)單的數(shù)字游戲來進(jìn)行形象化的說明,這里我們隨便選定幾個(gè)數(shù)學(xué)上的概念作為學(xué)習(xí)目標(biāo)。譬如我們可以將概念C定義為所有的素?cái)?shù),或者介于1~10之間的數(shù)字。然后給你多組隨機(jī)從C中抽樣出的正數(shù)序列:D=x1,...,xN,然后給你一個(gè)新的測(cè)試序列widetildex讓你判斷其應(yīng)該歸屬于哪個(gè)概念。

上圖四組對(duì)比數(shù)據(jù)分別顯示了給不同的組選定不同的觀測(cè)集合時(shí)他們推導(dǎo)出的概念C的數(shù)字分布。前兩行是分別展示了D=16與D=60,會(huì)發(fā)現(xiàn)得出的結(jié)果非常分散(這里選定的數(shù)字范圍為1~100)。而第三行中觀測(cè)數(shù)據(jù)為D=16,8,2,64,人們得出了一定的規(guī)律,即選定了2的方冪值。而***一行中給出的觀測(cè)數(shù)據(jù)是D=16,23,19,20,人們得出的規(guī)律是選定靠近20的數(shù)字。我們來復(fù)盤每個(gè)組的思考過程,譬如當(dāng)首先給出16作為觀測(cè)數(shù)據(jù)時(shí),人們可能會(huì)選擇17?因?yàn)?7離16最近,也有可能會(huì)選擇6,因?yàn)樗鼈兊膫€(gè)位數(shù)都是6.當(dāng)然也有可能是32,因?yàn)樗鼈兌际?的方冪值,不過估計(jì)是沒啥人會(huì)選擇99的。從這樣簡(jiǎn)單地思考過程我們可以得出一個(gè)結(jié)論,顯而易見的部分?jǐn)?shù)字被選中的概率是大于其他數(shù)字的,這種概率就可以表示為某個(gè)概率分布:p(widetildex|D)。這個(gè)概率就是所謂的后驗(yàn)概率,表示了在給定觀測(cè)值D的情況下每個(gè)數(shù)字屬于D的概念集widetildex C的概率。接下來如果繼續(xù)給出8,2,64作為正例,那么我們會(huì)猜測(cè)隱藏的概念為2的方冪值,這種思考過程就是典型的歸納(Induction)。而如果繼續(xù)給出23,19,20作為正例,那么我們會(huì)得出另一個(gè)完全不同的泛化梯度(Generalization Gradient)的結(jié)果。

機(jī)器學(xué)習(xí)的任務(wù)就是將上述思考的過程轉(zhuǎn)化為機(jī)器計(jì)算,經(jīng)典的在讓機(jī)器進(jìn)行數(shù)學(xué)歸納的方法就是我們先預(yù)置很多概念的假設(shè)空間H(Hypothesis Space),譬如:奇數(shù)、偶數(shù)、1~100之間的數(shù)字、2的方冪、所有以6結(jié)尾的數(shù)字等等。而與觀測(cè)值D相符的H的子集稱為樣本空間(Version Space)。譬如在上面的思考過程中,隨著樣本空間的增長(zhǎng)我們?cè)桨l(fā)堅(jiān)定了對(duì)于某個(gè)概念的信心。不過樣本空間往往會(huì)很多且重復(fù),譬如上文中如果D=16,其與很多假設(shè)空間都存在一致的樣本空間,又該如何抉擇呢?

Likelihood:似然

我們首先來討論下為什么當(dāng)我們觀測(cè)到D=16,8,2,64時(shí)更傾向于認(rèn)為假設(shè)空間是所有2的方冪值的集合,而不是篤定假設(shè)空間是所有偶數(shù)的集合。雖然兩個(gè)假設(shè)空間都符合我們的觀測(cè)結(jié)果,但是歸納的過程中我們會(huì)盡量避免可疑的巧合(Suspicious Coincidences)。如果我們認(rèn)為假設(shè)空間是所有偶數(shù)的集合,那么又該如何說服自己這些數(shù)字都是2的方冪值呢?為了更方便的形式化討論這個(gè)現(xiàn)象,我們假設(shè)從某個(gè)假設(shè)空間中隨機(jī)取值的概率分布為均勻分布,可以推導(dǎo)出從假設(shè)空間中進(jìn)行N次取值得到觀測(cè)集合的概率為:

  1. p(D|h)=[frac1size(h)]N=[frac1|h|]N 

對(duì)于這個(gè)等式最形象化的解釋就是奧卡姆剃刀原則(Occam’s razor),我們傾向于選擇符合觀測(cè)值的最小/最簡(jiǎn)的假設(shè)空間。在D=16的情況下,如果假設(shè)空間為2的方冪值,則僅有6個(gè)符合條件的數(shù)字,推導(dǎo)出p(D|htwo)=1/6。而如果是所有的偶數(shù)集合,p(D|heven)=1/50。顯而易見htwo>heven,如果觀測(cè)序列中有4個(gè)數(shù)值,則$h_{two} = (1/6)^4 = 7.7 10^{-4},然而h_{even} = (1/50)^4 = 1.610^{-7},不同的假設(shè)空間的概率值差異越發(fā)的大了。因此我們會(huì)認(rèn)為D = {16,8,2,64}$這個(gè)觀測(cè)序列是來自于2的方冪值這個(gè)假設(shè)空間而不是所有的偶數(shù)集合這個(gè)假設(shè)空間。

Prior:先驗(yàn)

前一節(jié)我們討論了所謂似然的概念,當(dāng)觀測(cè)到D=16,8,2,64時(shí)我們會(huì)傾向于認(rèn)為其采樣于2的方冪值這個(gè)集合,不過為啥不是 h′=除了32之外的2的方冪值 這個(gè)似然概率更大的集合呢?直觀來看就是h′=除了32之外的2的方冪值這個(gè)假設(shè)與常規(guī)思維不符,而對(duì)于這樣奇特的思維我們可以賦予其較低的先驗(yàn)概率值來降低其最終得到的后驗(yàn)概率。

總計(jì)而言,貝葉斯理論中概率并不需要頻率解釋,先驗(yàn)分布也可以稱為主觀概率,是根據(jù)經(jīng)驗(yàn)對(duì)隨機(jī)現(xiàn)象的發(fā)生可能性的一種看法或者信念。統(tǒng)計(jì)學(xué)家薩維奇曾給出過一個(gè)著名的女士品茶的例子:一位常喝牛奶加茶的女士說她可以分辨在杯中先加入的是茶還是奶。連續(xù)做了十次實(shí)驗(yàn),她都說對(duì)了。顯然這來自于她的經(jīng)驗(yàn)而非猜測(cè)。我們?cè)谌粘I钪幸步?jīng)常使用基于經(jīng)驗(yàn)或者信念的主觀的概率陳述。比如說,天氣預(yù)報(bào)里說明天(8月3日)降水概率30%,就是關(guān)于“明日降水”這個(gè)事件的一種信念,因?yàn)樽鳛?月3日的明天是不可重復(fù)的,自然也就沒有頻率意義。再比如說,醫(yī)生認(rèn)為對(duì)某位病人進(jìn)行手術(shù)的成功可能性為80%,也是根據(jù)自己的經(jīng)驗(yàn)而具有的的信念,而非在這位病人身上反復(fù)進(jìn)行試驗(yàn)的頻率結(jié)果。 把θ看做隨機(jī)變量,進(jìn)而提出先驗(yàn)分布,在許多情況下是合理的。比如工廠產(chǎn)品的合格率每一天都有波動(dòng),可以看做隨機(jī)變量;明天的降水概率雖然是幾乎不動(dòng)的,但這是基于經(jīng)驗(yàn)和規(guī)律提出來的概率陳述,也可以看做隨機(jī)變量。盡管我們使用后驗(yàn)分布來進(jìn)行推理,但先驗(yàn)分布的選取也是很重要的。常見的先驗(yàn)分布類型包括:

  • 無信息先驗(yàn)(Noninformative Priors) 無信息先驗(yàn)只包含了參數(shù)的模糊的或者一般的信息,是對(duì)后驗(yàn)分布影響最小的先驗(yàn)分布。很多人愿意選取無信息先驗(yàn),因?yàn)檫@種先驗(yàn)與其它“主觀”的先驗(yàn)相比更接近“客觀”。通常,我們把均勻分布作為無信息先驗(yàn)來使用,這相當(dāng)于在參數(shù)所有的可能值上邊指派了相同的似然。但是無先驗(yàn)信息的使用也要慎重,比如有些情況下會(huì)導(dǎo)致不恰當(dāng)?shù)暮篁?yàn)分布(如不可積分的后驗(yàn)概率密度)。
  • Jeffreys先驗(yàn)(Jeffreys’ Prior) Jeffreys提出的選取先驗(yàn)分布的原則是一種不變?cè)恚捎肍isher信息陣的平方根作為θ的無信息先驗(yàn)分布。較好地解決了無信息先驗(yàn)中的一個(gè)矛盾,即若對(duì)參數(shù)θ選用均勻分布,則其函數(shù)g(θ)往往不是均勻分布。
  • 信息先驗(yàn)(Informative Priors) 根據(jù)以前的經(jīng)驗(yàn)、研究或?qū)<医?jīng)驗(yàn)得到的先驗(yàn)分布。
  • 共軛先驗(yàn)(Conjugate Priors) 共軛先驗(yàn)是指先驗(yàn)分布和后驗(yàn)分布來自同一個(gè)分布族的情況,就是說先驗(yàn)和后驗(yàn)有相同的分布形式(當(dāng)然,參數(shù)是不同的)。這些共軛先驗(yàn)是結(jié)合似然的形式推導(dǎo)出來的。共軛先驗(yàn)是經(jīng)常被使用的一種先驗(yàn)分布形式,原因在于數(shù)學(xué)處理和計(jì)算上的方便性,同時(shí)后驗(yàn)分布的一些參數(shù)也可以有很好的解釋。

Posterior:后驗(yàn)

后驗(yàn)值即為似然乘以先驗(yàn)再進(jìn)行歸一化,對(duì)于這里的數(shù)字游戲:

  1. p(h|D)=fracp(D|h)p(h)sumh′inHp(D,h′)=fracp(h)amalg(Dinh)/|h|Nsumh′inHp(h′)amalg(Dinh′)/|h′|N 

其中amalg(Dinh)當(dāng)且僅當(dāng)D中所有數(shù)據(jù)都屬于假設(shè)空間h時(shí)取1,其他情況下取0。

上圖展示了觀測(cè)值為16情況下對(duì)應(yīng)的先驗(yàn)、似然與后驗(yàn)值,其中后驗(yàn)值是先驗(yàn)乘以似然的結(jié)果。對(duì)于大部分概念而言,先驗(yàn)都是一致的,此時(shí)后驗(yàn)值取決于似然。不過對(duì)于上文中提及的 h′=除了32之外的2的方冪值,其先驗(yàn)概率取值極地,因此雖然其有著不錯(cuò)的似然,其最終得出的后驗(yàn)概率值還是很小的。而觀測(cè)值D=16,8,2,64時(shí),其先驗(yàn)、似然與后驗(yàn)如下圖所示:

總體而言,當(dāng)我們具有足夠數(shù)目的數(shù)據(jù)時(shí),后驗(yàn)概率p(h|D)會(huì)在某個(gè)概念上達(dá)到峰值,求取目標(biāo)假設(shè)空間的過程(預(yù)測(cè)階段)就可以引入MAP(Maximum a Posterior)估計(jì):

  1. hathMAP=argmaxhp(D|h)p(h)=argmaxh[logp(D|h)+logp(h)] 

而當(dāng)觀測(cè)數(shù)據(jù)足夠多時(shí),似然值的影響會(huì)遠(yuǎn)大于先驗(yàn),此時(shí)MAP就近似于***似然估計(jì)MLE(Maximum Likelihood Estimate)。

【本文是51CTO專欄作者“張梓雄 ”的原創(chuàng)文章,如需轉(zhuǎn)載請(qǐng)通過51CTO與作者聯(lián)系】

戳這里,看該作者更多好文

責(zé)任編輯:武曉燕 來源: 51CTO專欄
相關(guān)推薦

2012-09-24 10:13:35

貝葉斯

2011-07-04 10:39:57

Web

2021-03-16 08:54:35

AQSAbstractQueJava

2023-09-21 10:47:29

分布式CAPBASE

2022-09-26 09:01:15

語言數(shù)據(jù)JavaScript

2024-03-25 14:31:45

2017-07-02 18:04:53

塊加密算法AES算法

2019-01-07 15:29:07

HadoopYarn架構(gòu)調(diào)度器

2021-07-20 15:20:02

FlatBuffers阿里云Java

2012-05-21 10:06:26

FrameworkCocoa

2017-07-24 10:36:37

Python機(jī)器學(xué)習(xí)樸素貝葉斯

2009-11-17 17:31:58

Oracle COMM

2021-07-19 11:54:15

MySQL優(yōu)先隊(duì)列

2023-12-04 13:22:00

JavaScript異步編程

2010-07-26 12:57:12

OPhone游戲開發(fā)

2016-10-14 13:53:05

JavascriptDOMWeb

2016-10-14 14:32:58

JavascriptDOMWeb

2010-07-16 09:11:40

JavaScript內(nèi)存泄漏

2024-01-09 12:05:24

SSH協(xié)議端口

2022-01-11 07:52:22

CSS 技巧代碼重構(gòu)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)