貝葉斯概率:從悲劇到喜劇的跌宕歷程
在概率論的發(fā)展歷史上,先后出現(xiàn)過三種定義:經(jīng)典定義、頻率定義和主觀定義。
前兩種我們在先前文章中有提到,而主觀主義指的就是今天這篇文章中要講的貝葉斯概率。
貝葉斯概率是以發(fā)明人的名字命名的。貝葉斯本人是一名牧師,于1761年去世,但貝葉斯定理的正式提出和公開討論是在1763年,是由貝葉斯的同事代為發(fā)表的。
提起貝葉斯概率,在基于統(tǒng)計的機器學(xué)習(xí)崛起后,它的名字可謂響當(dāng)當(dāng)。而且它在概率論三定義中出現(xiàn)又是最晚,有后發(fā)優(yōu)勢。
因此,許多同學(xué)可能會覺得貝葉斯概率真是含著金鑰匙出生、一路順風(fēng)順?biāo)奶熨n之選啊。
然而,真正了解貝葉斯概率跌宕起伏的經(jīng)歷之后,可能會發(fā)出驚嘆,算法也如人生啊,人生要經(jīng)歷的磨難算法那里一點也不遜色。
在本篇文章中,我們先簡要一下貝葉斯概率的公式,然后列舉一個典型的通過貝葉斯概率來解決的郵件分類案例。
接下來,我們再來看一下歷史上貝葉斯概率所經(jīng)歷的從悲劇到喜劇的坎坷歷程,以及探討背后的深層次原因。
最后,我們將探討一下貝葉斯概率在AI中的廣泛應(yīng)用。
1.貝葉斯概率公式
我們先看一下貝葉斯概率的公式:
這個公式中包含4項,下面分別說明一下:
先驗概率P(A)
主觀概率,指的是基于人們主觀判斷和信念而得出的關(guān)于某個隨機事件發(fā)生可能性大小的估計值。
值得一提的是,貝葉斯概率最開始的悲慘命運,其實主要與P(A)體現(xiàn)出來的主觀有關(guān)系。
后驗概率P(A|B)
后驗概率是在觀察到某些證據(jù)或數(shù)據(jù)后,對某一事件發(fā)生概率的重新評估。
似然函數(shù)P(B|A)
似然函數(shù)確切來說不是概率,因為是根據(jù)已經(jīng)發(fā)生的結(jié)果數(shù)據(jù)來計算。
全(邊緣)概率P(B)
全概率公式提供了一種方法,將一個復(fù)雜事件的總概率分解為若干個更簡單事件的概率的加權(quán)和。
似乎每一個都很難懂的樣子!先驗概率p(A)反而是看著最容易容易的一個。
后驗概率P(A|B)和似然函數(shù)P(B|A)其實都是條件概率,只是在貝葉斯中所處的位置和作用不同,因此在概念上區(qū)分開。
條件概率是指一個事件在另一個事件已經(jīng)發(fā)生的條件下發(fā)生的概率。以P(A|B)為例,它表示“在B發(fā)生的情況下A發(fā)生的概率”。
以下面幾何圖形為例,條件概率計算時,將得到的部分再次設(shè)定為整體,并排除掉沒有可能性的各個事件之后,重新計算出的比率,如下所示。
最后,再來看一下全概率或邊緣概率,如下幾何圖形所示。將樣本空間B分解為一系列互不相交的事件,并計算這些事件發(fā)生的概率之和等于1,計算公式如下。
P(B) = P(A1)*P(B|A1) + P(A2)*P(B|A2) + P(A3)*P(B|A3)
在現(xiàn)實中,全概率往往是最難求解的一項,因為促使樣本空間分解的因素往往列不全。
2.垃圾郵件過濾的典型案例
看完上面的數(shù)學(xué)公式部分之后,相信許多同學(xué)記不住。這不能怪你們自己,純粹的抽象數(shù)學(xué)公式就是比較反人性的。
有兩種方式可以幫忙大家更好地理解貝葉斯概率。一是了解貝葉斯概率的背景和真正目的;另一個是通過具體案例。
先來說第一個。貝葉斯當(dāng)時為什么要提出這種概率出來呢?他想要解決的問題是什么呢?
實際上,貝葉斯的目的很明確,他想要解決的是逆概率問題。
下面是當(dāng)時他要求解的問題:“想象一張桌子,上面均勻隨機地放著一個白球,而貝葉斯本人背向桌子,對白球位置一無所知。然后,貝葉斯必須從白球位置引出的結(jié)果出發(fā),判斷這個位置,或者至少給出對應(yīng)的可能性”。
當(dāng)然,貝葉斯這個例子不好理解,后面在拉普拉斯那篇文章中,將給出一個更直觀的例子。
然而,既然我們知道貝葉斯概率是希望求解逆概率問題。那么,我們可以將上面的數(shù)學(xué)公式替換一下,這樣能幫助大家更好的理解。
相當(dāng)于
因為,正概率說的是先有現(xiàn)象,然后去推測結(jié)果發(fā)生的概率。
那么,所謂的逆概率,就是在知道結(jié)果的情況下去反推現(xiàn)象(也可以理解成原因)出現(xiàn)的概率。
接下來,我們再通過一個垃圾郵件分類的例子,讓大家直觀地感受一下貝葉斯概率的應(yīng)用。
構(gòu)建郵件數(shù)據(jù)集
構(gòu)建一個簡化的貝葉斯垃圾郵件過濾數(shù)據(jù)集。
郵件文本 | 標(biāo)簽(1-垃圾郵件;0-非垃圾郵件) |
優(yōu)惠券即將到期,快來免費領(lǐng)取! | 1 |
會議紀(jì)要已發(fā)送,請查收。 | 0 |
你的賬戶有異常登錄,請檢查。 | 0 |
恭喜你中獎了,快來點擊領(lǐng)取獎品吧! | 1 |
請確認(rèn)您的訂單信息。 | 0 |
...... | ...... |
...... | ...... |
...... | ...... |
...... | ...... |
郵件特征
只考慮兩個特征,即郵件中是否包含“免費”、“中獎”這兩個詞
郵件類別
郵件分為兩類,垃圾郵件(Spam)和非垃圾郵件(Not Spam)
先驗概率
假設(shè)我們從歷史數(shù)據(jù)中得知,垃圾郵件占所有郵件的30%,非垃圾郵件占70%
P(Spam) = 0.3
P(Not Spam) = 0.7
條件概率
假設(shè)在垃圾郵件中,包含“免費”的概率是80%,包含“中獎”的概率是70%
P(免費|Spam) = 0.8
P(中獎|Spam) = 0.7
在非垃圾郵件中,包含“免費”的概率是10%,包含“中獎”的概率是5%
P(免費|Not Spam) = 0.1
P(中獎|Not Spam) = 0.05
新郵件特征
假設(shè)我們收到一封新郵件,它同時包含“免費”和“中獎”兩個詞
使用貝葉斯定理計算后驗概率
我們需要計算這封郵件是垃圾郵件的概率P(Spam|免費,中獎)和不是垃圾郵件的概率P(Not Spam|免費,中獎)
使用貝葉斯定理,我們可以得到
由于我們假設(shè)免費和中獎是獨立的,我們可以得到垃圾郵件中的聯(lián)合概率
P(免費,中獎|Spam) = P(免費|Spam)* P(中獎|Spam) = 0.8*0.7 = 0.56
P(免費,中獎|Not Spam) = P(免費|Not Spam)* P(中獎|Not Spam) = 0.1*0.05 = 0.005
決策
因此,該封郵件是垃圾郵件的概率更大一些。
3.貝葉斯概率從悲劇到喜劇的三段經(jīng)歷
貝葉斯概率從誕生到AI時代的火熱,大致經(jīng)歷了以下三個階段。
第一階段:從出現(xiàn)到確立
核心事件1:1763年,托馬斯貝葉提出貝葉斯定理,求解逆概率問題;
核心事件2:1774年,拉普拉斯發(fā)表《論事件原因存在概率》,綜合了正、逆概率,貝葉斯正式作為逆概率的標(biāo)準(zhǔn)。
第二階段:從寒冬到曙光
核心事件1:拉普拉斯方法中的主觀置信度(即貝葉斯概率部分)受到強烈批評,如哲學(xué)家密爾形容為“心智失?!?,“自稱是科學(xué),其實是無知”,統(tǒng)計學(xué)家費希爾“謬誤的垃圾”;
核心事件2:20世紀(jì)初,數(shù)理統(tǒng)計學(xué)科出現(xiàn),主流統(tǒng)計學(xué)將貝葉斯概率排斥之外;
核心事件3:1933年,安德烈.柯爾莫洛夫,提出概率公理,柯爾莫洛本人是頻率學(xué)派。
第三階段:從認(rèn)可到爆發(fā)
核心事件1:20世紀(jì)50年代,薩維奇發(fā)布《統(tǒng)計學(xué)基礎(chǔ)》,提出貝葉斯公式是唯一的推理工具;
核心事件2:20世紀(jì)60年代,雷所羅門諾夫?qū)D靈的可計算性理論與貝葉斯公式結(jié)合起來,這就是人工智能一般性框架的前身;
核心事件3:20世紀(jì)80年代,蒙特卡洛模擬方法的出現(xiàn),特別是馬爾科夫鏈蒙特卡洛方法(MAMC),給貝葉斯公式的實際應(yīng)用帶來了革命。
4.貝葉斯概率坎坷歷程的原因剖析
從上面貝爾斯概率的經(jīng)歷中,可以發(fā)現(xiàn)貝葉斯概率在歷史上大部分時間之內(nèi),都處于一種邊緣、受排斥的位置上。
它只是一種數(shù)學(xué)方法而已,原因到底為何呢?
一是計算復(fù)雜性,古代沒有計算機,計算器也沒有.而在貝葉斯定理中,計算后驗概率通常需要對所有可能的參數(shù)值進(jìn)行積分,這在數(shù)學(xué)計算上是比較復(fù)雜的。
在計算技術(shù)不發(fā)達(dá)的時代,這種計算上的困難限制了貝葉斯方法的廣泛應(yīng)用。但是,顯然這個原因頂多會導(dǎo)致不使用,不至于受排斥。
二是主觀性問題,貝葉斯定理依賴于先驗概率,即在觀察數(shù)據(jù)之前對事件發(fā)生概率的估計。
這種先驗概率的設(shè)定被認(rèn)為帶有主觀性,因為不同的人可能會基于不同的信息或信念設(shè)定不同的先驗概率。
在科學(xué)界,尤其是頻率學(xué)派的統(tǒng)計學(xué)家看來,這種主觀性是不可接受的,他們更傾向于基于數(shù)據(jù)本身來估計概率,而不依賴于任何先驗信息。
在我們看來,主觀或者客觀更多的是的一種認(rèn)識和利用世界的手段而已,顯然還有更深層次的原因。
三是秩序性問題,這才是貝葉斯定律在歷史上遭遇冷遇的根本原因。在哲學(xué)的理性主義時代,人們普遍認(rèn)為真理是客觀存在的,這種秩序觀強調(diào)世界的運行遵循固定的、可預(yù)測的規(guī)律,而這些規(guī)律是獨立于人的主觀意識的。
換句話說,社會中的分層、權(quán)威等也是客觀決定的,不決定于人主觀的意識,否則社會只會變得混亂。
接著,我們再來探討一下,歷史上又是那些因素最終拯救了貝葉斯概率呢?
首先,計算機與馬爾科夫鏈蒙特卡洛(MCMC)方法的出現(xiàn),從根本上解決了貝葉斯方法在算力和積分計算上的瓶頸。
當(dāng)然,這不是主要原因,因為如果人們的認(rèn)知不發(fā)生改變的話,再好的工具放在手里都起不到應(yīng)有的作用。
其次,實用主義哲學(xué)的興起,為貝葉斯概率理論提供了堅實的哲學(xué)基礎(chǔ),解決了主觀與客觀之間的長期爭論。
實用主義強調(diào)“好不好用”,而不刻意追求所謂的“正不正確”。在這一哲學(xué)背景下,貝葉斯方法中先驗概率的主觀性不再是障礙。
這一觀念的轉(zhuǎn)變,最終使得貝葉斯概率理論從邊緣走向主流,被廣泛接受為處理不確定性問題的有效工具。
5.貝葉斯概率在AI中的應(yīng)用
貝葉斯概率理論作為統(tǒng)計學(xué)與人工智能領(lǐng)域的一顆璀璨明珠,其影響力深遠(yuǎn),構(gòu)成了貝葉斯學(xué)習(xí)、貝葉斯推理、貝葉斯網(wǎng)絡(luò)、貝葉斯決策以及貝葉斯優(yōu)化等一系列核心理論的基石。
一是貝葉斯學(xué)習(xí)。它的優(yōu)勢在于其獨特的增量學(xué)習(xí)能力,它允許模型在訓(xùn)練過程中不斷更新參數(shù)的概率分布。
這種動態(tài)調(diào)整的能力使得模型能夠適應(yīng)不斷變化的數(shù)據(jù)環(huán)境,實現(xiàn)自我優(yōu)化和提升,特別適合在處理變化數(shù)據(jù)和在線學(xué)習(xí)場景中。
二是貝葉斯推理。它作為一種基于貝葉斯定理的統(tǒng)計推理方法,不僅能夠提供參數(shù)的點估計,更重要的是,它能夠提供參數(shù)的分布信息,這為理解和量化模型的不確定性提供了有力工具。
在AI領(lǐng)域,貝葉斯推理被廣泛應(yīng)用于不確定性量化、模型選擇和模型比較,為決策提供更全面、更可靠的依據(jù)。
三是貝葉斯網(wǎng)絡(luò)。作為一種概率圖模型,通過有向無環(huán)圖(DAG)巧妙地表示變量之間的條件依賴關(guān)系,為處理復(fù)雜不確定性問題提供了強大的工具。
在知識表示、推理、預(yù)測和決策支持系統(tǒng)中,貝葉斯網(wǎng)絡(luò)的應(yīng)用無處不在,它能夠幫助我們理解和預(yù)測復(fù)雜系統(tǒng)的動態(tài)行為,為決策提供科學(xué)依據(jù)。
四是貝葉斯決策。它將貝葉斯概率與決策理論完美結(jié)合,為在不確定性下做出最優(yōu)決策提供了系統(tǒng)性的解決方案。
它考慮了決策的后果和不確定性,通過最小化預(yù)期損失或最大化預(yù)期效用,可以幫助我們在復(fù)雜多變的環(huán)境中做出更適合的選擇。
五是貝葉斯優(yōu)化。通過構(gòu)建目標(biāo)函數(shù)的概率模型,貝葉斯優(yōu)化能夠高效地搜索最優(yōu)解,尤其適用于高維、非凸或計算成本高的優(yōu)化問題,如超參數(shù)調(diào)優(yōu)、神經(jīng)架構(gòu)搜索和實驗設(shè)計等。
6.小結(jié)
人生就像是一個大戲臺,不同的人在舞臺上扮演著不同的角色。同樣,算法的世界也是一方廣闊的舞臺,不同的算法的命運也各不相同。
像貝葉斯算法,盡管生不逢時,但正如金子早晚會發(fā)光,貝葉斯算法也在人類文明逐步走向數(shù)字化、智能化的路途中,發(fā)展成為一個舉足輕重的算法。
并且,貝葉斯概率,如今也已經(jīng)超越了其最初的數(shù)學(xué)領(lǐng)域,成為了一種理解和解釋世界的哲學(xué)。