機(jī)器學(xué)習(xí)所需的所有概率基礎(chǔ)
鑒于您已閱讀本文,因此您的概率基本原理已準(zhǔn)備好進(jìn)行機(jī)器學(xué)習(xí)的概率為100%。

機(jī)器學(xué)習(xí)就是關(guān)于做出預(yù)測(cè)的一切。 從預(yù)測(cè)具有多種功能的房屋價(jià)格到基于單細(xì)胞測(cè)序確定腫瘤是否為惡性。 這些預(yù)測(cè)僅僅是預(yù)測(cè)-輸出的值是從數(shù)據(jù)中找到的相關(guān)性得出的-并不是在現(xiàn)實(shí)世界中發(fā)生的確定性值或事件。
因此,我們可以認(rèn)為機(jī)器學(xué)習(xí)是在給定一定的輸入或公認(rèn)的相關(guān)性的情況下輸出最可能或概率性的結(jié)果(幾乎像條件概率P(x | y)。因此,需要對(duì)概率論有扎實(shí)的理解才能理解機(jī)器學(xué)習(xí) 在更深層次上;雖然許多使用機(jī)器學(xué)習(xí)的人僅將其用作"黑匣子"(他們不在乎模型如何提出預(yù)測(cè),而只是在預(yù)測(cè)本身),但其他人卻在意理解ML模型是如何產(chǎn)生的 它的預(yù)測(cè),并利用對(duì)ML模型如何學(xué)習(xí)的理解,以便更深入地了解他們正在研究的過(guò)程的機(jī)制。
機(jī)器學(xué)習(xí)中的許多"學(xué)習(xí)"過(guò)程實(shí)際上是從概率和概率分布中派生的,因此,了解這些概念背后的數(shù)學(xué)將使我們能夠更深入地理解機(jī)器學(xué)習(xí)。
在本部分中,我將介紹高中水平的統(tǒng)計(jì)信息-如果您已經(jīng)熟悉條件概率和高斯分布的簡(jiǎn)單版本,則可以繼續(xù)進(jìn)行下一部分。
想象一下,您正在乘坐飛機(jī),并且正在嘗試預(yù)測(cè)飛機(jī)在特定時(shí)間到達(dá)目的地的可能性。 您需要做的第一件事是了解會(huì)改變到達(dá)時(shí)間的不確定性(波動(dòng)變量)的來(lái)源。 一些示例包括:
- 湍流
- 更多空中交通
- 閃電
- 其他惡劣天氣
這稱為被建模系統(tǒng)的固有隨機(jī)性。 其他類型的不確定性源于不完整的可觀察性-在我們的情況下,這可能意味著您可能無(wú)法預(yù)測(cè)即將發(fā)生的空中交通流量。 最后,建模不完善,就是您遺漏了大量變量的可能性。
上面的每個(gè)變量都由一個(gè)隨機(jī)變量表示,該變量可以具有多個(gè)值,每個(gè)值都有不同的發(fā)生概率。
概率密度函數(shù)和質(zhì)量函數(shù)分別用于連續(xù)函數(shù)和離散函數(shù)。
例如,如果X是特定量湍流的隨機(jī)變量,則P(X = x)是隨機(jī)變量X取該特定值的概率。
認(rèn)知計(jì)算-一種被廣泛認(rèn)為是……的最重要表現(xiàn)的技能
作為其用戶,我們已逐漸將技術(shù)視為理所當(dāng)然。 這些天幾乎沒(méi)有什么比這更普遍了……
聯(lián)合概率分布與正常分布相似,不同之處在于,您現(xiàn)在嘗試封裝兩個(gè)變量的隨機(jī)性,因此
P(x,y)= P(X = x,Y = y)
本質(zhì)上,這是兩個(gè)變量采用非常具體的值的可能性。
現(xiàn)在,如果我告訴您在飛機(jī)上飛行時(shí)到達(dá)目的地的概率為0.000000001,您將不相信我,但您必須考慮到有足夠的燃料 到那里,飛機(jī)已經(jīng)過(guò)檢修。
P(您會(huì)準(zhǔn)時(shí)到達(dá)目的地|加油,維修已完成)
這稱為條件概率。
分布類型
高斯分布
好的-現(xiàn)在有許多數(shù)學(xué)上表示分布的方法。 最常見的方法是旋轉(zhuǎn)高斯分布(或正態(tài)分布),而正態(tài)名稱是合適的,因?yàn)樗亲畛S糜诮破渌植嫉姆植肌?/p>
您可以使用以下表達(dá)式在笛卡爾坐標(biāo)上繪制方程式:

Sigma和µ分別代表總體標(biāo)準(zhǔn)偏差和均值。
想象一下,我們想要一次或三個(gè)繪制兩個(gè)變量的分布。 事情很快就會(huì)瘋狂起來(lái)。 這是二維高斯分布的樣子。

> Two dimensional multivariate gaussian distribution, where x1 and x2 represent the values of the tw

> The equation for a multivariate gaussian distribution
在這里,我們不僅要了解一個(gè)變量的"標(biāo)準(zhǔn)偏差",還要了解變量之間的相互關(guān)系。 換句話說(shuō),回到我們的飛機(jī)示例中,如果湍流度更高,這是否意味著壞的可能性更大? 我們使用協(xié)方差矩陣,其中協(xié)方差由以下公式表示。

本質(zhì)上,您是將兩個(gè)隨機(jī)變量的標(biāo)準(zhǔn)偏差相乘,以查看它們之間的比例關(guān)系(彼此之間的依存程度)。
拉普拉斯分布
如果我們將高斯分布和拉普拉斯分布視為丘陵,那么高斯分布具有一個(gè)平滑的頂點(diǎn)。 換句話說(shuō),如果您將球放在頂部,則在加速之前,球會(huì)開始平穩(wěn)滾動(dòng)。

另一方面,拉普拉斯分布的山頂非常陡峭,放在頂部的球?qū)⒘⒓撮_始加速。

信息論就是關(guān)于一組給定的值和概率捕獲多少信息。
例如,如果我告訴您您今天要呼吸,會(huì)感到驚訝嗎? 可能不是,因?yàn)檫@周您有99.99999%的機(jī)會(huì)還活著。 因此,該信息的信息含量低。 另一方面,其他信息具有更高的信息內(nèi)容-可能性越小,它們擁有的信息就越多。
例如,如果我告訴你夏天要下雪,那條信息將具有超高的信息含量。
讓我們更正式地定義信息(在數(shù)學(xué)上這意味著什么)。
我們可以通過(guò)采用特定概率的負(fù)對(duì)數(shù)來(lái)計(jì)算信息內(nèi)容。
現(xiàn)在,夏季實(shí)際上下雪的可能性確實(shí)很小(例如,下雪的概率為0.0001%,不會(huì)下雪的概率為99.9999%)。 因此,我們獲得大量信息的可能性非常低。

> Equation for self-information content
為了預(yù)測(cè)包含的平均信息量或預(yù)期信息量,我們從分布中的事件中找到預(yù)期的信息量。
現(xiàn)在,為什么信息在機(jī)器學(xué)習(xí)中很重要? 有時(shí),我們輸入一個(gè)概率分布,然后得到另一個(gè)輸出,這兩個(gè)都是針對(duì)相同的隨機(jī)變量x,我們想看看分布之間的相似程度。
對(duì)于采用分派作為輸入的變體自動(dòng)編碼器,嘗試在幾個(gè)潛在變量中進(jìn)行編碼,然后進(jìn)行解構(gòu)以嘗試重新創(chuàng)建原始分布,請(qǐng)務(wù)必查看新分布是否具有更多或更少的信息 比原來(lái)的大一號(hào)。
我們可以通過(guò)檢查新發(fā)行版是否具有較高的信息內(nèi)容來(lái)檢查模型是否"學(xué)習(xí)"了任何東西。 我們可以使用KL(Kullback-Leibler)散度來(lái)度量。

> Equation for Kuller-Leibler Divergence
結(jié)構(gòu)化概率模型
結(jié)構(gòu)化概率模型(具有節(jié)點(diǎn)和邊)用于表示多個(gè)變量和與之關(guān)聯(lián)的條件概率之間的相互作用。
例如,查看下面的結(jié)構(gòu)化概率模型。 節(jié)點(diǎn)由小寫字母表示,有向邊表示條件關(guān)系。 換句話說(shuō),c取決于b上的a,因?yàn)閍和b的箭頭指向它。

我們可以通過(guò)查看每個(gè)變量的條件概率乘積來(lái)表示找到所有五個(gè)變量的某種組合的概率。

"給定"符號(hào)右側(cè)的變量表示提供有向箭頭的節(jié)點(diǎn)。
無(wú)向模型不需要定向邊緣(帶有箭頭)。 它們只是在表示依賴關(guān)系的變量之間有一行。

無(wú)向模型中的每個(gè)集團(tuán)都由相互連接的節(jié)點(diǎn)組成。 例如,在上圖中,a,b和c是集團(tuán)。 每個(gè)集團(tuán)都有與之關(guān)聯(lián)的獨(dú)特功能,可以從中得出一個(gè)因素。
就是這樣-您需要了解的有關(guān)機(jī)器學(xué)習(xí)概率的全部信息:)