機(jī)器學(xué)習(xí)的本質(zhì)就是數(shù)理統(tǒng)計(jì)?答案可能沒(méi)這么簡(jiǎn)單
可能許多剛剛接觸 AI 的新人們都產(chǎn)生過(guò)類似這樣的疑問(wèn):機(jī)器學(xué)習(xí)和數(shù)理統(tǒng)計(jì),究竟有什么本質(zhì)區(qū)別?不都是玩數(shù)據(jù)的么。
如果從傳統(tǒng)意義上的數(shù)據(jù)分析師的觀點(diǎn)來(lái)說(shuō),這個(gè)問(wèn)題的答案很簡(jiǎn)單,無(wú)非是下面這兩點(diǎn):
機(jī)器學(xué)習(xí)本質(zhì)上是一種算法,這種算法由數(shù)據(jù)分析習(xí)得,而且不依賴于規(guī)則導(dǎo)向的程序設(shè)計(jì);
統(tǒng)計(jì)建模則是以數(shù)據(jù)為基礎(chǔ),利用數(shù)學(xué)方程式來(lái)探究變量變化規(guī)律的一套規(guī)范化流程。
總結(jié)來(lái)說(shuō),機(jī)器學(xué)習(xí)的關(guān)鍵詞是預(yù)測(cè)、監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)等。而數(shù)理統(tǒng)計(jì)是關(guān)于抽樣、統(tǒng)計(jì)和假設(shè)檢驗(yàn)的科學(xué)。
這個(gè)答案看起來(lái)似乎無(wú)懈可擊,但其實(shí)機(jī)器學(xué)習(xí)和數(shù)理統(tǒng)計(jì)之間的關(guān)系遠(yuǎn)沒(méi)有這么簡(jiǎn)單。
相同點(diǎn)
按照數(shù)理統(tǒng)計(jì)學(xué)的大師級(jí)人物 Larry Wasserman 的說(shuō)法,實(shí)際上“這兩門學(xué)科(機(jī)器學(xué)習(xí)和數(shù)理統(tǒng)計(jì))關(guān)心的是同一件事,即我們能從數(shù)據(jù)中學(xué)到什么?”
根據(jù)他在個(gè)人博客中的總結(jié),以下這些在數(shù)理統(tǒng)計(jì)和機(jī)器學(xué)習(xí)中的常見(jiàn)術(shù)語(yǔ)實(shí)際上具有相同的含義。
除此之外,另一位學(xué)術(shù)界的專家,斯坦福大學(xué)著名統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)大師 Robert Tibshirani 也一直將機(jī)器學(xué)習(xí)稱為“美化過(guò)的統(tǒng)計(jì)學(xué)”(glorified statistics)。
實(shí)際上,發(fā)展到今天,機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)技術(shù)都已經(jīng)是模式識(shí)別、知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘等領(lǐng)域的常用技術(shù)。雖然根據(jù) SAS 于 2014 年發(fā)布的統(tǒng)計(jì)結(jié)果(如下圖),機(jī)器學(xué)習(xí)和數(shù)理統(tǒng)計(jì)之間的關(guān)系是相互獨(dú)立的,但實(shí)際上在近兩年他們之間的界限已經(jīng)已經(jīng)越來(lái)越模糊,甚至有相互融合的趨勢(shì)。
這樣看來(lái),機(jī)器學(xué)習(xí)和數(shù)理統(tǒng)計(jì)的確具有相同的目標(biāo):從數(shù)據(jù)中學(xué)習(xí)。他們的核心都是探討如何從數(shù)據(jù)中提取人們需要的信息或規(guī)律。但是,這兩門學(xué)科在研究方法上卻有本質(zhì)的區(qū)別。
不同點(diǎn)
首先,機(jī)器學(xué)習(xí)是一個(gè)比較新的領(lǐng)域,是計(jì)算機(jī)科學(xué)與人工智能的一個(gè)分支,它更多地關(guān)心如何構(gòu)建一個(gè)系統(tǒng)去分析數(shù)據(jù),而不是針對(duì)特定的程序化指令。
而統(tǒng)計(jì)建模則完全是數(shù)學(xué)的分支。雖然現(xiàn)在廉價(jià)的計(jì)算能力和海量的可用數(shù)據(jù)的支持下,數(shù)據(jù)科學(xué)家們已經(jīng)可以通過(guò)數(shù)據(jù)分析來(lái)訓(xùn)練計(jì)算機(jī)的學(xué)習(xí)能力,即機(jī)器學(xué)習(xí)。但統(tǒng)計(jì)建模相對(duì)機(jī)器學(xué)習(xí)而言卻擁有悠久得多的歷史,實(shí)際上它早在計(jì)算機(jī)被發(fā)明之前就存在了。
另一方面,機(jī)器學(xué)習(xí)更多地強(qiáng)調(diào)優(yōu)化和性能,而統(tǒng)計(jì)學(xué)則更注重推導(dǎo)。
關(guān)于這一點(diǎn),我們或許可以從下面這兩段分別來(lái)自統(tǒng)計(jì)學(xué)家和機(jī)器學(xué)習(xí)研究人員針對(duì)同一數(shù)據(jù)模型的描述上得到更深的體會(huì)。
機(jī)器學(xué)習(xí)研究人員:在給定 a、b 和 c 的前提下,該模型準(zhǔn)確預(yù)測(cè)出結(jié)果 Y 的概率達(dá)到了 85%。
統(tǒng)計(jì)學(xué)家:在給定 a、b 和 c 的前提下,該模型準(zhǔn)確預(yù)測(cè)出結(jié)果 Y 的概率達(dá)到了 85%;而且我有九成的把握你也會(huì)得到與此相同的結(jié)論。
第三,機(jī)器學(xué)習(xí)并不需要對(duì)有關(guān)變量之間的潛在關(guān)系提出先驗(yàn)假設(shè)。研究人員只需要將所有的可用數(shù)據(jù)導(dǎo)入模型,等待算法的分析并輸出其中的潛在規(guī)律,然后將這一規(guī)律應(yīng)用于新數(shù)據(jù)進(jìn)行預(yù)測(cè)就可以了。對(duì)于研究人員來(lái)說(shuō),機(jī)器學(xué)習(xí)就像一個(gè)黑盒子,你只需要會(huì)用,但并不清楚其中的具體實(shí)現(xiàn)。機(jī)器學(xué)習(xí)通常應(yīng)用于高維度的數(shù)據(jù)集,你的可用數(shù)據(jù)越多,預(yù)測(cè)通常就越準(zhǔn)確。
相比之下,統(tǒng)計(jì)學(xué)則必須了解數(shù)據(jù)的收集方式,估計(jì)量(包括p值和無(wú)偏估計(jì))的統(tǒng)計(jì)特征,被研究人群的潛在分布規(guī)律,以及多次試驗(yàn)的期望參數(shù)的類型。研究人員需要非常清楚自己在做什么,并提出具有預(yù)測(cè)能力的參數(shù)。而且統(tǒng)計(jì)建模通常用于較低維度的數(shù)據(jù)集。
結(jié)論
總結(jié)來(lái)說(shuō),我們可以認(rèn)為機(jī)器學(xué)習(xí)和統(tǒng)計(jì)建模是預(yù)測(cè)建模領(lǐng)域的兩個(gè)不同分支。這兩者之間的差距在過(guò)去的 10 年中正在不斷縮小,而且它們之間存在許多相互學(xué)習(xí)和借鑒的地方。未來(lái),它們之間的聯(lián)系將會(huì)更加緊密。
對(duì)開(kāi)發(fā)者而言,充分了解機(jī)器學(xué)習(xí)和統(tǒng)計(jì)建模之間的差異和聯(lián)系,將有助于他們擴(kuò)大自己的知識(shí)面,甚至將專業(yè)領(lǐng)域之外的分析方法引入研發(fā)流程之中。這一點(diǎn)也正是數(shù)據(jù)科學(xué)(data science)本身的核心理念,即彌合機(jī)器學(xué)習(xí)和統(tǒng)計(jì)建模之間的區(qū)別,讓二者逐漸趨于歸一化。***需要肯定的是,這兩門以數(shù)據(jù)驅(qū)動(dòng)的學(xué)科之間的協(xié)作和交流越頻繁,我們的生活就會(huì)變得越好。