大數(shù)據(jù)、統(tǒng)計(jì)學(xué)與機(jī)器學(xué)習(xí)是怎樣的關(guān)系
本文轉(zhuǎn)載自微信公眾號(hào)「曉陽(yáng)的數(shù)據(jù)小站」,作者曉陽(yáng)的數(shù)據(jù)小站。轉(zhuǎn)載本文請(qǐng)聯(lián)系曉陽(yáng)的數(shù)據(jù)小站公眾號(hào)。
大數(shù)據(jù)、統(tǒng)計(jì)學(xué)與機(jī)器學(xué)習(xí)是怎樣的關(guān)系
這三個(gè)主題,都是當(dāng)下熱門的概念,梳理清楚其關(guān)系,有助于在后續(xù)的學(xué)習(xí)中,有的放矢。如果只看結(jié)論,可以直接到最后一個(gè)章節(jié)。
|0x00 統(tǒng)計(jì)分析與實(shí)證研究
統(tǒng)計(jì)學(xué)是通過(guò)搜索、整理、分析、描述數(shù)據(jù)等手段,以達(dá)到推斷所測(cè)對(duì)象的本質(zhì),甚至預(yù)測(cè)對(duì)象未來(lái)的一門綜合性科學(xué)。
為什么要講“統(tǒng)計(jì)學(xué)”?很簡(jiǎn)單,統(tǒng)計(jì)分析為現(xiàn)代科學(xué)奠定了方法論基礎(chǔ),即實(shí)證研究。統(tǒng)計(jì)推斷有個(gè)基礎(chǔ),研究的對(duì)象是服從某一規(guī)律法則的隨機(jī)過(guò)程,而現(xiàn)實(shí)觀測(cè)到的數(shù)據(jù)是從這個(gè)隨機(jī)過(guò)程產(chǎn)生的,這個(gè)隨機(jī)過(guò)程我們稱之為數(shù)據(jù)生成過(guò)程。統(tǒng)計(jì)學(xué)基于觀測(cè)到的數(shù)據(jù)進(jìn)行建模,推斷出概率法則,便可以應(yīng)用于實(shí)際場(chǎng)景中,如檢驗(yàn)經(jīng)濟(jì)學(xué)假說(shuō)、評(píng)估公共政策效果等。
在統(tǒng)計(jì)建模中,一般假設(shè)的DGP(數(shù)據(jù)生成過(guò)程,Data Generating Process)的概率法則可以由唯一的數(shù)學(xué)概率模型來(lái)刻畫,模型通常將因變量與一些解釋變量或預(yù)測(cè)變量聯(lián)系起來(lái),同時(shí)假設(shè)該數(shù)學(xué)模型的函數(shù)形式已知,但包含低維的未知參數(shù),這是一種參數(shù)建模方法,在統(tǒng)計(jì)學(xué)中應(yīng)用最為廣泛。
統(tǒng)計(jì)推斷主要目的是觀測(cè)數(shù)據(jù)、估計(jì)模型的未知參數(shù)值,將經(jīng)濟(jì)理論或者假說(shuō)轉(zhuǎn)化為統(tǒng)計(jì)參數(shù)假設(shè),然后進(jìn)行參數(shù)假設(shè)檢驗(yàn),并對(duì)實(shí)證結(jié)果提供經(jīng)濟(jì)解釋。常見的做法,是基于一個(gè)預(yù)設(shè)的顯著性水平(如5%)判斷一個(gè)參數(shù)估計(jì)值或者參數(shù)假設(shè)在統(tǒng)計(jì)學(xué)上是否顯著。如果具有統(tǒng)計(jì)顯著性,則相應(yīng)的將變量視為一個(gè)重要決定因素。
互聯(lián)網(wǎng)行業(yè)中,常見的A/B測(cè)試,也是為了驗(yàn)證某個(gè)idea是否具備統(tǒng)計(jì)顯著性。
但以上的做法至少需要六個(gè)關(guān)鍵假設(shè):
- 隨機(jī)性,DGP是一個(gè)隨機(jī)過(guò)程;
- 唯一性,DGP的概率法則由唯一的數(shù)學(xué)概率模型來(lái)刻畫;
- 正確性,存在唯一的未知參數(shù),使得概率模型與DGP概率法則相吻合;
- 代表性,描述觀測(cè)數(shù)據(jù)的隨機(jī)樣本不存在樣本選擇偏差;
- 抽樣推斷總體,使用包含DGP信息的樣本數(shù)據(jù)來(lái)推斷總體分布特征;
- 統(tǒng)計(jì)顯著性,使用統(tǒng)計(jì)檢驗(yàn)量的P值,在預(yù)設(shè)的顯著性水平(如5%)上判斷解釋變量或預(yù)測(cè)變量是否重要,并據(jù)此提供邏輯解釋。
如果以上概念非常不好理解,那么就簡(jiǎn)單記住下面幾句:
- 總結(jié)數(shù)據(jù)與模型;
- 推斷結(jié)論是否合理;
- 回答重要的社會(huì)問題;
- 認(rèn)識(shí)并改善我們?nèi)粘5男袨槟P汀?/li>
|0x01 大數(shù)據(jù)特征
通常意義上,我們可以認(rèn)為大數(shù)據(jù)是繼信息革命后的第四次革命,尤其是互聯(lián)網(wǎng)與移動(dòng)互聯(lián)網(wǎng)的普及、物聯(lián)網(wǎng)的興起,數(shù)據(jù)的增長(zhǎng)是指數(shù)級(jí)別的。大數(shù)據(jù)最顯著的特征,是其“4V”特性,即:
- Volume(海量性):多渠道采集的數(shù)據(jù),包括了日志、音視頻、地理位置等信息,但存儲(chǔ)壓力在Hadoop之后得到緩解;
- Velocity(高速性):大數(shù)據(jù)的產(chǎn)生、傳播與計(jì)算速度,是前所未有的,需要實(shí)時(shí)分析而非批量式分析,這也是Flink快速興起的緣由;
- Variety(多樣性):大數(shù)據(jù)形式多樣,既包括了傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),也有很多非結(jié)構(gòu)化的數(shù)據(jù),“數(shù)據(jù)湖”的出現(xiàn)也是為了解決非結(jié)構(gòu)化數(shù)據(jù)的計(jì)算問題;
- Veracity(真實(shí)性):大數(shù)據(jù)體量龐大,但信息密度低,因此如何進(jìn)行去偽存真、有效概括并提取大數(shù)據(jù)中的有效信息,就顯得非常重要。
盡管我們能夠熟練背誦大數(shù)據(jù)的4V原理,但其背后的深刻概念與技術(shù)挑戰(zhàn),卻是一直被忽視的。從統(tǒng)計(jì)學(xué)的角度看,大數(shù)據(jù)的4V特征會(huì)有一些新的解讀。
- Volume(海量性):海量有雙重含義,一個(gè)是大數(shù)據(jù)的樣本容量非常大,另一個(gè)是能在給定時(shí)間內(nèi)從不同維度對(duì)DGP進(jìn)行比較多的描述;
- Velocity(高速性):在高頻甚至實(shí)時(shí)條件下記錄或收集數(shù)據(jù),使得準(zhǔn)實(shí)時(shí)的數(shù)據(jù)分析與預(yù)測(cè)成為可能;
- Variety(多樣性):統(tǒng)計(jì)學(xué)長(zhǎng)期以來(lái)關(guān)注結(jié)構(gòu)化數(shù)據(jù),但不同形式的數(shù)據(jù)組合在一起,將提供比傳統(tǒng)數(shù)據(jù)更多有價(jià)值的信息,如社交媒體的非結(jié)構(gòu)信息;
- Veracity(真實(shí)性):統(tǒng)計(jì)學(xué)的本質(zhì)是有效地從數(shù)據(jù)中提取有價(jià)值的真實(shí)信息,雖然很多經(jīng)典的統(tǒng)計(jì)方法很有用,但也需要發(fā)展新方法和新工具。
|0x02 機(jī)器學(xué)習(xí)及其本質(zhì)
與統(tǒng)計(jì)學(xué)一樣,機(jī)器學(xué)習(xí)也是一種重要的大數(shù)據(jù)分析工具,盡管機(jī)器學(xué)習(xí)由于云計(jì)算的出現(xiàn)得到了迅速的發(fā)展和普及,但機(jī)器學(xué)習(xí)并不能替代統(tǒng)計(jì)學(xué)。例如,盡管機(jī)器學(xué)習(xí)在改善樣本外預(yù)測(cè)和模式識(shí)別方面非常有用,但統(tǒng)計(jì)學(xué)在推斷分析、因果分析、結(jié)果解釋等方面依然可以發(fā)揮很大的作用??梢哉f(shuō),機(jī)器學(xué)習(xí)與統(tǒng)計(jì)學(xué)是互補(bǔ)的,兩者的交叉融合可以為數(shù)據(jù)科學(xué)提供新的方法與工具。
機(jī)器學(xué)習(xí)可以分為三個(gè)主要的類別:監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。
監(jiān)督學(xué)習(xí)基于訓(xùn)練好的數(shù)據(jù)來(lái)構(gòu)建算法,訓(xùn)練數(shù)據(jù)包含一組訓(xùn)練樣例,每個(gè)訓(xùn)練樣例擁有一個(gè)或多個(gè)輸入與輸出,成為監(jiān)督信號(hào),通過(guò)對(duì)目標(biāo)函數(shù)的迭代優(yōu)化,監(jiān)督學(xué)習(xí)算法探索出一個(gè)函數(shù),可用于預(yù)測(cè)新輸入所對(duì)應(yīng)的輸出。
無(wú)監(jiān)督學(xué)習(xí)只在包含輸入的訓(xùn)練數(shù)據(jù)中尋找結(jié)構(gòu),識(shí)別訓(xùn)練數(shù)據(jù)的共性特征,并基于每個(gè)新數(shù)據(jù)所呈現(xiàn)或缺失的這種共性特征做出判斷。
強(qiáng)化學(xué)習(xí)是研究算法如何在動(dòng)態(tài)環(huán)境中執(zhí)行任務(wù),以實(shí)現(xiàn)累計(jì)獎(jiǎng)勵(lì)的最大化。很多學(xué)科對(duì)這個(gè)領(lǐng)域有研究,比如博弈論、控制論等,在自動(dòng)駕駛、人類博弈比賽等方面比較常用。
因此,從本質(zhì)上說(shuō),機(jī)器學(xué)習(xí)是數(shù)據(jù)優(yōu)化問題與算法優(yōu)化問題,數(shù)學(xué)優(yōu)化為該領(lǐng)域提供了理論、方法與應(yīng)用。
|0xFF 大數(shù)據(jù)、機(jī)器學(xué)習(xí)與統(tǒng)計(jì)學(xué)的關(guān)系
主要有四點(diǎn)。
第一,大數(shù)據(jù)的出現(xiàn),其實(shí)并沒有改變統(tǒng)計(jì)學(xué)通過(guò)隨機(jī)抽樣來(lái)推斷總體分布特征的基本思想,需要統(tǒng)計(jì)學(xué)的基本方法,如充分性原則、因果推斷等,依然適用于大數(shù)據(jù)分析。此外,大數(shù)據(jù)提供了很多傳統(tǒng)數(shù)據(jù)所沒有的信息,大大拓展了統(tǒng)計(jì)學(xué)研究的邊界,如非結(jié)構(gòu)化數(shù)據(jù)的影響,而實(shí)時(shí)數(shù)據(jù)甚至為實(shí)時(shí)預(yù)測(cè)和高頻統(tǒng)計(jì)建模帶來(lái)可能。
第二,由于樣本容量的巨大,大數(shù)據(jù)很有可能改變基于統(tǒng)計(jì)顯著性來(lái)選擇統(tǒng)計(jì)模型重要變量的習(xí)慣做法,研究范式就會(huì)從參數(shù)估計(jì)的不確定性轉(zhuǎn)為模型選擇的不確定性,這對(duì)統(tǒng)計(jì)建模與推斷會(huì)帶來(lái)新的挑戰(zhàn)。
第三,機(jī)器學(xué)習(xí)的興起得益于大數(shù)據(jù)的爆炸式發(fā)展,與統(tǒng)計(jì)學(xué)類似,機(jī)器學(xué)習(xí)也存在并且特別注重樣本偏差的問題。機(jī)器學(xué)習(xí)的本質(zhì)是一個(gè)數(shù)據(jù)優(yōu)化問題及實(shí)現(xiàn)該優(yōu)化問題的計(jì)算機(jī)算法問題,它比統(tǒng)計(jì)學(xué)的參數(shù)建模更普遍和更靈活。
第四,在大數(shù)據(jù)的加持下,機(jī)器學(xué)習(xí)與統(tǒng)計(jì)推斷的結(jié)合,有望為數(shù)據(jù)科學(xué)提供一些新的發(fā)展方向,包括變量降維、精準(zhǔn)預(yù)測(cè)、因果識(shí)別等方面。