數(shù)據(jù)科學(xué)家需要掌握的10個(gè)基本統(tǒng)計(jì)技術(shù)
無論您在數(shù)據(jù)的科學(xué)性問題上持哪種看法,都無法忽視數(shù)據(jù)的持續(xù)重要性,也不能輕視分析、組織和情境化數(shù)據(jù)的能力。 根據(jù)大量的就業(yè)數(shù)據(jù)和員工反饋信息統(tǒng)計(jì),在“25個(gè)最佳美國(guó)就業(yè)機(jī)會(huì)”排行榜中,數(shù)據(jù)科學(xué)家排名第一。毫無疑問,數(shù)據(jù)科學(xué)家所做的具體工作內(nèi)容將會(huì)進(jìn)一步拓展。隨著機(jī)器學(xué)習(xí)等技術(shù)變得越來越普遍,深度學(xué)習(xí)等新興領(lǐng)域?qū)ρ芯咳藛T和工程師的需求得到了巨大的推動(dòng),數(shù)據(jù)科學(xué)家們?cè)趧?chuàng)新和技術(shù)進(jìn)步的浪潮中再次嶄露頭角。
編碼能力強(qiáng)大是很重要的,但數(shù)據(jù)科學(xué)并不專職于軟件工程(事實(shí)上,對(duì)Python很熟悉就足夠了)。數(shù)據(jù)科學(xué)家生活在編碼、統(tǒng)計(jì)學(xué)和批判性思維的交叉點(diǎn)上。正如喬希·威爾斯(Josh Wills)所說的那樣:“數(shù)據(jù)科學(xué)家是一個(gè)比任何程序員都要好的統(tǒng)計(jì)學(xué)家,而且比任何統(tǒng)計(jì)學(xué)家都更擅長(zhǎng)編程。”筆者個(gè)人知道有太多的軟件工程師希望轉(zhuǎn)向數(shù)據(jù)科學(xué)家,并盲目利用機(jī)器學(xué)習(xí)框架TensorFlow或Apache Spark,而不透徹理解背后的統(tǒng)計(jì)理論。因此出現(xiàn)了“統(tǒng)計(jì)學(xué)習(xí)”,一個(gè)與機(jī)器學(xué)習(xí)有關(guān)的理論框架,包含統(tǒng)計(jì)到功能分析的一系列專業(yè)領(lǐng)域。
為什么學(xué)習(xí)統(tǒng)計(jì)學(xué)習(xí)?了解各種技術(shù)背后的想法是非常重要的,可以讓你知道如何以及何時(shí)使用它們。由簡(jiǎn)入繁,首先要理解更簡(jiǎn)單的方法,才好把握更復(fù)雜的方法。準(zhǔn)確地評(píng)估一種方法的性能,了解它的工作效果多好或者多糟,這一點(diǎn)很重要。此外,這是一個(gè)令人興奮的研究領(lǐng)域,在科學(xué),工業(yè)和金融領(lǐng)域有著重要的應(yīng)用。最終,統(tǒng)計(jì)學(xué)習(xí)是培養(yǎng)現(xiàn)代數(shù)據(jù)科學(xué)家的基本要素。統(tǒng)計(jì)學(xué)習(xí)問題的例子有:
- 確定前列腺癌的危險(xiǎn)因素。
- 根據(jù)記錄周期圖對(duì)錄制的音素進(jìn)行分類。
- 根據(jù)人口統(tǒng)計(jì)、飲食和臨床測(cè)量,預(yù)測(cè)是否有人會(huì)發(fā)生心臟病。
- 自定義垃圾郵件檢測(cè)系統(tǒng)。
- 識(shí)別手寫郵政編碼中的數(shù)字。
- 將組織樣本分為幾個(gè)癌癥類別之一。
- 建立人口調(diào)查數(shù)據(jù)中工資與人口變量之間的關(guān)系。
統(tǒng)計(jì)學(xué)習(xí)和機(jī)器學(xué)習(xí)之間的差異在于:
- 機(jī)器學(xué)習(xí)是人工智能的一個(gè)子領(lǐng)域。
- 統(tǒng)計(jì)學(xué)習(xí)是統(tǒng)計(jì)學(xué)的一個(gè)分支。
- 機(jī)器學(xué)習(xí)更強(qiáng)調(diào)大規(guī)模應(yīng)用和預(yù)測(cè)的準(zhǔn)確性。
- 統(tǒng)計(jì)學(xué)習(xí)強(qiáng)調(diào)模型及其可解釋性,精確性和不確定性。
1 - 線性回歸:
在統(tǒng)計(jì)學(xué)中,線性回歸是一種通過擬合自變量與自變量之間最佳線性關(guān)系來預(yù)測(cè)目標(biāo)變量的方法。最好的做法是確保每個(gè)點(diǎn)的形狀和實(shí)際觀測(cè)之間的所有距離之和盡可能小。形狀的適合性是“最好的”,因?yàn)樵谛螤畹倪x擇上沒有其他位置會(huì)產(chǎn)生較少的誤差。線性回歸的2種主要類型是簡(jiǎn)單線性回歸和多元線性回歸。簡(jiǎn)單線性回歸使用一個(gè)獨(dú)立變量來通過擬合最佳線性關(guān)系來預(yù)測(cè)因變量。多重線性回歸使用多個(gè)獨(dú)立變量來通過擬合最佳線性關(guān)系來預(yù)測(cè)因變量。
選擇你在日常生活中使用的任何兩件相關(guān)的東西。如每月支出,月收入和過去三年每月的旅行次數(shù)的數(shù)據(jù)。就需要回答以下問題:
- 我明年的每月開支是多少?
- 哪個(gè)因素(每月收入或每月旅行次數(shù))在決定我的每月支出時(shí)更重要?
- 月收入和每月旅行如何與每月支出相關(guān)聯(lián)?
2 - 分類:
分類是一種數(shù)據(jù)挖掘技術(shù),它將類別分配給數(shù)據(jù)集合,以助進(jìn)行更準(zhǔn)確的預(yù)測(cè)和分析。有時(shí)也稱為決策樹,分類是用于對(duì)非常大的數(shù)據(jù)集進(jìn)行分析的幾種方法之一。眼下有2大分類技術(shù)脫穎而出:Logistic回歸和判別分析。
Logistic回歸分析是當(dāng)因變量是二分(二元)時(shí)進(jìn)行的適當(dāng)?shù)幕貧w分析。像所有回歸分析一樣,Logistic回歸是預(yù)測(cè)分析。 Logistic回歸用于描述數(shù)據(jù)并解釋一個(gè)相關(guān)二元變量與一個(gè)或多個(gè)標(biāo)稱、序數(shù)、區(qū)間或比例級(jí)別的獨(dú)立變量之間的關(guān)系。邏輯回歸可以檢查的問題類型:
- 每增加一磅的超重和每天吸一包香煙,肺癌的可能性(是vs否)會(huì)發(fā)生怎樣的變化?
- 體重卡路里攝入量,脂肪攝入量和參與者年齡對(duì)心臟病發(fā)作是否有影響(有vs無)?
在判別分析中,先驗(yàn)已知2個(gè)或更多個(gè)組或群或群,并基于所測(cè)量的特征將1個(gè)或更多個(gè)新觀察分類到1個(gè)已知群中。判別分析在每個(gè)響應(yīng)類別中分別對(duì)預(yù)測(cè)因子X的分布進(jìn)行建模,然后使用貝葉斯定理將它們翻轉(zhuǎn)為給定X的值的響應(yīng)類別概率的估計(jì)。這樣的模型可以是線性的或二次的。
線性判別分析為每個(gè)觀測(cè)值計(jì)算“判別分?jǐn)?shù)”,以便對(duì)它所處的響應(yīng)變量類別進(jìn)行分類。這些分?jǐn)?shù)是通過尋找自變量的線性組合得到的。它假設(shè)每個(gè)類別內(nèi)的觀察值都來自多變量高斯分布,預(yù)測(cè)因子的協(xié)方差在響應(yīng)變量Y的所有k水平上是共同的。
二次判別分析提供了一種替代方法。和LDA一樣,QDA假定每個(gè)Y類的觀測(cè)值都是從高斯分布中得到的。但是,與LDA不同的是,QDA假定每個(gè)類都有其自己的協(xié)方差矩陣。換句話說,預(yù)測(cè)因子不被假定在Y中的每個(gè)k水平上具有共同的方差。
3 - 重采樣方法:
重采樣是從原始數(shù)據(jù)樣本中繪制重復(fù)樣本的方法。這是統(tǒng)計(jì)推斷的非參數(shù)方法。換句話說,重采樣方法不涉及使用通用分布表來計(jì)算近似p概率值。
重采樣根據(jù)實(shí)際數(shù)據(jù)生成唯一的采樣分布。它使用實(shí)驗(yàn)方法而不是分析方法來生成獨(dú)特的抽樣分布。它產(chǎn)生無偏估計(jì),因?yàn)樗腔谘芯空咚芯繑?shù)據(jù)的所有可能結(jié)果的無偏樣本。為了理解重采樣的概念,您應(yīng)該理解術(shù)語Bootstrapping和交叉驗(yàn)證:
Bootstrapping是一種技術(shù),可以幫助您在很多情況下驗(yàn)證預(yù)測(cè)模型的性能、集成方法、估計(jì)模型的偏差和方差。它通過對(duì)原始數(shù)據(jù)進(jìn)行替換來進(jìn)行采樣,并將“未選擇”的數(shù)據(jù)點(diǎn)作為測(cè)試用例。我們可以做這幾次,并計(jì)算平均分作為我們的模型性能的估計(jì)。
另一方面,交叉驗(yàn)證是驗(yàn)證模型性能的一種技術(shù),它是通過將訓(xùn)練數(shù)據(jù)分成k個(gè)部分來完成的。我們以k - 1部分作為訓(xùn)練集,并使用“伸出部分”作為我們的測(cè)試集。我們重復(fù)k次不同的方式。最后,我們將k分?jǐn)?shù)的平均值作為我們的業(yè)績(jī)估計(jì)。
通常對(duì)于線性模型,普通最小二乘法是考慮將它們適合于數(shù)據(jù)的主要標(biāo)準(zhǔn)。接下來的3種方法是可以為線性模型的擬合提供更好的預(yù)測(cè)精度和模型可解釋性的替代方法。
4 - 子集選擇:
這種方法確定了我們認(rèn)為與響應(yīng)相關(guān)的p預(yù)測(cè)因子的一個(gè)子集。然后,我們使用子集特征的最小二乘擬合模型。
最佳子集選擇:這里我們對(duì)每個(gè)可能的p預(yù)測(cè)因子組合進(jìn)行單獨(dú)的OLS回歸,然后查看最終的模型擬合。算法分為2個(gè)階段:(1)擬合所有包含k預(yù)測(cè)因子的模型,其中k是模型的最大長(zhǎng)度;(2)使用交叉驗(yàn)證的預(yù)測(cè)誤差選擇單個(gè)模型。使用測(cè)試或驗(yàn)證錯(cuò)誤非常重要,而不是訓(xùn)練錯(cuò)誤來評(píng)估模型擬合,因?yàn)镽SS和R 2單調(diào)增加更多的變量。最好的方法是在測(cè)試誤差估計(jì)值上交叉驗(yàn)證并選擇具有最高R 2和最低RSS的模型。
向前逐步選擇考慮預(yù)測(cè)因子的一個(gè)小得多的子集。它從不含預(yù)測(cè)因子的模型開始,然后在模型中添加預(yù)測(cè)因子,直到所有預(yù)測(cè)因子都在模型中。被添加變量的順序是變量,其給出對(duì)擬合的最大的加法改進(jìn),直到?jīng)]有更多的變量使用交叉驗(yàn)證的預(yù)測(cè)誤差來改進(jìn)模型擬合。
向后逐步選擇開始將模型中的所有預(yù)測(cè)因子,然后迭代去除最不有用的預(yù)測(cè)因子。
混合方法遵循向前逐步回歸方法,但是,在添加每個(gè)新變量之后,該方法還可以去除對(duì)模型擬合沒有貢獻(xiàn)的變量。
5 - 收縮:
這種方法適合一個(gè)涉及所有p預(yù)測(cè)因子的模型,然而,估計(jì)系數(shù)相對(duì)于最小二乘估計(jì)向零收縮。這種縮水,又稱正規(guī)化,具有減少方差的作用。取決于執(zhí)行什么類型的收縮,其中一些系數(shù)可能恰好被估計(jì)為零。因此這個(gè)方法也執(zhí)行變量選擇。將系數(shù)估計(jì)收縮為零的兩個(gè)最著名的技術(shù)是嶺回歸和Lasso。
嶺回歸類似于最小二乘,通過最小化一個(gè)稍微不同的數(shù)量估計(jì)系數(shù)。像OLS一樣,嶺回歸尋求降低RSS的系數(shù)估計(jì)值,但是當(dāng)系數(shù)接近于零時(shí),它們也會(huì)有收縮懲罰。這個(gè)懲罰的作用是將系數(shù)估計(jì)收縮到零。不用進(jìn)入數(shù)學(xué)計(jì)算,知道嶺回歸縮小列空間方差最小的特征是有用的。像在主成分分析中一樣,嶺回歸將數(shù)據(jù)投影到雙向空間,然后比高方差分量收縮低方差分量的系數(shù),這相當(dāng)于最大和最小主分量。
嶺回歸至少有一個(gè)缺點(diǎn):它包括最終模型中的所有p預(yù)測(cè)值。犯規(guī)條款將使它們中的許多接近于零,但不完全為零。這對(duì)于預(yù)測(cè)準(zhǔn)確性來說通常不是問題,但它可能使模型更難以解釋結(jié)果。 Lasso克服了這個(gè)缺點(diǎn),并且能夠迫使一些系數(shù)歸零,只要s足夠小。由于s = 1導(dǎo)致有規(guī)律的OLS回歸,當(dāng)s接近0時(shí),系數(shù)收縮為零。因此,Lasso回歸也執(zhí)行變量選擇。
6 - 維度降低:
維數(shù)減少將估計(jì)p + 1個(gè)系數(shù)的問題簡(jiǎn)化為M + 1個(gè)系數(shù)的簡(jiǎn)單問題,其中M
可以將主成分回歸描述為從大量變量中導(dǎo)出低維特征集合的方法。數(shù)據(jù)的第一個(gè)主要組成方向是觀測(cè)值變化最大的。換句話說,第一臺(tái)PC是盡可能接近數(shù)據(jù)的一條線。人們可以適應(yīng)不同的主要組成部分。第二個(gè)PC是與第一個(gè)PC不相關(guān)的變量的線性組合,并且受這個(gè)約束的變化最大。這個(gè)想法是主要的組成部分使用隨后正交方向的數(shù)據(jù)的線性組合捕獲數(shù)據(jù)中最大的變化。通過這種方式,我們也可以結(jié)合相關(guān)變量的效果,從可用數(shù)據(jù)中獲取更多信息,而在正則最小二乘中,我們將不得不放棄其中一個(gè)相關(guān)變量。
我們上面描述的PCR方法包括確定最能代表預(yù)測(cè)因子的X的線性組合。這些組合(方向)以無監(jiān)督的方式被識(shí)別,因?yàn)轫憫?yīng)Y不用于幫助確定主要組件方向。也就是說,響應(yīng)Y不監(jiān)督主成分的識(shí)別,因此不能保證最能解釋預(yù)測(cè)因子的方向?qū)τ陬A(yù)測(cè)響應(yīng)(即使經(jīng)常假設(shè))也是最好的。偏最小二乘法(PLS)是一個(gè)監(jiān)督的替代PCR。與PCR一樣,PLS是一種降維方法,它首先識(shí)別一組新的較小的特征,這些特征是原始特征的線性組合,然后通過最小二乘法擬合一個(gè)線性模型到新的M特征。然而,與PCR不同的是,PLS利用響應(yīng)變量來識(shí)別新的特征。
7 - 非線性模型:
在統(tǒng)計(jì)學(xué)中,非線性回歸是回歸分析的一種形式,其中觀測(cè)數(shù)據(jù)是由一個(gè)函數(shù)建模的,該函數(shù)是模型參數(shù)的非線性組合,并取決于一個(gè)或多個(gè)自變量。數(shù)據(jù)通過逐次逼近的方法進(jìn)行擬合。以下是一些處理非線性模型的重要技巧:
- 如果實(shí)數(shù)的函數(shù)可以寫成區(qū)間指示函數(shù)的有限線性組合,則稱實(shí)數(shù)為函數(shù)。非正式地說,一個(gè)階梯函數(shù)是一個(gè)只有很多片段的分段常量函數(shù)。
- 分段函數(shù)是由多個(gè)子函數(shù)定義的函數(shù),每個(gè)子函數(shù)應(yīng)用于主函數(shù)域的一定間隔。分段實(shí)際上是表達(dá)函數(shù)的一種方式,而不是函數(shù)本身的一個(gè)特征,但是具有額外的限定,可以描述函數(shù)的性質(zhì)。例如,分段多項(xiàng)式函數(shù)是在其每個(gè)子域上是多項(xiàng)式的函數(shù),但是每個(gè)子域上可能是不同的。
- 樣條函數(shù)是由多項(xiàng)式分段定義的特殊函數(shù)。在計(jì)算機(jī)圖形學(xué)中,樣條是指分段多項(xiàng)式參數(shù)曲線。由于其結(jié)構(gòu)簡(jiǎn)單,評(píng)估方便和準(zhǔn)確,以及通過曲線擬合和交互式曲線設(shè)計(jì)逼近復(fù)雜形狀的能力,樣條曲線是流行的曲線。
- 廣義加性模型是一種線性預(yù)測(cè)模型,其中線性預(yù)測(cè)變量線性依賴于某些預(yù)測(cè)變量的未知光滑函數(shù),興趣集中在對(duì)這些光滑函數(shù)的推理上。
8 - 基于樹的方法:
基于樹的方法可以用于回歸和分類問題。這些涉及將預(yù)測(cè)空間分層或分割成若干簡(jiǎn)單區(qū)域。由于用于分割預(yù)測(cè)變量空間的分裂規(guī)則集合可以在樹中進(jìn)行概括,所以這些類型的方法被稱為決策樹方法。下面的方法生成多個(gè)樹,然后結(jié)合在一起產(chǎn)生一個(gè)單一的共識(shí)預(yù)測(cè)。
- 套袋(Bagging)是減少預(yù)測(cè)方差的方法,通過使用重復(fù)組合來生成原始數(shù)據(jù)集中的訓(xùn)練數(shù)據(jù),從而生成與原始數(shù)據(jù)相同的多樣性。通過增加你的訓(xùn)練集的大小,你不能提高模型的預(yù)測(cè)力,只是減少方差,勉強(qiáng)把預(yù)測(cè)調(diào)整到預(yù)期的結(jié)果。
- 提升(Boosting)是一種使用幾種不同的模型計(jì)算產(chǎn)出的方法,然后使用加權(quán)平均方法對(duì)結(jié)果進(jìn)行平均。通過改變你的加權(quán)公式,結(jié)合這些方法的優(yōu)點(diǎn)和缺陷,你可以使用不同的狹義調(diào)整模型,為更廣泛的輸入數(shù)據(jù)提供一個(gè)很好的預(yù)測(cè)力。
- 隨機(jī)森林(random forest )算法實(shí)際上非常類似于套袋。你也可以繪制訓(xùn)練集的隨機(jī)bootstrap樣本。但是,除了自舉樣本之外,還可以繪制隨機(jī)子集來訓(xùn)練單個(gè)樹;在套袋中,你給每個(gè)樹一套完整功能。由于隨機(jī)特征選擇,與常規(guī)套袋相比,樹木之間的相互獨(dú)立性更高,這通常會(huì)帶來更好的預(yù)測(cè)性能(由于更好的方差偏差權(quán)衡),而且速度更快,因?yàn)槊靠脴渲荒軓墓δ艿囊粋€(gè)子集。
9 - 支持向量機(jī):
SVM是機(jī)器學(xué)習(xí)中監(jiān)督學(xué)習(xí)模型中的一種分類技術(shù)。通俗地說,它涉及于找到超平面(2D中的線,3D中的平面和更高維中的超平面,更正式地說,超平面是n維空間中的n維空間)最大保證金從本質(zhì)上講,它是一個(gè)約束優(yōu)化問題,其邊界被最大化,受限于它對(duì)數(shù)據(jù)進(jìn)行了完美的分類(硬邊緣)。
這種“支持”這個(gè)超平面的數(shù)據(jù)點(diǎn)被稱為“支持向量”。對(duì)于兩類數(shù)據(jù)不能線性分離的情況,這些點(diǎn)被投影到可能線性分離的分解(高維)空間。涉及多個(gè)類的問題可以分解為多個(gè)一對(duì)一或者一對(duì)二的分類問題。
10 - 無監(jiān)督學(xué)習(xí):
到目前為止,我們只討論了監(jiān)督學(xué)習(xí)技術(shù),其中組是已知的,提供給算法的經(jīng)驗(yàn)是實(shí)際實(shí)體和它們所屬的組之間的關(guān)系。當(dāng)數(shù)據(jù)的組(類別)未知時(shí),可以使用另一組技術(shù)。它們被稱為無監(jiān)督的,因?yàn)樗鼤?huì)留在學(xué)習(xí)算法中以找出所提供的數(shù)據(jù)中的模式。聚類是無監(jiān)督學(xué)習(xí)的一個(gè)例子,其中不同的數(shù)據(jù)集被聚類為密切相關(guān)的項(xiàng)目組。下面是最廣泛使用的無監(jiān)督學(xué)習(xí)算法的列表:
主成分分析通過識(shí)別一組具有最大方差和相互不相關(guān)的特征的線性組合來幫助產(chǎn)生數(shù)據(jù)集的低維表示。這種線性維度技術(shù)有助于理解變量在無監(jiān)督環(huán)境下的潛在相互作用。
- k-Means聚類:根據(jù)到群集質(zhì)心的距離將數(shù)據(jù)分為k個(gè)不同的集群。
- 分層集群:通過創(chuàng)建集群樹來構(gòu)建集群的多級(jí)分層結(jié)構(gòu)。
以上是一些基本的統(tǒng)計(jì)技術(shù)的簡(jiǎn)單解釋與說明,可以幫助數(shù)據(jù)科學(xué)項(xiàng)目經(jīng)理和主管人員更好地理解他們的數(shù)據(jù)科學(xué)小組背后隱藏的內(nèi)容。實(shí)際上,一些數(shù)據(jù)科學(xué)小組純粹通過python和R庫運(yùn)行算法。他們中的大多數(shù)甚至不必考慮潛在的數(shù)學(xué)問題。但是,能夠理解統(tǒng)計(jì)分析的基礎(chǔ)知識(shí)可以為您的團(tuán)隊(duì)提供更好的方法。