自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<s id="jfe16"><code id="jfe16"></code></s>

<form id="jfe16"></form>

<samp id="jfe16"><mark id="jfe16"></mark></samp><kbd id="jfe16"></kbd>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

這五種統(tǒng)計(jì)學(xué)概念，掃清數(shù)據(jù)科學(xué)之路“攔路虎”

作者：讀芯術(shù) 2019-07-09 14:27:43

大數(shù)據(jù)

統(tǒng)計(jì)學(xué)中最基本的部分通常是數(shù)據(jù)科學(xué)中最實(shí)用的部分。今天，本文將概述5種有助于數(shù)據(jù)科學(xué)研究的統(tǒng)計(jì)學(xué)概念。

數(shù)據(jù)科學(xué)實(shí)際上可定義為從數(shù)據(jù)中獲取額外信息的過(guò)程。在進(jìn)行數(shù)據(jù)科學(xué)研究時(shí)，真正想要達(dá)到的是一切數(shù)據(jù)在現(xiàn)實(shí)世界中的實(shí)際含義。

為提取復(fù)雜數(shù)據(jù)集中的信息，數(shù)據(jù)科學(xué)家采用了許多工具和技術(shù)，包括數(shù)據(jù)探索、可視化和建模。數(shù)據(jù)探索中，常用的一類(lèi)非常重要的數(shù)學(xué)技術(shù)是統(tǒng)計(jì)學(xué)。

實(shí)際上，統(tǒng)計(jì)學(xué)可對(duì)數(shù)據(jù)概要進(jìn)行具體而精確地定義。使用統(tǒng)計(jì)學(xué)，可以描述信息的部分屬性，而非嘗試描述每個(gè)數(shù)據(jù)點(diǎn)。因此統(tǒng)計(jì)學(xué)通常足以讓人們獲得有關(guān)數(shù)據(jù)結(jié)構(gòu)和構(gòu)成的某些信息。

有時(shí)，人們聽(tīng)到“統(tǒng)計(jì)”這個(gè)詞時(shí)，往往會(huì)想得過(guò)于復(fù)雜。的確，這個(gè)詞可能有點(diǎn)抽象，但并不總是需要通過(guò)復(fù)雜理論，才能從統(tǒng)計(jì)技術(shù)中獲得某種價(jià)值。

統(tǒng)計(jì)學(xué)中最基本的部分通常是數(shù)據(jù)科學(xué)中最實(shí)用的部分。

今天，本文將概述5種有助于數(shù)據(jù)科學(xué)研究的統(tǒng)計(jì)學(xué)概念。這些概念沒(méi)有那么抽象、令人抓狂，而是相當(dāng)簡(jiǎn)單、適用的技術(shù)，作用頗大。

1. 集中趨勢(shì)

數(shù)據(jù)集或特征變量的集中趨勢(shì)是集的中心或典型值。我們的想法是，可能存在一單一值可(在某種程度上)***描述數(shù)據(jù)集。

例如，假設(shè)正態(tài)分布位于(100,100)的x-y位置。然后點(diǎn)(100,100)是集中趨勢(shì)，因?yàn)樵谒锌晒┻x擇的點(diǎn)中，它是對(duì)數(shù)據(jù)進(jìn)行概要的***點(diǎn)。

數(shù)據(jù)科學(xué)中可以用集中趨勢(shì)方式，快速簡(jiǎn)單地了解數(shù)據(jù)集的整體情況。數(shù)據(jù)的“中心”可能是非常有價(jià)值的信息，告知數(shù)據(jù)集的確切偏差，因?yàn)樵诒举|(zhì)上，數(shù)據(jù)圍繞的任何值都是偏差。以數(shù)學(xué)方式選擇集中趨勢(shì)有兩種常用方法。

(1) 平均值

數(shù)據(jù)集的Mean值就是平均值，即整個(gè)數(shù)據(jù)圍繞其展開(kāi)的數(shù)字。在定義Mean時(shí)，用于計(jì)算平均值的所有值均需進(jìn)行等量加權(quán)。

例如，計(jì)算以下5個(gè)數(shù)字的Mean值：

(3+ 64 + 187 + 12 + 52) / 5 = 63.6

平均值非常適合計(jì)算實(shí)際數(shù)學(xué)平均值，也適用于像Numpy這樣的Python庫(kù)，計(jì)算速度非常快

(2) 中位數(shù)

中位數(shù)是數(shù)據(jù)集的中間值，即如果將數(shù)據(jù)從最小到***(或從***到最小)排序，然后取值該集中間的值：即中位數(shù)。

再次計(jì)算和上一組相同的5個(gè)數(shù)字的中位數(shù)：

[3, 12, 52, 64, 187] → 52

中位數(shù)與平均值63.6完全不同。不能說(shuō)兩個(gè)數(shù)值孰對(duì)孰錯(cuò)，但人們可以根據(jù)自身情況和目標(biāo)選擇其一。

計(jì)算中位數(shù)需要對(duì)數(shù)據(jù)進(jìn)行排序——如果數(shù)據(jù)集很大，那么這一做法就會(huì)變得不切實(shí)際。

此外，當(dāng)異常值出現(xiàn)時(shí)，相較于平均值而言，中位數(shù)的數(shù)值更加穩(wěn)定。因?yàn)槿绻霈F(xiàn)一些非常極端的異常值，那么平均值將會(huì)變大或變小。

通過(guò)簡(jiǎn)單的numpy單行，可計(jì)算平均值和中位數(shù)

numpy.mean(array) 
numpy.median(array)

2. 擴(kuò)散

在統(tǒng)計(jì)學(xué)領(lǐng)域，數(shù)據(jù)傳播是指數(shù)據(jù)被壓縮為單一值或分布到更為廣泛范圍的程度。

查看下方的高斯概率分布圖——假設(shè)這些圖是描述現(xiàn)實(shí)世界中數(shù)據(jù)集的概率分布。

藍(lán)色曲線的擴(kuò)散值最小，因?yàn)槠浯蠖鄶?shù)數(shù)據(jù)點(diǎn)占據(jù)的范圍相當(dāng)窄。紅色曲線的擴(kuò)散值***，因?yàn)槠浯蠖鄶?shù)數(shù)據(jù)點(diǎn)占據(jù)的范圍更廣。

圖例顯示了這些曲線的標(biāo)準(zhǔn)偏差值，將在下一節(jié)中介紹。

(1) 標(biāo)準(zhǔn)偏差

標(biāo)準(zhǔn)偏差是量化數(shù)據(jù)傳播最常用的方式。計(jì)算標(biāo)準(zhǔn)偏差包括5個(gè)步驟：

找出平均值。
對(duì)于每個(gè)數(shù)據(jù)點(diǎn)，計(jì)算其與平均值的差值的平方值。
將第2步得到的值相加。
除以數(shù)據(jù)點(diǎn)的數(shù)量。
取平方根。

較大值意味著數(shù)據(jù)從平均值更廣泛地“展開(kāi)”。較小值意味著數(shù)據(jù)越集中于平均值。

輕松計(jì)算Numpy的標(biāo)準(zhǔn)偏差：

numpy.std(array)

3. 百分位數(shù)

使用百分位數(shù)進(jìn)一步描述整個(gè)范圍內(nèi)每個(gè)數(shù)據(jù)點(diǎn)的位置。

就某數(shù)據(jù)點(diǎn)在數(shù)值范圍內(nèi)的高低位置而言，百分位數(shù)描述了該數(shù)據(jù)點(diǎn)的確切位置。

更正式地說(shuō)，第p個(gè)百分位數(shù)是可分成兩部分的數(shù)據(jù)集中的值。位置較低的部分包含數(shù)據(jù)的p%，即第p個(gè)百分位數(shù)。

例如，思考以下11個(gè)數(shù)字的集合：

1, 3, 5, 7, 9, 11,13, 15, 17, 19, 21

數(shù)字15是第70個(gè)百分位數(shù)，因?yàn)閷?shù)據(jù)集從數(shù)字15處，分成2個(gè)部分時(shí)，剩余數(shù)據(jù)中有70%的數(shù)據(jù)小于15。

百分位數(shù)與平均值和標(biāo)準(zhǔn)偏差相結(jié)合，有助于更好地了解特定數(shù)據(jù)點(diǎn)在數(shù)據(jù)擴(kuò)散/范圍內(nèi)的位置。如果該數(shù)據(jù)點(diǎn)為異常值，那么其百分位數(shù)將接近終值——小于5%或大于95%。另一方面，如果百分位數(shù)的計(jì)算結(jié)果接近50，那么該數(shù)據(jù)點(diǎn)就接近于集中趨勢(shì)。

數(shù)組的第50個(gè)百分位數(shù)可在Numpy中計(jì)算，如下所示：

numpy.percentile(array,50)

4. 偏度

數(shù)據(jù)偏度是統(tǒng)計(jì)數(shù)據(jù)分布非對(duì)稱(chēng)程度的數(shù)字特征。

正偏意味著數(shù)值集中在數(shù)據(jù)點(diǎn)中心的左側(cè); 負(fù)偏意味著數(shù)值集中在數(shù)據(jù)點(diǎn)中心的右側(cè)。

下圖提供了一個(gè)很好的例證。

通過(guò)以下等式可計(jì)算偏度：

偏度計(jì)算了數(shù)據(jù)分布與高斯分布的距離。偏度值越大，高斯分布離數(shù)據(jù)集就越遠(yuǎn)。

這一點(diǎn)很重要，因?yàn)槿绻麑?duì)數(shù)據(jù)分布有大概的了解，那么就可以為特定分布調(diào)整需要使用的任何ML模型。此外，并非所有ML建模技術(shù)都對(duì)高斯之外的數(shù)據(jù)有效。

進(jìn)入建模前，統(tǒng)計(jì)學(xué)再次為人們提供了富有洞見(jiàn)的信息!

通過(guò)Scipy編程，計(jì)算偏度的方式如下：

scipy.stats.skew(array)

5. 協(xié)方差和相關(guān)性

(1) 協(xié)方差

兩個(gè)特征變量的協(xié)方差用于衡量?jī)蓚€(gè)變量如何“相關(guān)”。如果兩個(gè)變量為協(xié)方差的正相關(guān)，那么當(dāng)一個(gè)變量增加時(shí)，另一個(gè)變量也會(huì)增加;而在若為協(xié)方差的負(fù)相關(guān)，那么兩個(gè)特征變量的值將在朝著相反方向改變。

(2) 相關(guān)性

相關(guān)性只是標(biāo)準(zhǔn)化的(縮放)協(xié)方差，除以需要分析的兩個(gè)變量的標(biāo)準(zhǔn)偏差的乘積。這可使相關(guān)范圍始終在-1.0和1.0之間。

如果兩個(gè)特征變量的相關(guān)性為1.0，則變量具有***的正相關(guān)性。這意味著如果由于給定量，一個(gè)變量發(fā)生改變，則另一變量會(huì)按照相同方向成比例地移動(dòng)。

用于降維的PCA例證

正相關(guān)系數(shù)小于1表示不完全正相關(guān)，相關(guān)系數(shù)越接近1，相關(guān)性越強(qiáng)。這同樣適用于負(fù)相關(guān)系數(shù)，只是特征變量的值在相反方向上變化，而非在相同方向上發(fā)生變化。

了解相關(guān)性對(duì)降維所擁的主成分分析(PCA)等技術(shù)非常有必要。人們首先計(jì)算一個(gè)相關(guān)矩陣——如果有兩個(gè)或多個(gè)高度相關(guān)的變量，那么解釋數(shù)據(jù)時(shí)，變量實(shí)際上是多余的，可刪除其中一部分以降低復(fù)雜性。

責(zé)任編輯：趙寧寧來(lái)源：讀芯術(shù)

數(shù)據(jù)科學(xué)統(tǒng)計(jì)學(xué)數(shù)據(jù)集

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<ruby id="3f7kc"></ruby>

<del id="3f7kc"><mark id="3f7kc"></mark></del><sub id="3f7kc"><p id="3f7kc"></p></sub>

<sub id="3f7kc"><p id="3f7kc"></p></sub>