數(shù)據(jù)分析該分析什么
很多時(shí)候我們走的走的就會忘記當(dāng)初為什么而出發(fā)。
我們有的時(shí)候在拿到數(shù)據(jù)以后不知道該怎么進(jìn)行分析,該去分析什么,其實(shí)這些在我們以前的統(tǒng)計(jì)學(xué)中都學(xué)過。
不管是用Python還是R,其實(shí)和用Excel一樣,只不過現(xiàn)在之所以用Python、R是因?yàn)榇髷?shù)據(jù)時(shí)代么,數(shù)據(jù)太多,Excel的處理能力跟不上,但是這些都只是一個(gè)工具而已,核心還是圍繞統(tǒng)計(jì)學(xué)不變的。
今天就來聊聊我們該從哪些方向去分析(描述)數(shù)據(jù)。
01 總規(guī)模度量:
總量指標(biāo)又稱統(tǒng)計(jì)絕對數(shù),是反映某一數(shù)據(jù)的整體規(guī)模大小,總量多少的指標(biāo)。他是對原始數(shù)據(jù)經(jīng)管分組和匯總以后得到的各項(xiàng)總計(jì)數(shù)字,是統(tǒng)計(jì)整理階段的直接成功。
比如泰坦尼克號數(shù)據(jù)中總共有891條乘客數(shù)據(jù),其中有342是幸存者。
02 相對度量:
相對指標(biāo)是說明現(xiàn)象之間數(shù)量對比關(guān)系的指標(biāo),由兩個(gè)有聯(lián)系的指標(biāo)數(shù)值對比而求得,其結(jié)果表現(xiàn)為相對數(shù),相對數(shù)的重要特點(diǎn)就是把兩個(gè)具體的數(shù)值概括為一個(gè)抽象的數(shù).
比如:泰坦尼克號數(shù)據(jù)中我們可以把存者數(shù)據(jù)和所有乘客數(shù)據(jù)的相比概括為為幸存率這么一個(gè)數(shù)。
相對數(shù)有有單位和無單位兩種表現(xiàn)形式,在相對指標(biāo)中,大多數(shù)都是以無單位的形式表示的,無單位是一種抽象化的數(shù)值,常以系數(shù)、倍數(shù)、百分?jǐn)?shù)等表示;而有單位主要是用來表現(xiàn)強(qiáng)度相對指標(biāo)的數(shù)值,比如人口密度:“人/平方公里”。
03 集中趨勢的度量:
集中趨勢是通過指標(biāo)反映某一現(xiàn)象在一定時(shí)間段內(nèi)所達(dá)到的一般水平。用平均指標(biāo)來表示。平均指標(biāo)分為數(shù)值平均和位置平均。
比如:泰坦尼克號數(shù)據(jù)中平均年齡和平均票價(jià)。
1、數(shù)值平均是統(tǒng)計(jì)數(shù)列中所有變量值平均的結(jié)果。有普通平均數(shù)和加權(quán)平均數(shù)兩種。
2、位置平均時(shí)基于某種特殊位置上或者是普遍出現(xiàn)的標(biāo)志值作為整體一般水平的代表值。有眾數(shù)、中位數(shù)兩種。
眾數(shù)是被研究總體中出現(xiàn)次數(shù)最多的變量值,他是總體中最普遍的值,因此可以用來代表一般水平。如果數(shù)據(jù)可以分為多組,則為每組找出一個(gè)眾數(shù)。注意:眾數(shù)只有在總體內(nèi)單位充分多時(shí)才有意義。
中位數(shù)是將總體中各單位標(biāo)志值按大小順序排列,處于中間位置的變量值就是中位數(shù)。因?yàn)樘幱谥虚g位置,有一半變量值大于該值,一半小于該值,所以可以用這樣的中等水平來表示整體的一般水平。
04 離散程度的度量:
變異指標(biāo)是用來表示總體分布的變異情況和離散程度的指標(biāo),通過變異程度也可以看出平均值指標(biāo)的代表性程度,如果離散程度小,說明大部分?jǐn)?shù)據(jù)都是挨著的,則平均值可以很好的反映整體情況的一般水平,反之相反。
全距(又稱極差)、方差、標(biāo)準(zhǔn)差等幾個(gè)指標(biāo)是用來衡量數(shù)值的分散性和變異性。
1、全距(極差):平均數(shù)讓我們有辦法確定一批數(shù)據(jù)的中心,但是無法知道數(shù)據(jù)的變動情況,所以引入全距,全距的計(jì)算方法是用數(shù)據(jù)集中***數(shù)(上界)減去數(shù)據(jù)集中最小數(shù)(下屆)。
全距存在的問題:
- 容易受異常值影響。
- 全距只表示了數(shù)據(jù)的寬度,但是沒有描述清楚數(shù)據(jù)上下界之間的分布形態(tài)。
2、對于***種問題我們引入四分位距的概念。四分位數(shù)將一些數(shù)值從小到大排列,然后一分為四,最小的四分位數(shù)為下四分位數(shù),***的四分位數(shù)為上四分位數(shù),中間的四分位數(shù)為中位數(shù)。
3、對于問題2我們引入了方差和標(biāo)準(zhǔn)差兩個(gè)概念來度量數(shù)據(jù)的分散性。
- 方差是每個(gè)數(shù)值與均值距離的平方的平均值,方差越小說明各數(shù)值與均值之間的差距越小,數(shù)值越穩(wěn)定。
- 標(biāo)準(zhǔn)差是方差的開方。表示數(shù)值與均值距離的平均值。
05 偏態(tài)與峰度的度量:
1、偏度是用來衡量統(tǒng)計(jì)分布的不對稱程度或偏斜程度的指標(biāo),值越大,偏斜成度越大;值越小,偏斜成度越小。
2、峰度又稱峰態(tài)系數(shù)。表征概率密度分布曲線在平均值處峰值高低的特征數(shù)。直觀看來,峰度反映了峰部的尖度。值越大,越尖。
06 相關(guān)性度量:
上面提到的幾個(gè)維度是對數(shù)據(jù)整體的情況進(jìn)行描述,但是我們有的時(shí)候想看一下數(shù)據(jù)整體內(nèi)的變量之間存在什么關(guān)系,一個(gè)變化時(shí)會引起另一個(gè)怎么變化,我們把用來反映這種關(guān)系的指標(biāo)叫做相關(guān)系數(shù)。
(相關(guān)系數(shù)計(jì)算公式)
- 關(guān)于相關(guān)系數(shù)需要注意幾點(diǎn):
- 相關(guān)系數(shù)r的范圍為:[-1,1]。
- r的絕對值越大,表示相關(guān)性越強(qiáng)。
r的正負(fù)代表相關(guān)性方向,正代表正相關(guān),負(fù)代表負(fù)相關(guān)。