聊聊關(guān)于常用數(shù)據(jù)類型一二三
數(shù)據(jù)分析師的工作中最離不開的就是數(shù)據(jù),業(yè)務(wù)中所有的情況都離不開數(shù)據(jù)這個(gè)載體,今天就來(lái)看下數(shù)據(jù)的都有哪些類型以及它們有什么特點(diǎn)。
數(shù)據(jù)是用某種計(jì)量尺度對(duì)事物測(cè)度的結(jié)果,采用不同的計(jì)量尺度會(huì)得到不同類型的數(shù)據(jù),數(shù)據(jù)包括:各種數(shù)字、文字、圖像、音頻、視頻及它們的組合等多種格式。
1.數(shù)據(jù)的分類
由于事物有簡(jiǎn)單和復(fù)雜的,如用戶的外貌高矮等特征較直觀,用戶的偏好則不直觀;有的差異可以用數(shù)量度量,有的則只能用分類度量。所以統(tǒng)計(jì)量就有定性、定量之分,對(duì)統(tǒng)計(jì)數(shù)據(jù)的屬性、特征進(jìn)行分類、標(biāo)示和計(jì)算叫度量,分類見下圖:

(1)定性數(shù)據(jù),又叫分類數(shù)據(jù)。它用于確定數(shù)據(jù)的屬性,不支持算術(shù)運(yùn)算,只用于說(shuō)明事物的品質(zhì),可能是文字或數(shù)字,可以細(xì)分為兩類:
①無(wú)序數(shù)據(jù)。如:人的性別可以分為:男,女,未知3類,也可以把它們記為0,1,2;學(xué)生的成績(jī)可以分為:及格,不及格……為了便于理解,一般可按慣例來(lái)定義,也可以按具體的業(yè)務(wù)需求等。該類數(shù)據(jù)的用數(shù)字表示時(shí)僅表示不同類別的品質(zhì)是什么,而不表示量的順序或大小,該類數(shù)據(jù)尺度的數(shù)學(xué)特征是“=”或“≠”。
②順序數(shù)據(jù),無(wú)序分類數(shù)據(jù)不要求有順序,順序數(shù)據(jù)是有序的。如:空氣污染可以分為:優(yōu),良,輕度污染,中度污染,重度污染,其中后面一級(jí)都比前面一級(jí)的程度更嚴(yán)重,也可以用1,2,3,4,5來(lái)標(biāo)識(shí)這幾種分類;學(xué)生的成績(jī)也可以分為:優(yōu)秀,良好,及格,不及格,后面一級(jí)的數(shù)據(jù)也都比前面的更差。此時(shí)的尺度不能表明級(jí)別的量,僅能表明其等級(jí)差異,該類數(shù)據(jù)尺度的數(shù)學(xué)特征是“>”或“<”。
(2)定量數(shù)據(jù),又稱為數(shù)值型數(shù)據(jù),用于說(shuō)明事物的數(shù)量,形式是數(shù)字,也可以分為兩類,主要按數(shù)值是否連續(xù)劃分:
①離散型數(shù)據(jù),離散型是通過(guò)計(jì)數(shù)得到的,增長(zhǎng)量不固定,比如:北京市上月的空氣質(zhì)量有20天是優(yōu),本月共10天優(yōu);北京市去年凈流出200萬(wàn)人,今年凈流出100萬(wàn)人。它不僅能對(duì)事物區(qū)分不同的類型,還能對(duì)其排序,做數(shù)學(xué)運(yùn)算。
②連續(xù)型數(shù)據(jù),這是一直疊加上去的,增長(zhǎng)量可以劃分為固定的單位。如:人的年齡是1歲,1.2歲,1.5歲,2歲......人的身高1.5米,1.51,1.52......
不管是什么類型的數(shù)據(jù),定義數(shù)據(jù)時(shí),有邏輯地劃分、表達(dá)更易讓人理解、方便計(jì)算。
定性與定量數(shù)據(jù)的關(guān)系:定性數(shù)據(jù)與定量數(shù)據(jù)相互補(bǔ)充,定性是定量的前提、依據(jù),定量使定性更加具體、準(zhǔn)確,結(jié)合使用才能通過(guò)比較來(lái)分析、說(shuō)明問(wèn)題。這四類數(shù)據(jù)的層次一類比一類高。
因不同類型的數(shù)據(jù)采用的處理、分析的統(tǒng)計(jì)方法不同,所以區(qū)分度量的層次、數(shù)據(jù)的類型很重要。如,對(duì)無(wú)序數(shù)據(jù),通常計(jì)算出各組的頻數(shù)或頻率,計(jì)算其眾數(shù)和異眾比率,進(jìn)行列聯(lián)表分析和x2檢驗(yàn)等;對(duì)順序數(shù)據(jù),可以通過(guò)其中位數(shù)和四分位差,從而估計(jì)樣本數(shù)據(jù)的總體;對(duì)離散數(shù)據(jù)還可以用更多的統(tǒng)計(jì)方法進(jìn)行處理,如計(jì)算各種統(tǒng)計(jì)量、進(jìn)行參數(shù)估計(jì)和檢驗(yàn)等。
適用于低層次測(cè)量數(shù)據(jù)的統(tǒng)計(jì)方法,也適用于較高層次的測(cè)量數(shù)據(jù),因?yàn)楹笳呔哂星罢叩臄?shù)學(xué)特性,但前者不具備后者的特性,所以反之不成立。如:描述數(shù)據(jù)的集中趨勢(shì)時(shí),對(duì)無(wú)序數(shù)據(jù)通常計(jì)算眾數(shù),對(duì)順序數(shù)據(jù)通常是計(jì)算中位數(shù),但對(duì)連續(xù)、離散類的定量數(shù)據(jù)也可以計(jì)算眾數(shù)和中位數(shù)。反之,對(duì)于離散和連續(xù)數(shù)據(jù)可以計(jì)算平均數(shù),但對(duì)于無(wú)序數(shù)據(jù)和順序數(shù)據(jù)則不能計(jì)算平均數(shù)。理解這一點(diǎn),則有助于分析時(shí)選擇合適的統(tǒng)計(jì)分析方法。
2.數(shù)據(jù)的質(zhì)量
數(shù)據(jù)質(zhì)量的好壞甚至能決定我們分析的成功與否。評(píng)價(jià)數(shù)據(jù)的質(zhì)量主要從內(nèi)容質(zhì)量、表述質(zhì)量、約束標(biāo)準(zhǔn)三方面著手。
(1)內(nèi)容質(zhì)量
內(nèi)容質(zhì)量是數(shù)據(jù)最基本的特征,包括相關(guān)性、準(zhǔn)確性、及時(shí)性,這是數(shù)據(jù)質(zhì)量的基本特征,缺少其中一個(gè),數(shù)據(jù)就失去了轉(zhuǎn)化為信息的作用。
①相關(guān)性
相關(guān)性指數(shù)據(jù)是否正是用戶感興趣的統(tǒng)計(jì)數(shù)據(jù),它反映了數(shù)據(jù)滿足需求的程度,相關(guān)性與可用數(shù)據(jù)是否是用戶最關(guān)心的主題有關(guān)。由于對(duì)相關(guān)性的評(píng)價(jià)是主觀的,會(huì)隨用戶需求目標(biāo)的改變而改變,所以要平衡不同用戶的需求目標(biāo),在給定的資源條件限制下,盡可能滿足大部分用戶的大部分需求。
②準(zhǔn)確性
準(zhǔn)確性指觀測(cè)值或估計(jì)值與未知的真實(shí)值之間的距離(接近程度),通常用統(tǒng)計(jì)誤差來(lái)衡量,它是數(shù)據(jù)質(zhì)量的基礎(chǔ)和核心。一般地,誤差分為系統(tǒng)誤差和隨機(jī)誤差。因可能會(huì)受到成本、環(huán)境等各種限制,完全準(zhǔn)確幾乎是不可能的。所以只要是誤差已降低到用戶可以接受的地步即可。
③及時(shí)性
與用戶需求相關(guān)且準(zhǔn)確的數(shù)據(jù)如果沒(méi)有在用戶做出決策之前傳遞給他,那么該數(shù)據(jù)對(duì)用戶來(lái)說(shuō)就是沒(méi)用的。所以,及時(shí)性也是統(tǒng)計(jì)數(shù)據(jù)能否滿足用戶需求的重要特征。如果要統(tǒng)計(jì)的現(xiàn)象變化較快,則對(duì)該類統(tǒng)計(jì)數(shù)據(jù)的及時(shí)性要求高;如果該現(xiàn)象變化較緩慢,則對(duì)及時(shí)性要求不高。
(2)表述質(zhì)量
僅考慮數(shù)據(jù)內(nèi)容的質(zhì)量是不夠的,多個(gè)人一起做需求時(shí),要想被人看到、看懂,必然離不開描述需求相關(guān)的多個(gè)數(shù)據(jù),這時(shí)就要考慮表述的質(zhì)量問(wèn)題。如:?jiǎn)蝹€(gè)數(shù)據(jù)的內(nèi)容是正確的,但表述不清晰、不充分,就會(huì)影響整套數(shù)據(jù)的質(zhì)量,甚至引起誤解。統(tǒng)計(jì)數(shù)據(jù)的表述質(zhì)量包括可比性、可銜接性和可理解性,這些都是我們做需求、對(duì)外提供數(shù)據(jù)或分析報(bào)告時(shí)需要注意的點(diǎn)。
①可比性
可比性指同一項(xiàng)目的統(tǒng)計(jì)數(shù)據(jù)在時(shí)間上、空間上的可比程度。這要求統(tǒng)計(jì)的概念和方法要相對(duì)穩(wěn)定,使用統(tǒng)一的統(tǒng)計(jì)制度方法和分類標(biāo)準(zhǔn),確保統(tǒng)計(jì)數(shù)據(jù)的口徑范圍、計(jì)算方法一致,可比較。
②可銜接性
可銜接性指同一統(tǒng)計(jì)機(jī)構(gòu)內(nèi)部不同項(xiàng)目、不同機(jī)構(gòu)及與國(guó)際組織間統(tǒng)計(jì)數(shù)據(jù)的銜接程度。這要求所有專業(yè)統(tǒng)計(jì)項(xiàng)目在統(tǒng)一的統(tǒng)計(jì)框架體系、 分類標(biāo)準(zhǔn)下,按統(tǒng)一的方法統(tǒng)計(jì)、調(diào)查、加工整理、使用統(tǒng)一的方法和程序,同時(shí)采用國(guó)際統(tǒng)計(jì)標(biāo)準(zhǔn),如國(guó)際標(biāo)準(zhǔn)時(shí)間等。
③可理解性
可理解性指統(tǒng)計(jì)數(shù)據(jù)便于用戶正確理解、使用的程度。統(tǒng)計(jì)數(shù)據(jù)是提供給用戶使用的,如果用戶看不懂?dāng)?shù)據(jù)、分析報(bào)告,也就談不上使用數(shù)據(jù)。為了恰當(dāng)?shù)厥褂脧慕y(tǒng)計(jì)機(jī)構(gòu)得到的數(shù)據(jù),用戶必須了解所獲得數(shù)據(jù)的性質(zhì)。這就要求統(tǒng)計(jì)機(jī)構(gòu)在提供統(tǒng)計(jì)數(shù)據(jù)時(shí)附帶提供對(duì)數(shù)據(jù)的補(bǔ)充說(shuō)明。如:提供隱含在有關(guān)概念下面的說(shuō)明、使用到的分類方法、數(shù)據(jù)收集和加工過(guò)程中使用的方法及統(tǒng)計(jì)機(jī)構(gòu)自身對(duì)數(shù)據(jù)質(zhì)量的評(píng)價(jià)等。
(3)約束標(biāo)準(zhǔn)
在實(shí)現(xiàn)統(tǒng)計(jì)數(shù)據(jù)目標(biāo)的過(guò)程中,除了注意統(tǒng)計(jì)數(shù)據(jù)的內(nèi)容質(zhì)量和表述質(zhì)量這兩方面外,還需注意以下兩項(xiàng)約束標(biāo)準(zhǔn),這體現(xiàn)了數(shù)據(jù)的質(zhì)量特征。
①可取得性
可取得性是指用戶獲取數(shù)據(jù)的便利程度。對(duì)于有用的數(shù)據(jù),用戶必然要考慮:能得到哪些數(shù)據(jù),如何得到這些數(shù)據(jù)。因此,統(tǒng)計(jì)數(shù)據(jù)必須以一種用戶方便使用且能夠負(fù)擔(dān)的形式提供給用戶。這要求提供統(tǒng)計(jì)數(shù)據(jù)時(shí),必須列明用戶從統(tǒng)計(jì)機(jī)構(gòu)可以取得的統(tǒng)計(jì)數(shù)據(jù)內(nèi)容,同時(shí)方便用戶獲取。
②有效性
有效性指利用統(tǒng)計(jì)數(shù)據(jù)所產(chǎn)生的效益要大于提供該數(shù)據(jù)的成本。如果相反,則提供這種數(shù)據(jù)對(duì)提供方和使用方來(lái)說(shuō)都是不值得的,這要求在統(tǒng)計(jì)數(shù)據(jù)的其他質(zhì)量不受大的影響的前提下,盡可能降低統(tǒng)計(jì)數(shù)據(jù)的生產(chǎn)費(fèi)用,提高效率。