理解數(shù)據(jù)類(lèi)型:每個(gè)數(shù)據(jù)科學(xué)愛(ài)好者都應(yīng)該知道的數(shù)據(jù)結(jié)構(gòu)
本文轉(zhuǎn)載自公眾號(hào)“讀芯術(shù)”(ID:AI_Discovery)。
技術(shù)快速發(fā)展,各種學(xué)科中積極使用定量分析,產(chǎn)生了更大量的數(shù)據(jù),數(shù)據(jù)分析的作用已經(jīng)超過(guò)了最初的預(yù)期。由于基礎(chǔ)設(shè)備不斷進(jìn)步,現(xiàn)在可以擁有多個(gè)數(shù)據(jù)源,如傳感器、CRMs、事件、文本、圖像、音頻和視頻。
現(xiàn)在的大量數(shù)據(jù)中,大部分是非結(jié)構(gòu)化的,即沒(méi)有預(yù)定義模型/結(jié)構(gòu)的數(shù)據(jù)。如圖像,是像素的集合,文本數(shù)據(jù)是沒(méi)有預(yù)定義儲(chǔ)存模型的字符序列,以及用戶在Web應(yīng)用程序上操作的點(diǎn)擊流。非結(jié)構(gòu)化數(shù)據(jù)所需要處理的地方在于,需要通過(guò)預(yù)處理等方法轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),以便對(duì)結(jié)構(gòu)化數(shù)據(jù)應(yīng)用統(tǒng)計(jì)方法獲取原始數(shù)據(jù)中的重要信息。
論及結(jié)構(gòu)數(shù)據(jù),主要是指表格數(shù)據(jù)(矩形結(jié)構(gòu)數(shù)據(jù)),即數(shù)據(jù)庫(kù)中的行和列。這種表格數(shù)據(jù)包含兩種類(lèi)型的結(jié)構(gòu)化數(shù)據(jù):
1. 數(shù)值數(shù)據(jù)
用數(shù)字所衡量表述的數(shù)據(jù),進(jìn)一步分為兩種表示形式:
- 連續(xù)型——數(shù)據(jù)可以表示時(shí)間間隔中的任何值,例如汽車(chē)的速度、心率等。
- 離散型——只能接受整數(shù)值的數(shù)據(jù),如計(jì)數(shù)值。例如,投擲一枚硬幣20次,正面朝上的次數(shù)。
2. 分類(lèi)數(shù)據(jù)
只能表示可能類(lèi)別中一組特定的數(shù)據(jù)。也稱為枚舉、因子或名詞性因子。
- 二進(jìn)制型,這種分類(lèi)數(shù)據(jù)是二進(jìn)制分類(lèi)的一種特殊情況,即只有0/1或者說(shuō)真/假兩個(gè)值。
- 有序型,有明確前后順序的分類(lèi)數(shù)據(jù)。例如對(duì)一家餐館的五星評(píng)價(jià)制。(1、2、3、4、5)。
那么問(wèn)題來(lái)了,為什么需要了解這些數(shù)據(jù)類(lèi)型呢?因?yàn)椴恢罃?shù)據(jù)類(lèi)型,將會(huì)不知道如何應(yīng)用正確的統(tǒng)計(jì)方法處理這類(lèi)數(shù)據(jù)。舉例來(lái)說(shuō),如果數(shù)據(jù)框中有一列有序號(hào)數(shù)據(jù),就必須要進(jìn)行預(yù)處理,在Python中,scikit-learn包提供了一個(gè)序號(hào)編碼器來(lái)處理序號(hào)數(shù)據(jù)。
下一步是深入研究結(jié)構(gòu)化數(shù)據(jù),以及如何使用第三方工具包和庫(kù)來(lái)操作這些結(jié)構(gòu)。我們主要有兩種類(lèi)型的結(jié)構(gòu)或數(shù)據(jù)儲(chǔ)存模型:
- 矩形
- 非矩形
矩形數(shù)據(jù)
數(shù)據(jù)科學(xué)中大多數(shù)的分析對(duì)象都是針對(duì)二位矩形數(shù)據(jù)(如數(shù)據(jù)框、電子表格、CSV文件或是數(shù)據(jù)庫(kù)表格)完成。
矩形數(shù)據(jù)主要由表示數(shù)據(jù)類(lèi)型的行和表示列的變量/特性組成。數(shù)據(jù)框是一種特殊的數(shù)據(jù)結(jié)構(gòu),采用表格格式,提供了高效的數(shù)據(jù)操作可能。數(shù)據(jù)框是最常用的數(shù)據(jù)結(jié)構(gòu),下方是一些重要的定義:
- 數(shù)據(jù)框:用于統(tǒng)計(jì)和機(jī)器學(xué)習(xí)模型的有效操作和應(yīng)用的矩形數(shù)據(jù)結(jié)構(gòu)(如電子表格)。
- 特性:數(shù)據(jù)框的列值通常被稱為特性。同義詞有(屬性、輸入值、預(yù)測(cè)值、變量)。
- 結(jié)果:許多數(shù)據(jù)科學(xué)項(xiàng)目都涉及到結(jié)果預(yù)測(cè)——通常輸出值yes/no。
- 記錄:數(shù)據(jù)框中的一行通常被成為記錄。同義詞(實(shí)例,模式值,樣本值)。
關(guān)系數(shù)據(jù)庫(kù)表將一個(gè)或多個(gè)指定的列作為索引,本質(zhì)上是行號(hào)查詢。這可以極大程度地提高某些數(shù)據(jù)庫(kù)的查詢效率,在Panda dataframe中,可以根據(jù)行的順序自動(dòng)創(chuàng)建一個(gè)整數(shù)索引。在Pandas中還可以設(shè)置多層次索引提高操作效率。
圖源:unsplash
非矩形數(shù)據(jù)
除了矩形數(shù)據(jù)外,還有一些其他的數(shù)據(jù)結(jié)構(gòu)屬于非矩形數(shù)據(jù)的范疇。
地理位置分析中使用的空間數(shù)據(jù)結(jié)構(gòu)更加復(fù)雜,不同于矩形數(shù)據(jù)結(jié)構(gòu)。在地理位置數(shù)據(jù)中,數(shù)據(jù)的焦點(diǎn)是一個(gè)特定對(duì)象(如一個(gè)公園)及其空間坐標(biāo)。相比之下,視場(chǎng)視圖聚焦于小的空間單位和相關(guān)的度量值。(如像素強(qiáng)度)。
圖數(shù)據(jù)結(jié)構(gòu),這種數(shù)據(jù)結(jié)構(gòu)通常用來(lái)表示數(shù)據(jù)間的關(guān)系——物理關(guān)系、社會(huì)關(guān)系和抽象關(guān)系。例如臉書(shū)或推特上以社會(huì)關(guān)系圖的形式表示網(wǎng)絡(luò)上人們之間的聯(lián)系。圖結(jié)構(gòu)對(duì)某些類(lèi)型的問(wèn)題特別有用,如網(wǎng)絡(luò)優(yōu)化和系統(tǒng)推薦問(wèn)題。
每種數(shù)據(jù)類(lèi)型在數(shù)據(jù)科學(xué)中都有特殊的處理方法,本文重點(diǎn)講了矩形數(shù)據(jù),希望你已經(jīng)掌握了它。