自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

理解數(shù)據(jù)類(lèi)型:每個(gè)數(shù)據(jù)科學(xué)愛(ài)好者都應(yīng)該知道的數(shù)據(jù)結(jié)構(gòu)

大數(shù)據(jù) 數(shù)據(jù)分析
現(xiàn)在的大量數(shù)據(jù)中,大部分是非結(jié)構(gòu)化的,即沒(méi)有預(yù)定義模型/結(jié)構(gòu)的數(shù)據(jù)。論及結(jié)構(gòu)數(shù)據(jù),主要是指表格數(shù)據(jù)(矩形結(jié)構(gòu)數(shù)據(jù)),即數(shù)據(jù)庫(kù)中的行和列。

本文轉(zhuǎn)載自公眾號(hào)“讀芯術(shù)”(ID:AI_Discovery)。

技術(shù)快速發(fā)展,各種學(xué)科中積極使用定量分析,產(chǎn)生了更大量的數(shù)據(jù),數(shù)據(jù)分析的作用已經(jīng)超過(guò)了最初的預(yù)期。由于基礎(chǔ)設(shè)備不斷進(jìn)步,現(xiàn)在可以擁有多個(gè)數(shù)據(jù)源,如傳感器、CRMs、事件、文本、圖像、音頻和視頻。

[[357497]]

現(xiàn)在的大量數(shù)據(jù)中,大部分是非結(jié)構(gòu)化的,即沒(méi)有預(yù)定義模型/結(jié)構(gòu)的數(shù)據(jù)。如圖像,是像素的集合,文本數(shù)據(jù)是沒(méi)有預(yù)定義儲(chǔ)存模型的字符序列,以及用戶在Web應(yīng)用程序上操作的點(diǎn)擊流。非結(jié)構(gòu)化數(shù)據(jù)所需要處理的地方在于,需要通過(guò)預(yù)處理等方法轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),以便對(duì)結(jié)構(gòu)化數(shù)據(jù)應(yīng)用統(tǒng)計(jì)方法獲取原始數(shù)據(jù)中的重要信息。

論及結(jié)構(gòu)數(shù)據(jù),主要是指表格數(shù)據(jù)(矩形結(jié)構(gòu)數(shù)據(jù)),即數(shù)據(jù)庫(kù)中的行和列。這種表格數(shù)據(jù)包含兩種類(lèi)型的結(jié)構(gòu)化數(shù)據(jù):

1. 數(shù)值數(shù)據(jù)

用數(shù)字所衡量表述的數(shù)據(jù),進(jìn)一步分為兩種表示形式:

  • 連續(xù)型——數(shù)據(jù)可以表示時(shí)間間隔中的任何值,例如汽車(chē)的速度、心率等。
  • 離散型——只能接受整數(shù)值的數(shù)據(jù),如計(jì)數(shù)值。例如,投擲一枚硬幣20次,正面朝上的次數(shù)。

2. 分類(lèi)數(shù)據(jù)

只能表示可能類(lèi)別中一組特定的數(shù)據(jù)。也稱為枚舉、因子或名詞性因子。

  • 二進(jìn)制型,這種分類(lèi)數(shù)據(jù)是二進(jìn)制分類(lèi)的一種特殊情況,即只有0/1或者說(shuō)真/假兩個(gè)值。
  • 有序型,有明確前后順序的分類(lèi)數(shù)據(jù)。例如對(duì)一家餐館的五星評(píng)價(jià)制。(1、2、3、4、5)。

那么問(wèn)題來(lái)了,為什么需要了解這些數(shù)據(jù)類(lèi)型呢?因?yàn)椴恢罃?shù)據(jù)類(lèi)型,將會(huì)不知道如何應(yīng)用正確的統(tǒng)計(jì)方法處理這類(lèi)數(shù)據(jù)。舉例來(lái)說(shuō),如果數(shù)據(jù)框中有一列有序號(hào)數(shù)據(jù),就必須要進(jìn)行預(yù)處理,在Python中,scikit-learn包提供了一個(gè)序號(hào)編碼器來(lái)處理序號(hào)數(shù)據(jù)。

下一步是深入研究結(jié)構(gòu)化數(shù)據(jù),以及如何使用第三方工具包和庫(kù)來(lái)操作這些結(jié)構(gòu)。我們主要有兩種類(lèi)型的結(jié)構(gòu)或數(shù)據(jù)儲(chǔ)存模型:

  • 矩形
  • 非矩形

矩形數(shù)據(jù)

數(shù)據(jù)科學(xué)中大多數(shù)的分析對(duì)象都是針對(duì)二位矩形數(shù)據(jù)(如數(shù)據(jù)框、電子表格、CSV文件或是數(shù)據(jù)庫(kù)表格)完成。

矩形數(shù)據(jù)主要由表示數(shù)據(jù)類(lèi)型的行和表示列的變量/特性組成。數(shù)據(jù)框是一種特殊的數(shù)據(jù)結(jié)構(gòu),采用表格格式,提供了高效的數(shù)據(jù)操作可能。數(shù)據(jù)框是最常用的數(shù)據(jù)結(jié)構(gòu),下方是一些重要的定義:

  • 數(shù)據(jù)框:用于統(tǒng)計(jì)和機(jī)器學(xué)習(xí)模型的有效操作和應(yīng)用的矩形數(shù)據(jù)結(jié)構(gòu)(如電子表格)。
  • 特性:數(shù)據(jù)框的列值通常被稱為特性。同義詞有(屬性、輸入值、預(yù)測(cè)值、變量)。
  • 結(jié)果:許多數(shù)據(jù)科學(xué)項(xiàng)目都涉及到結(jié)果預(yù)測(cè)——通常輸出值yes/no。
  • 記錄:數(shù)據(jù)框中的一行通常被成為記錄。同義詞(實(shí)例,模式值,樣本值)。

關(guān)系數(shù)據(jù)庫(kù)表將一個(gè)或多個(gè)指定的列作為索引,本質(zhì)上是行號(hào)查詢。這可以極大程度地提高某些數(shù)據(jù)庫(kù)的查詢效率,在Panda dataframe中,可以根據(jù)行的順序自動(dòng)創(chuàng)建一個(gè)整數(shù)索引。在Pandas中還可以設(shè)置多層次索引提高操作效率。

[[357498]]

圖源:unsplash

非矩形數(shù)據(jù)

除了矩形數(shù)據(jù)外,還有一些其他的數(shù)據(jù)結(jié)構(gòu)屬于非矩形數(shù)據(jù)的范疇。

地理位置分析中使用的空間數(shù)據(jù)結(jié)構(gòu)更加復(fù)雜,不同于矩形數(shù)據(jù)結(jié)構(gòu)。在地理位置數(shù)據(jù)中,數(shù)據(jù)的焦點(diǎn)是一個(gè)特定對(duì)象(如一個(gè)公園)及其空間坐標(biāo)。相比之下,視場(chǎng)視圖聚焦于小的空間單位和相關(guān)的度量值。(如像素強(qiáng)度)。

圖數(shù)據(jù)結(jié)構(gòu),這種數(shù)據(jù)結(jié)構(gòu)通常用來(lái)表示數(shù)據(jù)間的關(guān)系——物理關(guān)系、社會(huì)關(guān)系和抽象關(guān)系。例如臉書(shū)或推特上以社會(huì)關(guān)系圖的形式表示網(wǎng)絡(luò)上人們之間的聯(lián)系。圖結(jié)構(gòu)對(duì)某些類(lèi)型的問(wèn)題特別有用,如網(wǎng)絡(luò)優(yōu)化和系統(tǒng)推薦問(wèn)題。

每種數(shù)據(jù)類(lèi)型在數(shù)據(jù)科學(xué)中都有特殊的處理方法,本文重點(diǎn)講了矩形數(shù)據(jù),希望你已經(jīng)掌握了它。

 

責(zé)任編輯:趙寧寧 來(lái)源: 今日頭條
相關(guān)推薦

2018-03-01 14:30:22

數(shù)據(jù)科學(xué)概率分布

2021-04-08 10:15:46

數(shù)據(jù)工程師數(shù)據(jù)庫(kù)數(shù)據(jù)科學(xué)家

2021-03-17 08:27:23

數(shù)據(jù)科學(xué)家數(shù)據(jù)科學(xué)

2017-07-20 01:59:19

大數(shù)據(jù)算法數(shù)據(jù)

2019-07-11 12:59:27

數(shù)據(jù)科學(xué)家概率分布統(tǒng)計(jì)

2013-06-26 09:42:52

Web開(kāi)發(fā)URL編碼URL

2019-11-23 23:38:51

開(kāi)發(fā)者微服務(wù)安全

2023-11-17 14:18:48

開(kāi)發(fā)編程

2023-11-27 15:49:55

軟件開(kāi)發(fā)系統(tǒng)設(shè)計(jì)

2012-02-28 10:52:13

2018-03-07 12:57:53

2017-04-05 12:04:17

python函數(shù)

2020-01-14 08:28:50

Linux命令程序

2014-03-07 14:20:30

2019-11-20 12:09:01

JavaScriptGitHub工具

2022-04-27 09:48:56

JS前端開(kāi)發(fā)

2022-11-25 08:16:07

2018-05-03 08:45:58

Linux命令

2020-10-06 18:50:19

數(shù)據(jù)科學(xué)家機(jī)器學(xué)習(xí)在線工具

2022-05-23 08:19:19

Redis數(shù)據(jù)結(jié)構(gòu)內(nèi)存
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)