自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

一篇文章解決你所有關(guān)于數(shù)據(jù)分析的問題!

大數(shù)據(jù) 數(shù)據(jù)分析
展現(xiàn)層在數(shù)據(jù)分析中是一個(gè)很重要的組成部分,在大家的心目中數(shù)據(jù)分析軟件只是讀數(shù)據(jù)和算數(shù)據(jù),結(jié)果算出來就OK了。但其實(shí)結(jié)果算出來以后對(duì)于數(shù)據(jù)分析還遠(yuǎn)沒有結(jié)束,還需要把結(jié)果展現(xiàn)出來,有些時(shí)候可能結(jié)果的展現(xiàn)比計(jì)算花的時(shí)間還要多。

 1. 數(shù)據(jù)分析多層模型介紹

這個(gè)金字塔圖像是數(shù)據(jù)分析的多層模型,從下往上一共有六層:

?

底下第一層稱為Data Sources 元數(shù)據(jù)層。

比如說在生產(chǎn)線上,在生產(chǎn)的數(shù)據(jù)庫里面,各種各樣的數(shù)據(jù),可能是銀行的業(yè)務(wù)數(shù)據(jù),也可能是電信運(yùn)營(yíng)商在交換機(jī)里面采集下來的數(shù)據(jù)等等,然后這些生產(chǎn)的數(shù)據(jù)通過ETL,是英文 Extract-Transform-Load 的縮寫,用來描述將數(shù)據(jù)從來源端經(jīng)過抽取(extract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過程,通過這個(gè)過程,我們可以把需要的數(shù)據(jù)放到數(shù)據(jù)倉庫里面,那這個(gè)數(shù)據(jù)倉庫就是多層模型中的第二層。

數(shù)據(jù)倉庫主要是給我們需要存放的數(shù)據(jù)提供一個(gè)物理基礎(chǔ),我們對(duì)數(shù)據(jù)進(jìn)行分析,原材料都放在這個(gè)數(shù)據(jù)倉庫里面,這幾年以來,除了數(shù)據(jù)倉庫這個(gè)概念,還興起了數(shù)據(jù)集市這個(gè)概念,數(shù)據(jù)集市其實(shí)就是部門級(jí)的數(shù)據(jù)倉庫,規(guī)模比較小一點(diǎn)的數(shù)據(jù)倉庫。

再上面一層是Data Exploration,這層主要做統(tǒng)計(jì)分析的事情,比如我們算均值、標(biāo)準(zhǔn)差、方差、排序、求最小\大值、中位數(shù)、眾數(shù)等等,這些統(tǒng)計(jì)學(xué)比較常用的指標(biāo),另外還有些SQL查詢語句,總的來說主要是做一些目標(biāo)比較明確,計(jì)算方法比較清楚的事情。

第四層是Data Mining數(shù)據(jù)挖掘?qū)?,?shù)據(jù)挖掘與數(shù)據(jù)分析(統(tǒng)計(jì)分析)有什么區(qū)別呢,數(shù)據(jù)分析往往是統(tǒng)計(jì)量和算法比較清楚,數(shù)據(jù)挖掘往往是目標(biāo)不是很清楚,在實(shí)現(xiàn)目標(biāo)的過程中采用什么方法不能確定,所以數(shù)據(jù)挖掘比數(shù)據(jù)分析難度要高很多。

第五層是數(shù)據(jù)展現(xiàn)層,把數(shù)據(jù)分析和數(shù)據(jù)挖掘得出來的結(jié)果通過數(shù)據(jù)展現(xiàn)層的圖表、報(bào)表把他展現(xiàn)出來,也可以稱為數(shù)據(jù)可視化。

最后把這些圖表、報(bào)表交給決策者,以這個(gè)為基礎(chǔ)做一些決策。

2. 數(shù)據(jù)分析工具簡(jiǎn)介

常用的數(shù)據(jù)分析工具,包括一些廠商的數(shù)據(jù)庫產(chǎn)品,包括IBM的DB2、甲骨文的Oracle數(shù)據(jù)庫。這些廠商的數(shù)據(jù)庫本身帶有一些統(tǒng)計(jì)分析的包,里面有些標(biāo)準(zhǔn)的功能可以做數(shù)據(jù)分析工作,但用這些自帶的數(shù)據(jù)分析工具功能相對(duì)不夠?qū)I(yè)。主要反映在缺乏標(biāo)準(zhǔn)的統(tǒng)計(jì)函數(shù),比如做一個(gè)線性回歸模型,需要寫一大堆SQL語句,甚至要寫一個(gè)plsql程序才能完成。但是在專業(yè)的統(tǒng)計(jì)軟件只需要寫一個(gè)簡(jiǎn)單的函數(shù)就可以完成。 

?

目前最主流的統(tǒng)計(jì)軟件有R、SAS、SPSS,R是一個(gè)免費(fèi)的開源軟件。

SAS大概是歷史最悠久的統(tǒng)計(jì)軟件,是一個(gè)商業(yè)軟件,在60年代就誕生,在70年代以后逐漸商業(yè)化,發(fā)展到現(xiàn)在SAS已經(jīng)成為國(guó)際標(biāo)準(zhǔn)。

SPSS也是一個(gè)歷史悠久的統(tǒng)計(jì)軟件,SPSS一開始是一個(gè)仿真軟件,后來演變成一個(gè)統(tǒng)計(jì)軟件,目前已經(jīng)發(fā)展成為一個(gè)數(shù)據(jù)挖掘軟件,目前被IBM收購(gòu),變成IBM旗下的一個(gè)產(chǎn)品,在社會(huì)學(xué)研究院領(lǐng)域有很多的應(yīng)用。

其他的還有一些軟件,比如說水晶報(bào)表(Crystal Reports),在做BI和報(bào)表非常擅長(zhǎng),另外如UCINET也是在社會(huì)學(xué)比較常用的軟件,它可以畫群體的網(wǎng)絡(luò)圖,社交關(guān)系圖非常擅長(zhǎng)。

3. 常用統(tǒng)計(jì)方法

使用統(tǒng)計(jì)方法,有目的地對(duì)收集到的數(shù)據(jù)進(jìn)行分析處理,并且解讀分析結(jié)果:

?

常用算法

?

4. 數(shù)據(jù)挖掘

數(shù)據(jù)挖掘是以查找隱藏在數(shù)據(jù)中的信息為目標(biāo)的技術(shù),是應(yīng)用算法從大型數(shù)據(jù)庫中提取知識(shí)的過程,這些算法確定信息項(xiàng)之間的隱性關(guān)聯(lián),并且向用戶顯示這些關(guān)聯(lián)。

數(shù)據(jù)挖掘思想來源:假設(shè)檢驗(yàn),模式識(shí)別,人工智能,機(jī)器學(xué)習(xí)

常見數(shù)據(jù)挖掘任務(wù):關(guān)聯(lián)分析,聚類分析,孤立點(diǎn)分析等等

例:啤酒與尿布的故事

5. 展現(xiàn)層:報(bào)表與圖形

展現(xiàn)層在數(shù)據(jù)分析中是一個(gè)很重要的組成部分,在大家的心目中數(shù)據(jù)分析軟件只是讀數(shù)據(jù)和算數(shù)據(jù),結(jié)果算出來就OK了。但其實(shí)結(jié)果算出來以后對(duì)于數(shù)據(jù)分析還遠(yuǎn)沒有結(jié)束,還需要把結(jié)果展現(xiàn)出來,有些時(shí)候可能結(jié)果的展現(xiàn)比計(jì)算花的時(shí)間還要多。

下圖是一個(gè)比較老土的報(bào)表。

?

如果那這種報(bào)表給老板看,那體驗(yàn)效果肯定很差,其實(shí)人的特點(diǎn)對(duì)數(shù)字的感覺不敏感,如果你那一大堆數(shù)字組成的報(bào)表給老板看,老板肯定不是很高興。

人對(duì)圖形會(huì)比較敏感,所以在統(tǒng)計(jì)學(xué)里面通常有比較標(biāo)準(zhǔn)的圖,如餅圖、柱形圖(垂直和水平)、虛線圖、水泡圖、魚骨圖、箱線圖等等。

下面是一張?jiān)诘貓D上展現(xiàn)數(shù)據(jù)的展現(xiàn)形式 

下圖是關(guān)于使用安卓手機(jī)的數(shù)據(jù)展現(xiàn)

?

根據(jù)信息圖顯示,Android先生的頭發(fā)有47%的可能是黑色的,戴眼鏡的幾率為37%,有36%的可能是北美人,30%的可能臉上長(zhǎng)雀斑。71%的時(shí) 間會(huì)穿T恤,下身穿牛仔褲的時(shí)間占了62%。工作只占了38%,玩游戲卻占了62%,平均每個(gè)月會(huì)用掉582MB的數(shù)據(jù)流量。這種圖稱為信息圖,在數(shù)據(jù)分析這個(gè)行業(yè)里面,是數(shù)據(jù)展現(xiàn)工作的主要組成部分。

責(zé)任編輯:龐桂玉 來源: 大數(shù)據(jù)
相關(guān)推薦

2020-04-22 13:27:20

數(shù)據(jù)分析模塊解決

2018-08-23 16:22:40

2021-10-28 10:18:01

數(shù)據(jù)分析矩陣分析法大數(shù)據(jù)

2019-10-17 19:15:22

jQueryJavaScript前端

2019-05-06 16:28:05

數(shù)據(jù)分析python

2016-07-01 14:55:07

開源數(shù)據(jù)庫

2020-11-13 08:14:28

JavaScript

2021-02-19 19:35:53

SVG 形狀元素

2023-06-21 00:10:17

JSONWeb服務(wù)器JavaScript

2018-01-09 20:35:11

Swift編程語言

2020-10-09 08:15:11

JsBridge

2015-08-13 11:25:51

大數(shù)據(jù)

2020-07-28 17:27:53

Nginx 負(fù)載均衡模塊

2019-09-11 08:52:24

MVCMVPMVVM

2021-11-04 10:34:02

JavaScript繼承編程

2021-03-02 18:35:27

SVG開發(fā)空間

2021-02-17 20:40:22

SVG圖像模式

2019-05-21 14:52:57

2019-07-28 20:15:07

2020-06-23 16:28:25

Nginx負(fù)載均衡服務(wù)器
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)