自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

數(shù)據(jù)可視化的4個(gè)支柱:分布,關(guān)系,組成,比較

大數(shù)據(jù) 數(shù)據(jù)可視化
幾個(gè)世紀(jì)以前,科學(xué)家沒有用相機(jī)在顯微鏡下拍攝遙遠(yuǎn)星系或微小細(xì)菌的照片。 圖紙是傳達(dá)觀察,思想甚至理論的主要媒介。 實(shí)際上,對(duì)于科學(xué)家來說,能夠繪制抽象思想和物體的能力是一項(xiàng)必不可少的技能(請(qǐng)查看William Playfair從1700年代開始的收藏)。

 數(shù)據(jù)可視化原理

幾個(gè)世紀(jì)以前,科學(xué)家沒有用相機(jī)在顯微鏡下拍攝遙遠(yuǎn)星系或微小細(xì)菌的照片。 圖紙是傳達(dá)觀察,思想甚至理論的主要媒介。 實(shí)際上,對(duì)于科學(xué)家來說,能夠繪制抽象思想和物體的能力是一項(xiàng)必不可少的技能(請(qǐng)查看William Playfair從1700年代開始的收藏)。

 

數(shù)據(jù)可視化的4個(gè)支柱:分布,關(guān)系,組成,比較

 

> A bar chart showing exports and imports of Scotland (William Playfair: public domain)

情況仍然如此。 我們無法拍攝分布變量或其相關(guān)性的照片。 相反,我們通過現(xiàn)代工具和技術(shù)通過圖紙和插圖(也稱為數(shù)據(jù)可視化)進(jìn)行交流。

數(shù)據(jù)集包含一個(gè)或多個(gè)變量,我們可以通過多種方式可視化每個(gè)變量及其與其他變量的交互。 選擇哪種可視化取決于數(shù)據(jù)和我們要交流的信息類型。 但是,從根本上講,它們分為四種不同的類型:

  • 單個(gè)變量的分布
  • 兩個(gè)變量之間的關(guān)系
  • 一個(gè)或多個(gè)變量的組成
  • 不同類別/個(gè)人之間的比較

在本文中,我將通過插圖分解這四個(gè)數(shù)據(jù)可視化的基石。

1)分布

統(tǒng)計(jì)和數(shù)據(jù)科學(xué)中的一個(gè)重要概念是分布。 分布通常是指結(jié)果發(fā)生的可能性。 在分配100張硬幣的情況下,會(huì)有多少正面和反面? 這樣的頻率分布以直方圖或曲線表示。

下面是游泳課中學(xué)生身高分布的示意圖。 x軸顯示不同的身高類別,y軸顯示每個(gè)類別的學(xué)生人數(shù)。

 

數(shù)據(jù)可視化的4個(gè)支柱:分布,關(guān)系,組成,比較

 

> Frequency distribution of student heights (drawing: author)

那是頻率分布。 但是還有另一種分布-更好地稱為分散-可以顯示變量相對(duì)于其中心趨勢(shì)如何分散/分布。

色散的經(jīng)典表示是箱線圖。

 

數(shù)據(jù)可視化的4個(gè)支柱:分布,關(guān)系,組成,比較

 

> Decomposition of box plot to show the dispersion of values of a variable

上面的箱線圖表示多年以來周六航空乘客數(shù)量的分布。 這個(gè)單一的圖顯示了太多的信息-周六的平均乘客數(shù)/中位數(shù),最小和最大乘客數(shù),異常值等等!

2)關(guān)系

樹木隨著年齡的增長(zhǎng)變得越來越高。 那是身高和年齡這兩個(gè)變量之間的關(guān)系。

身高=(年齡)

在另一個(gè)示例中,房屋價(jià)格取決于床位數(shù),浴室數(shù)量,位置,平方英尺等。這是一個(gè)因變量與許多解釋變量之間的關(guān)系。

價(jià)格=的(床,浴室,位置,面積)

如果僅將數(shù)據(jù)集視為數(shù)字,則無法識(shí)別這些關(guān)系。 但是實(shí)際上,借助良好的可視化,您可以無需進(jìn)行復(fù)雜的統(tǒng)計(jì)分析。

 

數(shù)據(jù)可視化的4個(gè)支柱:分布,關(guān)系,組成,比較

 

> Relationship between age and height of a class of students

3)比較

 

數(shù)據(jù)可視化的第三個(gè)基石是比較。 這種視覺材料將數(shù)據(jù)集中的多個(gè)變量或單個(gè)變量?jī)?nèi)的多個(gè)類別進(jìn)行比較。

我們來看看以下兩個(gè)視覺效果:

 

數(shù)據(jù)可視化的4個(gè)支柱:分布,關(guān)系,組成,比較

 

> Visuals to show comparisons

左圖比較條形圖上兩組觀察值(科學(xué)家與律師)之間的變量(工資)。 右側(cè)面板也是一個(gè)比較圖-在這種情況下,是比較兩個(gè)組(英國和加拿大)之間但沿時(shí)間維度的變量(GDP)。

4)組成

您聽說過堆積條形圖嗎? 但我確定您知道餅圖是什么。

這些圖表的目的是以絕對(duì)數(shù)和標(biāo)準(zhǔn)化形式(例如百分比)顯示一個(gè)或多個(gè)變量的組成。

構(gòu)成圖是當(dāng)今一些有限的用例的老式可視化技術(shù)(您是否真的需要餅圖來顯示黃色10%和紅色15%的組成?)。 但是,有時(shí)他們可以以視覺上的審美和熟悉的老式方式呈現(xiàn)信息。

 

數(shù)據(jù)可視化的4個(gè)支柱:分布,關(guān)系,組成,比較

 

> Composition plots: Stacked bar chart (left) and pie chart (right)

最后的話

本文的目的是討論數(shù)據(jù)可視化的四個(gè)基石:分布,關(guān)系,比較和組合。 在學(xué)習(xí)可視化工具和技術(shù)之前,重要的是要了解可視化的目的和要傳達(dá)的信息。 在以后的文章中,我將用python和R編程語言寫一些特定的工具,包括matplotlib,seabon和ggplot2。 敬請(qǐng)關(guān)注!

責(zé)任編輯:華軒 來源: 今日頭條
相關(guān)推薦

2022-05-16 11:39:46

云架構(gòu)云可視化CROPS

2020-03-11 14:39:26

數(shù)據(jù)可視化地圖可視化地理信息

2020-05-26 14:58:56

數(shù)據(jù)可視化數(shù)據(jù)數(shù)據(jù)故事

2017-07-18 15:15:57

數(shù)據(jù)可視化細(xì)節(jié)層次分析

2017-07-13 09:21:05

大數(shù)據(jù)數(shù)據(jù)可視化

2017-10-14 13:54:26

數(shù)據(jù)可視化數(shù)據(jù)信息可視化

2015-11-11 14:26:31

數(shù)據(jù)可視化術(shù)語

2017-06-19 08:30:35

大數(shù)據(jù)數(shù)據(jù)可視化報(bào)表

2022-04-21 23:46:59

機(jī)器學(xué)習(xí)數(shù)據(jù)科學(xué)Python

2025-02-10 00:45:00

pairplotheatmaplmplot

2022-09-26 23:43:26

數(shù)據(jù)可視化數(shù)據(jù)挖掘電子書

2020-07-22 10:30:54

數(shù)據(jù)可視化分析平臺(tái)分析工具

2021-11-07 07:53:18

數(shù)據(jù)可視化圖形數(shù)據(jù)

2017-07-28 14:43:49

大數(shù)據(jù)數(shù)據(jù)可視化秘密

2017-02-23 09:42:53

大數(shù)據(jù)數(shù)據(jù)可視化技術(shù)誤區(qū)

2022-09-13 14:15:20

概率分布可視化Python

2018-10-16 15:12:48

2018-10-18 11:03:06

2024-01-29 13:02:00

數(shù)據(jù)可視化庫數(shù)組

2020-03-07 21:48:46

物聯(lián)網(wǎng)可視化技術(shù)設(shè)計(jì)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)