自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

數(shù)據(jù)可視化的秘密和數(shù)據(jù)繪圖的要素

數(shù)據(jù)庫
研究數(shù)據(jù)的方法有很多,比如利用統(tǒng)計(jì)方法,計(jì)算數(shù)據(jù)的平均值和標(biāo)準(zhǔn)差;再比如使用模型,擬合數(shù)據(jù)。數(shù)據(jù)通常是大量的,人腦難以直接把握其中的信息。研究數(shù)據(jù)的最終目的是減小海量數(shù)據(jù)的信息量,將數(shù)據(jù)中的信息客觀的展示出來,并最終整理成簡單的,人腦可以掌握的知識。

數(shù)據(jù)可視化

圖形是直觀呈現(xiàn)數(shù)據(jù)的直接方法。然而,將大量數(shù)據(jù)在同一個(gè)圖表中畫出來并不容易。早期的測繪、天氣數(shù)據(jù)都需要長時(shí)間的手工繪制。隨著計(jì)算機(jī)繪圖功能的開發(fā),手工繪畫已經(jīng)完全被自動(dòng)繪圖程序取代。問題的核心轉(zhuǎn)移為,要以怎樣的方式呈現(xiàn)數(shù)據(jù),以便數(shù)據(jù)中的信息能自然的體現(xiàn)出來。數(shù)據(jù)可視化(data visualisation)就是研究如何利用圖形,展現(xiàn)數(shù)據(jù)中隱含的信息,發(fā)掘數(shù)據(jù)中所包含的規(guī)律。它是一門橫跨計(jì)算機(jī)、統(tǒng)計(jì)、心理學(xué)的綜合學(xué)科,并隨著數(shù)據(jù)挖掘和大數(shù)據(jù)的興起而進(jìn)一步繁榮。

下面一個(gè)視頻來自Hans Rosling。他是瑞典的一位醫(yī)學(xué)家,同時(shí)也是統(tǒng)計(jì)學(xué)家。在下面的這個(gè)BBC制作的視頻中,Hans Rosling用豐富的可視化手段,展示了近兩百年來世界各國人口和收入的演化。我給這段視頻增加了中英文字幕,以方便觀看。如果有錯(cuò)誤,請見諒。

數(shù)據(jù)的信息維度

Hans Rosling所做的數(shù)據(jù)圖值得研究。數(shù)據(jù)展示的基本信息有2個(gè)維度:

1) x軸, 人均收入

2) y軸, 人均壽命

這兩個(gè)軸是作者想要表達(dá)的最基本信息。圖上的每個(gè)點(diǎn)代表一個(gè)國家,該點(diǎn)所在的x-y位置代表了國家的人均收入和人均壽命。人均壽命的刻度線性增長(25歲,50歲,75歲),但人均收入的刻度是指數(shù)增長(400元,4000元,40000元)。人均收入的刻度非常值得注意,否則很容易給人造成錯(cuò)誤的印象。比如說三個(gè)國家A,B,C,人均收入分別為40, 4000, 40000元。盡管在圖表中,A和B,B和C都只相差一個(gè)刻度,但C和B的收入差距實(shí)際上A和B收入差距的10倍!

此外,還有兩個(gè)維度的輔助信息:

3) 圓圈大小,國家人口

4) 圓圈顏色,國家所在區(qū)域

平面可以自然的分為兩個(gè)維度(比如上面的x和y)。為了增加其他維度的信息,我們需要考慮其他的獨(dú)立表示方法。數(shù)據(jù)點(diǎn)可以有尺寸大小和顏色變化。正如這里所顯示的,Han Rosling利用這兩個(gè)圖像特征來表示兩個(gè)獨(dú)立的維度(國家人口,國家所在區(qū)域)。

通過整個(gè)視頻中年份的變化,Han Rosling還有一個(gè)明顯的5)時(shí)間維度。利用動(dòng)畫的形式來記錄信息隨時(shí)間的變化狀況,是數(shù)據(jù)可視化中常用的手段。然而,在使用動(dòng)畫的時(shí)候需要謹(jǐn)慎。動(dòng)畫會(huì)留給觀眾相對比較少的時(shí)間進(jìn)行深入思考。所以在動(dòng)畫過程中需要適當(dāng)?shù)臅和?或者截圖)來顯示一些典型狀況。

***,整個(gè)數(shù)據(jù)還有一個(gè)非常隱藏的信息維度,就是Han Rosling不時(shí)的會(huì)表明某個(gè)圓圈所代表的6)國家名稱。也就是說,國家名稱也是一個(gè)隱含的,隨時(shí)可以獲知的信息。

數(shù)據(jù)可視化

 

眼見為實(shí)?

隨著Han Rosling慷慨激昂的演講,我們被帶往一個(gè)結(jié)論:這個(gè)世界的收入和壽命差距在減小。世界作為一個(gè)整體,變得更加富有也更加健康。

數(shù)據(jù)似乎是在說明這一點(diǎn)。或者不是?

[[112455]]

數(shù)據(jù)可視化

 

比如上面兩個(gè)截圖,被用來說明國家間的差距在減小。然而,我們上面提到,收入的刻度是10倍增長的(這樣的刻度被稱為對數(shù)刻度)。所以當(dāng)一個(gè)國家比較富裕之后,它的財(cái)富增長比較難以在刻度上體現(xiàn)出來。比如同樣增加3600元的收入,可以讓一個(gè)原來收入400元的國家跨入中間區(qū)域,而一個(gè)原來收入40000的國家?guī)缀踉夭粍?dòng)。如果將x軸改為線性,那么國家間人均收入的差距將大大超越這幅圖所帶給人的直觀感受。

(而在不考慮通貨膨脹的情況下,所謂的整體收入增長的結(jié)論也不是很可靠。)

從y軸的信息看,整個(gè)世界的健康水平是提高了。即使是如此,我們依然要小心,比如下面兩幅圖,繪制的是相同的數(shù)據(jù)(標(biāo)普500指數(shù)),唯一的差別在于y軸刻度范圍。

數(shù)據(jù)可視化是否舉得第二張圖的波動(dòng)更加劇烈?但兩張圖是相同的數(shù)據(jù)!可見,刻度的范圍會(huì)影響人們對數(shù)據(jù)的認(rèn)知。小的刻度范圍會(huì)讓人覺得數(shù)據(jù)變化較大(即使數(shù)據(jù)本身還是一樣的數(shù)據(jù))。

因此,一個(gè)圖表是由數(shù)據(jù)繪制方法兩方面構(gòu)成的。圖表并不等同于數(shù)據(jù),繪制方法有可能會(huì)影響人們的主觀認(rèn)識。一個(gè)合格數(shù)據(jù)圖表應(yīng)該盡量客觀的反映數(shù)據(jù)。

(當(dāng)然,一個(gè)熟悉數(shù)據(jù)可視化原理的人,也可能會(huì)利用這些方法故意夸大。這在宣傳海報(bào)中常常見到。)

數(shù)據(jù)繪圖的要素

現(xiàn)在,轉(zhuǎn)換位置思考。假設(shè),我們有一批數(shù)據(jù),那么應(yīng)該怎么來著手呈現(xiàn)呢?這個(gè)問題并不好回答,原因有二:

1) 數(shù)據(jù)中包含有大量的信息維度,我們只能選擇其中的一些而非全部呈現(xiàn)。

2) 數(shù)據(jù)的信息呈現(xiàn)方式多種多樣

我們需要先確定想要繪制的信息維度。比如上面的視頻中,六個(gè)信息維度得到呈現(xiàn)。而在S&P 500的繪圖中,我們只呈現(xiàn)了兩個(gè)維度的信息,時(shí)間和指數(shù)。如果圖像中信息維度比較少,圖表會(huì)比較容易理解; 如果信息維度多,那么圖表會(huì)比較復(fù)雜,但更容易體現(xiàn)多變量之間的關(guān)系。

每個(gè)信息維度都需要一個(gè)坐標(biāo),來表現(xiàn)數(shù)據(jù)在該維度上的取值。在Hans Rosling的繪圖中,六個(gè)坐標(biāo)分別是:水平x軸,豎直y軸,圓圈顏色,圓圈大小,動(dòng)畫幀所對應(yīng)的時(shí)間,以及文字標(biāo)明的國家名。這六個(gè)維度之間相互獨(dú)立,所以可以互不干擾的反映各個(gè)維度上的取值。再比如下面的條形圖和餅圖。它們都是在反映二維信息。條形圖采取了x-y的坐標(biāo)。餅圖采取了文字-圓心角的坐標(biāo)。

數(shù)據(jù)可視化

數(shù)據(jù)可視化

每一個(gè)坐標(biāo)都需要有刻度。讀者需要根據(jù)刻度獲知數(shù)據(jù)的準(zhǔn)確取值。刻度可以是均勻線性增長的,也可以是不均勻增長(比如對數(shù)刻度)??潭鹊倪x擇要根據(jù)數(shù)據(jù)的特征。如果不同數(shù)據(jù)樣本在某個(gè)維度上取值差異較大,就適用于對數(shù)取值。比如下面這幅xkcd 1162的畫,就展示了不采用對數(shù)刻度的惡果。

數(shù)據(jù)可視化

Log Scale (xkcd 1162)

此外,刻度還需要有范圍。正如再S&P 500的繪圖中我們談到的,過大的刻度范圍會(huì)從視覺上減小波動(dòng)。一個(gè)常用的刻度范圍是數(shù)據(jù)在該維度上的***和最小值。但一些情況下,***和最小值可能是由于錯(cuò)誤狀況造成的不可靠數(shù)據(jù),所以會(huì)采取平均值加減標(biāo)準(zhǔn)差的范圍。

在維度和刻度都選取好了之后,要再坐標(biāo)軸旁標(biāo)注這是什么維度,維度的單位,并在坐標(biāo)軸上標(biāo)注刻度值。這樣,我們才完整了數(shù)據(jù)在該維度上的信息。一個(gè)有坐標(biāo)軸,有刻度但沒有標(biāo)注的數(shù)據(jù)繪圖,是失敗的繪圖。讀者根本無法從中獲知數(shù)據(jù)的真實(shí)狀況。

(在Hans Rosling的繪圖中,有兩個(gè)維度的信息不完整:人口總數(shù)和國家名稱)

在上面完成了之后,我們需要進(jìn)一步說明數(shù)據(jù)來源。我們可以采用增加文字說明的方式來實(shí)現(xiàn)這一點(diǎn)(比如增加一個(gè)標(biāo)題)。

總結(jié)

數(shù)據(jù)可視化非常有趣。它通過技術(shù)的手段,將枯燥的數(shù)據(jù)變得生動(dòng)可愛。隨著大數(shù)據(jù)時(shí)代的到來以及網(wǎng)絡(luò)傳播的發(fā)達(dá),數(shù)據(jù)可視化會(huì)成為一項(xiàng)值得掌握的技能。這篇文章里,我通過一個(gè)很棒的視頻說明了數(shù)據(jù)可視化的一些要點(diǎn),特別是信息維度的問題。我會(huì)在以后介紹一些常用的繪圖工具,將理論轉(zhuǎn)化為實(shí)踐。

責(zé)任編輯:彭凡 來源: 36大數(shù)據(jù)
相關(guān)推薦

2023-04-04 08:10:45

SQL數(shù)據(jù)可視化

2015-11-06 14:04:54

數(shù)據(jù)可視化信息圖

2021-08-30 11:40:06

PythonSeaborn可視化

2017-07-28 14:43:49

大數(shù)據(jù)數(shù)據(jù)可視化秘密

2018-07-26 16:32:31

數(shù)據(jù)吃雞游戲

2018-10-16 15:12:48

2018-10-18 11:03:06

2020-03-11 14:39:26

數(shù)據(jù)可視化地圖可視化地理信息

2017-10-14 13:54:26

數(shù)據(jù)可視化數(shù)據(jù)信息可視化

2017-02-23 09:42:53

大數(shù)據(jù)數(shù)據(jù)可視化技術(shù)誤區(qū)

2017-07-18 15:15:57

數(shù)據(jù)可視化細(xì)節(jié)層次分析

2017-10-31 09:38:53

大數(shù)據(jù)數(shù)據(jù)可視化Python

2014-05-28 14:49:22

Excel數(shù)據(jù)可視化

2017-02-16 09:30:04

數(shù)據(jù)可視化信息

2020-08-04 13:40:02

數(shù)據(jù)可視化熱力圖表格

2014-05-12 10:02:56

數(shù)據(jù)可視化

2019-12-18 14:40:09

數(shù)據(jù)可視化后端技術(shù)Python

2015-08-20 10:04:40

可視化

2024-03-07 09:00:04

Rust數(shù)據(jù)可視化

2017-07-13 09:21:05

大數(shù)據(jù)數(shù)據(jù)可視化
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號