自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

在R、Python和Julia中常用的數(shù)據(jù)可視化技術

新聞 大數(shù)據(jù)
俗話說“一圖勝千言”。通過各種圖片和圖形化展示,我們可以更清晰地表達很多抽象概念、理論、數(shù)據(jù)模式或某些想法。

俗話說“一圖勝千言”。通過各種圖片和圖形化展示,我們可以更清晰地表達很多抽象概念、理論、數(shù)據(jù)模式或某些想法。在本章中,我們首先解釋為什么應該關心數(shù)據(jù)可視化。然后,我們將討論幾種在R、Python和Julia中常用的數(shù)據(jù)可視化技術。此外,我們還將介紹幾個特殊主題,例如如何生成圖形、餅圖和條形圖,如何添加標題、趨勢線、希臘字母,以及如何輸出圖形。在本章的最后,我們將討論一個可選話題,即動態(tài)表示以及如何將它們保存為HTML文件。

本章包含以下主題:

  • 數(shù)據(jù)可視化的重要性
  • R數(shù)據(jù)可視化
  • Python數(shù)據(jù)可視化
  • Julia數(shù)據(jù)可視化

1. 數(shù)據(jù)可視化的重要性

對于數(shù)據(jù)科學和商業(yè)分析領域的用戶或研究人員來說,使用各種類型的圖形、餅圖、條形圖以及其他視覺手段展示數(shù)據(jù)中隱含的潛在趨勢或模式對理解數(shù)據(jù)至關重要,同時能夠幫助研究人員更好地向觀眾或客戶呈現(xiàn)數(shù)據(jù)。這樣做主要有以下幾個原因。

第一,語言有時很難描述我們的發(fā)現(xiàn),尤其是存在幾種模式或諸多影響因素時,通過幾個單獨的圖形和一個連接圖則可以更好地理解和解釋復雜的關系。

第二,我們可以使用圖形或圖片來解釋某些算法,例如二分法(參見4.9節(jié))。

第三,我們也可以使用相對大小來表示不同的含義。在金融領域,一個基本概念叫作貨幣時間價值(Time Value of Money,TVM),意思是“一鳥在手勝過雙鳥在林”。今天的100美元比同等數(shù)額的未來現(xiàn)金流更有價值。通過不同尺寸的不同圓圈表示發(fā)生在未來不同時間點上的現(xiàn)金流的現(xiàn)值,可以幫助讀者更清楚地理解這個概念。

第四,我們的數(shù)據(jù)可能非?;靵y,所以簡單地展示數(shù)據(jù)點可能會使讀者更加困惑。如果我們能用一個簡單的圖形來展示它的主要特征、屬性或模式將大有益處。

2. R數(shù)據(jù)可視化

首先,我們來看R中最簡單的圖形。利用下面一行R代碼,我們畫出了從

在R、Python和Julia中常用的數(shù)據(jù)可視化技術

在R、Python和Julia中常用的數(shù)據(jù)可視化技術

范圍內(nèi)的余弦函數(shù)值:

  1. > plot(cos,-2*pi,2*pi) 

對應的圖形如圖4.1所示。

在R、Python和Julia中常用的數(shù)據(jù)可視化技術

圖4.1 余弦函數(shù)圖

直方圖也有助于我們理解數(shù)據(jù)點的分布。圖4.1就是一個簡單的例子。首先,我們生成一組服從標準正態(tài)分布的隨機數(shù)。為了便于說明,第一行的set.seed()命令其實是多余的,它的存在將保證所有使用相同seed值(本例中為333)的用戶將得到相同的隨機數(shù)集合。

換句話說,在輸入值相同的情況下,直方圖看起來將是一樣的。在下一行中,rnorm(n)函數(shù)畫出了n個服從標準正態(tài)分布的隨機數(shù)。接著,最后一行使用hist()函數(shù)生成一個直方圖:

  1. > set.seed(333
  2. > data<-rnorm(5000
  3. > hist(data) 

相關直方圖如圖4.2所示。

在R、Python和Julia中常用的數(shù)據(jù)可視化技術

圖4.2 示例直方圖

注意,代碼rnorm(5000)與rnorm(5000,mean=0,sd=1)相同,其中含義為均值的默認值為0,sd的默認值為1。下一個R程序?qū)闃藴收龖B(tài)分布左側的尾巴填充陰影:

  1. x<-seq(-3,3,length=100
  2. y<-dnorm(x,mean=0,sd=1
  3. title<-"Area under standard normal dist & x less than -2.33" 
  4. yLabel<-"standard normal distribution" 
  5. xLabel<-"x value" 
  6. plot(x,y,type="l",lwd=3,col="black",main=title,xlab=xLabel,ylab=yLabel) 
  7. x<-seq(-3,-2.33,length=100
  8. y<-dnorm(x,mean=0,sd=1
  9. polygon(c(-4,x,-2.33),c(0,y,0),col="red"

相關圖形如圖4.3所示。

在R、Python和Julia中常用的數(shù)據(jù)可視化技術

圖4.3 標準正態(tài)分布示例圖

注意,根據(jù)上面代碼中的最后一行可知,陰影區(qū)域為紅色。

在探索各種數(shù)據(jù)集的屬性方面,R包rattle非常有用。如果rattle包沒有預先安裝,那么我們可以運行以下代碼安裝它:

  1. > install.packages("rattle"

然后,運行以下代碼啟動它:

  1. > library(rattle) 
  2. > rattle() 

單擊回車鍵后,可以看到圖4.4中的結果。

在R、Python和Julia中常用的數(shù)據(jù)可視化技術

圖4.4 Rattle包啟動界面

首先,我們需要導入某些數(shù)據(jù)集。我們從7種可能的格式中選擇數(shù)據(jù)源,如文件、 ARFF、ODBC、R數(shù)據(jù)集和RData文件,并且可以從此處加載數(shù)據(jù)。

最簡單的方法是使用Library選項,它將列出rattle包中所有內(nèi)嵌的數(shù)據(jù)集。單擊Library后,我們可以看到內(nèi)嵌數(shù)據(jù)集的列表。假設單擊左上角的Execute后我們選擇了acme:boot:Monthly Excess Returns,那么我們將看到圖4.5中的界面。

在R、Python和Julia中常用的數(shù)據(jù)可視化技術

圖4.5 導入數(shù)據(jù)集界面

現(xiàn)在,我們就可以研究數(shù)據(jù)集的屬性了。點擊Explore后,我們可以使用各種圖形來查看數(shù)據(jù)集。假設我們選擇Distribution,并勾選Benford復選框,那么我們就可以參考圖4.6來了解更多細節(jié)。

在R、Python和Julia中常用的數(shù)據(jù)可視化技術

圖4.6 查看數(shù)據(jù)集屬性信息

單擊Execute之后,將彈出圖4.7所示內(nèi)容。圖4.7上方的紅線顯示了根據(jù)本福特定律(Benford Law)算出的1~9每個數(shù)字的頻率,而底部的藍線則展示了數(shù)據(jù)集的屬性。請注意,如果你的計算機系統(tǒng)中還沒有安裝reshape包,則此命令要么無法運行,要么會請求許可將該包安裝到你的計算機上。

在R、Python和Julia中常用的數(shù)據(jù)可視化技術

圖4.7 數(shù)據(jù)集的Benford定律符合情況

在圖4.7中,兩條線之間的巨大差異表明我們的數(shù)據(jù)不符合本福特定律建議的分布規(guī)律。在現(xiàn)實世界中,我們知道很多人、事件和經(jīng)濟活動是相互關聯(lián)的,使用各種圖形來展示這樣一個多節(jié)點、相互連接的圖像是一個很好的辦法。如果沒有預裝qgraph包,那么用戶必須運行以下程序來安裝它:

  1. > install.packages("qgraph"

下一個程序展示了從a到b、a到c等節(jié)點之間的連接:

  1. library(qgraph) 
  2. stocks<-c("IBM","MSFT","WMT"
  3. x<-rep(stocks, each = 3
  4. y<-rep(stocks, 3
  5. correlation<-c(0,10,3,10,0,3,3,3,0
  6. data <- as.matrix(data.frame(from =x, to =y, width =correlation)) 
  7. qgraph(data, mode = "direct", edge.color = rainbow(9)) 

如果將數(shù)據(jù)展示出來,該程序的意義就會更加清晰。相關性展示出這些股票之間聯(lián)系的緊密程度。注意,所有這些值都是隨機選擇的,并沒有現(xiàn)實意義。

  1. > data 
  2.    from  to    width 
  3. [1,] "IBM" "IBM"  " 0" 
  4. [2,] "IBM" "MSFT" "10" 
  5. [3,] "IBM" "WMT"  " 3" 
  6. [4,] "MSFT" "IBM"  "10" 
  7. [5,] "MSFT" "MSFT" " 0" 
  8. [6,] "MSFT" "WMT"  " 3" 
  9. [7,] "WMT" "IBM"  " 3" 
  10. [8,] "WMT" "MSFT" " 3" 
  11. [9,] "WMT" "WMT"  " 0" 

第3個變量的值越大表明前面兩個變量的相關性越強。例如,IBM與MSFT的相關性更強(值為10),大于IBM與WMT的相關性(值為3)。圖4.8展示了這3只股票的相關性強弱程度。

在R、Python和Julia中常用的數(shù)據(jù)可視化技術

圖4.8 IBM、MSFT和WMT股票的相關性強弱程度

以下程序展示了5個因素之間的關系或相互聯(lián)系:

  1. library(qgraph) 
  2. data(big5) 
  3. data(big5groups) 
  4. title("Correlations among 5 factors",line = 2.5
  5. qgraph(cor(big5),minimum = 0.25,cut = 0.4,vsize = 1.5
  6.   groups = big5groups,legend = TRUE, borders = FALSE,theme = 'gray'

相關圖形如圖4.9所示。

在R、Python和Julia中常用的數(shù)據(jù)可視化技術

圖4.9 5個因素之間的相互聯(lián)系

3. Python數(shù)據(jù)可視化

Python中圖形和圖像方面使用最廣泛的包是matplotlib。下面的程序僅僅包含3行代碼,所以可以看作是最簡單的生成一個圖形的Python程序:

  1. import matplotlib.pyplot as plt 
  2. plt.plot([2,3,8,12]) 
  3. plt.show() 

第一行命令會上傳一個名為matplotlib.pyplot的Python包,并將其重命名為plt。

注意,我們甚至可以使用其他簡短的名稱,但通常使用plt表示matplotlib包。第二行繪制了4個點,最后一行總結了整個過程。完整圖形如圖4.10所示。

在下一個例子中,我們?yōu)閤和y添加了標簽,以及一個標題。所使用的函數(shù)是余弦函數(shù),其中輸入值范圍為

在R、Python和Julia中常用的數(shù)據(jù)可視化技術

在R、Python和Julia中常用的數(shù)據(jù)可視化技術

  1. import scipy as sp 
  2. import matplotlib.pyplot as plt 
  3. x=sp.linspace(-2*sp.pi,2*sp.pi,200,endpoint=True) 
  4. y=sp.cos(x) 
  5. plt.plot(x,y) 
  6. plt.xlabel("x-value"
  7. plt.ylabel("Cosine function"
  8. plt.title("Cosine curve from -2pi to 2pi"
  9. plt.show() 
在R、Python和Julia中常用的數(shù)據(jù)可視化技術

圖4.10 matplotlib包生成的圖形示例

漂亮的余弦曲線如圖4.11所示。

如果我們今天收到100美元,它將比兩年后收到的更有價值,這個概念叫作貨幣時間價值,因為我們現(xiàn)在可以將100美元存入銀行來賺取利息。下面的Python程序使用size來說明此概念。

  1. import matplotlib.pyplot as plt 
  2. fig = plt.figure(facecolor='white'
  3. dd = plt.axes(frameon=False) 
  4. dd.set_frame_on(False) 
  5. dd.get_xaxis().tick_bottom() 
  6. dd.axes.get_yaxis().set_visible(False) 
  7. x=range(0,11,2
  8. x1=range(len(x),0,-1
  9. y = [0]*len(x); 
  10. plt.annotate("$100 received 
  11. today",xy=(0,0),xytext=(2,0.15),arrowprops=dict(facecolor='black',shrink=2)) 
  12. plt.annotate("$100 received in 2 
  13. years",xy=(2,0),xytext=(3.5,0.10),arrowprops=dict(facecolor='black',shrink= 
  14. 2)) 
  15. s = [50*2.5**n for n in x1]; 
  16. plt.title("Time value of money "
  17. plt.xlabel("Time (number of years)"
  18. plt.scatter(x,y,s=s); 
  19. plt.show() 
在R、Python和Julia中常用的數(shù)據(jù)可視化技術

圖4.11 為圖形添加x和y軸標簽及標題

相關的圖形如圖4.12所示。同樣,不同尺寸表示它們現(xiàn)值的相對大小。

在R、Python和Julia中常用的數(shù)據(jù)可視化技術

圖4.12 貨幣時間價值概念解釋

4. Julia數(shù)據(jù)可視化

對于下面的Julia程序,我們使用了一個名為Plots的包,用于安裝此包的命令為Pkg.add("Plots")。這里,我們通過一個Jupyter notebook運行Julia程序。圖4.13展示了一個Julia程序。

在R、Python和Julia中常用的數(shù)據(jù)可視化技術

圖4.13 Julia程序

單擊菜單欄上的Kernel項目,然后單擊Restart and Run All,我們得到圖4.14所示的結果。

在R、Python和Julia中常用的數(shù)據(jù)可視化技術

圖4.14 運行結果圖

同樣地,srand(123)命令保證使用相同隨機種子的任何用戶都會得到相同的隨機數(shù)集合。為此,用戶會得到與前面相同的圖形。下一個例子是使用Julia包PyPlot繪制的散點圖。

  1. using PyPlot 
  2. n=50 
  3. srand(333
  4. x = 100*rand(n) 
  5. y = 100*rand(n) 
  6. areas = 800*rand(n) 
  7. fig = figure("pyplot_scatterplot",figsize=(10,10)) 
  8. ax = axes() 
  9. scatter(x,y,s=areas,alpha=0.5
  10. title("using PyPlot: Scatter Plot"
  11. xlabel("X"
  12. ylabel("Y"
  13. grid("on"

相關圖形如圖4.15所示。

在R、Python和Julia中常用的數(shù)據(jù)可視化技術

圖4.15 Julia包PyPlot繪制散點圖示例

下一個Julia程序借鑒自Sargent和Stachurski的程序。

  1. using QuantEcon: meshgrid 
  2. using PyPlot:surf 
  3. using Plots 
  4. n = 50 
  5. x = linspace(-33, n) 
  6. y = x 
  7. z = Array{Float64}(n, n) 
  8. f(x, y) = cos(x^2 + y^2) / (1 + x^2 + y^2
  9. for i in 1:n 
  10.   for j in 1:n 
  11.     z[j, i] = f(x[i], y[j]) 
  12.   end 
  13. end 
  14. xgrid, ygrid = meshgrid(x, y) 
  15. surf(xgrid, ygrid, z',alpha=0.7

令人印象深刻的圖形如圖4.16所示。

在R、Python和Julia中常用的數(shù)據(jù)可視化技術

圖4.16 Sargent和Stachurski程序結果圖

 

 

責任編輯:張燕妮 來源: 今日頭條
相關推薦

2019-12-18 14:40:09

數(shù)據(jù)可視化后端技術Python

2023-12-25 15:51:07

探索性數(shù)據(jù)分析數(shù)據(jù)可視化

2017-02-23 09:42:53

大數(shù)據(jù)數(shù)據(jù)可視化技術誤區(qū)

2019-06-23 15:44:24

Matplotlib可視化圖表

2024-08-20 18:16:49

數(shù)據(jù)可視化Python

2020-03-11 14:39:26

數(shù)據(jù)可視化地圖可視化地理信息

2020-12-22 14:14:25

大數(shù)據(jù)數(shù)據(jù)可視化

2017-10-14 13:54:26

數(shù)據(jù)可視化數(shù)據(jù)信息可視化

2017-10-31 09:38:53

大數(shù)據(jù)數(shù)據(jù)可視化Python

2022-08-26 09:15:58

Python可視化plotly

2022-02-23 09:50:52

PythonEchartspyecharts

2020-05-26 11:34:46

可視化WordCloud

2017-02-20 20:25:00

數(shù)據(jù)可視化報表工具可視化

2017-06-29 11:26:08

Python數(shù)據(jù)可視化

2020-09-02 13:56:03

Python可視化數(shù)據(jù)

2012-11-13 10:52:15

大數(shù)據(jù)3D可視化

2018-11-30 10:28:44

Python反爬網(wǎng)頁

2017-10-17 11:58:54

R語言UpSetR可視化

2015-11-06 14:04:54

數(shù)據(jù)可視化信息圖

2024-04-25 07:00:00

多人協(xié)同可視化協(xié)同編輯
點贊
收藏

51CTO技術棧公眾號