自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

超硬核的 Python 數(shù)據(jù)可視化教程!

開(kāi)發(fā) 后端 數(shù)據(jù)可視化
python中最基本的作圖庫(kù)就是matplotlib,是一個(gè)最基礎(chǔ)的Python可視化庫(kù),一般都是從matplotlib上手Python數(shù)據(jù)可視化,然后開(kāi)始做縱向與橫向拓展。

Python實(shí)現(xiàn)可視化的三個(gè)步驟:

  • 確定問(wèn)題,選擇圖形
  • 轉(zhuǎn)換數(shù)據(jù),應(yīng)用函數(shù)
  • 參數(shù)設(shè)置,一目了然

1、首先,要知道我們用哪些庫(kù)來(lái)畫(huà)圖?

matplotlib

python中最基本的作圖庫(kù)就是matplotlib,是一個(gè)最基礎(chǔ)的Python可視化庫(kù),一般都是從matplotlib上手Python數(shù)據(jù)可視化,然后開(kāi)始做縱向與橫向拓展。

Seaborn

是一個(gè)基于matplotlib的高級(jí)可視化效果庫(kù),針對(duì)的點(diǎn)主要是數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)中的變量特征選取,seaborn可以用短小的代碼去繪制描述更多維度數(shù)據(jù)的可視化效果圖

其他庫(kù)還包括

Bokeh(是一個(gè)用于做瀏覽器端交互可視化的庫(kù),實(shí)現(xiàn)分析師與數(shù)據(jù)的交互);Mapbox(處理地理數(shù)據(jù)引擎更強(qiáng)的可視化工具庫(kù))等等

本篇文章主要使用matplotlib進(jìn)行案例分析

第一步:確定問(wèn)題,選擇圖形

業(yè)務(wù)可能很復(fù)雜,但是經(jīng)過(guò)拆分,我們要找到我們想通過(guò)圖形表達(dá)什么具體問(wèn)題。分析思維的訓(xùn)練可以學(xué)習(xí)《麥肯錫方法》和《金字塔原理》中的方法。

這是網(wǎng)上的一張關(guān)于圖表類(lèi)型選擇的總結(jié)。

在python中,我們可以總結(jié)為以下四種基本視覺(jué)元素來(lái)展現(xiàn)圖形:

  • 點(diǎn):scatter plot 二維數(shù)據(jù),適用于簡(jiǎn)單二維關(guān)系;
  • 線:line plot 二維數(shù)據(jù),適用于時(shí)間序列;
  • 柱狀:bar plot 二維數(shù)據(jù),適用于類(lèi)別統(tǒng)計(jì);
  • 顏色:heatmap 適用于展示第三維度;

數(shù)據(jù)間存在分布,構(gòu)成,比較,聯(lián)系以及變化趨勢(shì)等關(guān)系。對(duì)應(yīng)不一樣的關(guān)系,選擇相應(yīng)的圖形進(jìn)行展示。

第二步:轉(zhuǎn)換數(shù)據(jù),應(yīng)用函數(shù)

數(shù)據(jù)分析和建模方面的大量編程工作都是用在數(shù)據(jù)準(zhǔn)備的基礎(chǔ)上的:加載、清理、轉(zhuǎn)換以及重塑。我們可視化步驟也需要對(duì)數(shù)據(jù)進(jìn)行整理,轉(zhuǎn)換成我們需要的格式再套用可視化方法完成作圖。

下面是一些常用的數(shù)據(jù)轉(zhuǎn)換方法:

  • 合并:merge,concat,combine_frist(類(lèi)似于數(shù)據(jù)庫(kù)中的全外連接)
  • 重塑:reshape;軸向旋轉(zhuǎn):pivot(類(lèi)似excel數(shù)據(jù)透視表)
  • 去重:drop_duplicates
  • 映射:map
  • 填充替換:fillna,replace
  • 重命名軸索引:rename

將分類(lèi)變量轉(zhuǎn)換‘啞變量矩陣’的get_dummies函數(shù)以及在df中對(duì)某列數(shù)據(jù)取限定值等等。

函數(shù)則根據(jù)第一步中選擇好的圖形,去找python中對(duì)應(yīng)的函數(shù)。

第三步:參數(shù)設(shè)置,一目了然

原始圖形畫(huà)完后,我們可以根據(jù)需求修改顏色(color),線型(linestyle),標(biāo)記(maker)或者其他圖表裝飾項(xiàng)標(biāo)題(Title),軸標(biāo)簽(xlabel,ylabel),軸刻度(set_xticks),還有圖例(legend)等,讓圖形更加直觀。

第三步是在第二步的基礎(chǔ)上,為了使圖形更加清晰明了,做的修飾工作。具體參數(shù)都可以在制圖函數(shù)中找到。

2、可視化作圖基礎(chǔ)

Matplotlib作圖基礎(chǔ)

  1. #導(dǎo)入包 
  2. import numpy as np 
  3. import pandas as pd 
  4. import matplotlib.pyplot as plt 

Figure和Subplot

matplotlib的圖形都位于Figure(畫(huà)布)中,Subplot創(chuàng)建圖像空間。不能通過(guò)figure繪圖,必須用add_subplot創(chuàng)建一個(gè)或多個(gè)subplot。

figsize可以指定圖像尺寸。

  1. figure() 
  2. <Figure size 432x288 with 0 Axes> 
  3. #創(chuàng)建subplot,221表示這是2行2列表格中的第1個(gè)圖像。 
  4. ax1 = fig.add_subplot(221) 
  5. #但現(xiàn)在更習(xí)慣使用以下方法創(chuàng)建畫(huà)布和圖像,2,2表示這是一個(gè)2*2的畫(huà)布,可以放置4個(gè)圖像 
  6. fig , axes = plt.subplots(2,2,sharex=True,sharey=True
  7. #plt.subplot的sharex和sharey參數(shù)可以指定所有的subplot使用相同的x,y軸刻度。 

 

利用Figure的subplots_adjust方法可以調(diào)整間距。

  1. subplots_adjust(left=None,bottom=None,right=None,top=None,wspace=None,hspace=None) 

 

顏色color,標(biāo)記marker,和線型linestyle

matplotlib的plot函數(shù)接受一組X和Y坐標(biāo),還可以接受一個(gè)表示顏色和線型的字符串縮寫(xiě):'g--',表示顏色是綠色green,線型是'--'虛線。也可以使用參數(shù)明確的指定。

線型圖還可以加上一些標(biāo)記(marker),來(lái)突出顯示數(shù)據(jù)點(diǎn)的位置。標(biāo)記也可以放在格式字符串中,但標(biāo)記類(lèi)型和線型必須放在顏色后面。

  1. plt.plot(np.random.randn(30),color='g',linestyle='--',marker='o'
  2. [<matplotlib.lines.Line2D at 0x8c919b0>] 

 

 

刻度,標(biāo)簽和圖例

plt的xlim、xticks和xtickslabels方法分別控制圖表的范圍和刻度位置和刻度標(biāo)簽。

調(diào)用方法時(shí)不帶參數(shù),則返回當(dāng)前的參數(shù)值;調(diào)用時(shí)帶參數(shù),則設(shè)置參數(shù)值。

  1. plt.plot(np.random.randn(30),color='g',linestyle='--',marker='o'
  2. plt.xlim() #不帶參數(shù)調(diào)用,顯示當(dāng)前參數(shù); 
  3. #可將xlim替換為另外兩個(gè)方法試試 
  4. (-1.4500000000000002, 30.45) 

 

  1. plt.plot(np.random.randn(30),color='g',linestyle='--',marker='o'
  2. plt.xlim([0,15]) #橫軸刻度變成0-15 
  3. (0, 15) 

 

設(shè)置標(biāo)題,軸標(biāo)簽,刻度以及刻度標(biāo)簽

  1. fig = plt.figure();ax = fig.add_subplot(1,1,1) 
  2. ax.plot(np.random.randn(1000).cumsum()) 
  3. ticks = ax.set_xticks([0,250,500,750,1000]) #設(shè)置刻度值 
  4. labels = ax.set_xticklabels(['one','two','three','four','five']) #設(shè)置刻度標(biāo)簽 
  5. ax.set_title('My first Plot') #設(shè)置標(biāo)題 
  6. ax.set_xlabel('Stage') #設(shè)置軸標(biāo)簽 
  7. Text(0.5,0,'Stage'

 

添加圖例

圖例legend是另一種用于標(biāo)識(shí)圖標(biāo)元素的重要工具??梢栽谔砑觭ubplot的時(shí)候傳入label參數(shù)。

  1. fig = plt.figure(figsize=(12,5));ax = fig.add_subplot(111) 
  2. ax.plot(np.random.randn(1000).cumsum(),'k',label='one') #傳入label參數(shù),定義label名稱(chēng) 
  3. ax.plot(np.random.randn(1000).cumsum(),'k--',label='two'
  4. ax.plot(np.random.randn(1000).cumsum(),'k.',label='three'
  5. #圖形創(chuàng)建完后,只需要調(diào)用legend參數(shù)將label調(diào)出來(lái)即可。 
  6. ax.legend(loc='best') #要求不是很?chē)?yán)格的話,建議使用loc=‘best’參數(shù)來(lái)讓它自己選擇最佳位置 
  7. <matplotlib.legend.Legend at 0xa8f5a20> 

 

注解

除標(biāo)準(zhǔn)的圖表對(duì)象之外,我們還可以自定義添加一些文字注解或者箭頭。

注解可以通過(guò)text,arrow和annotate等函數(shù)進(jìn)行添加。text函數(shù)可以將文本繪制在指定的x,y坐標(biāo)位置,還可以進(jìn)行自定義格式

  1. plt.plot(np.random.randn(1000).cumsum()) 
  2. plt.text(600,10,'test ',family='monospace',fontsize=10) 
  3. #中文注釋在默認(rèn)環(huán)境下并不能正常顯示,需要修改配置文件,使其支持中文字體。具體步驟請(qǐng)自行搜索。 

保存圖表到文件

利用plt.savefig可以將當(dāng)前圖表保存到文件。例如,要將圖表保存為png文件,可以執(zhí)行

文件類(lèi)型是根據(jù)拓展名而定的。其他參數(shù)還有:

  • fname:含有文件路徑的字符串,拓展名指定文件類(lèi)型
  • dpi:分辨率,默認(rèn)100 facecolor,edgcolor 圖像的背景色,默認(rèn)‘w’白色
  • format:顯示設(shè)置文件格式('png','pdf','svg','ps','jpg'等)
  • bbox_inches:圖表需要保留的部分。如果設(shè)置為“tight”,則將嘗試剪除圖像周?chē)目瞻撞糠?/li>
  • plt.savefig('./plot.jpg') #保存圖像為plot名稱(chēng)的jpg格式圖像

3、Pandas中的繪圖函數(shù)

Matplotlib作圖

matplotlib是最基礎(chǔ)的繪圖函數(shù),也是相對(duì)較低級(jí)的工具。組裝一張圖表需要單獨(dú)調(diào)用各個(gè)基礎(chǔ)組件才行。Pandas中有許多基于matplotlib的高級(jí)繪圖方法,原本需要多行代碼才能搞定的圖表,使用pandas只需要短短幾行。

我們使用的就調(diào)用了pandas中的繪圖包。

  1. import matplotlib.pyplot as plt 

線型圖

Series和DataFrame都有一個(gè)用于生成各類(lèi)圖表的plot方法。默認(rèn)情況下,他們生成的是線型圖。

  1. s = pd.Series(np.random.randn(10).cumsum(),index=np.arange(0,100,10)) 
  2. s.plot() #Series對(duì)象的索引index會(huì)傳給matplotlib用作繪制x軸。 
  3. <matplotlib.axes._subplots.AxesSubplot at 0xf553128> 

 

  1. df = pd.DataFrame(np.random.randn(10,4).cumsum(0),columns=['A','B','C','D']) 
  2. df.plot() #plot會(huì)自動(dòng)為不同變量改變顏色,并添加圖例 
  3. <matplotlib.axes._subplots.AxesSubplot at 0xf4f9eb8> 

 

Series.plot方法的參數(shù)

  • label:用于圖表的標(biāo)簽
  • style:風(fēng)格字符串,'g--'
  • alpha:圖像的填充不透明度(0-1)
  • kind:圖表類(lèi)型(bar,line,hist,kde等)
  • xticks:設(shè)定x軸刻度值
  • yticks:設(shè)定y軸刻度值
  • xlim,ylim:設(shè)定軸界限,[0,10]
  • grid:顯示軸網(wǎng)格線,默認(rèn)關(guān)閉
  • rot:旋轉(zhuǎn)刻度標(biāo)簽
  • use_index:將對(duì)象的索引用作刻度標(biāo)簽
  • logy:在Y軸上使用對(duì)數(shù)標(biāo)尺

DataFrame.plot方法的參數(shù)

DataFrame除了Series中的參數(shù)外,還有一些獨(dú)有的選項(xiàng)。

  • subplots:將各個(gè)DataFrame列繪制到單獨(dú)的subplot中
  • sharex,sharey:共享x,y軸
  • figsize:控制圖像大小
  • title:圖像標(biāo)題
  • legend:添加圖例,默認(rèn)顯示
  • sort_columns:以字母順序繪制各列,默認(rèn)使用當(dāng)前順序

柱狀圖

在生成線型圖的代碼中加上kind=‘bar’或者kind=‘barh’,可以生成柱狀圖或水平柱狀圖。

  1. fig,axes = plt.subplots(2,1) 
  2. data = pd.Series(np.random.rand(10),index=list('abcdefghij')) 
  3. data.plot(kind='bar',ax=axes[0],rot=0,alpha=0.3) 
  4. data.plot(kind='barh',ax=axes[1],grid=True
  5. <matplotlib.axes._subplots.AxesSubplot at 0xfe39898> 

 

柱狀圖有一個(gè)非常實(shí)用的方法:利用value_counts圖形化顯示Series或者DF中各值的出現(xiàn)頻率。

  1. 比如df.value_counts().plot(kind='bar'

Python可視化的基礎(chǔ)語(yǔ)法就到這里,其他圖形的繪制方法大同小異。

重點(diǎn)是遵循三個(gè)步驟的思路來(lái)進(jìn)行思考、選擇、應(yīng)用。多多練習(xí)可以更加熟練。

 

責(zé)任編輯:未麗燕 來(lái)源: 知乎專(zhuān)欄
相關(guān)推薦

2020-03-11 14:39:26

數(shù)據(jù)可視化地圖可視化地理信息

2017-10-14 13:54:26

數(shù)據(jù)可視化數(shù)據(jù)信息可視化

2022-08-26 09:15:58

Python可視化plotly

2017-10-31 09:38:53

大數(shù)據(jù)數(shù)據(jù)可視化Python

2022-02-23 09:50:52

PythonEchartspyecharts

2020-05-26 11:34:46

可視化WordCloud

2017-06-29 11:26:08

Python數(shù)據(jù)可視化

2021-07-26 10:41:16

數(shù)據(jù)可視化設(shè)備大屏

2017-07-18 14:40:05

大數(shù)據(jù)數(shù)據(jù)可視化

2018-11-30 10:28:44

Python反爬網(wǎng)頁(yè)

2024-08-20 18:16:49

數(shù)據(jù)可視化Python

2017-02-23 09:42:53

大數(shù)據(jù)數(shù)據(jù)可視化技術(shù)誤區(qū)

2020-06-15 14:10:29

Web 開(kāi)發(fā)可視化

2021-08-30 11:40:06

PythonSeaborn可視化

2022-07-05 15:11:42

Python數(shù)據(jù)可視化機(jī)器學(xué)習(xí)

2014-06-30 09:24:48

數(shù)據(jù)可視化

2015-08-20 10:00:45

可視化

2018-12-03 16:50:23

數(shù)據(jù)可視化數(shù)據(jù)分析薪水

2019-01-21 15:10:11

佩奇可視化數(shù)據(jù)

2021-10-11 08:04:22

Python數(shù)據(jù)行程
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)