代碼詳解:如何用Python快速制作美觀、炫酷且有深度的圖表
生活階梯(幸福指數(shù))與人均GDP(金錢)正相關(guān)的正則圖
本文將探討三種用Python可視化數(shù)據(jù)的不同方法。以可視化《2019年世界幸福報(bào)告》的數(shù)據(jù)為例,本文用Gapminder和Wikipedia的信息豐富了《世界幸福報(bào)告》數(shù)據(jù),以探索新的數(shù)據(jù)關(guān)系和可視化方法。
《世界幸福報(bào)告》試圖回答世界范圍內(nèi)影響幸福的因素。
報(bào)告根據(jù)對(duì)“坎特里爾階梯問題”的回答來確定幸福指數(shù),被調(diào)查者需對(duì)自己的生活狀況進(jìn)行打分,10分為最佳狀態(tài),0分為最差。
本文將使用Life Ladder作為目標(biāo)變量。Life Ladder就是指幸福指數(shù)。
文章結(jié)構(gòu)
圖片來源:Nik MacMillan/Unsplash
本文旨在提供代碼指南和參考點(diǎn),以便在查找特定類型的圖表時(shí)進(jìn)行參考。為了節(jié)省空間,有時(shí)會(huì)將多個(gè)圖表合并到一張圖上。但是請(qǐng)放心,你可以在這個(gè)Repo或相應(yīng)的Jupyter Notebook中找到所有基本代碼。
目錄
- 我使用Python進(jìn)行繪圖的經(jīng)歷
- 分布的重要性
- 加載數(shù)據(jù)和包導(dǎo)入
- 迅速:使用Pandas進(jìn)行基本繪圖
- 美觀:使用Seaborn進(jìn)行高級(jí)繪圖
- 精彩:用plotly創(chuàng)造精彩的互動(dòng)情節(jié)
1. 我使用Python進(jìn)行繪圖的經(jīng)歷
大約兩年前,我開始更認(rèn)真地學(xué)習(xí)Python。從那時(shí)起,Python幾乎每周都會(huì)給我一些驚喜,它不僅自身簡(jiǎn)單易用,而且其生態(tài)系統(tǒng)中還有很多令人驚嘆的開源庫(kù)。我對(duì)命令、模式和概念越熟悉,就越能充分利用其功能。
(1) Matplotlib
與用Python繪圖正好相反。最初,我用matplotlib創(chuàng)建的幾乎每個(gè)圖表看起來都很過時(shí)。更糟糕的是,為了創(chuàng)建這些討厭的東西,我不得不在Stackoverflow上花費(fèi)數(shù)小時(shí)。例如,研究改變x斜度的基本命令或者類似這些的蠢事。我一點(diǎn)也不想做多圖表。以編程的方式創(chuàng)建這些圖表是非常奇妙的,例如,一次生成50個(gè)不同變量的圖表,結(jié)果令人印象深刻。然而,其中涉及大量的工作,需要記住一大堆無用的指令。
(2) Seaborn
學(xué)習(xí)Seaborn能夠節(jié)省很多精力。Seaborn可以抽象出大量的微調(diào)。毫無疑問,這使得圖表在美觀上得到巨大的改善。然而,它也是構(gòu)建在matplotlib之上的。通常,對(duì)于非標(biāo)準(zhǔn)的調(diào)整,仍然有必要使用機(jī)器級(jí)的matplotlib代碼。
(3) Bokeh
一時(shí)間,我以為Bokeh會(huì)成為一個(gè)后援解決方案。我在做地理空間可視化的時(shí)候發(fā)現(xiàn)了Bokeh。然而,我很快就意識(shí)到,雖然Bokeh有所不同,但還是和matplotlib一樣復(fù)雜。
(4) Plotly
不久前我確實(shí)嘗試過 plot.ly (后面就直接用plotly來表示)同樣用于地理空間可視化。那個(gè)時(shí)候,plotly比前面提到的庫(kù)還要麻煩。它必須通過筆記本賬戶登錄,然后plotly可以在線呈現(xiàn),接著下載最終圖表。我很快就放棄了。但是,我最近看到了一個(gè)關(guān)于plotlyexpress和plotly4.0的Youtube視頻,重點(diǎn)是,他們把那些在線的廢話都刪掉了。我嘗試了一下,本篇文章就是嘗試的成果。我想,知道得晚總比不知道的好。
(5) Kepler.gl (地理空間數(shù)據(jù)優(yōu)秀獎(jiǎng))
Kepler.gl不是一個(gè)Python庫(kù),而是一款強(qiáng)大的基于web的地理空間數(shù)據(jù)可視化工具。只需要CSV文件,就可以使用Python輕松地創(chuàng)建文件。試試吧!
(6) 當(dāng)前工作流程
最后,我決定使用Pandas本地繪圖進(jìn)行快速檢查,并使用Seaborn繪制要在報(bào)告和演示中使用的圖表(視覺效果很重要)。
2. 分布的重要性
我在圣地亞哥從事研究期間,負(fù)責(zé)教授統(tǒng)計(jì)學(xué)(Stats119)。Stats119是統(tǒng)計(jì)學(xué)的入門課程,包括統(tǒng)計(jì)的基礎(chǔ)知識(shí),如數(shù)據(jù)聚合(可視化和定量)、概率的概念、回歸、抽樣、以及最重要的分布。這一次,我對(duì)數(shù)量和現(xiàn)象的理解幾乎完全轉(zhuǎn)變?yōu)榛诜植嫉睦斫?大多數(shù)時(shí)候是高斯分布)。
直到今天,我仍然驚訝于這兩個(gè)量的作用,標(biāo)準(zhǔn)差能幫助人理解現(xiàn)象。只要知道這兩個(gè)量,就可以直接得出具體結(jié)果的概率,用戶馬上就知道大部分的結(jié)果的分布情況。它提供了一個(gè)參考框架,無需進(jìn)行過于復(fù)雜的計(jì)算,就可以快速找出有統(tǒng)計(jì)意義的事件。
一般來說,面對(duì)新數(shù)據(jù)時(shí),我的第一步是嘗試可視化其分布,以便更好地理解數(shù)據(jù)。
3. 加載數(shù)據(jù)和包導(dǎo)入
先加載本文使用的數(shù)據(jù)。我已經(jīng)對(duì)數(shù)據(jù)進(jìn)行了預(yù)處理。并對(duì)它的意義進(jìn)行了探究和推斷。
# Loadthe data
data = pd.read_csv('https://raw.githubusercontent.com/FBosler/AdvancedPlotting/master/combined_set.csv')#this assigns labels per year
data['Mean Log GDP per capita'] =data.groupby('Year')['Log GDP per capita'].transform(
pd.qcut,
q=5,
labels=(['Lowest','Low','Medium','High','Highest'])
)
數(shù)據(jù)集包含以下值:
- 年份:計(jì)量年(2007 -2018)
- 生活階梯:受訪者根據(jù)坎特里爾階梯(CantrilLadder),用0~10分(最滿意的為10分)來衡量他們今天的生活
- 人均GDP:根據(jù)世界銀行2018年11月14日發(fā)布的《世界發(fā)展指標(biāo)》(WDI),將人均GDP調(diào)整為PPP(2011年不變價(jià)國(guó)際元)·
- 社會(huì)支持:對(duì)下面問題的回答:“遇到困難時(shí),是否可以隨時(shí)獲得親戚或朋友的幫助?”
- 出生時(shí)預(yù)期健康壽命:出生時(shí)預(yù)期健康壽命是根據(jù)世界衛(wèi)生組織(WHO)全球衛(wèi)生觀察站(GHO)數(shù)據(jù)庫(kù)構(gòu)建的,數(shù)據(jù)分別來自2005年、2010年、2015年和2016年。
- 自由選擇權(quán):回答下面這個(gè)問題:“你是否對(duì)自己生活的選擇自由感到滿意?”
- 慷慨:對(duì)“過去一個(gè)月是否給慈善機(jī)構(gòu)捐過款?”與人均GDP相比·
- 政治清廉:回答“腐敗現(xiàn)象在政府中是否普遍?”“腐敗在企業(yè)內(nèi)部是否普遍?”
- 積極影響:包括前一天快樂、歡笑和享受的平均頻率。
- 負(fù)面影響:包括前一天焦慮、悲傷和憤怒的平均頻率。
- 對(duì)國(guó)家政府的信心:不言自明
- 民主質(zhì)量:一個(gè)國(guó)家的民主程度
- 執(zhí)行質(zhì)量:一個(gè)國(guó)家的政策執(zhí)行情況
- Gapminder預(yù)期壽命:Gapminder的預(yù)期壽命
- Gapminder人口:國(guó)家人口
導(dǎo)入
import plotly
import pandas as pd
import numpy as np
import seaborn as sns
import plotly.express as pximport matplotlib%matplotlib inlineassertmatplotlib.__version__ == "3.1.0","""
Please install matplotlib version 3.1.0 by running:
1) !pip uninstall matplotlib
2) !pip install matplotlib==3.1.0
"""
4. 迅速:使用Pandas進(jìn)行基本繪圖
Pandas有內(nèi)置的繪圖功能,可以在Series或DataFrame上調(diào)用。之所以喜歡這些繪圖函數(shù),是因?yàn)樗鼈兒?jiǎn)潔、使用合理的智能默認(rèn)值、很快就能給出進(jìn)展程度。
創(chuàng)建圖表,在數(shù)據(jù)中調(diào)用.plot(kind=),如下所示:
np.exp(data[data['Year']==2018]['LogGDP per capita']).plot(
kind='hist'
)
運(yùn)行上述命令,生成以下圖表。
2018年:人均GDP直方圖。大多數(shù)國(guó)家都很窮,這一點(diǎn)也不奇怪!
用Pandas繪圖時(shí),有五個(gè)主要參數(shù):
- kind:Pandas必須知道需要?jiǎng)?chuàng)建什么樣的圖,可選的有以下幾種:直方圖(hist),條形圖(bar),水平條圖(barh),散點(diǎn)圖(scatter),面積(area),核密度估計(jì)(kde),折線圖(line),方框(box),六邊形(hexbin),餅狀圖(pie)。
- figsize:允許6英寸寬和4英寸高的默認(rèn)輸出尺寸。需要一個(gè)元組(例如,我就經(jīng)常使用figsize=(12,8))
- title:為圖表添加一個(gè)標(biāo)題。大多數(shù)情況下,可以用這個(gè)標(biāo)題來標(biāo)明圖表中所顯示的內(nèi)容,這樣回過頭來看的時(shí)候,就能很快識(shí)別出表的內(nèi)容。title需要一個(gè)字符串。
- bins:直方圖的bin寬度。bin需要一個(gè)值的列表或類似列表序列(例如, bins=np.arange(2,8,0.25))
- xlim/ylim: 軸的最大和最小默認(rèn)值。xlim和ylim都最好有一個(gè)元組(例如, xlim=(0,5))
下面來快速瀏覽一下不同類型的圖。
(1) 垂直條形圖:
data[
data['Year'] == 2018
].set_index('Country name')['Life Ladder'].nlargest(15).plot(
kind='bar',
figsize=(12,8)
)
2018年:芬蘭位居15個(gè)最幸福國(guó)家之首
(2) 水平條形圖:
np.exp(data[
data['Year'] == 2018
].groupby('Continent')['Log GDP per capita']\
.mean()).sort_values().plot(
kind='barh',
figsize=(12,8)
)
澳大利亞和新西蘭2011年人均GDP(美元)明顯領(lǐng)先
(3) 盒型圖
data['Life Ladder'].plot(
kind='box',
figsize=(12,8)
)
人生階梯分布的方框圖顯示平均值在5.5左右,范圍為3~8。
(4) 散點(diǎn)圖
data[['Healthy life expectancyat birth','Gapminder Life Expectancy']].plot(
kind='scatter',
x='Healthy life expectancy at birth',
y='Gapminder Life Expectancy',
figsize=(12,8)
)
該散點(diǎn)圖顯示了《世界幸福報(bào)告》的預(yù)期壽命與Gapminder的預(yù)期壽命兩者之間的高度相關(guān)性
(5) Hexbin圖
data[data['Year'] == 2018].plot( kind='hexbin', x='Healthy life expectancy at birth', y='Generosity', C='Life Ladder', gridsize=20, figsize=(12,8), cmap="Blues", # defaults togreenish sharex=False # required to get rid ofa bug)
2018年:Hexbin圖,表示人的平均壽命與慷慨程度之間的關(guān)系。格子的顏色表示每個(gè)格子的平均壽命。
(6) 餅狀圖
data[data['Year'] == 2018].groupby(
['Continent']
)['Gapminder Population'].sum().plot(
kind='pie',
figsize=(12,8),
cmap="Blues_r", # defaultsto orangish
)
2018年:按大洲劃分的總?cè)丝跀?shù)餅狀圖
(7) 堆積面積圖
data.groupby(
['Year','Continent']
)['Gapminder Population'].sum().unstack().plot(
kind='area',
figsize=(12,8),
cmap="Blues", # defaults toorangish
)
全球人口數(shù)量正在增長(zhǎng)
(8) 折線圖
data[ data['Country name'] == 'Germany'].set_index('Year')['Life Ladder'].plot( kind='line', figsize=(12,8))
表示德國(guó)幸福指數(shù)發(fā)展的折線圖
(9) 關(guān)于Pandas繪圖的總結(jié)
用pandas繪圖很方便。易于訪問,速度也快。只是圖表外觀相當(dāng)丑,幾乎不可能偏離默認(rèn)值。不過這沒關(guān)系,因?yàn)橛衅渌ぞ邅碇谱鞲烙^的圖表。
5. 美觀:使用Seaborn進(jìn)行高級(jí)繪圖
Seaborn使用的是默認(rèn)繪圖。要確保運(yùn)行結(jié)果與本文一致,請(qǐng)運(yùn)行以下命令。
sns.reset_defaults()
sns.set(
rc={'figure.figsize':(7,5)},
style="white" # nicerlayout
)
(1) 繪制單變量分布
如前所述,我非常喜歡分布。直方圖和核密度分布都是可視化特定變量關(guān)鍵特征的有效方法。下面來看看如何在一個(gè)圖表中生成單個(gè)變量或多個(gè)變量分布。
左圖:2018年亞洲國(guó)家人生階梯直方圖和核密度估算;
右圖:五組人均GDP人生階梯的核心密度估算——體現(xiàn)了金錢與幸福指數(shù)的關(guān)系
(2) 繪制二元分布
每當(dāng)我想要直觀地探索兩個(gè)或多個(gè)變量之間的關(guān)系,總是用到某種形式的散點(diǎn)圖和分布評(píng)估。在概念上相似的圖表有三種變體。在每個(gè)圖中,中心圖(散點(diǎn)圖,二元KDE,hexbin)有助于理解兩個(gè)變量之間的聯(lián)合頻率分布。此外,在中心圖的右邊界和上邊界,描述了各自變量的邊際單變量分布(用KDE或直方圖表示)。
sns.jointplot(
x='Log GDP per capita',
y='Life Ladder',
datadata=data,
kind='scatter' # or 'kde' or 'hex'
)
Seaborn雙標(biāo)圖,散點(diǎn)圖、二元KDE和Hexbin圖都在中心圖中,邊緣分布在中心圖的左側(cè)和頂部
(3) 散點(diǎn)圖
散點(diǎn)圖是一種可視化兩個(gè)變量聯(lián)合密度分布的方法??梢酝ㄟ^添加色度來添加第三個(gè)變量,通過添加尺寸參數(shù)來添加第四個(gè)變量。
sns.scatterplot(
x='Log GDP per capita',
y='Life Ladder',
datadata=data[data['Year'] == 2018],
hue='Continent',
size='Gapminder Population'
)# both, hue and size are optional
sns.despine() # prettier layout
人均GDP與生活階梯的關(guān)系,不同顏色表示不同大洲和人口規(guī)模
(4) 小提琴圖
小提琴圖結(jié)合了盒狀圖和核密度估計(jì)值。它的作用類似于盒狀圖,顯示了定量數(shù)據(jù)在分類變量之間的分布,以便對(duì)這些分布進(jìn)行比較。
sns.set( rc={'figure.figsize':(18,6)}, style="white")sns.violinplot( x='Continent', y='Life Ladder', hue='Mean Log GDP per capita', datadata=data)sns.despine()
小提琴圖在繪制大洲與生活階梯的關(guān)系圖時(shí),用人均GDP的平均值對(duì)數(shù)據(jù)進(jìn)行分組。人均GDP越高,幸福指數(shù)就越高。
(5) 配對(duì)圖
Seaborn配對(duì)圖是在一個(gè)大網(wǎng)格中繪制雙變量散點(diǎn)圖的所有組合。我通常覺得這有點(diǎn)信息過載,但它有助于發(fā)現(xiàn)規(guī)律。
sns.set(
style="white",
palette="muted",
color_codes=True
)sns.pairplot(
data[data.Year == 2018][[
'Life Ladder','Log GDP percapita',
'Social support','Healthy lifeexpectancy at birth',
'Freedom to make lifechoices','Generosity',
'Perceptions of corruption','Positive affect',
'Negative affect','Confidence innational government',
'Mean Log GDP per capita'
]].dropna(),
hue='Mean Log GDP per capita'
)
Seaborn散點(diǎn)圖網(wǎng)格中,所有選定的變量都分散在網(wǎng)格的下半部分和上半部分,對(duì)角線包含Kde圖。
(6) FacetGrids
對(duì)我來說,Seaborn的FacetGrid是證明它好用最有說服力的證據(jù)之一,因?yàn)樗茌p而易舉地創(chuàng)建多圖表。通過配對(duì)圖,我們已經(jīng)看到了FacetGrid的一個(gè)示例。它可以創(chuàng)建多個(gè)按變量分組的圖表。例如,行可以是一個(gè)變量(人均GDP的類別),列是另一個(gè)變量(大洲)。
它確實(shí)還需要適應(yīng)客戶需求(即使用matplotlib),但是它仍然是令人信服。
(7) FacetGrid— 折線圖
g = sns.FacetGrid(
data.groupby(['Mean Log GDP percapita','Year','Continent'])['Life Ladder'].mean().reset_index(),
row='Mean Log GDP per capita',
col='Continent',
margin_titles=True
)
g = (g.map(plt.plot, 'Year','Life Ladder'))
y軸代表生活階梯,x軸代表年份。網(wǎng)格的列代表大洲,網(wǎng)格的行代表不同水平的人均GDP??傮w而言,北美人均GDP平均值較低的國(guó)家和歐洲人均GDP平均值中等或較高的國(guó)家,情況似乎有所好轉(zhuǎn)。
(8) FacetGrid— 直方圖
g = sns.FacetGrid(data,col="Continent", col_wrap=3,height=4)
g = (g.map(plt.hist, "Life Ladder",bins=np.arange(2,9,0.5)))
按大洲劃分的生活階梯直方圖
(9) FacetGrid— 帶注釋的KDE圖
還可以向網(wǎng)格中的每個(gè)圖表添加特定的注釋。以下示例將平均值和標(biāo)準(zhǔn)偏差以及在平均值處繪制的垂直線相加(代碼如下)。
基于大洲的生命階梯核密度估計(jì)值,注釋為均值和標(biāo)準(zhǔn)差
defvertical_mean_line(x, **kwargs):
plt.axvline(x.mean(), linestyle="--",
color= kwargs.get("color", "r"))
txkw =dict(size=15, color= kwargs.get("color", "r"))
label_x_pos_adjustment =0.08# this needs customization based on your data
label_y_pos_adjustment =5# this needs customization based on your data
if x.mean() <6: # this needs customization based on your data
tx ="mean: {:.2f}\n(std: {:.2f})".format(x.mean(),x.std())
plt.text(x.mean() + label_x_pos_adjustment, label_y_pos_adjustment, tx, **txkw)
else:
tx ="mean: {:.2f}\n (std: {:.2f})".format(x.mean(),x.std())
plt.text(x.mean() -1.4, label_y_pos_adjustment, tx, **txkw)
_ = data.groupby(['Continent','Year'])['Life Ladder'].mean().reset_index()
g = sns.FacetGrid(_, col="Continent", height=4, aspect=0.9, col_wrap=3, margin_titles=True)
g.map(sns.kdeplot, "Life Ladder", shade=True, color='royalblue')
g.map(vertical_mean_line, "Life Ladder")
annotate_facet_grid.py hostedwith ? by GitHub
畫一條垂直的平均值線并添加注釋。
(10) FacetGrid— 熱圖
我最喜歡的一種繪圖類型就是FacetGrid的熱圖,即每一個(gè)網(wǎng)格都有熱圖。這種類型的繪圖有助于在一個(gè)圖中可視化四維和度量。代碼有點(diǎn)麻煩,但是可以根據(jù)使用者的需要快速調(diào)整。需要注意的是,這種圖表不能很好地處理缺失的值,所以需要大量的數(shù)據(jù)或適當(dāng)?shù)姆侄巍?/p>
Facet熱圖,外層的行顯示在一年內(nèi),外層的列顯示人均GDP,內(nèi)層的行顯示政治清廉,內(nèi)層的列顯示大洲。我們看到幸福指數(shù)朝著右上方向增加(即,高人均GDP和高政治清廉)。時(shí)間的影響還不確定,一些大洲(歐洲和北美)似乎比其他大洲(非洲)更幸福。
heatmap_facetgrid.py
defdraw_heatmap(data,inner_row, inner_col, outer_row, outer_col, values, vmin,vmax):
sns.set(font_scale=1)
fg = sns.FacetGrid(
data,
row=outer_row,
col=outer_col,
margin_titles=True
)
position = left, bottom, width, height =1.4, .2, .1, .6
cbar_ax = fg.fig.add_axes(position)
fg.map_dataframe(
draw_heatmap_facet,
x_col=inner_col,
y_col=inner_row,
valuesvalues=values,
cbar_axcbar_ax=cbar_ax,
vminvmin=vmin,
vmaxvmax=vmax
)
fg.fig.subplots_adjust(right=1.3)
plt.show()
defdraw_heatmap_facet(*args, **kwargs):
data = kwargs.pop('data')
x_col = kwargs.pop('x_col')
y_col = kwargs.pop('y_col')
values = kwargs.pop('values')
d = data.pivot(index=y_col, columns=x_col, valuesvalues=values)
annot =round(d,4).values
cmap = sns.color_palette("Blues",30) + sns.color_palette("Blues",30)[0::2]
#cmap = sns.color_palette("Blues",30)
sns.heatmap(
d,
**kwargs,
annotannot=annot,
center=0,
cmapcmap=cmap,
linewidth=.5
)
# Data preparation
_ = data.copy()
_['Year'] = pd.cut(_['Year'],bins=[2006,2008,2012,2018])
_['GDP per Capita'] = _.groupby(['Continent','Year'])['Log GDP per capita'].transform(
pd.qcut,
q=3,
labels=(['Low','Medium','High'])
).fillna('Low')
_['Corruption'] = _.groupby(['Continent','GDP per Capita'])['Perceptions of corruption'].transform(
pd.qcut,
q=3,
labels=(['Low','Medium','High'])
)
__ = _[_['Continent'] !='Oceania'].groupby(['Year','Continent','GDP per Capita','Corruption'])['Life Ladder'].mean().reset_index()
_['Life Ladder'] = _['Life Ladder'].fillna(-10)
draw_heatmap(
data=_,
outer_row='Corruption',
outer_col='GDP per Capita',
inner_row='Year',
inner_col='Continent',
values='Life Ladder',
vmin=3,
vmax=8,
)
heatmap_facetgrid.py hostedwith ? by GitHub
6. 精彩:用plotly創(chuàng)造精彩的互動(dòng)情節(jié)
最后, 無需使用matplotlib!Plotly有三個(gè)重要特征:
- 懸停:當(dāng)鼠標(biāo)懸停在圖表上時(shí),會(huì)彈出注釋
- 交互性:不需要任何額外設(shè)置,圖表就可以進(jìn)行交互(例如,一次穿越時(shí)間的旅程)
- 漂亮的地理空間圖:Plotly已經(jīng)內(nèi)置了一些基本的映射功能,另外,還可以使用mapbox集成來制作令人驚嘆的圖表。
(1) 散點(diǎn)圖
通過下列代碼來運(yùn)行plotly圖表:
fig = x.<PLOTTYPE>(PARAMS)然后是 fig.show() ,像這樣:
fig = px.scatter(
datadata_frame=data[data['Year'] ==2018],
x="Log GDP per capita",
y="Life Ladder",
size="GapminderPopulation",
color="Continent",
hover_name="Country name",
size_max=60
)
fig.show()
Plotly散點(diǎn)圖,繪制人均 GDP與生活階梯的關(guān)系,其中顏色表示大洲和人口的大小
(2) 散點(diǎn)圖 — 穿越時(shí)間的漫步
fig = px.scatter(
datadata=data,
x="Log GDP per capita",
y="Life Ladder",
animation_frame="Year",
animation_group="Countryname",
size="GapminderPopulation",
color="Continent",
hover_name="Country name",
facet_col="Continent",
size_max=45,
category_orders={'Year':list(range(2007,2019))}
)fig.show()
可視化數(shù)年來繪圖數(shù)據(jù)的變化
(3) 平行類別——一個(gè)能可視化類別的有趣方式
def q_bin_in_3(col):
return pd.qcut(
col,
q=3,
labels=['Low','Medium','High']
)_ = data.copy()
_['Social support'] = _.groupby('Year')['Socialsupport'].transform(q_bin_in_3)_['Life Expectancy'] =_.groupby('Year')['Healthy life expectancy atbirth'].transform(q_bin_in_3)_['Generosity'] =_.groupby('Year')['Generosity'].transform(q_bin_in_3)_['Perceptions ofcorruption'] = _.groupby('Year')['Perceptions ofcorruption'].transform(q_bin_in_3)__ = _.groupby(['Social support','LifeExpectancy','Generosity','Perceptions of corruption'])['LifeLadder'].mean().reset_index()fig = px.parallel_categories(_, color="LifeLadder", color_continuous_scale=px.colors.sequential.Inferno)
fig.show()
并不是所有預(yù)期壽命高的國(guó)家的人民都很幸福!
(4) 條形圖—一個(gè)交互式濾波器的示例
fig = px.bar(
data,
x="Continent",
y="Gapminder Population",
color="Mean Log GDP percapita",
barmode="stack",
facet_col="Year",
category_orders={"Year":range(2007,2019)},
hover_name='Country name',
hover_data=[
"Mean Log GDP percapita",
"Gapminder Population",
"Life Ladder"
]
)
fig.show()
過濾條形圖很容易。毫無疑問,韓國(guó)是亞洲富裕國(guó)家之一。
(5) 等值線圖— —幸福指數(shù)與時(shí)間的關(guān)系
fig = px.choropleth( data, locations="ISO3", color="Life Ladder", hover_name="Country name", animation_frame="Year")fig.show()
可視化不同地域的幸福指數(shù)是如何隨時(shí)間變化的。敘利亞和阿富汗正處于人生階梯的末端(這不足為奇)。
結(jié)束語
本文展示了如何成為一名真正的Python可視化專家、如何在快速探索時(shí)更有效率、以及如何在董事會(huì)會(huì)議前創(chuàng)建更漂亮的圖表、還有如何創(chuàng)建交互式繪圖圖表,尤其是在繪制地理空間數(shù)據(jù)時(shí),十分有用。