高大上!五個(gè)Python高級(jí)可視化圖表!
1. 和弦圖(Chord Diagram)
和弦圖,作為一種數(shù)據(jù)可視化工具,獨(dú)具匠心地展示了數(shù)據(jù)間的復(fù)雜關(guān)系。在圖表中,節(jié)點(diǎn)井然有序地分布于圓周之上,點(diǎn)與點(diǎn)之間則以優(yōu)雅的弧線相互連接,這些弧線不僅揭示了數(shù)據(jù)間的內(nèi)在聯(lián)系,還通過(guò)其長(zhǎng)度的差異,直觀地反映了連接間的數(shù)值大小。更進(jìn)一步,弧線的粗細(xì)程度還巧妙地映射出數(shù)據(jù)間關(guān)系的重要性,使觀察者能一目了然地洞察數(shù)據(jù)背后的故事。
此外,和弦圖還巧妙地運(yùn)用了色彩這一視覺(jué)元素,將數(shù)據(jù)分門(mén)別類(lèi),使得數(shù)據(jù)的比較和區(qū)分變得直觀且易于理解。這一特性使得和弦圖在多個(gè)領(lǐng)域都有著廣泛的應(yīng)用,特別是在生物科學(xué)領(lǐng)域,它成為了可視化基因數(shù)據(jù)的得力助手。在國(guó)際學(xué)術(shù)刊物上,和弦圖更是被譽(yù)為信息圖表(info graphics)的典范,用于揭示社交網(wǎng)絡(luò)的交織、基因組的奧秘、交通流的動(dòng)態(tài)以及貿(mào)易關(guān)系的錯(cuò)綜復(fù)雜。
以下示例代碼使用Holoviews & Bokeh創(chuàng)建和弦圖,展示5個(gè)不同國(guó)家之間的貿(mào)易關(guān)系。
import holoviews as hv
from holoviews import opts
import pandas as pd
import numpy as np
hv.extension('bokeh')
# Sample matrix representing the export volumes between 5 countries
export_data = np.array([[0, 50, 30, 20, 10],
[10, 0, 40, 30, 20],
[20, 10, 0, 35, 25],
[30, 20, 10, 0, 40],
[25, 15, 30, 20, 0]])
labels = ['USA', 'China', 'Germany', 'Japan', 'India']
# Creating a pandas DataFrame
df = pd.DataFrame(export_data, index=labels, columns=labels)
df = df.stack().reset_index()
df.columns = ['source', 'target', 'value']
# Creating a Chord object
chord = hv.Chord(df)
# Styling the Chord diagram
chord.opts(
opts.Chord(
cmap='Category20', edge_cmap='Category20',
labels='source', label_text_font_size='10pt',
edge_color='source', node_color='index',
width=700, height=700
)
).select(value=(5, None))
# Display the plot
chord
https://holoviews.org/reference/elements/matplotlib/Chord.html
https://github.com/moshi4/pyCirclize
2. 旭日?qǐng)D(Sunburst Chart)
旭日?qǐng)D(Sunburst Chart)以其獨(dú)特的視覺(jué)呈現(xiàn)方式,超越了傳統(tǒng)的餅圖和環(huán)圖,能夠清晰地表達(dá)數(shù)據(jù)的層級(jí)和歸屬關(guān)系。它通過(guò)父子層次結(jié)構(gòu)來(lái)展示數(shù)據(jù)的構(gòu)成情況,使用戶能夠輕松理解和分析復(fù)雜的層次數(shù)據(jù)。
旭日?qǐng)D由多個(gè)環(huán)形組成,每個(gè)環(huán)形都代表著層次結(jié)構(gòu)中的一個(gè)不同級(jí)別。圖表的中心是層次結(jié)構(gòu)的根或頂層,象征著數(shù)據(jù)的起點(diǎn)。每個(gè)環(huán)上的每個(gè)部分或扇區(qū)則代表著該層次結(jié)構(gòu)中的一個(gè)具體節(jié)點(diǎn),而每個(gè)部分/扇區(qū)的大小則與其在兄弟節(jié)點(diǎn)中的相對(duì)值成比例,直觀地反映了數(shù)據(jù)的重要性。
旭日?qǐng)D在多個(gè)領(lǐng)域中都展現(xiàn)出了其強(qiáng)大的數(shù)據(jù)可視化能力,如計(jì)算機(jī)文件系統(tǒng)的層級(jí)結(jié)構(gòu)、網(wǎng)站用戶的導(dǎo)航路徑、市場(chǎng)細(xì)分?jǐn)?shù)據(jù)的層級(jí)關(guān)系以及復(fù)雜的基因組數(shù)據(jù)等。這些應(yīng)用場(chǎng)景都通過(guò)旭日?qǐng)D得以清晰、直觀地呈現(xiàn),幫助用戶快速理解數(shù)據(jù)的內(nèi)在結(jié)構(gòu)和邏輯關(guān)系。
下面是一段使用Python庫(kù)Plotly繪制旭日?qǐng)D的示例代碼,您可以通過(guò)這段代碼輕松創(chuàng)建出具有豐富層次結(jié)構(gòu)和數(shù)據(jù)信息的旭日?qǐng)D。
import plotly.express as px
import numpy as np
df = px.data.gapminder().query("year == 2007")
fig = px.sunburst(df, path=['continent', 'country'],
values='pop',
color='lifeExp',
hover_data=['iso_alpha'],
color_continuous_scale='RdBu',
color_continuous_midpoint=np.average(df['lifeExp'], weights=df['pop']))
fig.show()
https://plotly.com/python/sunburst-charts/
3. 六邊形箱圖(Hexbin Plot)
六邊形箱圖(通常稱為六邊形分箱圖或六邊形熱力圖)是一種非常有效的可視化工具,用于展示二維數(shù)據(jù)分布,尤其是在數(shù)據(jù)點(diǎn)過(guò)于密集而導(dǎo)致傳統(tǒng)散點(diǎn)圖難以區(qū)分單個(gè)點(diǎn)的情況下。這種方法將數(shù)據(jù)空間劃分為一系列六邊形單元(或“箱”),并根據(jù)每個(gè)單元中的數(shù)據(jù)點(diǎn)數(shù)量進(jìn)行著色,從而提供了數(shù)據(jù)分布情況的直觀表示。
以下是一個(gè)使用Python和Matplotlib庫(kù)創(chuàng)建六邊形分箱圖的示例,旨在揭示空氣質(zhì)量惡化(使用空氣質(zhì)量指數(shù)/AQI)與增加的醫(yī)院就診之間的潛在相關(guān)性。請(qǐng)注意,為了簡(jiǎn)化示例,我們將使用模擬數(shù)據(jù)。
import numpy as np
import matplotlib.pyplot as plt
from mplhexbin import HexBin
# 假設(shè)的模擬數(shù)據(jù)
np.random.seed(0) # 確保結(jié)果可復(fù)現(xiàn)
n_points = 10000
x = np.random.rand(n_points) * 100 # 空氣質(zhì)量指數(shù)(AQI)范圍從0到100
y = 5 * np.sin(x * np.pi / 50) + np.random.randn(n_points) * 15 # 假設(shè)的醫(yī)院就診數(shù)量,與AQI相關(guān)但具有噪聲
# 創(chuàng)建一個(gè)新的圖形
fig, ax = plt.subplots(figsize=(10, 8))
# 使用HexBin創(chuàng)建六邊形分箱圖
hb = HexBin(ax, gridsize=20, cmap='viridis', extent=[0, 100, -30, 50]) # 設(shè)置網(wǎng)格大小、顏色映射和范圍
hb.hexbin(x, y, mincnt=1) # 繪制六邊形分箱圖,mincnt設(shè)置最小計(jì)數(shù)閾值
# 添加標(biāo)題和軸標(biāo)簽
ax.set_title('空氣質(zhì)量指數(shù)(AQI)與醫(yī)院就診數(shù)量的關(guān)系')
ax.set_xlabel('空氣質(zhì)量指數(shù)(AQI)')
ax.set_ylabel('醫(yī)院就診數(shù)量')
# 顯示圖形
plt.colorbar(hb.cmap, ax=ax, label='數(shù)據(jù)點(diǎn)數(shù)量') # 添加顏色條并設(shè)置標(biāo)簽
plt.show()
https://matplotlib.org/stable/gallery/statistics/hexbin_demo.html
4. ?;鶊D(Sankey Diagram)
?;鶊D(Sankey Diagram),也被稱為?;芰糠至鲌D或?;芰科胶鈭D,是一種特殊類(lèi)型的流程圖,特別適用于展示能源、材料成分、金融等領(lǐng)域中數(shù)據(jù)流量的可視化分析。這一圖表類(lèi)型的命名源于1898年Matthew Henry Phineas Riall Sankey所繪制的“蒸汽機(jī)的能源效率圖”,該圖因其直觀展示能量流動(dòng)的方式而廣受贊譽(yù),并因此得名“?;鶊D”。
?;鶊D通過(guò)節(jié)點(diǎn)和它們之間的鏈接來(lái)表示系統(tǒng)不同階段或部分之間數(shù)量的流動(dòng)。節(jié)點(diǎn)通常表示系統(tǒng)中的不同部分或階段,而鏈接則表示這些部分或階段之間的流動(dòng)關(guān)系。最為獨(dú)特的是,?;鶊D中鏈接的寬度直接與流動(dòng)的數(shù)量成比例,使得數(shù)據(jù)的規(guī)模和流向一目了然。
通過(guò)這種直觀的數(shù)據(jù)可視化方式,桑基圖可以幫助用戶更好地理解系統(tǒng)中各部分之間的能量、物質(zhì)或資金的流動(dòng)情況,從而有助于做出更明智的決策。在能源、材料科學(xué)、經(jīng)濟(jì)學(xué)和金融學(xué)等領(lǐng)域,?;鶊D已經(jīng)成為一種不可或缺的數(shù)據(jù)分析工具。
Plotly庫(kù)可以用來(lái)創(chuàng)建如下所示的?;鶊D。以下代碼表示能量從生產(chǎn)源流向小城市的消費(fèi)者。
import plotly.graph_objects as go
labels = ["Coal", "Solar", "Wind", "Nuclear", "Residential", "Industrial", "Commercial"]
source = [0, 1, 2, 3, 0, 1, 2, 3]
target = [4, 4, 4, 4, 5, 5, 5, 5]
value = [25, 10, 40, 20, 30, 15, 25, 35]
# Create the Sankey diagram object
fig = go.Figure(data=[go.Sankey(
node=dict(
pad=15,
thickness=20,
line=dict(color="black", width=0.5),
label=labels
),
link=dict(
source=source,
target=target,
value=value
))])
fig.update_layout(title_text="Energy Flow in Model City", font_size=12)
fig.show()
https://plotly.com/python/sankey-diagram/
5. 主題河流圖(Stream Graph/ Theme River)
主題河流圖,顧名思義,其形態(tài)宛如自然界的河流,實(shí)際上它是一種獨(dú)具匠心的流圖設(shè)計(jì)。這種圖表主要用于描繪事件或主題隨時(shí)間而發(fā)生的動(dòng)態(tài)變化。河流圖中,不同的顏色巧妙地區(qū)分了各個(gè)類(lèi)別,或用以展示每個(gè)類(lèi)別的附加定量信息。而河流的流向則與橫貫圖表的X軸平行,清晰映射出時(shí)間的流逝。
更為精妙的是,每個(gè)類(lèi)別的數(shù)值大小通過(guò)“河流”的寬度來(lái)直觀展現(xiàn)。當(dāng)某一類(lèi)別的數(shù)值增大時(shí),其對(duì)應(yīng)的河流部分便會(huì)拓寬;而當(dāng)數(shù)值減小,河流則相應(yīng)地變窄。這種變化使得整個(gè)圖表仿佛是由無(wú)數(shù)條寬窄不一的河流匯集、交織而成,從而得名“主題河流圖”。這種設(shè)計(jì)不僅富有美感,更能讓觀察者一目了然地掌握數(shù)據(jù)的變化趨勢(shì)和相互關(guān)系。
Altair數(shù)據(jù)可視化庫(kù)可用于繪制流圖,如下所示。
import altair as alt
from vega_datasets import data
source = data.unemployment_across_industries.url
alt.Chart(source).mark_area().encode(
alt.X('yearmonth(date):T',
axis=alt.Axis(format='%Y', domain=False, tickSize=0)
),
alt.Y('sum(count):Q', stack='center', axis=None),
alt.Color('series:N',
scale=alt.Scale(scheme='category20b')
)
).interactive()