自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

教你用Python創(chuàng)建瀑布圖

開發(fā) 后端
對于繪制某些類型的數(shù)據(jù)來說,瀑布圖是一種十分有用的工具。不足為奇的是,我們可以使用Pandas和matplotlib創(chuàng)建一個(gè)可重復(fù)的瀑布圖。

教你用Python創(chuàng)建瀑布圖

介紹

對于繪制某些類型的數(shù)據(jù)來說,瀑布圖是一種十分有用的工具。不足為奇的是,我們可以使用Pandas和matplotlib創(chuàng)建一個(gè)可重復(fù)的瀑布圖。

在往下進(jìn)行之前,我想先告訴大家我指代的是哪種類型的圖表。我將建立一個(gè)維基百科文章中描述的2D瀑布圖。

這種圖表的一個(gè)典型的用處是顯示開始值和結(jié)束值之間起“橋梁”作用的+和-的值。因?yàn)檫@個(gè)原因,財(cái)務(wù)人員有時(shí)會(huì)將其稱為一個(gè)橋梁。跟我之前所采用的其他例子相似,這種類型的繪圖在Excel中不容易生成,當(dāng)然肯定有生成它的方法,但是不容易記住。

關(guān)于瀑布圖需要記住的關(guān)鍵點(diǎn)是:它本質(zhì)上是一個(gè)堆疊在一起的條形圖,不過特殊的一點(diǎn)是,它有一個(gè)空白底欄,所以頂部欄會(huì)“懸浮”在空中。那么,讓我們開始吧。

創(chuàng)建圖表

首先,執(zhí)行標(biāo)準(zhǔn)的輸入,并確保IPython能顯示matplot圖。

  1. import numpy as np 
  2. import pandas as pd 
  3. import matplotlib.pyplot as plt 
  1. %matplotlib inline 

設(shè)置我們想畫出瀑布圖的數(shù)據(jù),并將其加載到數(shù)據(jù)幀(DataFrame)中。

數(shù)據(jù)需要以你的起始值開始,但是你需要給出最終的總數(shù)。我們將在下面計(jì)算它。

  1. index = ['sales','returns','credit fees','rebates','late charges','shipping'
  2. data = {'amount': [350000,-30000,-7500,-25000,95000,-7000]} 
  3. trans = pd.DataFrame(data=data,index=index) 

 我使用了IPython中便捷的display函數(shù)來更簡單地控制我要顯示的內(nèi)容。

  1. from IPython.display import display 
  2. display(trans)

教你用Python創(chuàng)建瀑布圖

瀑布圖的***技巧是計(jì)算出底部堆疊條形圖的內(nèi)容。有關(guān)這一點(diǎn),我從stackoverflow上的討論中學(xué)到很多。

首先,我們得到累積和。

  1. display(trans.amount.cumsum()) 
  2.  
  3. sales 350000 
  4.  
  5. returns 320000 
  6.  
  7. credit fees 312500 
  8.  
  9. rebates 287500 
  10.  
  11. late charges 382500 
  12.  
  13. shipping 375500 
  14.  
  15. Name: amount, dtype: int64 

 這看起來不錯(cuò),但我們需要將一個(gè)地方的數(shù)據(jù)轉(zhuǎn)移到右邊。

  1. blank=trans.amount.cumsum().shift(1).fillna(0
  2.  
  3. display(blank)
  1. sales 0 
  2.  
  3. returns 350000 
  4.  
  5. credit fees 320000 
  6.  
  7. rebates 312500 
  8.  
  9. late charges 287500 
  10.  
  11. shipping 382500 
  12.  
  13. Name: amount, dtype: float64 

 我們需要向trans和blank數(shù)據(jù)幀中添加一個(gè)凈總量。

  1. total = trans.sum().amount 
  2.  
  3. trans.loc["net"] = total 
  4.  
  5. blank.loc["net"] = total 
  6.  
  7. display(trans) 
  8.  
  9. display(blank) 

 

教你用Python創(chuàng)建瀑布圖

  1. sales 0 
  2.  
  3. returns 350000 
  4.  
  5. credit fees 320000 
  6.  
  7. rebates 312500 
  8.  
  9. late charges 287500 
  10.  
  11. shipping 382500 
  12.  
  13. net 375500 
  14.  
  15. Name: amount, dtype: float64 

 創(chuàng)建我們用來顯示變化的步驟。

  1. step = blank.reset_index(drop=True).repeat(3).shift(-1
  2.  
  3. step[1::3] = np.nan 
  4.  
  5. display(step)
  1. 0 0 
  2.  
  3. 0 NaN 
  4.  
  5. 0 350000 
  6.  
  7. 1 350000 
  8.  
  9. 1 NaN 
  10.  
  11. 1 320000 
  12.  
  13. 2 320000 
  14.  
  15. 2 NaN 
  16.  
  17. 2 312500 
  18.  
  19. 3 312500 
  20.  
  21. 3 NaN 
  22.  
  23. 3 287500 
  24.  
  25. 4 287500 
  26.  
  27. 4 NaN 
  28.  
  29. 4 382500 
  30.  
  31. 5 382500 
  32.  
  33. 5 NaN 
  34.  
  35. 5 375500 
  36.  
  37. 6 375500 
  38.  
  39. 6 NaN 
  40.  
  41. 6 NaN 
  42.  
  43. Name: amount, dtype: float64 

 對于“net”行,為了不使堆疊加倍,我們需要確保blank值為0。 

  1. blank.loc["net"] = 0 

然后,將其畫圖,看一下什么樣子。

  1. my_plot = trans.plot(kind='bar', stacked=True, bottom=blank,legend=None, title="2014 Sales Waterfall"
  2. my_plot.plot(step.index, step.values,'k')

教你用Python創(chuàng)建瀑布圖

看起來相當(dāng)不錯(cuò),但是讓我們試著格式化Y軸,以使其更具有可讀性。為此,我們使用FuncFormatter和一些Python2.7+的語法來截?cái)嘈?shù)并向格式中添加一個(gè)逗號。

  1. def money(x, pos): 
  2.  
  3. 'The two args are the value and tick position' 
  4.  
  5. return "${:,.0f}".format(x)
  1. from matplotlib.ticker import FuncFormatter 
  2. formatter = FuncFormatter(money) 

 然后,將其組合在一起。 

  1. my_plot = trans.plot(kind='bar', stacked=True, bottom=blank,legend=None, title="2014 Sales Waterfall"
  2.  
  3. my_plot.plot(step.index, step.values,'k'
  4.  
  5. my_plot.set_xlabel("Transaction Types"
  6.  
  7. my_plot.yaxis.set_major_formatter(formatter)

#p#

完整腳本

基本圖形能夠正常工作,但是我想添加一些標(biāo)簽,并做一些小的格式修改。下面是我最終的腳本:

  1. import numpy as np 
  2.  
  3. import pandas as pd 
  4.  
  5. import matplotlib.pyplot as plt 
  6.  
  7. from matplotlib.ticker import FuncFormatter 
  8.  
  9.   
  10.  
  11. #Use python 2.7+ syntax to format currency 
  12.  
  13. def money(x, pos): 
  14.  
  15. 'The two args are the value and tick position' 
  16.  
  17. return "${:,.0f}".format(x) 
  18.  
  19. formatter = FuncFormatter(money) 
  20.  
  21.   
  22.  
  23. #Data to plot. Do not include a total, it will be calculated 
  24.  
  25. index = ['sales','returns','credit fees','rebates','late charges','shipping'
  26.  
  27. data = {'amount': [350000,-30000,-7500,-25000,95000,-7000]} 
  28.  
  29.   
  30.  
  31. #Store data and create a blank series to use for the waterfall 
  32.  
  33. trans = pd.DataFrame(data=data,index=index) 
  34.  
  35. blank = trans.amount.cumsum().shift(1).fillna(0
  36.  
  37.   
  38.  
  39. #Get the net total number for the final element in the waterfall 
  40.  
  41. total = trans.sum().amount 
  42.  
  43. trans.loc["net"]= total 
  44.  
  45. blank.loc["net"] = total 
  46.  
  47.   
  48.  
  49. #The steps graphically show the levels as well as used for label placement 
  50.  
  51. step = blank.reset_index(drop=True).repeat(3).shift(-1
  52.  
  53. step[1::3] = np.nan 
  54.  
  55.   
  56.  
  57. #When plotting the last element, we want to show the full bar, 
  58.  
  59. #Set the blank to 0 
  60.  
  61. blank.loc["net"] = 0 
  62.  
  63.   
  64.  
  65. #Plot and label 
  66.  
  67. my_plot = trans.plot(kind='bar', stacked=True, bottom=blank,legend=None, figsize=(105), title="2014 Sales Waterfall"
  68.  
  69. my_plot.plot(step.index, step.values,'k'
  70.  
  71. my_plot.set_xlabel("Transaction Types"
  72.  
  73.   
  74.  
  75. #Format the axis for dollars 
  76.  
  77. my_plot.yaxis.set_major_formatter(formatter) 
  78.  
  79.   
  80.  
  81. #Get the y-axis position for the labels 
  82.  
  83. y_height = trans.amount.cumsum().shift(1).fillna(0
  84.  
  85.   
  86.  
  87. #Get an offset so labels don't sit right on top of the bar 
  88.  
  89. max = trans.max() 
  90.  
  91. neg_offset = max / 25 
  92.  
  93. pos_offset = max / 50 
  94.  
  95. plot_offset = int(max / 15
  96.  
  97.   
  98.  
  99. #Start label loop 
  100.  
  101. loop = 0 
  102.  
  103. for index, row in trans.iterrows(): 
  104.  
  105. # For the last item in the list, we don't want to double count 
  106.  
  107. if row['amount'] == total: 
  108.  
  109. y = y_height[loop] 
  110.  
  111. else
  112.  
  113. y = y_height[loop] + row['amount'
  114.  
  115. # Determine if we want a neg or pos offset 
  116. if row['amount'] > 0
  117.  
  118. y += pos_offset 
  119.  
  120. else
  121.  
  122. y -= neg_offset 
  123.  
  124. my_plot.annotate("{:,.0f}".format(row['amount']),(loop,y),ha="center"
  125.  
  126. loop+=1 
  127.  
  128.   
  129.  
  130. #Scale up the y axis so there is room for the labels 
  131.  
  132. my_plot.set_ylim(0,blank.max()+int(plot_offset)) 
  133.  
  134. #Rotate the labels 
  135.  
  136. my_plot.set_xticklabels(trans.index,rotation=0
  137.  
  138. my_plot.get_figure().savefig("waterfall.png",dpi=200,bbox_inches='tight'

 運(yùn)行該腳本將生成下面這個(gè)漂亮的圖表:

***的想法

如果你之前不熟悉瀑布圖,希望這個(gè)示例能夠向你展示它到底是多么有用。我想,可能一些人會(huì)覺得對于一個(gè)圖表來說需要這么多的腳本代碼有點(diǎn)糟糕。在某些方面,我同意這種想法。如果你僅僅只是做一個(gè)瀑布圖,而以后不會(huì)再碰它,那么你還是繼續(xù)用Excel中的方法吧。

然而,如果瀑布圖真的很有用,并且你需要將它復(fù)制給100個(gè)客戶,將會(huì)怎么樣呢?接下來你將要怎么做呢?此時(shí)使用 Excel將會(huì)是一個(gè)挑戰(zhàn),而使用本文中的腳本來創(chuàng)建100個(gè)不同的表格將相當(dāng)容易。再次說明,這一程序的真正價(jià)值在于,當(dāng)你需要擴(kuò)展這個(gè)解決方案時(shí),它 能夠便于你創(chuàng)建一個(gè)易于復(fù)制的程序。

我真的很喜歡學(xué)習(xí)更多Pandas、matplotlib和IPothon的知識(shí)。我很高興這種方法能夠幫到你,并希望其他人也可以從中學(xué)習(xí)到一些知識(shí),并將這一課所學(xué)應(yīng)用到他們的日常工作中。

 
責(zé)任編輯:王雪燕
相關(guān)推薦

2021-05-18 14:42:55

PythonMySQL

2019-01-24 09:00:00

PythonAutoML機(jī)器學(xué)習(xí)

2015-03-23 12:33:28

2021-01-27 21:55:13

代碼參數(shù)值ECharts

2023-08-03 08:51:07

2021-01-21 09:10:29

ECharts柱狀圖大數(shù)據(jù)

2020-04-09 09:52:42

Python數(shù)據(jù)技術(shù)

2021-08-09 13:31:25

PythonExcel代碼

2021-12-26 18:32:26

Python Heic 文件

2021-06-05 23:51:21

ECharts氣泡圖散點(diǎn)圖

2014-07-22 10:19:19

NeoBundle

2021-05-08 08:04:05

Python爬取素材

2018-12-10 10:00:06

Python神經(jīng)網(wǎng)絡(luò)編程語言

2017-07-19 10:22:07

2022-02-18 10:34:19

邏輯回歸KNN預(yù)測

2020-12-14 08:05:28

Javascript隨機(jī)canvas

2023-10-27 11:38:09

PythonWord

2019-09-05 10:07:23

ZAODeepfakes換臉

2020-06-17 08:35:12

數(shù)據(jù)分析Python代碼

2021-05-10 06:48:11

Python騰訊招聘
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號