自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

以FIFA球員數(shù)據(jù)集為例,詳解3大酷炫可視化技巧

大數(shù)據(jù) 數(shù)據(jù)可視化
本文討論了計算和讀取不同變量類型之間的相關(guān)性、繪制數(shù)值數(shù)據(jù)之間的相關(guān)性、以及使用分類散點圖繪制分類數(shù)據(jù)和數(shù)值數(shù)據(jù)之間的相關(guān)性。

可視化令數(shù)據(jù)一目了然。然而,成功的數(shù)據(jù)可視化往往很難實現(xiàn)。此外,向更多受眾呈現(xiàn)這些可視化的數(shù)據(jù),也需要耗費更多時間和精力。

大家都知道如何制作條形圖、散點圖和直方圖,但卻不注重美化它們。這在無形中會損害我們在同行和上級心中的可靠性。

此外,代碼重用也很重要。你該不會想每次訪問數(shù)據(jù)集都從頭開始吧?利用一些可重用的圖形能更快地找到你想要的信息。

[[265626]]

本文涉及三個實用的可視化工具:

  • 圖形分類相關(guān)性
  • 散點圖矩陣
  • 使用Seaborn的分類散點圖注釋和圖注釋

總的來說,本文會教大家制作一些好看又中用的圖表。

本文將使用kaggle上的國際足聯(lián)2019年完整的球員數(shù)據(jù)集,其***版數(shù)據(jù)庫包括了每個注冊在內(nèi)的球員的詳細信息。

由于該數(shù)據(jù)集有許多列,因此我們只關(guān)注分類列和連續(xù)列的子集。

  1. import numpy as np 
  2. import pandas as pd 
  3. import seaborn as sns 
  4. import matplotlib.pyplot as plt 
  5. %matplotlib inline 
  6. # We dont Probably need the Gridlines. Do we? If yes comment this line 
  7. sns.set(style="ticks"
  8. player_df = pd.read_csv("../input/data.csv") 
  9. numcols = [ 
  10.  'Overall', 
  11.  'Potential', 
  12. 'Crossing','Finishing',  'ShortPassing',  'Dribbling','LongPassing', 'BallControl', 'Acceleration', 
  13.        'SprintSpeed', 'Agility',  'Stamina', 
  14.  'Value','Wage'] 
  15. catcols = ['Name','Club','Nationality','Preferred Foot','Position','Body Type'] 
  16. # Subset the columns 
  17. player_dfplayer_df = player_df[numcols+ catcols] 
  18. # Few rows of data 
  19. player_df.head(5) 

球員數(shù)據(jù)

雖然該數(shù)據(jù)格式良好,但是因為工資和值列是以歐元為單位,并包含字符串,需要進行一些預(yù)處理,才能使它們?yōu)楹罄m(xù)分析提供數(shù)值。

  1. def wage_split(x): 
  2.     try: 
  3.         return int(x.split("K")[0][1:]) 
  4.     except: 
  5.         return 0 
  6. player_df['Wage'] = player_df['Wage'].apply(lambda x : wage_split(x)) 
  7. def value_split(x): 
  8.     try: 
  9.         if 'M' in x: 
  10.             return float(x.split("M")[0][1:]) 
  11.         elif 'K' in x: 
  12.             return float(x.split("K")[0][1:])/1000 
  13.     except: 
  14.         return 0 
  15. player_df['Value'] = player_df['Value'].apply(lambda x : value_split(x)) 

圖形分類相關(guān)性

簡單來說,相關(guān)性是衡量兩個變量如何一起運動的指標(biāo)。

例如,在現(xiàn)實生活中,收入與支出呈正相關(guān),其中一個變量隨著另一個變量的增加而增加。

學(xué)習(xí)成績和電子游戲的使用呈負相關(guān),其中一個變量的增加意味著另一個變量的減少。

因此如果預(yù)測變量與目標(biāo)變量呈正相關(guān)或負相關(guān),那么該變量就有研究價值。

研究不同變量之間的相關(guān)性對于理解數(shù)據(jù)非常有意義。

使用Seaborn即可輕松創(chuàng)建出相當(dāng)不錯的關(guān)系圖。

  1. corr = player_df.corr() 
  2. g = sns.heatmap(corr,  vmax=.3, center=0
  3.             square=Truelinewidths=.5, cbar_kws={"shrink": .5}, annot=Truefmt='.2f'cmap='coolwarm'
  4. sns.despine() 
  5. g.figure.set_size_inches(14,10) 
  6.  
  7. plt.show() 

所有的分類變量都去哪了?

你有注意到什么問題嗎?

有問題,因為該圖僅計算了數(shù)值列之間的相關(guān)性。

如果目標(biāo)變量是club或position,會出現(xiàn)什么情況?

如果想得到三種不同情況之間的相關(guān)性,可使用以下相關(guān)性度量來計算。

1. 數(shù)值變量

該變量可通過Pearson相關(guān)性的方式得到,用于度量兩個變量如何一起運動,范圍為[-1,1]。

2. 分類變量

使用克萊姆V系數(shù)來分類案例。該系數(shù)是兩個離散變量之間的相互關(guān)聯(lián),并與具有兩個或多層次的變量一起使用。它也是一個對稱的度量,因為變量的順序無關(guān)緊要,即克萊姆(A,B)==克萊姆(B,A)。

例如,在數(shù)據(jù)集中,Club和Nationality一定有某種關(guān)聯(lián)。

可用堆疊圖來驗證這一點,這是理解分類變量和分類變量間分布的一個***方法,因為在該數(shù)據(jù)中有很多國籍和俱樂部,所以使用數(shù)據(jù)的子集。

只保留***的球隊(保留波爾圖足球俱樂部只是為了讓樣本更加多樣化)和最常見的國籍。

俱樂部偏好在很大程度上反映了“國籍”:了解前者有助于預(yù)測后者。

由圖可知,英國球員更可能效力于切爾西隊或曼聯(lián)隊,而不是在巴塞羅那隊、拜仁慕尼黑隊或波爾圖隊。

同理,克萊姆V系數(shù)也也捕獲到了同樣的信息。

如果所有俱樂部擁有的球員的國籍比例相同,那么克萊姆V系數(shù)則為0。

如果每個俱樂部偏好單一國籍的球員,則克萊姆系數(shù)V==1,例如,所有的英國球員在曼聯(lián)隊效力,所有的德國球員在拜仁慕尼黑隊效力等等。

在所有其他情況下,范圍則為[0,1]。

3. 數(shù)值變量和分類變量

對連續(xù)分類案例使用相關(guān)比率。

在不涉及太多數(shù)學(xué)的情況下,該變量用于離散程度的衡量。

如果給定一個數(shù)字,就能找出它的類別嗎?

例如,假設(shè)數(shù)據(jù)集中有“SprintSpeed”和“Position”兩列分類,那么:

  • 守門員:58(De Gea)、52(T. Courtois)、58(M. Neuer)、 43(G. Buffon)
  • 中后衛(wèi):68(D. Godin)、59(V. Kompany)、73(S. Umtiti)、 75(M. Benatia)
  • 前鋒:91(C.Ronaldo)、94(G. Bale)、80(S.Aguero)、 76(R. Lewandowski)

由上可知,這些數(shù)字很好地預(yù)測了他們所處的位置,因此相關(guān)性很高。

如果某球員沖刺速度超過85,那么該球員肯定是前鋒。

這個比率也在[0,1]之間。

執(zhí)行此操作的代碼取自dython包,代碼不會很多,最終結(jié)果如下:

  1. player_dfplayer_df = player_df.fillna(0) 
  2. results = associations(player_df,nominal_columns=catcols,return_results=True

分類vs.分類、分類vs.數(shù)值、數(shù)值vs.數(shù)值,這些使圖表更為有趣。

很美,不是嗎?

只要看看數(shù)據(jù),就能對足球有如此多的了解,例如:

  • 球員的位置與運球能力高度相關(guān)。總不能讓梅西踢后衛(wèi)吧!
  • 值與傳球和控球的相關(guān)性比運球更高。規(guī)則是永遠傳球,正如內(nèi)馬爾的傳球。
  • “俱樂部”和“收入”有很高的相關(guān)性并且可預(yù)測。
  • “體型”與“踢球偏好的腳”高度相關(guān)。這是否意味著如果某球員是瘦子,就很可能喜歡用左腳踢球?這可能沒啥實際意義,需要進一步調(diào)查。

此外,通過這個簡單的圖表,就能找到上述這么多信息,這在沒有分類變量的典型相關(guān)圖中是見不到的。

大家可深入研究這張圖表,得到更多有意義的結(jié)果,但關(guān)鍵是圖表能讓大家在現(xiàn)實生活中更容易找到某種規(guī)律。

散點圖矩陣

雖然前文談到了很多相關(guān)性,但它是一個變幻無常的指標(biāo),為了讓大家理解,我們來看一個例子。

“Anscombe四重奏”由四個相關(guān)性幾乎近似于1的數(shù)據(jù)集組成,但具有非常不同的數(shù)據(jù)分布,并且在繪制時呈現(xiàn)出非常不同的效果。

Anscombe四重奏:相關(guān)性變化無常

因此,有時繪制相關(guān)數(shù)據(jù)變得至關(guān)重要,并且需要單獨查看分布。

現(xiàn)在數(shù)據(jù)集中有很多列,把它們?nèi)祭L制成圖形會很費力。

其實只需幾行代碼就可以解決。

  1. filtered_player_df = player_df[(player_df['Club'].isin(['FC Barcelona', 'Paris Saint-Germain', 
  2.        'Manchester United', 'Manchester City', 'Chelsea', 'Real Madrid','FC Porto','FC Bayern München'])) &  
  3.                       (player_df['Nationality'].isin(['England', 'Brazil', 'Argentina', 
  4.        'Brazil', 'Italy','Spain','Germany']))  
  5.                      ] 
  6. # Single line to create pairplot 
  7. g = sns.pairplot(filtered_player_df[['Value','SprintSpeed','Potential','Wage']]) 

非常好,在該圖中可看到很多信息。

  • 工資和價值高度相關(guān)。
  • 大多數(shù)其它值也是相關(guān)的,然而“潛力”與“價值”的比的趨勢是不尋常的??梢钥吹剑?dāng)?shù)竭_特定的潛在閥值時,價值如何呈指數(shù)增長。這些信息對建模很有幫助,可以對“潛力”進行轉(zhuǎn)換使其更具有相關(guān)性嗎?

警告:沒有分類列!

在此基礎(chǔ)上能做得更好嗎?總能做到。

  1. g = sns.pairplot(filtered_player_df[['Value','SprintSpeed','Potential','Wage','Club']],hue = 'Club'

圖上的信息很多,只需添加“hue”參數(shù)到分類變量“club”中即可。

  • 波爾圖隊的工資分配趨向于工資少的那一端。
  • 該圖無法看出波爾圖隊球員價值的急劇分布,波爾圖隊的球員們總是在尋求機會。
  • 許多粉紅點(代表切爾西隊)在“潛力”和“工資”圖上形成了一個集群。切爾西隊有很多工資較低的高潛力球員,需要更多關(guān)注。

還可從工資/價值子圖中獲取一些信息。

年薪50萬的藍點是梅西。此外,比梅西更有價值的橙點是內(nèi)馬爾。

盡管該技巧仍然不能解決分類問題,但還有一些其它方法來研究分類變量分布,雖然是個例。

分類散點圖

如何查看分類數(shù)據(jù)和數(shù)字數(shù)據(jù)之間的關(guān)系?

就像輸入名字一樣,輸入分類散點圖的圖片。為每個類別繪制一組點,在y軸上稍微分散,以便于查看。

這是我們目前繪制這種關(guān)系的***方法。

  1. g = sns.swarmplot(y = "Club"
  2.               x = 'Wage',  
  3.               data = filtered_player_df
  4.               # Decrease the size of the points to avoid crowding  
  5.               size = 7
  6. # remove the top and right line in graph 
  7. sns.despine() 
  8. g.figure.set_size_inches(14,10) 
  9. plt.show() 

分類散點圖

為什么不用箱形圖呢?中位數(shù)在哪?可以繪制出來嗎?當(dāng)然可以。在頂部覆蓋一個條形圖,就得到了一個好看的圖形。

  1. g = sns.boxplot(y = "Club"
  2.               x = 'Wage',  
  3.               data = filtered_player_dfwhis=np.inf) 
  4. g = sns.swarmplot(y = "Club"
  5.               x = 'Wage',  
  6.               data = filtered_player_df
  7.               # Decrease the size of the points to avoid crowding  
  8.               size = 7,color = 'black'
  9. # remove the top and right line in graph 
  10. sns.despine() 
  11. g.figure.set_size_inches(12,8) 
  12. plt.show() 

有趣的分類散點圖+箱形圖

很好,在圖表上可看出各個點的分布和一些統(tǒng)計數(shù)據(jù),并能明確地了解工資差異。

圖中最右邊的點是梅西,這樣一來,就不用通過圖表下方的文字來說明。

該圖可用來做演示,如果老板要求把梅西寫在這張圖上,那么就可加上圖片注釋。

  1. max_wage = filtered_player_df.Wage.max() 
  2. max_wage_player = filtered_player_df[(player_df['Wage'] == max_wage)]['Name'].values[0] 
  3. g = sns.boxplot(y = "Club"
  4.               x = 'Wage',  
  5.               data = filtered_player_dfwhis=np.inf) 
  6. g = sns.swarmplot(y = "Club"
  7.               x = 'Wage',  
  8.               data = filtered_player_df
  9.               # Decrease the size of the points to avoid crowding  
  10.               size = 7,color='black'
  11. # remove the top and right line in graph 
  12. sns.despine() 
  13. # Annotate. xy for coordinate. max_wage is x and 0 is y. In this plot y ranges from 0 to 7 for each level 
  14. # xytext for coordinates of where I want to put my text 
  15. plt.annotate(s = max_wage_player
  16.              xy = (max_wage,0), 
  17.              xytext = (500,1),  
  18.              # Shrink the arrow to avoid occlusion 
  19.              arrowprops = {'facecolor':'gray', 'width': 3, 'shrink': 0.03}, 
  20.              backgroundcolor = 'white'
  21. g.figure.set_size_inches(12,8) 
  22. plt.show() 

 

帶注釋的統(tǒng)計信息和點群,可用于演講中。

  • 看看該圖下方的波爾圖隊,工資預(yù)算如此之小,難以和其它高收入的球隊們競爭。
  • 皇馬和巴塞羅那有許多高薪球員。
  • 曼聯(lián)的工資中位數(shù)***。
  • 曼聯(lián)和切爾西注重平等,許多球員的工資水平都差不多。
  • 雖然內(nèi)馬爾比梅西更受重視,但梅西和內(nèi)馬爾的工資差距巨大。

由此可知,在這個瘋狂的世界中,有些正常只是表面的。

本文討論了計算和讀取不同變量類型之間的相關(guān)性、繪制數(shù)值數(shù)據(jù)之間的相關(guān)性、以及使用分類散點圖繪制分類數(shù)據(jù)和數(shù)值數(shù)據(jù)之間的相關(guān)性。十分有趣的是,可以在Seaborn 中將圖表元素疊加在一起。

責(zé)任編輯:趙寧寧 來源: 讀芯術(shù)
相關(guān)推薦

2022-09-29 11:16:21

Python數(shù)據(jù)可視化

2022-08-17 09:01:16

數(shù)據(jù)可視化大數(shù)據(jù)

2021-12-30 12:02:52

Python可視化代碼

2019-07-26 09:19:32

數(shù)據(jù)可視化架構(gòu)

2018-03-21 12:13:47

工具數(shù)據(jù)開發(fā)

2022-04-13 09:01:53

Echart5繪制地圖

2020-03-11 14:39:26

數(shù)據(jù)可視化地圖可視化地理信息

2020-07-06 14:50:36

地圖可視化Java

2023-04-26 15:27:11

JavaScript技巧元素

2017-10-14 13:54:26

數(shù)據(jù)可視化數(shù)據(jù)信息可視化

2023-12-27 10:47:45

Flask數(shù)據(jù)可視化開發(fā)

2024-02-26 12:02:37

Python數(shù)據(jù)可視化D3blocks

2020-10-22 08:52:52

Python數(shù)據(jù)集可視化

2021-04-19 09:00:54

Python批量下載視頻下載器

2025-02-10 00:45:00

pairplotheatmaplmplot

2021-09-26 16:20:04

Sentry Dashboards 數(shù)據(jù)可視化

2022-02-11 16:01:14

C語言技巧命令

2020-09-18 16:37:59

數(shù)據(jù)可視化技術(shù)Python

2015-03-16 14:00:25

大數(shù)據(jù)誤區(qū)大數(shù)據(jù)可視化大數(shù)據(jù)

2018-08-09 22:16:35

可視化數(shù)據(jù)集Groeger
點贊
收藏

51CTO技術(shù)棧公眾號