使用PandasGUI進(jìn)行探索性數(shù)據(jù)分析
Pandasgui是一個(gè)開源的python模塊,它為pandas創(chuàng)建了一個(gè)GUI界面,我們可以在其中使用pandas的功能分析數(shù)據(jù)和使用不同的功能,以便可視化和分析數(shù)據(jù),并執(zhí)行探索性數(shù)據(jù)分析。
探索性數(shù)據(jù)分析是最關(guān)鍵的部分,無(wú)論何時(shí)我們使用數(shù)據(jù)集時(shí)都要首先進(jìn)行分析。它允許我們分析數(shù)據(jù),探索數(shù)據(jù)的初始結(jié)果,比如有多少行和列,不同的列是什么,等等。EDA是一種方法,我們使用不同的方法,主要是可視化來總結(jié)數(shù)據(jù)的主要特征。
如果您正在處理數(shù)據(jù),EDA是一個(gè)重要且最關(guān)鍵的步驟。在整個(gè)項(xiàng)目中,幾乎有30%的時(shí)間是用來探索數(shù)據(jù)并找出它到底是關(guān)于什么的。EDA允許我們并告訴我們?nèi)绾卧诮V皩?duì)數(shù)據(jù)進(jìn)行預(yù)處理。這就是為什么EDA是最重要的,但是我們可以通過自動(dòng)化所有的EDA工作來節(jié)省時(shí)間,并且可以在建模中使用節(jié)省的時(shí)間。
在本文中,我們將探索Pandasgui,并了解如何使用它來自動(dòng)化探索性數(shù)據(jù)分析過程,并節(jié)省我們的時(shí)間和精力。
安裝Pandasgui
和其他庫(kù)一樣,我們可以使用pip安裝pandasgui。
- pip install pandasgui
加載數(shù)據(jù)集
pandasgui中預(yù)定義了大量的數(shù)據(jù)集,我們將使用pandasgui加載一個(gè)名為"IRIS"的數(shù)據(jù)集,這是一個(gè)非常著名的數(shù)據(jù)集,并將使用pandasgui的GUI界面來探索它。我們還將導(dǎo)入"show"函數(shù),該函數(shù)將數(shù)據(jù)集加載到GUI中。
- from pandasgui.datasets import iris
- #importing the show function
- from pandasgui import show
功能介紹
現(xiàn)在我們只需要通過傳遞數(shù)據(jù)集名稱作為參數(shù)來調(diào)用show函數(shù),它將啟動(dòng)一個(gè)GUI,在這里我們可以探索它的不同部分,并嘗試探索數(shù)據(jù)集的不同屬性。
show(iris)

在這里,您可以看到show函數(shù)啟動(dòng)GUI,我們可以清楚地看到包含不同功能的不同選項(xiàng)卡。
讓我們分析一下這個(gè)接口的不同部分。
Dataframe

我們可以清楚地分析哪些是不同的屬性以及它們包含哪些值。我們可以清楚地分析所有的值和屬性。在左邊,我們還可以看到dataframe的形狀。
Filters

在本節(jié)中,我們可以應(yīng)用不同的過濾器來分析數(shù)據(jù)。我們可以簡(jiǎn)單地輸入想要運(yùn)行的查詢并應(yīng)用過濾器。
Statistics

類似于pandas dataframe的describe功能。它幫助我們分析數(shù)據(jù)集的統(tǒng)計(jì)屬性。
Grapher

這是最重要的部分,在這里我們可以清楚地看到不同類型的可視化,我們可以使用界面創(chuàng)建,并節(jié)省了為每個(gè)可視化編寫代碼的工作。在上面的圖片中,我創(chuàng)建了sepallength和sepalwidth的散點(diǎn)圖。類似地,您可以通過拖放x、y和其他參數(shù)中的列名來創(chuàng)建不同的可視化。
Reshaper

我們可以通過應(yīng)用不同的函數(shù)和改變數(shù)據(jù)集的形狀來分析數(shù)據(jù)集。提供的兩種形狀格式是"pivot"和"melt"。我們可以在不同的函數(shù)中拖放列,并相應(yīng)地分析數(shù)據(jù)集的不同形狀。
總結(jié)
這是PandasGUI提供的5個(gè)部分,通過這些部分,我們可以分析熊貓數(shù)據(jù)并對(duì)任何給定數(shù)據(jù)集執(zhí)行EDA。PandasGUI是一個(gè)有用的工具,因?yàn)樗鼫p少了一遍又一遍編寫代碼的工作量,也節(jié)省了時(shí)間。