不常見的Pandas小竅門:我打賭一定有你不知道的
本文轉(zhuǎn)載自公眾號“讀芯術(shù)”(ID:AI_Discovery)。
作為一名數(shù)據(jù)分析師或數(shù)據(jù)科學(xué)家,不了解Python中的Pandas庫是無論如何說不過去的,它已經(jīng)成為Python中用來整理、清理數(shù)據(jù)的標準工具了。
然而,關(guān)于Pandas,你確定自己完全掌握了嘛?本文將分享一些少見但有用的Pandas技巧,它們能提升工作效率,讓生活更輕松。
用剪貼板創(chuàng)建數(shù)據(jù)框
眾所周知,Pandas可以使用SQLAlchemy從CSV、JSON甚至直接從數(shù)據(jù)庫輕松讀取數(shù)據(jù),但你知道Pandas還可以從所用操作系統(tǒng)的剪貼板讀取數(shù)據(jù)嗎?假設(shè)有一個包含多個數(shù)據(jù)表的Excel文件。現(xiàn)在,需要在Python中處理其中一個表的部分數(shù)據(jù)。你通常會怎么做?
- 從數(shù)據(jù)表中復(fù)制需要在Python中處理的數(shù)據(jù)。
- 將其粘貼到另一個數(shù)據(jù)表中。
- 將當前工作表保存到CSV文件中。
- 獲取新CSV文件的路徑。
- 在Python中,使用pd.read_csv('path/to/csv/file')將文件讀入一個Pandas數(shù)據(jù)框架。
當然,其實有種更簡單的方法——pd.read_clipboard()。
- 復(fù)制所需數(shù)據(jù)區(qū)域
- 在Python中,使用pd.read_clipboard()

如上所示,如果只是想要將一些數(shù)據(jù)加載到Pandas中,那么無需CSV或Excel的分離文件。
在該函數(shù)中還有一些小竅門。例如,當遇到帶有日期格式的數(shù)據(jù)時,可能無法正確加載,如下所示:
訣竅就是,為Pandas注明哪一列是需要解析的日期格式。
- df = pd.read_clipboard(parse_dates=['dob'])
使用測試方法生成虛擬數(shù)據(jù)
有時可能需要生成一些樣本數(shù)據(jù)幀,最常見的方法應(yīng)該是使用NumPy生成一個具有隨機值的數(shù)組,然后從該數(shù)組生成數(shù)據(jù)幀。
如果數(shù)據(jù)需要具有一定的分布,比如正態(tài)分布,就必須使用這種方法。但是,大多數(shù)情況下,數(shù)據(jù)是否呈正態(tài)分布并不重要,只要有數(shù)據(jù)就好。在這種情況下,有一種更簡單的方法,即使用pandas.util.testing測試包生成樣本數(shù)據(jù)幀。
- pd.util.testing.makeDataFrame()
數(shù)據(jù)幀的索引將使用隨機字符串生成,默認情況下將有4列30行。
如果需要數(shù)量相當?shù)男泻土?,可以將testing.N定義為行數(shù),并將testing.K定義為列數(shù)。
- pd.util.testing.N = 10
- pd.util.testing.K = 5
- pd.util.testing.makeDataFrame()
將數(shù)據(jù)幀輸出至壓縮文件
圖源:unsplash
數(shù)據(jù)幀可以輕松輸出至文件,例如以df.to_csv()、df.to_json()等形式。但有時,為節(jié)省磁盤空間或另作它用,需要壓縮文件。例如,作為一名數(shù)據(jù)工程師,為了將Pandas數(shù)據(jù)幀輸出到CSV文件中,并將其傳輸?shù)竭h程服務(wù)器,在發(fā)送前需要壓縮文件以節(jié)省空間和帶寬。
通常,一貫的解決方案是在所用調(diào)度工具(如Airflow或Oozie)中多操作一步,但Pandas可以直接輸出壓縮文件。所以,解決方案幾步就可完成,更加簡潔明了。
先使用第二個小竅門生成隨機數(shù)據(jù)幀吧:
- pd.util.testing.N = 100000
- pd.util.testing.K = 5
- df = pd.util.testing.makeDataFrame()
在該例子中,僅需要一個數(shù)據(jù)框架,其中的值可完全不計?,F(xiàn)在,將數(shù)據(jù)幀保存到一個CSV文件中,并檢查其大小。
- import osdf.to_csv('sample.csv')os.path.getsize('sample.csv')
然后,可以試試將相同的數(shù)據(jù)幀輸出到壓縮文件中,并檢查文件的大小。
- df.to_csv('sample.csv.gz', compression='gzip')os.path.getsize('sample.csv.gz')
可以看到,壓縮文件小于正常CSV文件的一半。
這可能不是一個好例子,因為該隨機數(shù)據(jù)幀中沒有任何重復(fù)值。在實踐中,如果存在分類值,壓縮率會非常高!順便一提,如你所想,Pandas可以直接將壓縮文件讀入數(shù)據(jù)幀,無須在文件系統(tǒng)中解壓它。
- df = pd.read_csv('sample.csv.gz', compression='gzip', index_col=0)
gzip是優(yōu)先選擇,因為它默認存在于大多數(shù)Linux系統(tǒng)中。Pandas還支持其它壓縮格式,比如“zip”和“bz2”。
多列獲取DateTime(時間日期)
圖源:unsplash
在Pandas中,你一定用過pd.to_datetime()方法將某種字符串轉(zhuǎn)換為DateTime格式,這通常用于處理諸如%Y%m%d的格式字符串。然而,也有時可能會使用下方所示的數(shù)據(jù)框架作為原始數(shù)據(jù)。
- df = pd.DataFrame({
- 'year': np.arange(2000, 2012),
- 'month': np.arange(1, 13),
- 'day': np.arange(1, 13),
- 'value': np.random.randn(12)
- })
在數(shù)據(jù)框架中,將年、月、日作為單獨列分隔開來屢見不鮮,可以使用pd.to_dateframe()將其一步轉(zhuǎn)換為DateTime列。
- df['date'] = pd.to_datetime(df[['year', 'month', 'day']])
本文分享了一些關(guān)于Pandas Python庫的省時小竅門。簡而言之,人生苦短,Python值得。