Pandas庫(kù)常用方法、函數(shù)集合
作者:朱衛(wèi)軍Python
Pandas是Python數(shù)據(jù)分析處理的核心第三方庫(kù),它使用二維數(shù)組形式,類(lèi)似Excel表格,并封裝了很多實(shí)用的函數(shù)方法,讓你可以輕松地對(duì)數(shù)據(jù)集進(jìn)行各種操作。
這里列舉下Pandas中常用的函數(shù)和方法,方便大家查詢(xún)使用。
讀取 寫(xiě)入
- read_csv:讀取CSV文件
- to_csv:導(dǎo)出CSV文件
- read_excel:讀取Excel文件
- to_excel:導(dǎo)出Excel文件
- read_json:讀取Json文件
- to_json:導(dǎo)出Json文件
- read_html:讀取網(wǎng)頁(yè)中HTML表格數(shù)據(jù)
- to_html:導(dǎo)出網(wǎng)頁(yè)HTML表格
- read_clipboard:讀取剪切板數(shù)據(jù)
- to_clipboard:導(dǎo)出數(shù)據(jù)到剪切板
- to_latex:導(dǎo)出數(shù)據(jù)為latex格式
- read_sas:讀取sas格式數(shù)據(jù)(一種統(tǒng)計(jì)分析軟件數(shù)據(jù)格式)
- read_spss:讀取spss格式數(shù)據(jù)(一種統(tǒng)計(jì)分析軟件數(shù)據(jù)格式)
- read_stata:讀取stata格式數(shù)據(jù)(一種統(tǒng)計(jì)分析軟件數(shù)據(jù)格式)
- read_sql:讀取sql查詢(xún)的數(shù)據(jù)(需要連接數(shù)據(jù)庫(kù)),輸出dataframe格式
- to_sql:向數(shù)據(jù)庫(kù)寫(xiě)入dataframe格式數(shù)據(jù)
連接 合并 重塑
- merge:根據(jù)指定鍵關(guān)聯(lián)連接多個(gè)dataframe,類(lèi)似sql中的join
- concat:合并多個(gè)dataframe,類(lèi)似sql中的union
- pivot:按照指定的行列重塑表格
- pivot_table:數(shù)據(jù)透視表,類(lèi)似excel中的透視表
- cut:將一組數(shù)據(jù)分割成離散的區(qū)間,適合將數(shù)值進(jìn)行分類(lèi)
- qcut:和cut作用一樣,不過(guò)它是將數(shù)值等間距分割
- crosstab:創(chuàng)建交叉表,用于計(jì)算兩個(gè)或多個(gè)因子之間的頻率
- join:通過(guò)索引合并兩個(gè)dataframe
- stack: 將數(shù)據(jù)框的列“堆疊”為一個(gè)層次化的Series
- unstack: 將層次化的Series轉(zhuǎn)換回?cái)?shù)據(jù)框形式
- append: 將一行或多行數(shù)據(jù)追加到數(shù)據(jù)框的末尾
分組 聚合 轉(zhuǎn)換 過(guò)濾
- groupby:按照指定的列或多個(gè)列對(duì)數(shù)據(jù)進(jìn)行分組
- agg:對(duì)每個(gè)分組應(yīng)用自定義的聚合函數(shù)
- transform:對(duì)每個(gè)分組應(yīng)用轉(zhuǎn)換函數(shù),返回與原始數(shù)據(jù)形狀相同的結(jié)果
- rank:計(jì)算元素在每個(gè)分組中的排名
- filter:根據(jù)分組的某些屬性篩選數(shù)據(jù)
- sum:計(jì)算分組的總和
- mean:計(jì)算分組的平均值
- median:計(jì)算分組的中位數(shù)
- min和 max:計(jì)算分組的最小值和最大值
- count:計(jì)算分組中非NA值的數(shù)量
- size:計(jì)算分組的大小
- std和 var:計(jì)算分組的標(biāo)準(zhǔn)差和方差
- describe:生成分組的描述性統(tǒng)計(jì)摘要
- first和 last:獲取分組中的第一個(gè)和最后一個(gè)元素
- nunique:計(jì)算分組中唯一值的數(shù)量
- cumsum、cummin、cummax、cumprod:計(jì)算分組的累積和、最小值、最大值、累積乘積
數(shù)據(jù)清洗
- dropna: 丟棄包含缺失值的行或列
- fillna: 填充或替換缺失值
- interpolate: 對(duì)缺失值進(jìn)行插值
- duplicated: 標(biāo)記重復(fù)的行
- drop_duplicates: 刪除重復(fù)的行
- str.strip: 去除字符串兩端的空白字符
- str.lower和 str.upper: 將字符串轉(zhuǎn)換為小寫(xiě)或大寫(xiě)
- str.replace: 替換字符串中的特定字符
- astype: 將一列的數(shù)據(jù)類(lèi)型轉(zhuǎn)換為指定類(lèi)型
- sort_values: 對(duì)數(shù)據(jù)框按照指定列進(jìn)行排序
- rename: 對(duì)列或行進(jìn)行重命名
- drop: 刪除指定的列或行
數(shù)據(jù)可視化
- pandas.DataFrame.plot.area:繪制堆積圖
- pandas.DataFrame.plot.bar:繪制柱狀圖
- pandas.DataFrame.plot.barh:繪制水平條形圖
- pandas.DataFrame.plot.box:繪制箱線(xiàn)圖
- pandas.DataFrame.plot.density:繪制核密度估計(jì)圖
- pandas.DataFrame.plot.hexbin:繪制六邊形分箱圖
- pandas.DataFrame.plot.hist:繪制直方圖
- pandas.DataFrame.plot.line:繪制線(xiàn)型圖
- pandas.DataFrame.plot.pie:繪制餅圖
- pandas.DataFrame.plot.scatter:繪制散點(diǎn)圖
- pandas.plotting.andrews_curves:繪制安德魯曲線(xiàn),用于可視化多變量數(shù)據(jù)
- pandas.plotting.autocorrelation_plot:繪制時(shí)間序列自相關(guān)圖
- pandas.plotting.bootstrap_plot:用于評(píng)估統(tǒng)計(jì)數(shù)據(jù)的不確定性,例如均值,中位數(shù),中間范圍等
- pandas.plotting.lag_plot:繪制時(shí)滯圖,用于檢測(cè)時(shí)間序列數(shù)據(jù)中的模式、趨勢(shì)和季節(jié)性
- pandas.plotting.parallel_coordinates:繪制平行坐標(biāo)圖,用于展示具有多個(gè)特征的數(shù)據(jù)集中各個(gè)樣本之間的關(guān)系
- pandas.plotting.scatter_matrix:繪制散點(diǎn)矩陣圖
- pandas.plotting.table:繪制表格形式可視化圖
日期時(shí)間
- to_datetime: 將輸入轉(zhuǎn)換為Datetime類(lèi)型
- date_range: 生成日期范圍
- to_timedelta: 將輸入轉(zhuǎn)換為T(mén)imedelta類(lèi)型
- timedelta_range: 生成時(shí)間間隔范圍
- shift: 沿著時(shí)間軸將數(shù)據(jù)移動(dòng)
- resample: 對(duì)時(shí)間序列進(jìn)行重新采樣
- asfreq: 將時(shí)間序列轉(zhuǎn)換為指定的頻率
- cut: 將連續(xù)數(shù)據(jù)劃分為離散的箱
- period_range: 生成周期范圍
- infer_freq: 推斷時(shí)間序列的頻率
- tz_localize: 設(shè)置時(shí)區(qū)
- tz_convert: 轉(zhuǎn)換時(shí)區(qū)
- dt: 用于訪問(wèn)Datetime中的屬性
- day_name, month_name: 獲取日期的星期幾和月份的名稱(chēng)
- total_seconds: 計(jì)算時(shí)間間隔的總秒數(shù)
- rolling: 用于滾動(dòng)窗口的操作
- expanding: 用于展開(kāi)窗口的操作
- at_time, between_time: 在特定時(shí)間進(jìn)行選擇
- truncate: 截?cái)鄷r(shí)間序列
責(zé)任編輯:姜華
來(lái)源:
今日頭條