自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

五個案例快速熟悉 Pandas 常用操作

大數(shù)據(jù) 數(shù)據(jù)分析
本文展示了Pandas在日常數(shù)據(jù)處理中最常用的一些功能,熟練掌握這些操作是進行任何數(shù)據(jù)分析項目的基礎。

Pandas是Python生態(tài)系統(tǒng)中用于數(shù)據(jù)處理和分析的核心庫。它構建在NumPy之上,提供了高性能、易于使用的數(shù)據(jù)結構(主要是Series一維數(shù)據(jù)和DataFrame二維數(shù)據(jù))和數(shù)據(jù)分析工具。無論是數(shù)據(jù)清洗、轉(zhuǎn)換、合并還是可視化前的準備,Pandas都是數(shù)據(jù)科學家的得力助手。

案例一:數(shù)據(jù)加載與查看

(1) 場景描述

數(shù)據(jù)分析的第一步通常是從外部文件(如CSV、Excel)加載數(shù)據(jù),并快速查看數(shù)據(jù)的基本信息,如前幾行、后幾行、整體結構等。

# 導入pandas庫,通常簡寫為pd
import pandas as pd
import io # 用于在內(nèi)存中模擬文件

# ---- 1. 數(shù)據(jù)加載 ----
# 假設的CSV數(shù)據(jù)內(nèi)容 (如果在本地有文件,請使用 pd.read_csv('students.csv'))
csv_data = """StudentID,Name,Age,Major,GPA
1001,Alice,21,Computer Science,3.8
1002,Bob,22,Physics,3.5
1003,Charlie,20,Mathematics,3.9
1004,David,23,Computer Science,3.7
1005,Eve,21,Engineering,3.6
"""

# 使用 io.StringIO 在內(nèi)存中模擬一個CSV文件對象
# 然后使用 pandas 讀取這個模擬文件
# 如果有實際文件 'students.csv',直接用 df = pd.read_csv('students.csv') 即可
df = pd.read_csv(io.StringIO(csv_data))

print("--- 數(shù)據(jù)加載成功 ---")
# 打印整個DataFrame (對于大數(shù)據(jù)集,通常不建議直接打印整個df)
# print(df)


# ---- 2. 數(shù)據(jù)基本查看 ----

# 查看數(shù)據(jù)的前5行 (默認n=5)
print("\n--- 查看前5行 (head) ---")
print(df.head())

# 查看數(shù)據(jù)的后3行
print("\n--- 查看后3行 (tail) ---")
print(df.tail(3))

# 查看DataFrame的索引、列名和數(shù)據(jù)類型等信息
print("\n--- 查看基本信息 (info) ---")
df.info()

# 查看數(shù)值型列的描述性統(tǒng)計信息(計數(shù)、均值、標準差、最小值、四分位數(shù)、最大值)
print("\n--- 查看描述性統(tǒng)計 (describe) ---")
print(df.describe())

# 查看DataFrame的維度(行數(shù), 列數(shù))
print("\n--- 查看數(shù)據(jù)維度 (shape) ---")
print(df.shape)

# 查看所有列名
print("\n--- 查看列名 (columns) ---")
print(df.columns)

# 查看每一列的數(shù)據(jù)類型
print("\n--- 查看數(shù)據(jù)類型 (dtypes) ---")
print(df.dtypes)

(2) 代碼注釋

  • pd.read_csv(): 這是Pandas用于讀取CSV文件的核心函數(shù)。它可以直接讀取文件路徑或類文件對象。
  • df.head(n): 返回DataFrame的前n行,默認為5。用于快速預覽數(shù)據(jù)。
  • df.tail(n): 返回DataFrame的后n行,默認為5。用于檢查數(shù)據(jù)結尾。
  • df.info(): 提供DataFrame的緊湊摘要,包括索引類型、列名、非空值數(shù)量和內(nèi)存使用情況。非常適合快速了解數(shù)據(jù)概況和類型。
  • df.describe(): 生成描述性統(tǒng)計數(shù)據(jù),主要針對數(shù)值類型的列。對于非數(shù)值列,可以加include='object'或include='all'。
  • df.shape: 返回一個元組,表示DataFrame的維度(行數(shù),列數(shù))。
  • df.columns: 返回包含所有列名的索引對象。
  • df.dtypes: 返回一個Series,其中包含每列的數(shù)據(jù)類型。

案例二:數(shù)據(jù)選擇與過濾

(1) 場景描述

在數(shù)據(jù)分析中,我們經(jīng)常需要根據(jù)特定條件選擇數(shù)據(jù)的子集,例如選擇特定的列、或滿足某些條件的行。

(2) 使用數(shù)據(jù)

我們繼續(xù)使用上一個案例中加載的 df (學生數(shù)據(jù))。

(3) 代碼實現(xiàn)

# 繼續(xù)使用上一個案例創(chuàng)建的 df

print("--- 原始數(shù)據(jù) ---")
print(df)

# ---- 1. 選擇列 ----

# 選擇單列 (返回一個 Series)
print("\n--- 選擇 'Name' 列 ---")
name_series = df['Name']
print(type(name_series)) # 輸出 <class 'pandas.core.series.Series'>
print(name_series)

# 選擇多列 (返回一個新的 DataFrame)
print("\n--- 選擇 'Name' 和 'GPA' 列 ---")
name_gpa_df = df[['Name', 'GPA']] # 注意這里用的是雙層方括號
print(type(name_gpa_df)) # 輸出 <class 'pandas.core.frame.DataFrame'>
print(name_gpa_df)


# ---- 2. 選擇行 (基于標簽 loc 和 位置 iloc) ----

# 使用 .loc 按標簽(索引名)選擇行
# DataFrame默認索引是0, 1, 2... 此時loc和iloc在選擇行時表現(xiàn)類似
print("\n--- 使用 loc 選擇索引為 1 的行 ---")
row_1_loc = df.loc[1] # 索引標簽為 1
print(row_1_loc)

# 使用 .iloc 按整數(shù)位置選擇行 (從0開始)
print("\n--- 使用 iloc 選擇第 3 行 (位置為 2) ---")
row_3_iloc = df.iloc[2] # 第3行的位置是2
print(row_3_iloc)

# 選擇連續(xù)多行
print("\n--- 使用 iloc 選擇第 2 到第 4 行 (位置 1 到 3) ---")
rows_1_to_3 = df.iloc[1:4] # 不包括位置4
print(rows_1_to_3)


# ---- 3. 選擇行和列 ----

# 使用 loc 選擇特定行和列
print("\n--- 使用 loc 選擇索引為 0 和 2 的行的 'Name' 和 'Age' 列 ---")
subset_loc = df.loc[[0, 2], ['Name', 'Age']]
print(subset_loc)

# 使用 iloc 選擇特定行和列 (按位置)
# 選擇第1行(位置0)、第3行(位置2) 的 第2列(位置1)、第4列(位置3)
print("\n--- 使用 iloc 選擇特定行和列 (按位置) ---")
subset_iloc = df.iloc[[0, 2], [1, 3]] # 行位置0, 2; 列位置1 (Name), 3 (Major)
print(subset_iloc)


# ---- 4. 條件過濾 (布爾索引) ----

# 選擇 Age 大于 21 的學生
print("\n--- 選擇 Age > 21 的學生 ---")
older_students = df[df['Age'] > 21]
print(older_students)

# 選擇 專業(yè)為 'Computer Science' 的學生
print("\n--- 選擇專業(yè)為 'Computer Science' 的學生 ---")
cs_students = df[df['Major'] == 'Computer Science']
print(cs_students)

# 組合條件:選擇專業(yè)為 'Computer Science' 且 GPA 大于 3.7 的學生
print("\n--- 選擇專業(yè)為 'Computer Science' 且 GPA > 3.7 的學生 ---")
top_cs_students = df[(df['Major'] == 'Computer Science') & (df['GPA'] > 3.7)] # 使用 & (and), | (or)
print(top_cs_students)

(4) 代碼注釋

  • df['ColumnName']: 選擇單列,返回 Pandas Series。
  • df[['Col1', 'Col2']]: 使用列表選擇多列,返回 Pandas DataFrame。
  • df.loc[row_label, col_label]: 基于標簽(索引名和列名)進行選擇。標簽可以是單個標簽、列表或切片。
  • df.iloc[row_position, col_position]: 基于整數(shù)位置(從0開始)進行選擇。位置可以是單個整數(shù)、列表或切片。
  • df[boolean_condition]: 這是布爾索引的核心。boolean_condition 通常是一個評估為布爾值(True/False)的 Series(例如 df['Age'] > 21)。Pandas會返回 boolean_condition 為 True 的所有行。
  • & (與), | (或), ~ (非): 用于組合多個布爾條件。注意:必須使用 & 和 |,而不是 Python 的 and 和 or。每個條件需要用括號括起來。

案例三:處理缺失值

(1) 場景描述

真實世界的數(shù)據(jù)往往不完美,包含缺失值(通常表示為 NaN, Not a Number)。處理缺失值是數(shù)據(jù)清洗的關鍵步驟,常見策略包括刪除缺失值或填充缺失值。

(2) 準備數(shù)據(jù)

我們創(chuàng)建一個包含缺失值的新DataFrame。

(3) 代碼實現(xiàn)

import pandas as pd
import numpy as np # NumPy 通常用于生成 NaN

# ---- 1. 創(chuàng)建包含缺失值的DataFrame ----
data_with_nan = {
    'StudentID': [1001, 1002, 1003, 1004, 1005, 1006],
    'Name': ['Alice', 'Bob', 'Charlie', 'David', np.nan, 'Frank'],
    'Age': [21, 22, 20, np.nan, 21, 22],
    'GPA': [3.8, 3.5, 3.9, 3.7, np.nan, np.nan]
}
df_nan = pd.DataFrame(data_with_nan)

print("--- 包含缺失值的原始數(shù)據(jù) ---")
print(df_nan)

# ---- 2. 檢測缺失值 ----

# 檢查整個DataFrame是否有缺失值 (返回布爾型DataFrame)
print("\n--- 檢查缺失值 (isnull) ---")
print(df_nan.isnull()) # isnull() 和 isna() 等價

# 統(tǒng)計每列的缺失值數(shù)量
print("\n--- 統(tǒng)計每列的缺失值數(shù)量 ---")
print(df_nan.isnull().sum())

# 統(tǒng)計總的缺失值數(shù)量
print("\n--- 統(tǒng)計總?cè)笔е禂?shù)量 ---")
print(df_nan.isnull().sum().sum())

# ---- 3. 處理缺失值:刪除 ----

# 刪除任何包含缺失值的行 (dropna)
# axis=0 表示按行操作,how='any' 表示只要有一個NaN就刪除該行
print("\n--- 刪除包含NaN的行 (how='any') ---")
df_dropped_any = df_nan.dropna(axis=0, how='any') # 默認行為
print(df_dropped_any)

# 刪除所有值都是缺失值的行 (how='all')
# 在這個例子中沒有這樣的行
# df_dropped_all = df_nan.dropna(axis=0, how='all')

# 刪除任何包含缺失值的列
# axis=1 表示按列操作
print("\n--- 刪除包含NaN的列 ---")
df_dropped_cols = df_nan.dropna(axis=1, how='any')
print(df_dropped_cols) # Name, Age, GPA列都會被刪除

# ---- 4. 處理缺失值:填充 ----

# 用一個特定值填充所有NaN
print("\n--- 用 0 填充所有 NaN ---")
df_filled_zero = df_nan.fillna(0)
print(df_filled_zero)

# 使用指定值填充特定列的NaN
# 例如,用 'Unknown' 填充 'Name' 列的NaN,用 'Age' 列的平均值填充 'Age' 的NaN
print("\n--- 分別填充不同列的 NaN ---")
# 先復制一份,避免修改原始 df_nan
df_filled_specific = df_nan.copy()
# 計算 Age 的平均值 (忽略NaN)
age_mean = df_filled_specific['Age'].mean()
print(f"Calculated mean age: {age_mean}")
# 填充 Name 列
df_filled_specific['Name'].fillna('Unknown', inplace=True) # inplace=True 直接修改原DataFrame
# 填充 Age 列
df_filled_specific['Age'].fillna(age_mean, inplace=True)
# 填充 GPA 列 (例如用中位數(shù))
gpa_median = df_filled_specific['GPA'].median()
print(f"Calculated median GPA: {gpa_median}")
df_filled_specific['GPA'].fillna(gpa_median, inplace=True)

print(df_filled_specific)

# 使用前向填充 (用前一個有效值填充)
print("\n--- 使用前向填充 (ffill) ---")
df_ffilled = df_nan.fillna(method='ffill') # or .ffill()
print(df_ffilled)

# 使用后向填充 (用后一個有效值填充)
print("\n--- 使用后向填充 (bfill) ---")
df_bfilled = df_nan.fillna(method='bfill') # or .bfill()
print(df_bfilled)

(4) 代碼注釋

  • pd.DataFrame(): 用于創(chuàng)建DataFrame。
  • df.isnull() / df.isna(): 返回一個與原DataFrame形狀相同的布爾DataFrame,True表示對應位置是缺失值。
  • df.isnull().sum(): 對布爾DataFrame按列求和,得到每列缺失值的數(shù)量。
  • df.dropna(axis=0/1, how='any'/'all', subset=['col']): 刪除包含缺失值的行(axis=0)或列(axis=1)。
  • how='any':只要有NaN就刪除。
  • how='all':所有值都是NaN才刪除。
  • subset:指定只在哪些列中檢查NaN。
  • df.fillna(value, method='ffill'/'bfill', inplace=False): 填充缺失值。
  • value: 可以是標量(填充所有NaN),或是一個字典(指定每列用什么值填充)。
  • method='ffill':前向填充。
  • method='bfill':后向填充。
  • inplace=True: 直接修改原DataFrame,而不是返回一個新對象。謹慎使用。
  • df['column'].mean(), df['column'].median(), df['column'].mode()[0]: 常用于計算填充缺失值所需的統(tǒng)計量(均值、中位數(shù)、眾數(shù))。

案例四:數(shù)據(jù)分組與聚合

(1) 場景描述

分組聚合是數(shù)據(jù)分析中非常強大的功能,允許我們按照某些類別對數(shù)據(jù)進行分組,然后對每個組應用聚合函數(shù)(如求和、計數(shù)、平均值等),從而提取有價值的洞察。

(2) 準備數(shù)據(jù)

假設我們有以下銷售數(shù)據(jù):

import pandas as pd

# 銷售數(shù)據(jù)
sales_data = {
    'Category': ['Electronics', 'Clothing', 'Electronics', 'Groceries', 'Clothing', 'Groceries', 'Electronics', 'Clothing'],
    'Product': ['Laptop', 'T-Shirt', 'Phone', 'Apples', 'Jeans', 'Milk', 'Tablet', 'Jacket'],
    'Sales': [1200, 25, 800, 5, 70, 3, 650, 150],
    'Quantity': [1, 2, 1, 10, 1, 3, 1, 1]
}
df_sales = pd.DataFrame(sales_data)

print("--- 原始銷售數(shù)據(jù) ---")
print(df_sales)

(3) 代碼實現(xiàn)

# 繼續(xù)使用上面創(chuàng)建的 df_sales

# ---- 1. 按單列分組并聚合 ----

# 按 'Category' 分組,計算每個類別的總銷售額
print("\n--- 按 Category 分組計算總銷售額 (sum) ---")
category_sales_sum = df_sales.groupby('Category')['Sales'].sum()
print(category_sales_sum)
print(type(category_sales_sum)) # 返回 Series

# 按 'Category' 分組,計算每個類別的平均銷售額和總數(shù)量
# 如果對分組后的對象直接調(diào)用聚合函數(shù),會對所有數(shù)值列進行計算
print("\n--- 按 Category 分組計算所有數(shù)值列的均值 (mean) ---")
category_mean = df_sales.groupby('Category').mean() # 計算 Sales 和 Quantity 的均值
print(category_mean)
print(type(category_mean)) # 返回 DataFrame

# 按 'Category' 分組,計算每個類別有多少條記錄 (size 或 count)
print("\n--- 按 Category 分組計算記錄數(shù) (size) ---")
category_counts = df_sales.groupby('Category').size()
print(category_counts)
# 使用 count() - 會分別計算每列的非空記錄數(shù)
# print("\n--- 按 Category 分組計算記錄數(shù) (count) ---")
# category_counts_col = df_sales.groupby('Category').count()
# print(category_counts_col)

# ---- 2. 按多列分組 ----

# 按 'Category' 和 'Product' 分組 (雖然這里Product唯一,演示多級索引)
# 計算每個產(chǎn)品組的總銷售額 (在這個數(shù)據(jù)里,每個組只有一行)
print("\n--- 按 Category 和 Product 分組計算總銷售額 ---")
category_product_sales = df_sales.groupby(['Category', 'Product'])['Sales'].sum()
print(category_product_sales) # 結果是一個具有多級索引 (MultiIndex) 的 Series


# ---- 3. 使用 agg 進行多種聚合 ----

# 對不同列應用不同的聚合函數(shù),或者對同一列應用多個聚合函數(shù)
print("\n--- 使用 agg 對 Category 分組進行多種聚合 ---")
agg_results = df_sales.groupby('Category').agg(
    TotalSales=('Sales', 'sum'),          # 計算 Sales 的總和,結果列名為 TotalSales
    AverageSales=('Sales', 'mean'),       # 計算 Sales 的平均值,結果列名為 AverageSales
    TotalQuantity=('Quantity', 'sum'),    # 計算 Quantity 的總和
    ProductCount=('Product', 'count')     # 計算每個類別有多少個產(chǎn)品記錄
)
print(agg_results)

# 對同一列應用多個聚合函數(shù)
print("\n--- 對 Sales 列應用多個聚合函數(shù) ---")
sales_agg = df_sales.groupby('Category')['Sales'].agg(['sum', 'mean', 'min', 'max', 'count'])
print(sales_agg)

(4) 代碼注釋

① df.groupby('ColumnName') 或 df.groupby(['Col1', 'Col2']): 創(chuàng)建一個 GroupBy 對象,按指定的列(一個或多個)對 DataFrame 進行分組。這本身不進行計算,只是定義了分組規(guī)則。

② .sum(), .mean(), .median(), .min(), .max(), .count(), .size(), .std(), .var(): 這些是常用的聚合函數(shù),可以直接應用在 GroupBy 對象上或選擇了特定列的 GroupBy 對象上。

③ .size(): 返回每個組的大小(行數(shù)),結果是 Series。

④ .count(): 返回每個組中每列的非空值的數(shù)量,結果是 DataFrame。

⑤ GroupBy_Object['TargetColumn']: 在分組后選擇要進行聚合的列。

⑥ .agg(): 提供更靈活的聚合方式。

  • 可以傳遞一個函數(shù)列表,如 ['sum', 'mean'],對選定的列應用所有這些函數(shù)。
  • 可以傳遞一個字典,如 {'Sales': 'sum', 'Quantity': 'mean'},對不同的列應用不同的聚合函數(shù)。
  • 可以使用命名聚合(如 TotalSales=('Sales', 'sum')),允許自定義輸出列名,語法為 NewColumnName = ('SourceColumnName', 'AggregationFunction')。這在 Pandas 較高版本中推薦使用。

案例五:數(shù)據(jù)合并與連接 (Bonus)

(1) 場景描述

在實際項目中,數(shù)據(jù)通常分散在多個表(DataFrame)中,需要將它們根據(jù)共同的鍵(key)合并或連接起來。

(2) 準備數(shù)據(jù)

創(chuàng)建兩個簡單的DataFrame用于演示合并。

import pandas as pd

# 第一個DataFrame: 員工信息
df_employees = pd.DataFrame({
    'EmpID': [101, 102, 103, 104],
    'Name': ['Alice', 'Bob', 'Charlie', 'David'],
    'DepartmentID': [1, 2, 1, 3]
})

# 第二個DataFrame: 部門信息
df_departments = pd.DataFrame({
    'DeptID': [1, 2, 3, 4],
    'DepartmentName': ['HR', 'Engineering', 'Sales', 'Marketing'],
    'Location': ['New York', 'San Francisco', 'New York', 'Chicago']
})

print("--- 員工信息 DataFrame ---")
print(df_employees)
print("\n--- 部門信息 DataFrame ---")
print(df_departments)

(3) 代碼實現(xiàn)

# ---- 1. 使用 merge 進行合并 ----

# 內(nèi)連接 (Inner Join): 只保留兩個DataFrame中鍵都存在的行
# 需要指定左右DataFrame的連接鍵 (left_on, right_on)
print("\n--- 內(nèi)連接 (Inner Join) ---")
# EmpID 和 DeptID 是連接鍵,但名字不同
inner_merged_df = pd.merge(
    df_employees,
    df_departments,
    left_on='DepartmentID', # df_employees 中的鍵
    right_on='DeptID',      # df_departments 中的鍵
    how='inner'             # 連接方式為內(nèi)連接
)
print(inner_merged_df)
# 注意 David (DepartmentID=3) 和 Sales (DeptID=3) 都被包含
# Marketing (DeptID=4) 沒有對應的員工,HR (DeptID=1) 有兩個員工

# 左連接 (Left Join): 保留左邊DataFrame的所有行,以及右邊DataFrame匹配的行,不匹配的用NaN填充
print("\n--- 左連接 (Left Join) ---")
left_merged_df = pd.merge(
    df_employees,
    df_departments,
    left_on='DepartmentID',
    right_on='DeptID',
    how='left'
)
print(left_merged_df)
# 所有員工都被保留。David (DepartmentID=3) 對應 Sales。

# 右連接 (Right Join): 保留右邊DataFrame的所有行,以及左邊DataFrame匹配的行,不匹配的用NaN填充
print("\n--- 右連接 (Right Join) ---")
right_merged_df = pd.merge(
    df_employees,
    df_departments,
    left_on='DepartmentID',
    right_on='DeptID',
    how='right'
)
print(right_merged_df)
# 所有部門都被保留。Marketing (DeptID=4) 沒有對應的員工,所以員工信息列為 NaN。

# 外連接 (Outer Join): 保留兩邊DataFrame的所有行,不匹配的用NaN填充
print("\n--- 外連接 (Outer Join) ---")
outer_merged_df = pd.merge(
    df_employees,
    df_departments,
    left_on='DepartmentID',
    right_on='DeptID',
    how='outer'
)
print(outer_merged_df)
# 包含所有員工和所有部門。Marketing沒有員工,員工信息為NaN。


# ---- 2. 使用 concat 進行連接 (堆疊) ----
# concat 主要用于沿某個軸(行或列)將多個DataFrame粘合在一起

# 假設有另一個員工 DataFrame
df_more_employees = pd.DataFrame({
    'EmpID': [105, 106],
    'Name': ['Eve', 'Frank'],
    'DepartmentID': [2, 4] # Frank 在 Marketing 部門
})

print("\n--- 另一個員工 DataFrame ---")
print(df_more_employees)

# 按行堆疊 (axis=0, 默認)
print("\n--- 按行堆疊兩個員工 DataFrame (concat axis=0) ---")
all_employees_stacked = pd.concat([df_employees, df_more_employees], ignore_index=True)
# ignore_index=True 重新生成從0開始的索引
print(all_employees_stacked)

# 按列連接 (axis=1) - 通常需要索引對齊
# 創(chuàng)建一個基于EmpID索引的DataFrame
df_salary = pd.DataFrame({
    'EmpID': [101, 102, 103, 105],
    'Salary': [70000, 80000, 75000, 90000]
}).set_index('EmpID')

df_employees_indexed = df_employees.set_index('EmpID')

print("\n--- 按列連接員工信息和薪水信息 (concat axis=1) ---")
# 需要先將 EmpID 設置為索引才能正確對齊
employee_salary_concat = pd.concat([df_employees_indexed, df_salary], axis=1)
print(employee_salary_concat)
# EmpID 104 (David) 沒有薪水信息,Salary 列為 NaN
# EmpID 105 (Eve) 有薪水但原始df_employees_indexed中沒有,所以Name和DepartmentID為NaN
# 注意:對于這種基于共同列的匹配連接,merge通常更直觀。

(4) 代碼注釋

① pd.merge(left_df, right_df, how='inner'/'left'/'right'/'outer', on='key_col', left_on='left_key', right_on='right_key'): 這是主要的合并函數(shù)。

  • left_df, right_df: 要合并的兩個DataFrame。
  • how: 指定合并方式(內(nèi)、左、右、外連接)。默認為 'inner'。
  • on: 如果連接鍵在兩個DataFrame中名稱相同,可以用 on='key_col' 或 on=['key1', 'key2']。
  • left_on, right_on: 如果連接鍵在兩個DataFrame中名稱不同,需要分別指定。

② pd.concat([df1, df2, ...], axis=0/1, ignore_index=False, join='outer'/'inner'): 用于沿指定軸連接(堆疊)多個DataFrame。

  • axis=0: 按行堆疊(默認)。列名不匹配的列會用NaN填充(除非join='inner')。
  • axis=1: 按列并排連接?;谒饕龑R。行索引不匹配的行會用NaN填充(除非join='inner')。
  • ignore_index=True: 創(chuàng)建新的連續(xù)整數(shù)索引,忽略原始索引。
  • join: 類似merge的how,'outer'保留所有標簽,'inner'只保留共有的標簽。默認為 'outer'。

總結

本文展示了Pandas在日常數(shù)據(jù)處理中最常用的一些功能。熟練掌握這些操作是進行任何數(shù)據(jù)分析項目的基礎。當然,Pandas的功能遠不止于此,還包括時間序列處理、數(shù)據(jù)重塑、數(shù)據(jù)可視化接口等,值得進一步深入探索。

責任編輯:趙寧寧 來源: Python數(shù)智工坊
相關推薦

2025-03-27 10:03:17

PythonPandas代碼

2025-04-14 08:40:00

Python正則表達式re 庫

2025-04-01 08:30:00

Plotly數(shù)據(jù)可視化數(shù)據(jù)分析

2024-01-16 12:19:08

MySQL重要機制高并發(fā)

2021-07-01 09:43:44

Python函數(shù)參數(shù)

2012-05-09 09:49:57

移動支付

2011-03-30 13:03:14

數(shù)據(jù)庫營銷

2021-08-30 20:12:11

MySQL事務隔離

2023-07-13 12:21:18

2016-11-28 08:56:15

透析大數(shù)據(jù)核心

2009-10-27 09:59:17

VB.NET動態(tài)代碼

2022-03-21 10:38:00

開發(fā)數(shù)據(jù)庫SQL

2011-03-31 11:15:52

網(wǎng)頁設計Web

2020-03-12 14:40:59

Python表格命令行

2023-09-03 16:46:09

Pandas工具

2011-07-10 15:18:11

開發(fā)

2020-06-04 10:49:53

Pandas字符串技巧

2018-06-19 14:52:52

2009-10-23 16:53:16

VB.NET語法規(guī)則

2020-04-03 09:00:21

系統(tǒng)架構代碼
點贊
收藏

51CTO技術棧公眾號