自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

Python 中利用Pandas處理復(fù)雜的Excel數(shù)據(jù)

作者：蟲蟲安全 2020-10-29 06:02:44

開發(fā) 后端

在本文中，我們介紹了在Pandas下通過參數(shù)輕松刪除行和列以使其格式更加合理。

關(guān)于Excel數(shù)據(jù)處理，很多同學(xué)可能使用過Pyhton的pandas模塊，用它可以輕松地讀取和轉(zhuǎn)換Excel數(shù)據(jù)。但是實際中Excel表格結(jié)構(gòu)可能比較雜亂，數(shù)據(jù)會分散不同的工作表中，而且在表格中分布很亂，這種情況下啊直接使用pandas就會非常吃力。本文蟲蟲給大家介紹使用pandas和openpyxl讀取這樣的數(shù)據(jù)的方法。

問題緣起

pandas read_excel函數(shù)在讀取Excel工作表方面做得很好。但是，如果數(shù)據(jù)不是從頭開始，不是從單元格A1開始的連續(xù)表格，則結(jié)果會不是很好。比如下面一個銷售表，使用read_excel讀?。?/p>

讀取的結(jié)果如下所示：

結(jié)果中標(biāo)題表頭變成了Unnamed，而且還會額外增加很多職位NaN列，字段為空的列的值也會被轉(zhuǎn)換為NaN，這顯然不是我們所期望的。

header和usecols參數(shù)

對這樣的非標(biāo)準(zhǔn)格式的表格，我們可以使用read_excel()的header和usecols參數(shù)來控制選擇的需要讀取的列。

import pandas as pd 
from pathlib import Path 
src_file = 'sales.xlsx'

結(jié)果的DataFrame包含了我們期望的數(shù)據(jù)。

代碼中使用header和usecols參數(shù)設(shè)定了用于顯示標(biāo)題的列和需要讀取的字段：

header參數(shù)為一個整數(shù)，從0開始索引，其為選擇的行，比如1表示Excel中的第2行。
usecols參數(shù)設(shè)定選擇的Excel列范圍范圍(A-…)，例如，B:F表示讀取B到F列。

在某些情況下，可能希望將列定義為數(shù)字列表。比如，可以定義整數(shù)列數(shù)：

df = pd.read_excel(src_file, header=1, usecols=[1,2,3,4,5])

這對對大型數(shù)據(jù)集(例如，每3列或僅偶數(shù)列)要遵循一定的數(shù)字模式，則這個參數(shù)方法會很有用。

usecols還可以設(shè)定從列名列表讀取。比如上面的例子也可以這樣寫：

df = pd.read_excel( 
src_file, 
header=1, 
usecols=['item_type', 'order id', 'order date', 'state', 'priority'])

列順序支持自由選擇，這種命名列列表的方式實際中很有用。

usecols支持一個回調(diào)函數(shù)column_check，可通過該函數(shù)對數(shù)據(jù)進(jìn)行處理。

下面是一個簡單的示例：

def column_check(x): 
     if 'unnamed' in x.lower(): 
           return False 
     if 'priority' in x.lower(): 
          return False 
     if 'order' in x.lower(): 
          return True 
    return True

df = pd.read_excel(src_file, header=1, usecols=column_check)

column_check按名稱解析每列，每列通過定義True或False，來選擇是否讀取。

usecols也可以使用lambda表達(dá)式。下面的示例中定義的需要顯示的字段列表。為了進(jìn)行比較，通過將名稱轉(zhuǎn)換為小寫來規(guī)范化。

cols_to_use = ['item_type', 'order id', 'order date', 'state', 'priority'] 
df = pd.read_excel(src_file, 
header=1, 
usecols=lambda x: x.lower() in cols_to_use)

回調(diào)函數(shù)為我們提供了許多靈活性，可以處理Excel文件的實際混亂情況。

關(guān)于read_exce函數(shù)更多參數(shù)可以查看官方文檔，下面是一個總結(jié)表格：

結(jié)合openpyxl

在某些情況下，數(shù)據(jù)甚至可能在Excel中變得更加復(fù)雜。在下面示例中，我們有一個ship_cost要讀取的表。如果必須使用這樣的文件，那么只用pandas函數(shù)和選項也很難做到。在這種情況下，可以直接使用openpyxl解析文件并將數(shù)據(jù)轉(zhuǎn)換為pandas DataFrame。比如要讀取下面示例的數(shù)據(jù)：

from openpyxl import load_workbook 
import pandas as pd 
from pathlib import Path 
src_file = ' sales1.xlsx'

加載整個工作簿：

cc = load_workbook(filename = src_file)

查看所有工作表：

cc.sheetnames

['sales', 'shipping_rates']

要訪問特定的工作表：

sheet = cc['shipping_rates']

要查看所有命名表的列表：

sheet.tables.keys()

dict_keys(['ship_cost'])

該鍵對應(yīng)于Excel中分配給表的名稱。這樣就可以設(shè)定要讀取的Excel范圍：

lookup_table = sheet.tables['ship_cost']

lookup_table.ref

'C8:E16'

這樣就獲得了要加載的數(shù)據(jù)范圍。最后將其轉(zhuǎn)換為pandas DataFrame即可。遍歷每一行并轉(zhuǎn)換為DataFrame：

data = sheet[lookup_table.ref] 
rows_list = [] 
 
for row in data: 
cols = [] 
for col in row: 
cols.append(col.value) 
rows_list.append(cols) 
 
df = pd.DataFrame(data=rows_list[1:], index=None, columns=rows_list[0])

結(jié)果數(shù)據(jù)框：

總結(jié)

在理想情況下，使用的數(shù)據(jù)將采用簡單一致的格式。在本文中，我們介紹了在Pandas下通過參數(shù)輕松刪除行和列以使其格式更加合理。尤其是結(jié)合openpyxl的情況下可以讓我們讀取Excel數(shù)據(jù)更加靈活，可以處理比較復(fù)雜的表格數(shù)據(jù)。

責(zé)任編輯：趙寧寧來源：今日頭條

Python Pandas Excel

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營