自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<abbr id="djyes"></abbr>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

手把手教你使用 Pandas 讀取結構化數據

作者：張秋劍張浩等 2021-12-29 20:20:25

大數據數據分析

Pandas是一個基于Numpy庫開發(fā)的更高級的結構化數據分析工具，提供了Series、DataFrame、Panel等數據結構，可以很方便地對序列、截面數據（二維表）、面板數據進行處理。

本文轉載自微信公眾號「大數據DT」，作者張秋劍張浩等。轉載本文請聯系大數據DT公眾號。

DataFrame是我們常見的二維數據表，包含多個變量(列)和樣本(行)，通常被稱為數據框。
Series是一個一維結構的序列，包含指定的索引信息，可以被視作DataFrame中的一列或一行。其操作方法與DataFrame十分相似。
Panel是包含序列及截面信息的三維結構，通常被稱為面板數據。

我們可通過限定時間ID和樣本ID獲得對應的Series和DataFrame。

由于這些對象的常用操作方法十分相似，因此本文主要使用DataFrame進行演示。

1 讀取文件

Pandas庫提供了便捷讀取本地結構化數據的方法。這里主要以csv數據為例，read_csv函數可以讀取csv數據，代碼如下：

import pandas as pd
csv = pd.read_csv('data/sample.csv')
csv

id name   scores
0   1  小明    78.0
1   2  小紅    87.0
2   3  小白    99.0
3   4  小青 99999.0
4   5  小蘭     NaN

按照慣例，Pandas會以pd為別名，以read_csv函數讀取指定路徑下的文件，然后返回一個DataFrame對象。如果在命令行中打印DataFrame對象，可讀性可能會略差一些;如果在Jupyter Notebook中打印的話，可讀性會大幅提升。

打印出來的DataFrame包含索引(第一列)，列名(第一行)及數據內容(除第一行和第一列之外的部分)。

此外，read_csv函數有很多參數可以設置，如下所示。

filepath_or_buffer csv文件的路徑
sep = ',' 分隔符，默認為逗號
header = 0 int類型，0代表第一行為列名，若設定為None將使用數值列名
names = [] list，重新定義列名，默認為None
usecols = [] list，定義讀取的列，設定后將縮短讀取數據的時間，并減小內存消耗，適合讀取大量數據，默認為None
dtype = {} dict，定義讀取列的數據類型，默認為None
nrows = None int類型，指定讀取數據的前n行，默認為None
na_values = ... str類型，list或dict，指定缺失值的填充值
na_filter = True bool類型，自動發(fā)現數據中的缺失值，默認值為True，若確定數據無缺失，可以設定值為False，以提高數據載入的速度
chunksize = 1000 int類型，分塊讀取，當數據量較大時，可以設定分塊讀取的行數，默認為None
encoding = 'utf-8' str類型，數據的編碼，Python3默認編碼為UTF-8，Python2默認編碼為ASCII
Pandas除了可以直接讀取csv、excel、json、html等文件生成的DataFrame，也可以在列表、元組、字典等數據結構中創(chuàng)建DataFrame。

2 讀取指定行和指定列

使用參數usecol和nrows讀取指定的列和前n行，這樣可以加快數據讀取速度。讀取原數據的兩列、兩行示例如下。

csv = pd.read_csv('data/sample.csv',\
usecols=['id','name'],\
nrows=2) #讀取'id'和'name'兩列，僅讀取前兩行
csv

id name
0   1  小明
1   2  小紅

3 分塊讀取

參數chunksize可以指定分塊讀取的行數，并返回一個可迭代對象。這里，big.csv是一個4500行、4列的csv數據，設定chunksize=900，分5塊讀取數據，每塊900行，4個變量，如下所示：

csvs = pd.read_csv('data/big.csv',chunksize=900)
for i in csvs:
print (i.shape)

(900, 4)
(900, 4)
(900, 4)
(900, 4)
(900, 4)

可以使用pd.concat函數讀取全部數據：

csvs = pd.read_csv('data/big.csv',chunksize=900)
dat = pd.concat(csvs,ignore_index=True)
dat.shape

(4500, 4)

4 將不合理數據讀取為缺失值

在數據sample.csv中，“小青”的分數中有的取值為99999，這里令其讀取為缺失值，操作如下：

csv = pd.read_csv('data/sample.csv',
na_values='99999')
csv

id name  scores
0   1  小明   78.0
1   2  小紅   87.0
2   3  小白   99.0
3   4  小青    NaN
4   5  小蘭    NaN

5 以指定編碼方式讀取

讀取數據時，亂碼情況經常出現。這里需要先弄清楚原始數據的編碼形式，再以指定的編碼形式讀取，例如sample.csv編碼為UTF-8，這里以指定編碼(參數encoding)方式讀取。

csv = pd.read_csv('data/sample.csv',
encoding='utf-8')
csv

id name   scores
0   1  小明    78.0
1   2  小紅    87.0
2   3  小白    99.0
3   4  小青 99999.0
4   5  小蘭     NaN

關于作者：張秋劍，就職于騰訊云金融拓展中心，從事微信財富營銷管理、數據中臺、AI應用等解決方案拓展工作，研究方向包括數字化轉型、創(chuàng)新實踐等。

張浩，曾任騰訊云金融首席架構師和星環(huán)科技金融行業(yè)技術總監(jiān)，主要從事大數據、人工智能、云計算、區(qū)塊鏈、聯邦學習等相關技術研發(fā)與產品設計，具有豐富的企業(yè)架構設計、企業(yè)數字化戰(zhàn)略轉型運營與業(yè)務咨詢經驗。

周大川，就職于某中央金融企業(yè)金融科技研發(fā)中心，主要從事企業(yè)級數據平臺開發(fā)、核心業(yè)務平臺建設、AI賦能金融科技創(chuàng)新等工作，具有豐富的新一代金融業(yè)務系統(tǒng)建設經驗。

常國珍，曾任畢馬威咨詢大數據總監(jiān)，具有近20年數據挖掘、精益數據治理、數字化運營咨詢經驗，是金融信用風險、反欺詐和反洗錢算法領域的專家。

本文摘編自《金融商業(yè)數據分析：基于Python和SAS》，經出版方授權發(fā)布。(ISBN：9787111695837)

責任編輯：武曉燕來源：大數據DT

結構化數據 Pandas

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<kbd id="qmh5l"><video id="qmh5l"><track id="qmh5l"></track></video></kbd>

<style id="qmh5l"></style>