使用Python讀取電子表格中的數(shù)據(jù)
Python 是最流行、功能最強(qiáng)大的編程語言之一。由于它是自由開源的,因此每個人都可以使用。大多數(shù) Fedora 系統(tǒng)都已安裝了該語言。Python 可用于多種任務(wù),其中包括處理逗號分隔值(CSV)數(shù)據(jù)。CSV文件一開始往往是以表格或電子表格的形式出現(xiàn)。本文介紹了如何在 Python 3 中處理 CSV 數(shù)據(jù)。
CSV 數(shù)據(jù)正如其名。CSV 文件按行放置數(shù)據(jù),數(shù)值之間用逗號分隔。每行由相同的字段定義。簡短的 CSV 文件通常易于閱讀和理解。但是較長的數(shù)據(jù)文件或具有更多字段的數(shù)據(jù)文件可能很難用肉眼解析,因此在這種情況下計算機(jī)做得更好。
這是一個簡單的示例,其中的字段是 Name
、Email
和 Country
。在此例中,CSV 數(shù)據(jù)將字段定義作為第一行,盡管并非總是如此。
Name,Email,Country
John Q. Smith,jqsmith@example.com,USA
Petr Novak,pnovak@example.com,CZ
Bernard Jones,bjones@example.com,UK
從電子表格讀取 CSV
Python 包含了一個 csv
模塊,它可讀取和寫入 CSV 數(shù)據(jù)。大多數(shù)電子表格應(yīng)用,無論是原生(例如 Excel 或 Numbers)還是基于 Web 的(例如 Google Sheet),都可以導(dǎo)出 CSV 數(shù)據(jù)。實際上,許多其他可發(fā)布表格報告的服務(wù)也可以導(dǎo)出為 CSV(例如,PayPal)。
Python csv
模塊有一個名為 DictReader
的內(nèi)置讀取器方法,它可以將每個數(shù)據(jù)行作為有序字典 (OrderedDict
) 處理。它需要一個文件對象訪問 CSV 數(shù)據(jù)。因此,如果上面的文件在當(dāng)前目錄中為 example.csv
,那么以下代碼段是獲取此數(shù)據(jù)的一種方法:
f = open('example.csv', 'r')
from csv import DictReader
d = DictReader(f)
data = []
for row in d:
data.append(row)
現(xiàn)在,內(nèi)存中的 data
對象是 OrderedDict
對象的列表:
[OrderedDict([('Name', 'John Q. Smith'),
('Email', 'jqsmith@example.com'),
('Country', 'USA')]),
OrderedDict([('Name', 'Petr Novak'),
('Email', 'pnovak@example.com'),
('Country', 'CZ')]),
OrderedDict([('Name', 'Bernard Jones'),
('Email', 'bjones@example.com'),
('Country', 'UK')])]
引用這些對象很容易:
>>> print(data[0]['Country'])
USA
>>> print(data[2]['Email'])
bjones@example.com
順便說一句,如果你需要處理沒有字段名標(biāo)題行的 CSV 文件,那么 DictReader
類可以讓你定義它們。在上面的示例中,添加 fieldnames
參數(shù)并傳遞一系列名稱:
d = DictReader(f, fieldnames=['Name', 'Email', 'Country'])
真實例子
我最近想從一長串人員名單中隨機(jī)選擇一個中獎?wù)?。我從電子表格中提取?CSV 數(shù)據(jù)是一個簡單的名字和郵件地址列表。
幸運的是,Python 有一個有用的 random
模塊,可以很好地生成隨機(jī)值。該模塊 Random
類中的 randrange
函數(shù)正是我需要的。你可以給它一個常規(guī)的數(shù)字范圍(例如整數(shù)),以及它們之間的步長值。然后,該函數(shù)會生成一個隨機(jī)結(jié)果,這意味著我可以在數(shù)據(jù)的總行數(shù)范圍內(nèi)獲得一個隨機(jī)整數(shù)(或者說是行號)。
這個小程序運行良好:
from csv import DictReader
from random import Random
d = DictReader(open('mydata.csv'))
data = []
for row in d:
data.append(row)
r = Random()
winner = data[r.randrange(0, len(data), 1)]
print('The winner is:', winner['Name'])
print('Email address:', winner['Email'])
顯然,這個例子非常簡單。電子表格本身包含了復(fù)雜的分析數(shù)據(jù)的方法。但是,如果你想在電子表格應(yīng)用之外做某事,Python 或許是一種技巧!