自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<bdo id="geqnw"></bdo>

<del id="geqnw"></del>

<kbd id="geqnw"><center id="geqnw"></center></kbd>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

Python八種數(shù)據(jù)導(dǎo)入方法，你掌握了嗎？

作者：云朵君 2022-11-03 11:32:24

開發(fā) 前端

數(shù)據(jù)分析過程中，需要對(duì)獲取到的數(shù)據(jù)進(jìn)行分析，往往第一步就是導(dǎo)入數(shù)據(jù)。導(dǎo)入數(shù)據(jù)有很多方式，不同的數(shù)據(jù)文件需要用到不同的導(dǎo)入方式，相同的文件也會(huì)有幾種不同的導(dǎo)入方式。下面總結(jié)幾種常用的文件導(dǎo)入方法。

大多數(shù)情況下，會(huì)使用NumPy或Pandas來導(dǎo)入數(shù)據(jù)，因此在開始之前，先執(zhí)行：

import numpy as np
import pandas as pd

兩種獲取help的方法

很多時(shí)候?qū)σ恍┖瘮?shù)方法不是很了解，此時(shí)Python提供了一些幫助信息，以快速使用Python對(duì)象。

使用Numpy中的info方法。

np.info(np.ndarray.dtype)

Python內(nèi)置函數(shù)

help(pd.read_csv)

一、文本文件

1、純文本文件

filename = 'demo.txt'
file = open(filename, mode='r') # 打開文件進(jìn)行讀取
text = file.read() # 讀取文件的內(nèi)容
print(file.closed) # 檢查文件是否關(guān)閉
file.close() # 關(guān)閉文件
print(text)

使用上下文管理器 -- with

with open('demo.txt', 'r') as file:
    print(file.readline()) # 一行一行讀取
    print(file.readline())
    print(file.readline())

2、表格數(shù)據(jù)：Flat文件

使用 Numpy 讀取 Flat 文件

Numpy 內(nèi)置函數(shù)處理數(shù)據(jù)的速度是 C 語言級(jí)別的。

Flat 文件是一種包含沒有相對(duì)關(guān)系結(jié)構(gòu)的記錄的文件。（支持Excel、CSV和Tab分割符文件）

具有一種數(shù)據(jù)類型的文件

用于分隔值的字符串跳過前兩行。在第一列和第三列讀取結(jié)果數(shù)組的類型。

filename = 'mnist.txt'
data = np.loadtxt(filename,
                  delimiter=',',
                  skiprows=2,
                  usecols=[0,2],
                  dtype=str)

具有混合數(shù)據(jù)類型的文件

兩個(gè)硬的要求：

跳過表頭信息
區(qū)分橫縱坐標(biāo)

filename = 'titanic.csv'
data = np.genfromtxt(filename,
                     delimiter=',',
                     names=True,
                     dtype=None)

使用 Pandas 讀取Flat文件

filename = 'demo.csv' 
data = pd.read_csv(filename, 
                   nrows=5,        # 要讀取的文件的行數(shù)
                   header=None,    # 作為列名的行號(hào)
                   sep='\t',       # 分隔符使用
                   comment='#',    # 分隔注釋的字符
                   na_values=[""]) # 可以識(shí)別為NA/NaN的字符串

二、Excel 電子表格

Pandas中的ExcelFile()是pandas中對(duì)excel表格文件進(jìn)行讀取相關(guān)操作非常方便快捷的類，尤其是在對(duì)含有多個(gè)sheet的excel文件進(jìn)行操控時(shí)非常方便。

file = 'demo.xlsx'
data = pd.ExcelFile(file)
df_sheet2 = data.parse(sheet_name='1960-1966',
                       skiprows=[0],
                       names=['Country',
                              'AAM: War(2002)'])
df_sheet1 = pd.read_excel(data,
                          sheet_name=0,
                          parse_cols=[0],
                          skiprows=[0],
                          names=['Country'])

使用sheet_names屬性獲取要讀取工作表的名稱。

data.sheet_names

三、SAS 文件

SAS (Statistical Analysis System)是一個(gè)模塊化、集成化的大型應(yīng)用軟件系統(tǒng)。其保存的文件即sas是統(tǒng)計(jì)分析文件。

from sas7bdat import SAS7BDAT
with SAS7BDAT('demo.sas7bdat') as file:
  df_sas = file.to_data_frame()

四、Stata 文件

Stata 是一套提供其使用者數(shù)據(jù)分析、數(shù)據(jù)管理以及繪制專業(yè)圖表的完整及整合性統(tǒng)計(jì)軟件。其保存的文件后綴名為.dta的Stata文件。

data = pd.read_stata('demo.dta')

五、Pickled 文件

python中幾乎所有的數(shù)據(jù)類型（列表，字典，集合，類等）都可以用pickle來序列化。python的pickle模塊實(shí)現(xiàn)了基本的數(shù)據(jù)序列和反序列化。通過pickle模塊的序列化操作我們能夠?qū)⒊绦蛑羞\(yùn)行的對(duì)象信息保存到文件中去，永久存儲(chǔ)；通過pickle模塊的反序列化操作，我們能夠從文件中創(chuàng)建上一次程序保存的對(duì)象。

import pickle
with open('pickled_demo.pkl', 'rb') as file:
   pickled_data = pickle.load(file) # 下載被打開被讀取到的數(shù)據(jù)

與其相對(duì)應(yīng)的操作是寫入方法pickle.dump() 。

六、HDF5 文件

HDF5文件是一種常見的跨平臺(tái)數(shù)據(jù)儲(chǔ)存文件，可以存儲(chǔ)不同類型的圖像和數(shù)碼數(shù)據(jù)，并且可以在不同類型的機(jī)器上傳輸，同時(shí)還有統(tǒng)一處理這種文件格式的函數(shù)庫。

HDF5 文件一般以 .h5? 或者 .hdf5 作為后綴名，需要專門的軟件才能打開預(yù)覽文件的內(nèi)容。

import h5py
filename = 'H-H1_LOSC_4_v1-815411200-4096.hdf5'
data = h5py.File(filename, 'r')

七、Matlab 文件

其由matlab將其工作區(qū)間里的數(shù)據(jù)存儲(chǔ)的后綴為.mat的文件。

import scipy.io
filename = 'workspace.mat'
mat = scipy.io.loadmat(filename)

八、關(guān)系型數(shù)據(jù)庫

from sqlalchemy import create_engine
engine = create_engine('sqlite://Northwind.sqlite')

使用table_names()方法獲取一個(gè)表名列表

table_names = engine.table_names()

1、直接查詢關(guān)系型數(shù)據(jù)庫

con = engine.connect()
rs = con.execute("SELECT * FROM Orders")
df = pd.DataFrame(rs.fetchall())
df.columns = rs.keys()
con.close()

使用上下文管理器 -- with

with engine.connect() as con:
    rs = con.execute("SELECT OrderID FROM Orders")
    df = pd.DataFrame(rs.fetchmany(size=5))
    df.columns = rs.keys()

2、使用Pandas查詢關(guān)系型數(shù)據(jù)庫

df = pd.read_sql_query("SELECT * FROM Orders", engine)

數(shù)據(jù)探索

數(shù)據(jù)導(dǎo)入后會(huì)對(duì)數(shù)據(jù)進(jìn)行初步探索，如查看數(shù)據(jù)類型，數(shù)據(jù)大小、長度等一些基本信息。這里簡單總結(jié)一些。

1、NumPy Arrays

data_array.dtype  # 數(shù)組元素的數(shù)據(jù)類型
data_array.shape  # 陣列尺寸
len(data_array)   # 數(shù)組的長度

2、Pandas DataFrames

df.head()  # 返回DataFrames前幾行（默認(rèn)5行）
df.tail()  # 返回DataFrames最后幾行（默認(rèn)5行）
df.index   # 返回DataFrames索引
df.columns # 返回DataFrames列名
df.info()  # 返回DataFrames基本信息
data_array = data.values # 將DataFrames轉(zhuǎn)換為NumPy數(shù)組

責(zé)任編輯：武曉燕來源：數(shù)據(jù)STUDIO

數(shù)據(jù)Python 方法

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營