自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="priov"><i id="priov"></i></sub>

<thead id="priov"></thead>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

當(dāng)Excel遇到大數(shù)據(jù)問題，是時候用Python來拯救了

作者：機(jī)器學(xué)習(xí)與數(shù)據(jù)分析 2020-05-19 07:57:20

開發(fā) 后端

Excel能做很多事情；當(dāng)涉及到更大的數(shù)據(jù)集時，這簡直是一種痛苦。如果有一種簡單的方法，那就是將數(shù)據(jù)傳輸?shù)絊QL數(shù)據(jù)庫中進(jìn)行分析。這就是Python拯救世界的方式。

與從事分析工作的人交談，他們會告訴你他們對Excel的愛恨情仇：

Excel能做很多事情；當(dāng)涉及到更大的數(shù)據(jù)集時，這簡直是一種痛苦。數(shù)據(jù)需要很長時間才能加載，在你意識到機(jī)器的內(nèi)存耗盡之前，整個事情就變得無法管理了。更不用說Excel最多只能支持1,048,576行。

如果有一種簡單的方法，那就是將數(shù)據(jù)傳輸?shù)絊QL數(shù)據(jù)庫中進(jìn)行分析。這就是Python拯救世界的方式。

當(dāng)Excel遇到大數(shù)據(jù)問題，是時候用Python來拯救了

Python中的SQL

首先，讓我們研究一下在Python中使用SQL時最流行的選項(xiàng):MySQL和SQLite。

MySQL有兩個流行的庫:PyMySQL和MySQLDb;而SQLite有SQLite3。

SQLite就是所謂的嵌入式數(shù)據(jù)庫，這意味著它在我們的應(yīng)用程序中運(yùn)行，因此不需要先在某個地方安裝它(不像MySQL)。

這是一個重要的區(qū)別;在我們尋求快速數(shù)據(jù)分析的過程中起著關(guān)鍵作用。因此，我們將繼續(xù)學(xué)習(xí)如何使用SQLite。

在Python中設(shè)置SQLite

我們需要做的第一件事是導(dǎo)入庫：

import sqlite3

然后，我們需要確定是否要在任何地方保存這個數(shù)據(jù)庫，還是在應(yīng)用程序運(yùn)行時將它保存在內(nèi)存中。

如果決定通過導(dǎo)入任何數(shù)據(jù)來實(shí)際保存數(shù)據(jù)庫，那么我們必須給數(shù)據(jù)庫一個名稱，例如' FinanceExplainedDb '，并使用以下命令：

dbname = 'FinanceExplainedDb' 
conn = sqlite3.connect(dbname + '.sqlite')

另一方面，如果我們想把整個東西保存在內(nèi)存中，并在完成后讓它消失，我們可以使用以下命令：

conn = sqlite3.connect(':memory:')

至此，SQLite已經(jīng)全部設(shè)置好，可以在Python中使用了。假設(shè)我們在Table 1中加載了一些數(shù)據(jù)，我們可以用以下方式執(zhí)行SQL命令：

cur = conn.cursor() 
cur.execute('SELECT * FROM Table1') 
for row in cur: 
    print(row)

現(xiàn)在讓我們探索如何通過使用pandas的應(yīng)用程序使數(shù)據(jù)可用。

使用pandas加載數(shù)據(jù)

假設(shè)我們已經(jīng)有了數(shù)據(jù)，我們想要進(jìn)行分析，我們可以使用Pandas庫來做這件事。

首先，我們需要導(dǎo)入pandas庫，然后我們可以加載數(shù)據(jù)：

import pandas as pd 
#if we have a csv file 
df = pd.read_csv('ourfile.csv') 
#if we have an excel file 
df = pd.read_excel('ourfile.xlsx')

一旦我們加載數(shù)據(jù)，我們可以把它直接放入我們的SQL數(shù)據(jù)庫與一個簡單的命令：

df.to_sql(name='Table1', con=conn)

如果在同一個表中加載多個文件，可以使用if_exists參數(shù)：

df.to_sql(name='Table1', con=conn, if_exists='append')

在處理較大的數(shù)據(jù)集時，我們將無法使用這個單行命令來加載數(shù)據(jù)。我們的應(yīng)用程序?qū)⒑谋M內(nèi)存。相反，我們必須一點(diǎn)一點(diǎn)地加載數(shù)據(jù)。在這個例子中，我們假設(shè)每次加載10,000行：

chunksize = 10000 
for chunk in pd.read_csv('ourfile.csv', chunksizechunksize=chunksize): 
    chunk.to_sql(name='Table1', con=conn, if_exists='append')

把所有的東西放在一起

為了將所有內(nèi)容綜合起來，我們提供一個Python腳本，它涵蓋了我們討論的大部分內(nèi)容。

import sqlite3, pandas as pd, numpy as np 
#####Creating test data for us -- you can ignore 
from sklearn import datasets 
iris = datasets.load_iris() 
df1 = pd.DataFrame(data= np.c_[iris['data'], iris['target']], columns= iris['feature_names'] + ['target']) 
df1.to_csv('TestData.csv',index=False) 
########################### 
conn = sqlite3.connect(':memory:') 
cur = conn.cursor() 
chunksize = 10 
for chunk in pd.read_csv('TestData.csv', chunksizechunksize=chunksize): 
    chunkchunk.columns = chunk.columns.str.replace(' ', '_') #replacing spaces with underscores for column names 
    chunk.to_sql(name='Table1', con=conn, if_exists='append') 
cur.execute('SELECT * FROM Table1') 
names = list(map(lambda x: x[0], cur.description)) #Returns the column names 
print(names) 
for row in cur: 
    print(row) 
cur.close()

責(zé)任編輯：趙寧寧來源：今日頭條

Python Excel 大數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<track id="bxdpr"></track>

^{<blockquote id="bxdpr"></blockquote>}<legend id="bxdpr"><track id="bxdpr"></track></legend>

<abbr id="bxdpr"><listing id="bxdpr"></listing></abbr>