自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="yo5dm"></style>

<sub id="yo5dm"><p id="yo5dm"></p></sub>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

使用Pandas分塊處理大文件

作者：Python123 2020-08-14 11:01:32

大數(shù)據(jù)

今天在處理快手的用戶數(shù)據(jù)時(shí)，遇到了一個(gè)差不多600M的txt文本，用sublime打開都蹦了，我用pandas.read_table()去讀，差不多花了近2分鐘，最后打開發(fā)現(xiàn)差不多3千萬行數(shù)據(jù)。這僅僅是打開，如果要處理不知得多費(fèi)勁。

使用Pandas分塊處理大文件

問題：今天在處理快手的用戶數(shù)據(jù)時(shí)，遇到了一個(gè)差不多600M的txt文本，用sublime打開都蹦了，我用pandas.read_table()去讀，差不多花了近2分鐘，最后打開發(fā)現(xiàn)差不多3千萬行數(shù)據(jù)。這僅僅是打開，如果要處理不知得多費(fèi)勁。

解決：我翻了一下文檔，這一類讀取文件的函數(shù)有兩個(gè)參數(shù)：chunksize、iterator

原理就是不一次性把文件數(shù)據(jù)讀入內(nèi)存中，而是分多次。

1、指定chunksize分塊讀取文件

read_csv 和 read_table 有一個(gè) chunksize 參數(shù)，用以指定一個(gè)塊大小(每次讀取多少行)，返回一個(gè)可迭代的 TextFileReader 對(duì)象。

table=pd.read_table(path+'kuaishou.txt',sep='\t',chunksize=1000000) 
for df in table: 
    對(duì)df處理 
    #如df.drop(columns=['page','video_id'],axis=1,inplace=True) 
    #print(type(df),df.shape)打印看一下信息12345

我這里又對(duì)文件進(jìn)行了劃分，分成若干個(gè)子文件分別處理(沒錯(cuò)，to_csv也同樣有chunksize參數(shù))

2、指定iterator=True

iterator=True同樣返回的是TextFileReader對(duì)象

reader = pd.read_table('tmp.sv', sep='\t', iterator=True) 
df=reader.get_chunk(10000) 
#通過get_chunk(size)，返回一個(gè)size行的塊 
#接著同樣可以對(duì)df處理

直接看看pandas文檔在這一方面的內(nèi)容吧。

責(zé)任編輯：未麗燕來源：今日頭條

數(shù)據(jù)Pandas 文件

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<style id="lab8q"></style>

<sub id="lab8q"></sub>

^{<sub id="lab8q"></sub>}

<blockquote id="lab8q"></blockquote><cite id="lab8q"></cite>

<style id="lab8q"></style>