自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

使用Pandas分塊處理大文件

大數(shù)據(jù)
今天在處理快手的用戶數(shù)據(jù)時(shí),遇到了一個(gè)差不多600M的txt文本,用sublime打開都蹦了,我用pandas.read_table()去讀,差不多花了近2分鐘,最后打開發(fā)現(xiàn)差不多3千萬行數(shù)據(jù)。這僅僅是打開,如果要處理不知得多費(fèi)勁。

使用Pandas分塊處理大文件

問題:今天在處理快手的用戶數(shù)據(jù)時(shí),遇到了一個(gè)差不多600M的txt文本,用sublime打開都蹦了,我用pandas.read_table()去讀,差不多花了近2分鐘,最后打開發(fā)現(xiàn)差不多3千萬行數(shù)據(jù)。這僅僅是打開,如果要處理不知得多費(fèi)勁。

[[337839]]

解決:我翻了一下文檔,這一類讀取文件的函數(shù)有兩個(gè)參數(shù):chunksize、iterator

原理就是不一次性把文件數(shù)據(jù)讀入內(nèi)存中,而是分多次。

1、指定chunksize分塊讀取文件

read_csv 和 read_table 有一個(gè) chunksize 參數(shù),用以指定一個(gè)塊大小(每次讀取多少行),返回一個(gè)可迭代的 TextFileReader 對(duì)象。

  1. table=pd.read_table(path+'kuaishou.txt',sep='\t',chunksize=1000000) 
  2. for df in table
  3.     對(duì)df處理 
  4.     #如df.drop(columns=['page','video_id'],axis=1,inplace=True
  5.     #print(type(df),df.shape)打印看一下信息12345 

我這里又對(duì)文件進(jìn)行了劃分,分成若干個(gè)子文件分別處理(沒錯(cuò),to_csv也同樣有chunksize參數(shù))

2、指定iterator=True

iterator=True同樣返回的是TextFileReader對(duì)象

  1. reader = pd.read_table('tmp.sv', sep='\t', iterator=True
  2. df=reader.get_chunk(10000) 
  3. #通過get_chunk(size),返回一個(gè)size行的塊 
  4. #接著同樣可以對(duì)df處理 

直接看看pandas文檔在這一方面的內(nèi)容吧。

責(zé)任編輯:未麗燕 來源: 今日頭條
相關(guān)推薦

2022-07-25 11:33:48

Python大文件

2012-06-20 14:16:36

Java內(nèi)存映射

2022-09-26 00:00:02

PandasExcel文件

2024-05-08 14:05:03

時(shí)間序列數(shù)據(jù)

2025-04-10 08:03:31

Spring系統(tǒng)

2023-12-12 11:06:37

PythonPandas數(shù)據(jù)

2023-09-25 13:19:41

pandasPython

2024-09-26 09:28:06

內(nèi)存Spring

2015-08-25 15:53:08

LinuxcURL

2024-08-19 09:22:48

2015-10-09 15:58:42

Java讀取大文件

2015-08-07 15:35:42

ios短點(diǎn)下載源碼

2023-10-17 16:24:27

PythonCSV

2023-03-09 12:04:38

Spring文件校驗(yàn)

2022-06-13 14:06:33

大文件上傳前端

2025-01-13 00:26:53

2025-04-29 08:15:00

超大文件流式 + yield日志

2009-11-16 11:41:19

PHP上傳大文件

2022-06-17 11:10:43

PandasPolarsPython

2022-12-30 15:29:35

數(shù)據(jù)分析工具Pandas
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)