自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<legend id="hzjtx"></legend>

<p id="hzjtx"><li id="hzjtx"></li></p>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

一文學會效率提升技巧

作者：數師兄 2021-04-30 07:33:35

運維數據庫運維

我們平時在跑數據的時候可能會將數據結果存儲在txt文件中，不知道大家平時是怎么處理txt文件中的數據的，相信各位同學都有自己的方法，用python的pandas包或者把數據塞進數據庫再用sql等等。

之前跟大家分享過SQL和EXCEL效率提升的小技巧，鏈接放在了文章末尾，今天跟大家分享一下多年來一直用的python效率提升的方法。這個方法是某位上古大神傳授于我?guī)煾担瑤煾涤謧魇谟谖摇?/p>

我們平時在跑數據的時候可能會將數據結果存儲在txt文件中，不知道大家平時是怎么處理txt文件中的數據的，相信各位同學都有自己的方法，用python的pandas包或者把數據塞進數據庫再用sql等等。無論是用哪種方法在處理數據的時候有很多方法是通用的，比如where，join等等，可以先將這些常用方法寫成python腳本，需要對txt文件的數據進行處理時直接用腳本來處理txt文件。優(yōu)點在于省掉了txt和數據庫之間來回倒騰數據的時間，也省掉了用pandas讀取數據寫腳本的時間，能夠快速方便地驗證和處理數據。

在舉例子之前要先介紹一個linux中“管道” 的概念，熟悉linux的人應該對這個概念不陌生，符號為“|” ，管道的作用在于連接多條命令比如命令：cat data.txt|wc -l 的含義就是查看data中數據條數，其中“|”就是管道，將cat data.txt的輸出作為wc -l的輸入。總結來說只要第一個命令向標準輸出寫入，而第二個命令是從標準輸入讀取，那么這兩個命令就可以形成一個管道。同樣我們可以用將輸出傳遞給python腳本。

明白了管道的概念，那我們開始吧，案例數據如下：

data1.txt記錄用戶的id以及年齡，data2.txt記錄用戶的消費信息

首先我們寫一個實現where功能的python腳本，腳本如下：

where.py

#!/usr/bin/env python 
# -*- encoding:utf-8 -*- 
 
import sys 
import re 
import cutmode 
 
def where(col, cmpexpr, val, cmptype):  
  sw ={ 
      '>': lambda y, x: y > x,  
      '>=': lambda y, x: y >= x, 
      '<': lambda y, x: y < x, 
      '<=': lambda y, x: y <= x, 
      '==': lambda y, x: y == x,  
      '!=': lambda y, x: y != x,  
  } 
  for line in sys.stdin:  
      line = line.strip() 
      #data= re.split('\s+',line) 
      data = line.split('\t') 
      if len(data) <= col : continue 
      if cmptype == 'int':  
          number = int(data[col]) 
          val = int(val) 
      elif cmptype == 'float': 
          number = float(data[col]) 
          val = float(val) 
      else:  
          number = data[col] 
        
      if sw[cmpexpr](number,val): 
          print line.strip() 
                
if __name__ == '__main__': 
  col = int(sys.argv[1]) 
  cmpexpr = sys.argv[2] 
  val = sys.argv[3] 
  cmptype = sys.argv[4] 
  where(col, cmpexpr, val, cmptype)

程序就不一行行解釋了，簡單來說一下幾個參數，其中 python 程序的四個參數

col 表示第幾列
cmpexpr 表示比較運算符(>,>=,<,<=,=，!=)
val表示要比較的數字
cmptype表示數據類型

我們篩選年齡大于24歲的用戶，指令和結果如下：

cat data.txt|python where.py 1 '>=' 25 int

join.py

#!/usr/bin/env python 
# -*- encoding:utf-8 -*- 
 
import sys 
import re 
 
def makeJoin(joinfields, file_list=[]): 
  dict = {} 
  file_last = open(file_list[-1]) 
  k, v = joinfields[-1].split(':') 
  k, v = int(k),int(v) 
  for line in file_last: 
      sps = re.split('\s+', line) 
      if len(sps) >= max(k,v): 
          val = sps[v] if v >= 0 else '' 
          dict.setdefault(sps[k], val) 
            
  file_last.close() 
    
  for i in xrange(len(file_list)-1):  
      fd = open(file_list[i], 'r')  
      field = joinfields[i].split(':')[0] 
      for data in fd.readlines(): 
          attr = re.split('\t', data.strip()) 
          if len(attr) <= int(field):continue 
          joinid = attr[int(field)] 
          appendix = dict[joinid] if joinid in dict else 'noright' 
          print data.strip() + '\t' + appendix 
      fd.close() 
 
if __name__ == '__main__': 
  joinfields = sys.argv[1].split(',') 
  file_list = sys.argv[2:] 
  makeJoin(joinfields, file_list)

下面將兩個數據進行join，計算出每個用戶的年齡以及對應的花費。

指令如下：python join.py '0:1,0:1' 'data1.txt' 'data2.txt'

第一個0:1 表示data1.txt的鏈接主鍵為0列，值為1列
第二個0:1 表示data2.txt的鏈接主鍵為0列，值為1列
data1.txt 和data2.txt 分別為需要鏈接的文件

select.py

#!/usr/bin/env python 
# -*- encoding:utf-8 -*- 
 
import sys 
import re 
 
def cut(files,col1,col2): 
  col1=int(col1) 
  col2=int(col2) 
  f=open 
  for line in sys.stdin: 
      line_list=line.split() 
      if(len(line_list)>=max(col1,col2)): 
          if col1>=0 and col2>=0 and col1<=col2: 
              print("\t".join(line_list[col1:col2])) 
          else: 
              print("參數輸入錯誤") 
      else: 
          print("參數超出范圍") 
if __name__=="__main__": 
  col1=sys.argv[1] 
  col2=sys.argv[2] 
  cut(col1,col2)

取出有花費的用戶id，指令如下：

col1：開始列
col2：結束列

python select.py 0 1 data2.txt

綜合使用

選出data1中付過費，且年齡大于35歲的用戶id

python join.py '0:1,0:1' 'data1.txt' 'data2.txt'|python where.py 2 '!=' null string|python where.py 1 '>' 35 int|python select.py 0 1 
 
12159 
 
17473

責任編輯：武曉燕來源：數師兄

效率提升技巧

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營