自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Python多線程如何抓取網(wǎng)站內(nèi)容

開發(fā) 后端
Python多線程需要我們不斷的進行學(xué)習(xí),只有更好的學(xué)習(xí)才能不斷的進行相關(guān)語言的應(yīng)用。希望大家在之后的學(xué)習(xí)中有所收獲。

 

Python多線程在不斷的使用中需要我們更多的學(xué)習(xí)相關(guān)的技術(shù)知識。單線程太慢的話,就需要Python多線程了,這里給個簡單的線程池模板。這個程序只是簡單地打印了110,但是可以看出是并發(fā)地。

  1. from threading import Thread  
  2. from Queue import Queue  
  3. from time import sleep  
  4. #q是任務(wù)隊列  
  5. #NUM是并發(fā)線程總數(shù)  
  6. #JOBS是有多少任務(wù)  
  7. q = Queue()  
  8. NUM = 2 
  9. JOBS = 10 
  10. #具體的處理函數(shù),負責(zé)處理單個任務(wù)  
  11. def do_somthing_using(arguments):  
  12. print arguments  
  13. #這個是工作進程,負責(zé)不斷從隊列取數(shù)據(jù)并處理  
  14. def working():  
  15. while True:  
  16. arguments = q.get()  
  17. do_somthing_using(arguments)  
  18. sleep(1)  
  19. q.task_done()  
  20. #fork NUM個線程等待隊列  
  21. for i in range(NUM):  
  22. t = Thread(target=working)  
  23. t.setDaemon(True)  
  24. t.start()  
  25. #把JOBS排入隊列  
  26. for i in range(JOBS):  
  27. q.put(i)  
  28. #等待所有JOBS完成 

q.join()5.驗證碼的處理碰到驗證碼咋辦?這里分兩種情況處理:

google那種驗證碼,涼拌

簡單的驗證碼:字符個數(shù)有限,只使用了簡單的平移或旋轉(zhuǎn)加噪音而沒有扭曲的,這種還是有可能可以處理的,一般思路是旋轉(zhuǎn)的轉(zhuǎn)回來,噪音去掉,然后劃分 單個字符,劃分好了以后再通過特征提取的方法(例如PCA) 降維并生成特征庫,然后把驗證碼和特征庫進行比較。這個比較復(fù)雜,一篇博文是說不完的,這里就不展開了,具體做法請弄本相關(guān)教科書好好研究一下。

事實上有些驗證碼還是很弱的,這里就不點名了,反正我通過2的方法提取過準確度非常高的驗證碼,所以2事實上是可行的。

基本上我遇到過的所有情況,用以上方法都順利解決了,不太清楚還有沒有其他漏掉的情況,所以本文到這里就完成了,以后要是碰上其他情況,再補充相關(guān)方法好 了:)

【編輯推薦】

  1. Python邏輯操作中的三大應(yīng)用方案
  2. 簡介Python代碼兩大實際應(yīng)用手冊
  3. Python語言如何在C語言中實現(xiàn)操作
  4. Python編程語言如何保存搜索引擎結(jié)果
  5. Python腳本在游戲中尋找自己的知音
責(zé)任編輯:張浩 來源: IT專家網(wǎng)
相關(guān)推薦

2011-06-22 18:05:30

SEO網(wǎng)站內(nèi)容

2011-05-23 18:39:13

網(wǎng)站內(nèi)容優(yōu)化

2011-05-30 16:44:06

SEO

2011-06-09 16:36:00

SEO網(wǎng)站內(nèi)容

2011-06-07 15:03:29

SEO外鏈

2011-06-29 15:21:22

網(wǎng)站內(nèi)容SEO

2011-06-20 16:34:01

SEO

2011-06-20 16:27:06

2011-06-20 13:56:56

內(nèi)鏈

2010-02-01 17:18:23

Python多線程環(huán)境

2011-06-29 16:18:31

SEO

2011-07-22 15:23:46

SEO

2011-05-30 16:55:33

內(nèi)部鏈接

2010-03-03 15:39:50

Python抓取網(wǎng)頁內(nèi)

2010-03-15 17:56:23

Java多線程

2023-10-06 23:06:01

多線程Python

2010-02-01 17:25:09

Python多線程

2011-06-24 17:23:30

網(wǎng)站優(yōu)化

2011-06-21 16:26:19

SEO內(nèi)部優(yōu)化

2012-07-24 10:05:26

豌豆莢百寶袋
點贊
收藏

51CTO技術(shù)棧公眾號