自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<thead id="4jvta"></thead>}

<sub id="4jvta"><p id="4jvta"></p></sub>

^{<sub id="4jvta"></sub>}

<legend id="4jvta"><track id="4jvta"></track></legend>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

如何用一行代碼讓gevent爬蟲提速100%

作者：Mort 2020-07-20 09:20:48

開發(fā) 后端

用python做網(wǎng)絡開發(fā)的人估計都聽說過gevent這個庫，gevent是一個第三方的python協(xié)程庫，其是在微線程庫greenlet的基礎上構建而成，并且使用了epoll事件監(jiān)聽機制，這讓gevent具有很好的性能并且比greenlet更好用。

用python做網(wǎng)絡開發(fā)的人估計都聽說過gevent這個庫，gevent是一個第三方的python協(xié)程庫，其是在微線程庫greenlet的基礎上構建而成，并且使用了epoll事件監(jiān)聽機制，這讓gevent具有很好的性能并且比greenlet更好用。根據(jù)gevent官方的資料（網(wǎng)址：http://www.gevent.org），gevent具有以下特點：

基于libev或libuv的快速事件循環(huán)。
基于greenlet的輕量級執(zhí)行單元。
重復使用Python標準庫中的概念的API（例如，有event和 queues）。
具有SSL支持的協(xié)作套接字
通過線程池，dnspython或c-ares執(zhí)行的合作DNS查詢。
猴子修補實用程序，使第三方模塊能夠合作
TCP / UDP / HTTP服務器
子流程支持（通過gevent.subprocess）
線程池

筆者總結一下，gevent大致原理就是當一個greenlet遇到需要等待的操作時（多為IO操作），比如網(wǎng)絡IO/睡眠等待，這時就會自動切換到其他的greenlet，等上述操作完成后，再在適當?shù)臅r候切換回來繼續(xù)執(zhí)行。在這個過程中其實仍然只有一個線程在執(zhí)行，但因為我們在等待某些IO操作時，切換到了其他操作，避免了無用的等待，這就為我們大大節(jié)省了時間，提高了效率。

筆者也是在看了gevent這么多的優(yōu)點之后，感覺有必要上手試一試，但起初效果非常不理想，速度提升并不大，后來在仔細研究了gevent的用法之后，發(fā)現(xiàn)gevent的高效率是有條件的，而其中一個重要條件就是monkey patch的使用，也就是我們常說的猴子補丁。

monkey patch就是在不改變源代碼的情況下，對程序進行更改和優(yōu)化，其主要適用于動態(tài)語言。通過monkey patch，gevent替換了標準庫里面大部分的阻塞式系統(tǒng)調用，比如socket、ssl、threading和select等，而變?yōu)閰f(xié)作式運行。下面筆者還是通過代碼來演示一下monkey patch的用法以及使用條件。筆者展示的這個程序是一個小型的爬蟲程序，程序代碼量少，便于閱讀和運行，同時也能較好地測試出monkey patch的提升程度。主要思路是從Box Office Mojo網(wǎng)站抓取北美電影市場今年第二季度上映的電影，然后從每部電影的信息頁面提取出每部電影的電影分級，然后把每部電影的名稱和其對應分級保存在一個字典當中，再測試一下整個過程的時間。在這里，我們主要測試三種情況下的程序完成時間，分別是普通不使用gevent的爬蟲，使用gevent但不用monkey patch的爬蟲，以及使用gevent和monkey patch的爬蟲。

首先看普通不使用gevent的爬蟲。

先導入需要的庫。

import time  
import requests  
from lxml import etree

然后讀取第二季度上映電影的頁面。

url = r'https://www.boxofficemojo.com/quarter/q2/2020/?grossesOption=totalGrosses' #第二季度上映電影的網(wǎng)址  
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'} #爬蟲頭部  
rsp = requests.get(url, headersheaders=headers) #讀取網(wǎng)頁  
text = rsp.text #獲取網(wǎng)頁源碼  
html = etree.HTML(text)  
movie_relative_urls =  html.xpath(r'//td[@class="a-text-left mojo-field-type-release mojo-cell-wide"]/a/@href') #獲取每部電影的信息頁面的相對地址  
movie_urls = [r'https://www.boxofficemojo.com'+u for u in movie_relative_urls] #把每部電影的相對地址換成絕對地址  
genres_dict = {} #用于保存信息的字典

上述代碼中變量url就是第二季度上映電影的網(wǎng)頁地址，其頁面截圖如圖1所示。headers是爬蟲模擬瀏覽器的頭部信息，每部電影的信息頁面就是圖1中表格頭一行列名Release下面每部電影名稱所包含的網(wǎng)址，點擊每部電影名稱就可進入其對應頁面。因為這個網(wǎng)址是相對地址，所以要轉換成絕對地址。

圖1. 第二季度上映電影的頁面

接下來是每部電影的信息頁面的讀取。

def spider(url): #這個函數(shù)主要用于讀取每部電影頁面中的電影分級信息  
    rsp = requests.get(url, headersheaders=headers) #讀取每部電影的網(wǎng)頁  
    text = rsp.text #獲取頁面代碼  
    html = etree.HTML(text)  
    genre = html.xpath(r'//div/span[text()="Genres"]/following-sibling::span[1]/text()')[0] #讀取電影分級信息  
    title = html.xpath(r'//div/h1/text()')[0] #讀取電影名稱  
genres_dict[title] = genre #把每部電影的名稱和分級信息存入字典

這個函數(shù)就是為了讀取每部電影信息頁面的信息，其功能和上面讀取url頁面的功能類似，都非常簡單，沒有過多可說的。在每部電影頁面中，我們要讀取的每部電影的分級信息就在Genres這一行，比如圖2中電影The Wretched，其Genres信息就是Horror。

圖2. 示例電影信息頁面

接下來是時間測算。

normal_start = time.time() #程序開始時間  
for u in movie_urls:  
    spider(u)  
normal_end = time.time() #程序結束時間  
normal_elapse = normal_end - normal_start #程序運行時間  
print('The normal procedure costs %s seconds' % normal_elapse)

我們測算時間用time.time()方法，用結束時間減去開始時間就是程序運行時間，這里我們主要測試spider這個函數(shù)多次運行的時間。結果顯示，該過程耗時59.6188秒。

第二個爬蟲是使用gevent但不用monkey patch的爬蟲。其完整代碼如下。

import time  
from lxml import etree  
import gevent  
import requests  
url = r'https://www.boxofficemojo.com/quarter/q2/2020/?grossesOption=totalGrosses'  
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'}  
rsp = requests.get(url, headersheaders=headers)  
text = rsp.text  
html = etree.HTML(text)  
movie_relative_urls =  html.xpath(r'//td[@class="a-text-left mojo-field-type-release mojo-cell-wide"]/a/@href')  
movie_urls = [r'https://www.boxofficemojo.com'+u for u in movie_relative_urls]  
genres_dict = {}  
task_list = [] #用于存放協(xié)程的列表  
def spider(url): 
    rsp = requests.get(url, headersheaders=headers)  
    text = rsp.text  
    html = etree.HTML(text)  
    genre = html.xpath(r'//div/span[text()="Genres"]/following-sibling::span[1]/text()')[0]  
    title = html.xpath(r'//div/h1/text()')[0]  
    genres_dict[title] = genre    
gevent_start = time.time()  
for u in movie_urls:  
    task = gevent.spawn(spider, u) #生成協(xié)程  
    task_list.append(task) #把協(xié)程放入這個列表    
gevent.joinall(task_list) #運行所有協(xié)程  
gevent_end = time.time() 
gevent_elapse = gevent_end - gevent_start  
print('The gevent spider costs %s seconds' % gevent_elapse)

這里絕大部分代碼和前面爬蟲代碼相同，但多了一個task_list變量，其是用于存放協(xié)程的列表，我們從gevent_start = time.time()這行開始看，因為前面的代碼都和之前的爬蟲相同。task = gevent.spawn(spider, u)是生成gevent中生成協(xié)程的方法，task_list.append(task)是把每個協(xié)程放入這個列表中，而gevent.joinall(task_list)就是運行所有協(xié)程。上面這些過程和我們運行多線程的方式非常相似。運行結果是59.1744秒。

最后一個爬蟲就是同時使用gevent和monkey patch的爬蟲，在這里筆者不再粘貼代碼，因為其代碼和第二個爬蟲幾乎一模一樣，只有一個區(qū)別，就是多了一行代碼from gevent import monkey; monkey.patch_all()，注意這是一行代碼，不過包含兩個語句，用分號放在了一起。最重要的是，這行代碼要放在所有代碼的前面，切記?。?！

這個爬蟲的運行結果是26.9184秒。

筆者把這里三個爬蟲分別放在三個文件中，分別命名為normal_spider.py、gevent_spider_no.py和gevent_spider.py，分別表示普通不用gevent的爬蟲、使用gevent但不用monkey patch的爬蟲、使用gevent和monkey patch的爬蟲。這里有一點要注意，monkey patch暫不支持jupyter notebook，所以這三個程序要在命令行中使用，不能在notebook中使用。

最后把三種爬蟲的結果總結如下。

圖3. 三種爬蟲的結果對比

可以看出使用了gevent但不用monkey patch的爬蟲和普通爬蟲的運行時間幾乎完全相等，而在用了monkey patch以后，運行時間只有前面程序的一半不到，速度提升了大約120%，僅僅一行代碼就帶來如此大的速度提升，可見monkey patch的作用還是很大的。而對于前兩個爬蟲的速度幾乎完全一樣，筆者認為原因在于這兩個程序都是單線程運行，本質上沒有太大區(qū)別，同時網(wǎng)頁讀取數(shù)量較?。ㄖ挥?8個網(wǎng)頁），也很難看出gevent的效果。

從本例中可以看出monkey patch還是有不小提升的，但gevent目前只對常見庫尤其是官方標準庫有patch作用，其他第三方庫的效果還不得而知，所以對monkey patch的使用還是要視情況而定。本文的代碼筆者放在gitee代碼網(wǎng)站上，網(wǎng)址是https://gitee.com/leonmovie/speed-up-gevent-spider-with-monkey-patch，如有需要可以自行下載。

責任編輯：龐桂玉來源： Python中文社區(qū)

代碼 gevent Python

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營