自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

Python快速上手爬蟲的7大技巧

作者：馬哥Linux運(yùn)維 2020-10-26 08:31:41

開發(fā) 后端

Python應(yīng)用最多的場景還是Web快速開發(fā)、爬蟲、自動化運(yùn)維。爬蟲在開發(fā)過程中也有很多復(fù)用的過程，這里總結(jié)一下，以后也能省些事情。

Python應(yīng)用最多的場景還是Web快速開發(fā)、爬蟲、自動化運(yùn)維。爬蟲在開發(fā)過程中也有很多復(fù)用的過程，這里總結(jié)一下，以后也能省些事情。

1. 基本抓取網(wǎng)頁

get方法

post方法

2. 使用代理IP

在開發(fā)爬蟲過程中經(jīng)常會遇到IP被封掉的情況，這時就需要用到代理IP;

在urllib2包中有ProxyHandler類，通過此類可以設(shè)置代理訪問網(wǎng)頁，如下代碼片段：

3. Cookies處理

cookies是某些網(wǎng)站為了辨別用戶身份、進(jìn)行session跟蹤而儲存在用戶本地終端上的數(shù)據(jù)(通常經(jīng)過加密)，python提供了cookielib模塊用于處理cookies，cookielib模塊的主要作用是提供可存儲cookie的對象，以便于與urllib2模塊配合使用來訪問Internet資源。

代碼片段：

關(guān)鍵在于CookieJar()，它用于管理HTTP cookie值、存儲HTTP請求生成的cookie、向傳出的HTTP請求添加cookie的對象。整個cookie都存儲在內(nèi)存中，對CookieJar實例進(jìn)行垃圾回收后cookie也將丟失，所有過程都不需要單獨去操作。

手動添加cookie：

4. 偽裝成瀏覽器

某些網(wǎng)站反感爬蟲的到訪，于是對爬蟲一律拒絕請求。所以用urllib2直接訪問網(wǎng)站經(jīng)常會出現(xiàn)HTTP Error 403: Forbidden的情況。

對有些 header 要特別留意，Server 端會針對這些 header 做檢查：

User-Agent 有些 Server 或 Proxy 會檢查該值，用來判斷是否是瀏覽器發(fā)起的 Request。
Content-Type 在使用 REST 接口時，Server 會檢查該值，用來確定 HTTP Body 中的內(nèi)容該怎樣解析。

這時可以通過修改http包中的header來實現(xiàn)，代碼片段如下：

5. 驗證碼的處理

對于一些簡單的驗證碼，可以進(jìn)行簡單的識別。我們只進(jìn)行過一些簡單的驗證碼識別，但是有些反人類的驗證碼，比如12306，可以通過打碼平臺進(jìn)行人工打碼，當(dāng)然這是要付費(fèi)的。

6. gzip壓縮

有沒有遇到過某些網(wǎng)頁，不論怎么轉(zhuǎn)碼都是一團(tuán)亂碼。哈哈，那說明你還不知道許多web服務(wù)具有發(fā)送壓縮數(shù)據(jù)的能力，這可以將網(wǎng)絡(luò)線路上傳輸?shù)拇罅繑?shù)據(jù)消減 60% 以上。這尤其適用于 XML web 服務(wù)，因為 XML 數(shù)據(jù) 的壓縮率可以很高。

但是一般服務(wù)器不會為你發(fā)送壓縮數(shù)據(jù)，除非你告訴服務(wù)器你可以處理壓縮數(shù)據(jù)。

于是需要這樣修改代碼：

這是關(guān)鍵：創(chuàng)建Request對象，添加一個 Accept-encoding 頭信息告訴服務(wù)器你能接受 gzip 壓縮數(shù)據(jù)。

然后就是解壓縮數(shù)據(jù)：

7. 多線程并發(fā)抓取

單線程太慢的話，就需要多線程了，這里給個簡單的線程池模板這個程序只是簡單地打印了1-10，但是可以看出是并發(fā)的。

雖然說Python的多線程很雞肋，但是對于爬蟲這種網(wǎng)絡(luò)頻繁型，還是能一定程度提高效率的。

責(zé)任編輯：趙寧寧來源：馬哥Linux運(yùn)維

Python 爬蟲開發(fā)

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<p id="rvxle"></p>

<cite id="rvxle"></cite><cite id="rvxle"><rp id="rvxle"><pre id="rvxle"></pre></rp></cite>