自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

爬蟲進(jìn)階：反爬策略的應(yīng)對(duì)機(jī)制

作者：佚名 2017-05-15 10:39:48

大數(shù)據(jù)

而在大數(shù)據(jù)時(shí)代，數(shù)據(jù)就是金錢，很多企業(yè)都為自己的網(wǎng)站運(yùn)用了反爬蟲機(jī)制，防止網(wǎng)頁上的數(shù)據(jù)被爬蟲爬走。然而，如果反爬機(jī)制過于嚴(yán)格，可能會(huì)誤傷到真正的用戶請(qǐng)求;如果既要和爬蟲死磕，又要保證很低的誤傷率，那么又會(huì)加大研發(fā)的成本。

爬蟲與反爬蟲，這相愛相殺的一對(duì)，簡(jiǎn)直可以寫出一部壯觀的斗爭(zhēng)史。而在大數(shù)據(jù)時(shí)代，數(shù)據(jù)就是金錢，很多企業(yè)都為自己的網(wǎng)站運(yùn)用了反爬蟲機(jī)制，防止網(wǎng)頁上的數(shù)據(jù)被爬蟲爬走。然而，如果反爬機(jī)制過于嚴(yán)格，可能會(huì)誤傷到真正的用戶請(qǐng)求;如果既要和爬蟲死磕，又要保證很低的誤傷率，那么又會(huì)加大研發(fā)的成本。

簡(jiǎn)單低級(jí)的爬蟲速度快，偽裝度低，如果沒有反爬機(jī)制，它們可以很快的抓取大量數(shù)據(jù)，甚至因?yàn)檎?qǐng)求過多，造成服務(wù)器不能正常工作。而偽裝度高的爬蟲爬取速度慢，對(duì)服務(wù)器造成的負(fù)擔(dān)也相對(duì)較小。所以，網(wǎng)站反爬的重點(diǎn)也是那種簡(jiǎn)單粗暴的爬蟲，反爬機(jī)制也會(huì)允許偽裝度高的爬蟲，獲得數(shù)據(jù)。畢竟偽裝度很高的爬蟲與真實(shí)用戶也就沒有太大差別了。

這篇文章主要討論使用 Scrapy 框架時(shí)，如何應(yīng)對(duì)普通的反爬機(jī)制。

header 檢驗(yàn)

最簡(jiǎn)單的反爬機(jī)制，就是檢查 HTTP 請(qǐng)求的 Headers 信息，包括 User-Agent, Referer、Cookies 等。

User-Agent

User-Agent 是檢查用戶所用客戶端的種類和版本，在 Scrapy 中，通常是在下載器中間件中進(jìn)行處理。比如在 setting.py 中建立一個(gè)包含很多瀏覽器 User-Agent 的列表，然后新建一個(gè) random_user_agent 文件：

class RandomUserAgentMiddleware(object):  
    @classmethod     def process_request(cls, request, spider):         ua = random.choice(spider.settings['USER_AGENT_LIST'])         if ua:             request.headers.setdefault('User-Agent', ua)

這樣就可以在每次請(qǐng)求中，隨機(jī)選取一個(gè)真實(shí)瀏覽器的 User-Agent。

Referer

Referer 是檢查此請(qǐng)求由哪里來，通常可以做圖片的盜鏈判斷。在 Scrapy 中，如果某個(gè)頁面 url 是通過之前爬取的頁面提取到，Scrapy 會(huì)自動(dòng)把之前爬取的頁面 url 作為 Referfer。也可以通過上面的方式自己定義 Referfer 字段。

Cookies

網(wǎng)站可能會(huì)檢測(cè) Cookie 中 session_id 的使用次數(shù)，如果超過限制，就觸發(fā)反爬策略。所以可以在 Scrapy 中設(shè)置 COOKIES_ENABLED = False 讓請(qǐng)求不帶 Cookies。

也有網(wǎng)站強(qiáng)制開啟 Cookis，這時(shí)就要麻煩一點(diǎn)了?？梢粤韺懸粋€(gè)簡(jiǎn)單的爬蟲，定時(shí)向目標(biāo)網(wǎng)站發(fā)送不帶 Cookies 的請(qǐng)求，提取響應(yīng)中 Set-cookie 字段信息并保存。爬取網(wǎng)頁時(shí)，把存儲(chǔ)起來的 Cookies 帶入 Headers 中。

X-Forwarded-For

在請(qǐng)求頭中添加 X-Forwarded-For 字段，將自己申明為一個(gè)透明的代理服務(wù)器，一些網(wǎng)站對(duì)代理服務(wù)器會(huì)手軟一些。

X-Forwarded-For 頭一般格式如下

X-Forwarded-For: client1, proxy1, proxy2

這里將 client1，proxy1 設(shè)置為隨機(jī) IP 地址，把自己的請(qǐng)求偽裝成代理的隨機(jī) IP 產(chǎn)生的請(qǐng)求。然而由于 X-Forwarded-For 可以隨意篡改，很多網(wǎng)站并不會(huì)信任這個(gè)值。

限制 IP 的請(qǐng)求數(shù)量

如果某一 IP 的請(qǐng)求速度過快，就觸發(fā)反爬機(jī)制。當(dāng)然可以通過放慢爬取速度繞過，這要以爬取時(shí)間大大增長(zhǎng)為代價(jià)。另一種方法就是添加代理。

很簡(jiǎn)單，在下載器中間件中添加:

request.meta['proxy'] = 'http://' + 'proxy_host' + ':' + proxy_port

然后再每次請(qǐng)求時(shí)使用不同的代理 IP。然而問題是如何獲取大量的代理 IP?

可以自己寫一個(gè) IP 代理獲取和維護(hù)系統(tǒng)，定時(shí)從各種披露免費(fèi)代理 IP 的網(wǎng)站爬取免費(fèi) IP 代理，然后定時(shí)掃描這些 IP 和端口是否可用，將不可用的代理 IP 及時(shí)清理。這樣就有一個(gè)動(dòng)態(tài)的代理庫(kù)，每次請(qǐng)求再?gòu)膸?kù)中隨機(jī)選擇一個(gè)代理。然而這個(gè)方案的缺點(diǎn)也很明顯，開發(fā)代理獲取和維護(hù)系統(tǒng)本身就很費(fèi)時(shí)費(fèi)力，并且這種免費(fèi)代理的數(shù)量并不多，而且穩(wěn)定性都比較差。如果必須要用到代理，也可以去買一些穩(wěn)定的代理服務(wù)。這些服務(wù)大多會(huì)用到帶認(rèn)證的代理。

在 requests 庫(kù)中添加帶認(rèn)證的代理很簡(jiǎn)單，

proxies = {  
   "http": "http://user:pass@10.10.1.10:3128/", 
}

然而 Scrapy 不支持這種認(rèn)證方式，需要將認(rèn)證信息 base64 編碼后，加入 Headers 的 Proxy-Authorization 字段：

import base64

import base64  
 # Set the location of the proxy proxy_string = choice(self._get_proxies_from_file('proxies.txt')) # user:pass@ip:port proxy_items = proxy_string.split('@') request.meta['proxy'] = "http://%s" % proxy_items[1]  # setup basic authentication for the proxy user_pass=base64.encodestring(proxy_items[0]) request.headers['Proxy-Authorization'] = 'Basic ' + user_pass

動(dòng)態(tài)加載

現(xiàn)在越來越多的網(wǎng)站使用 ajax 動(dòng)態(tài)加載內(nèi)容，這時(shí)候可以先截取 ajax 請(qǐng)求分析一下，有可能根據(jù) ajax 請(qǐng)求構(gòu)造出相應(yīng)的 API 請(qǐng)求的 URL 就可以直接獲取想要的內(nèi)容，通常是 json 格式，反而還不用去解析 HTML。

然而，很多時(shí)候 ajax 請(qǐng)求都會(huì)經(jīng)過后端鑒權(quán)，不能直接構(gòu)造 URL 獲取。這時(shí)就可以通過 PhantomJS+Selenium 模擬瀏覽器行為，抓取經(jīng)過 js 渲染后的頁面。具體可以參考：Scrapy+PhantomJS+Selenium 動(dòng)態(tài)爬蟲

需要注意的是，使用 Selenium 后，請(qǐng)求不再由 Scrapy 的 Downloader 執(zhí)行，所以之前添加的請(qǐng)求頭等信息都會(huì)失效，需要在 Selenium 中重新添加

headers = {...}  
for key, value in headers.iteritems():     webdriver.DesiredCapabilities.PHANTOMJS['phantomjs.page.customHeaders.{}'.format(key)] = value

另外，調(diào)用 PhantomJs 需要指定 PhantomJs 的可執(zhí)行文件路徑，通常是將該路徑添加到系統(tǒng)的 path 路徑，讓程序執(zhí)行時(shí)自動(dòng)去 path 中尋找。我們的爬蟲經(jīng)常會(huì)放到 crontab 中定時(shí)執(zhí)行，而 crontab 中的環(huán)境變量和系統(tǒng)的環(huán)境變量不同，所以就加載不到 PhamtonJs 需要的路徑，所以***是在申明時(shí)指定路徑：

driver = webdriver.PhantomJS(executable_path='/usr/local/bin/phantomjs')

責(zé)任編輯：武曉燕來源： 36大數(shù)據(jù)

爬蟲應(yīng)對(duì)機(jī)制

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<rt id="jvy5d"></rt>

<legend id="jvy5d"></legend>

<sub id="jvy5d"></sub>

<p id="jvy5d"><li id="jvy5d"><menuitem id="jvy5d"></menuitem></li></p>