自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="gfq1x"><p id="gfq1x"></p></sub>

<cite id="gfq1x"></cite>

<sub id="gfq1x"><p id="gfq1x"></p></sub>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

反爬煩的不行？看看這個(gè)神級(jí)程序員怎么來破解的！

作者：佚名 2017-10-30 22:31:26

爬蟲和反爬的對(duì)抗一直在進(jìn)行著… 為了幫助更好的進(jìn)行爬蟲行為以及反爬，今天就來介紹一下網(wǎng)頁開發(fā)者常用的反爬手段。

爬蟲和反爬的對(duì)抗一直在進(jìn)行著… 為了幫助更好的進(jìn)行爬蟲行為以及反爬，今天就來介紹一下網(wǎng)頁開發(fā)者常用的反爬手段。

1. BAN IP ：網(wǎng)頁的運(yùn)維人員通過分析日志發(fā)現(xiàn)最近某一個(gè)IP訪問量特別特別大，某一段時(shí)間內(nèi)訪問了無數(shù)次的網(wǎng)頁，則運(yùn)維人員判斷此種訪問行為并非正常人的行為，于是直接在服務(wù)器上封殺了此人IP。

解決方法：此種方法極其容易誤傷其他正常用戶，因?yàn)槟骋黄瑓^(qū)域的其他用戶可能有著相同的IP，導(dǎo)致服務(wù)器少了許多正常用戶的訪問，所以一般運(yùn)維人員不會(huì)通過此種方法來限制爬蟲。不過面對(duì)許多大量的訪問，服務(wù)器還是會(huì)偶爾把該IP放入黑名單，過一段時(shí)間再將其放出來，但我們可以通過分布式爬蟲以及購買代理IP也能很好的解決，只不過爬蟲的成本提高了。

2. BAN USERAGENT ：很多的爬蟲請(qǐng)求頭就是默認(rèn)的一些很明顯的爬蟲頭python-requests/2.18.4，諸如此類，當(dāng)運(yùn)維人員發(fā)現(xiàn)攜帶有這類headers的數(shù)據(jù)包，直接拒絕訪問，返回403錯(cuò)誤

解決方法：直接r=requests.get(url,headers={'User-Agent':'Baiduspider'})把爬蟲請(qǐng)求headers偽裝成百度爬蟲或者其他瀏覽器頭就行了。

案例：雪球網(wǎng)

反爬煩的不行？看看這個(gè)神級(jí)程序員怎么來破解的！強(qiáng)的不行！

返回的就是

403

403 Forbidden.

Your IP Address: xxx.xxx.xxx.xxx .

但是當(dāng)我們這樣寫：

反爬煩的不行？看看這個(gè)神級(jí)程序員怎么來破解的！強(qiáng)的不行！

返回的就是

200

< !DOCTYPE html><html …

3. BAN COOKIES :服務(wù)器對(duì)每一個(gè)訪問網(wǎng)頁的人都set-cookie，給其一個(gè)cookies，當(dāng)該cookies訪問超過某一個(gè)閥值時(shí)就BAN掉該COOKIE，過一段時(shí)間再放出來，當(dāng)然一般爬蟲都是不帶COOKIE進(jìn)行訪問的，可是網(wǎng)頁上有一部分內(nèi)容如新浪微博是需要用戶登錄才能查看更多內(nèi)容。

解決辦法：控制訪問速度，或者某些需要登錄的如新浪微博，在某寶上買多個(gè)賬號(hào)，生成多個(gè)cookies，在每一次訪問時(shí)帶上cookies

案例：螞蜂窩

以前因?yàn)槁糜蔚男枨螅韵氲搅巳プヒ稽c(diǎn)游記來找找哪些地方好玩，于是去了螞蜂窩網(wǎng)站找游記，一篇一篇的看真的很慢，想到不如把所有文章抓過來然后統(tǒng)計(jì)每個(gè)詞出現(xiàn)的頻率***，統(tǒng)計(jì)出最熱的一些旅游景點(diǎn)，就寫了一個(gè)scrapy爬蟲抓游記，當(dāng)修改了headers后開始爬取，發(fā)現(xiàn)訪問過快服務(wù)器就會(huì)斷開掉我的連接，然后過一段時(shí)間（幾個(gè)小時(shí)）才能繼續(xù)爬。于是放慢速度抓就發(fā)現(xiàn)不會(huì)再被BAN了。

4. 驗(yàn)證碼驗(yàn)證：當(dāng)某一用戶訪問次數(shù)過多后，就自動(dòng)讓請(qǐng)求跳轉(zhuǎn)到一個(gè)驗(yàn)證碼頁面，只有在輸入正確的驗(yàn)證碼之后才能繼續(xù)訪問網(wǎng)站

解決辦法：python可以通過一些第三方庫如(pytesser,PIL)來對(duì)驗(yàn)證碼進(jìn)行處理，識(shí)別出正確的驗(yàn)證碼，復(fù)雜的驗(yàn)證碼可以通過機(jī)器學(xué)習(xí)讓爬蟲自動(dòng)識(shí)別復(fù)雜驗(yàn)證碼，讓程序自動(dòng)識(shí)別驗(yàn)證碼并自動(dòng)輸入驗(yàn)證碼繼續(xù)抓取

案例：安全客

當(dāng)訪問者對(duì)安全客訪問過快他就會(huì)自動(dòng)蹦出一個(gè)驗(yàn)證碼界面。

如下：

反爬煩的不行？看看這個(gè)神級(jí)程序員怎么來破解的！強(qiáng)的不行！

5. javascript渲染：網(wǎng)頁開發(fā)者將重要信息放在網(wǎng)頁中但不寫入html標(biāo)簽中，而瀏覽器會(huì)自動(dòng)渲染<script>標(biāo)簽中的js代碼將信息展現(xiàn)在瀏覽器當(dāng)中，而爬蟲是不具備執(zhí)行js代碼的能力，所以無法將js事件產(chǎn)生的信息讀取出來

解決辦法：通過分析提取script中的js代碼來通過正則匹配提取信息內(nèi)容或通過webdriver+phantomjs直接進(jìn)行無頭瀏覽器渲染網(wǎng)頁。

案例：前程無憂網(wǎng)

隨便打開一個(gè)前程無憂工作界面，直接用requests.get對(duì)其進(jìn)行訪問，可以得到一頁的20個(gè)左右數(shù)據(jù)，顯然得到的不全，而用webdriver訪問同樣的頁面可以得到50個(gè)完整的工作信息。

6. ajax異步傳輸：訪問網(wǎng)頁的時(shí)候服務(wù)器將網(wǎng)頁框架返回給客戶端，在與客戶端交互的過程中通過異步ajax技術(shù)傳輸數(shù)據(jù)包到客戶端，呈現(xiàn)在網(wǎng)頁上，爬蟲直接抓取的話信息為空

解決辦法：通過fiddler或是wireshark抓包分析ajax請(qǐng)求的界面，然后自己通過規(guī)律仿造服務(wù)器構(gòu)造一個(gè)請(qǐng)求訪問服務(wù)器得到返回的真實(shí)數(shù)據(jù)包。

案例：拉勾網(wǎng)

打開拉勾網(wǎng)的某一個(gè)工作招聘頁，可以看到許許多多的招聘信息數(shù)據(jù)，點(diǎn)擊下一頁后發(fā)現(xiàn)頁面框架不變化，url地址不變，而其中的每個(gè)招聘數(shù)據(jù)發(fā)生了變化，通過chrome開發(fā)者工具抓包找到了一個(gè)叫請(qǐng)求了一個(gè)叫做https://www.lagou.com/zhaopin/Java/2/?filterOption=3的網(wǎng)頁，

反爬煩的不行？看看這個(gè)神級(jí)程序員怎么來破解的！強(qiáng)的不行！

打開改網(wǎng)頁發(fā)現(xiàn)為第二頁真正的數(shù)據(jù)源，通過仿造請(qǐng)求可以抓取每一頁的數(shù)據(jù)。

反爬煩的不行？看看這個(gè)神級(jí)程序員怎么來破解的！強(qiáng)的不行！

很多網(wǎng)頁的運(yùn)維者通過組合以上幾種手段，然后形成一套反爬策略，就像之前碰到過一個(gè)復(fù)雜網(wǎng)絡(luò)傳輸+加速樂+cookies時(shí)效的反爬手段。

7. 加速樂：有些網(wǎng)站使用了加速樂的服務(wù)，在訪問之前先判斷客戶端的cookie正不正確。如果不正確，返回521狀態(tài)碼，set-cookie并且返回一段js代碼通過瀏覽器執(zhí)行后又可以生成一個(gè)cookie，只有這兩個(gè)cookie一起發(fā)送給服務(wù)器，才會(huì)返回正確的網(wǎng)頁內(nèi)容。

解決辦法：將瀏覽器返回的js代碼放在一個(gè)字符串中，然后利用nodejs對(duì)這段代碼進(jìn)行反壓縮，然后對(duì)局部的信息進(jìn)行解密，得到關(guān)鍵信息放入下一次訪問請(qǐng)求的頭部中。

案例：加速樂

這樣的一個(gè)交互過程僅僅用python的requests庫是解決不了的，經(jīng)過查閱資料，有兩種解決辦法：

***種將返回的set-cookie獲取到之后再通過腳本執(zhí)行返回的eval加密的js代碼，將代碼中生成的cookie與之前set-cookie聯(lián)合發(fā)送給服務(wù)器就可以返回正確的內(nèi)容，即狀態(tài)碼從521變成了200。

反爬煩的不行？看看這個(gè)神級(jí)程序員怎么來破解的！強(qiáng)的不行！

直接通過這一段就可以獲取返回的一段經(jīng)過壓縮和加密處理的js代碼

類似于這種：

所以我們需要對(duì)代碼進(jìn)行處理,讓其格式化輸出，操作之后如下：

反爬煩的不行？看看這個(gè)神級(jí)程序員怎么來破解的！強(qiáng)的不行！

這里我們就需要對(duì)這段JS做下修改，假設(shè)我們先把這段JS代碼存在了string sHtmlJs這個(gè)字符串變量里，我們需要把eval這里執(zhí)行的結(jié)果提取出來，把eval替換成 return，然后把整個(gè)代碼放到一個(gè)JS函數(shù)里，方式如下：

反爬煩的不行？看看這個(gè)神級(jí)程序員怎么來破解的！強(qiáng)的不行！

解密后的代碼如下：

反爬煩的不行？看看這個(gè)神級(jí)程序員怎么來破解的！強(qiáng)的不行！

反爬煩的不行？看看這個(gè)神級(jí)程序員怎么來破解的！強(qiáng)的不行！

通過觀察代碼發(fā)現(xiàn)了一段：

顯而易見，這個(gè)dc就是我們想要的cookie，執(zhí)行JS，讓函數(shù)返回DC就OK了。

我還發(fā)現(xiàn)了其中有一段

反爬煩的不行？看看這個(gè)神級(jí)程序員怎么來破解的！強(qiáng)的不行！

當(dāng)服務(wù)器發(fā)現(xiàn)瀏覽器的頭部是_phantom或者_(dá)_phantommas就讓瀏覽器進(jìn)行死循環(huán)，即阻止用selenium操控phantomjs來訪問網(wǎng)頁。

至此兩端加速樂cookie如下：

反爬煩的不行？看看這個(gè)神級(jí)程序員怎么來破解的！強(qiáng)的不行！

這個(gè)破解方法很麻煩不建議用，所以我想出了第二種方法

第二種辦法就是通過selenium的webdriver模塊控制瀏覽器自動(dòng)訪問網(wǎng)頁然后輸出瀏覽器頭部信息中的cookie，封裝在一個(gè)字典中，將其通過requests中的jar模塊轉(zhuǎn)換成cookiejar放入下一次訪問的request中就可以持續(xù)訪問，因?yàn)閏ookie的時(shí)效大約一個(gè)小時(shí)左右。

以下是處理自動(dòng)生成一個(gè)新的有效cookie的代碼:

反爬煩的不行？看看這個(gè)神級(jí)程序員怎么來破解的！強(qiáng)的不行！

切記，放在requests中訪問的headers信息一定要和你操控的瀏覽器headers信息一致，因?yàn)榉?wù)器端也會(huì)檢查cookies與headers信息是否一致

最厲害的武功是融會(huì)貫通，那么最厲害的反爬策略也就是組合目前有的各種反爬手段，當(dāng)然也不是無法破解，這就需要我們對(duì)各個(gè)反爬技術(shù)及原理都很清楚，梳理清楚服務(wù)器的反爬邏輯，然后再見招拆招，就可以讓我們的爬蟲無孔不入。

謝謝閱讀！

責(zé)任編輯：張燕妮來源： python學(xué)院

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

^{<blockquote id="gzhwy"></blockquote>}

<sub id="gzhwy"><p id="gzhwy"></p></sub>

<p id="gzhwy"></p>