自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<legend id="dnhb1"><li id="dnhb1"></li></legend><center id="dnhb1"><i id="dnhb1"></i></center>

<style id="dnhb1"><rp id="dnhb1"></rp></style>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

Python爬蟲：手把手教你采集登陸后才能看到數(shù)據(jù)

作者：青燈教育Python學(xué)院 2020-11-10 09:11:02

開發(fā) 前端

爬蟲在采集網(wǎng)站的過程中，部分?jǐn)?shù)據(jù)價值較高的網(wǎng)站，會限制訪客的訪問行為。這種時候建議通過登錄的方式，獲取目標(biāo)網(wǎng)站的cookie，然后再使用cookie配合代理IP進(jìn)行數(shù)據(jù)采集分析。

爬蟲在采集網(wǎng)站的過程中，部分?jǐn)?shù)據(jù)價值較高的網(wǎng)站，會限制訪客的訪問行為。這種時候建議通過登錄的方式，獲取目標(biāo)網(wǎng)站的cookie，然后再使用cookie配合代理IP進(jìn)行數(shù)據(jù)采集分析。

1 使用表單登陸

這種情況屬于post請求，即先向服務(wù)器發(fā)送表單數(shù)據(jù)，服務(wù)器再將返回的cookie存入本地。

#! -*- encoding:utf-8 -*- 
 
import requests 
 
import random 
 
import requests.adapters 
 
 
 
# 要訪問的目標(biāo)頁面 
 
targetUrlList = [ 
 
    "https://httpbin.org/ip", 
 
    "https://httpbin.org/headers", 
 
    "https://httpbin.org/user-agent", 
 
] 
 
 
 
# 代理服務(wù)器(產(chǎn)品官網(wǎng) www.16yun.cn) 
 
proxyHost = "t.16yun.cn" 
 
proxyPort = "31111" 
 
 
 
# 代理隧道驗證信息 
 
proxyUser = "username" 
 
proxyPass = "password" 
 
 
 
proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % { 
 
    "host": proxyHost, 
 
    "port": proxyPort, 
 
    "user": proxyUser, 
 
    "pass": proxyPass, 
 
} 
 
 
 
# 設(shè)置 http和https訪問都是用HTTP代理 
 
proxies = { 
 
    "http": proxyMeta, 
 
    "https": proxyMeta, 
 
} 
 
 
 
# 訪問三次網(wǎng)站，使用相同的Session(keep-alive)，均能夠保持相同的外網(wǎng)IP 
 
s = requests.session() 
 
 
 
# 設(shè)置cookie 
 
cookie_dict = {"JSESSION":"123456789"} 
 
cookies = requests.utils.cookiejar_from_dict(cookie_dict, cookiejar=None, overwrite=True) 
 
s.cookies = cookies 
 
 
 
for i in range(3): 
 
    for url in targetUrlList: 
 
        r = s.get(url, proxies=proxies) 
 
        print r.text

2 使用cookie登陸

使用cookie登陸，服務(wù)器會認(rèn)為你是一個已登陸的用戶，所以就會返回給你一個已登陸的內(nèi)容。因此，需要驗證碼的情況可以使用帶驗證碼登陸的cookie解決。

response_captcha = requests_session.get(url=url_login, cookies=cookies) 
  
response1 = requests.get(url_login) # 未登陸 
  
response2 = requests_session.get(url_login) # 已登陸，因為之前拿到了Response Cookie！ 
  
response3 = requests_session.get(url_results) # 已登陸，因為之前拿到了Response Cookie！

若存在驗證碼，此時采用response = requests_session.post(url=url_login, data=data)是不行的，做法應(yīng)該如下：

response_captcha = requests_session.get(url=url_login, cookies=cookies) 
  
response1 = requests.get(url_login) # 未登陸 
  
response2 = requests_session.get(url_login) # 已登陸，因為之前拿到了Response Cookie！ 
  
response3 = requests_session.get(url_results) # 已登陸，因為之前拿到了Response Cookie！

【編輯推薦】

TIOBE 11月榜單：Python擠掉了Java！
React Concurrent Mode三連：是什么/為什么/怎么做
Linux高性能網(wǎng)絡(luò)編程之TCP連接的內(nèi)存使用
Python曾是程序員的“瑞士軍刀”，而如今正被慢慢取代
全球疫情下的網(wǎng)絡(luò)安全：警惕“趁火打劫”的線上攻擊

責(zé)任編輯：姜華來源：今日頭條

采集數(shù)據(jù)

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<wbr id="97ws3"><sup id="97ws3"></sup></wbr>