自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<pre id="6swod"></pre>

^{<blockquote id="6swod"><i id="6swod"></i></blockquote>}

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

快速指南：如何創(chuàng)建基于Python的爬蟲

作者：馬哥企業(yè)教練 2020-08-28 11:00:16

開發(fā) 后端

在本篇文章中，學(xué)習(xí)如何創(chuàng)建基于Python的刮板。深入研究代碼，看看它是如何工作的。

Web抓取的使用正在積極增加，特別是在大型電子商務(wù)公司中，Web抓取是一種收集數(shù)據(jù)以競(jìng)爭(zhēng)，分析競(jìng)爭(zhēng)對(duì)手和研究新產(chǎn)品的方式。Web抓取是一種從網(wǎng)站提取信息的方法。在本篇文章中，學(xué)習(xí)如何創(chuàng)建基于Python的刮板。深入研究代碼，看看它是如何工作的。

在當(dāng)今的大數(shù)據(jù)世界中，很難跟蹤正在發(fā)生的一切。對(duì)于需要大量信息才能取得成功的企業(yè)來說，情況變得更加復(fù)雜。但是首先，他們需要以某種方式收集此數(shù)據(jù)，這意味著他們必須處理數(shù)千個(gè)資源。

有兩種收集數(shù)據(jù)的方法。您可以使用API媒體網(wǎng)站提供的服務(wù)，這是獲取所有新聞的最佳方法。而且，API非常易于使用。不幸的是，并非每個(gè)網(wǎng)站都提供此服務(wù)。然后剩下第二種方法-網(wǎng)頁(yè)抓取。

什么是網(wǎng)頁(yè)抓取？

這是一種從網(wǎng)站提取信息的方法。HTML頁(yè)面不過是嵌套標(biāo)記的集合。標(biāo)簽形成某種樹，其根在<html>標(biāo)簽中，并將頁(yè)面分成不同的邏輯部分。每個(gè)標(biāo)簽可以有其自己的后代（子級(jí)）和父級(jí)。

例如，HTML頁(yè)面樹可以如下所示：

要處理此HTML，您可以使用文本或樹。繞過這棵樹是網(wǎng)頁(yè)抓取。我們只會(huì)在所有這些多樣性中找到我們需要的節(jié)點(diǎn)，并從中獲取信息！這種方法主要集中在將非結(jié)構(gòu)化的HTML數(shù)據(jù)轉(zhuǎn)換成易于使用的結(jié)構(gòu)化信息到數(shù)據(jù)庫(kù)或工作表中。數(shù)據(jù)抓取需要一個(gè)機(jī)器人來收集信息，并通過HTTP或Web瀏覽器連接到Internet。在本指南中，我們將使用Python創(chuàng)建刮板。

我們需要做什么：

獲取我們要從中抓取數(shù)據(jù)的頁(yè)面的URL
復(fù)制或下載此頁(yè)面的HTML內(nèi)容
處理此HTML內(nèi)容并獲取所需的數(shù)據(jù)

此序列使我們可以彈出所需的URL，獲取HTML數(shù)據(jù)，然后對(duì)其進(jìn)行處理以接收所需的數(shù)據(jù)。但是有時(shí)我們需要先進(jìn)入網(wǎng)站，然后再轉(zhuǎn)到特定的網(wǎng)址以接收數(shù)據(jù)。然后，我們必須再增加一個(gè)步驟-登錄該網(wǎng)站。

配套

我們將使用Beautiful Soup庫(kù)來分析HTML內(nèi)容并獲取所有必需的數(shù)據(jù)。這是抓取HTML和XML文檔的絕佳Python包。

Selenium庫(kù)將幫助我們?cè)谝粋€(gè)會(huì)話中使抓取器進(jìn)入網(wǎng)站并轉(zhuǎn)到所需的URL地址。Selenium Python 可以幫助您執(zhí)行諸如單擊按鈕，輸入內(nèi)容等操作。

讓我們深入研究代碼

首先，讓我們導(dǎo)入將要使用的庫(kù)。

# 導(dǎo)入庫(kù)  
from selenium import webdriver 
from bs4 import BeautifulSoup

然后，我們需要向?yàn)g覽器的驅(qū)動(dòng)程序展示Selenium啟動(dòng)網(wǎng)絡(luò)瀏覽器的方式（我們將在這里使用Google Chrome）。如果我們不希望機(jī)器人顯示W(wǎng)eb瀏覽器的圖形界面，則將在Selenium中添加“ headless”選項(xiàng)。

沒有圖形界面（無(wú)頭）的Web瀏覽器可以在與所有流行的Web瀏覽器非常相似的環(huán)境中自動(dòng)管理網(wǎng)頁(yè)。但是在這種情況下，所有活動(dòng)都通過命令行界面或使用網(wǎng)絡(luò)通信進(jìn)行。

# chrome驅(qū)動(dòng)程序的路徑  
chromedriver = '/usr/local/bin/chromedriver'  
options = webdriver.ChromeOptions()  
options.add_argument('headless') #open a headless browser   
browser = webdriver.Chrome(executable_path=chromedriver,   
chrome_options=options)

設(shè)置瀏覽器，安裝庫(kù)并創(chuàng)建環(huán)境之后，我們便開始使用HTML。讓我們進(jìn)入輸入頁(yè)面，找到用戶必須在其中輸入電子郵件地址和密碼的標(biāo)識(shí)符，類別或字段名稱。

# 進(jìn)入登錄頁(yè)面  
browser.get（'http://playsports365.com/default.aspx'）  
# 按姓名搜索標(biāo)簽  
email =  
browser.find_element_by_name('ctl00$MainContent$ctlLogin$_UserName')  
password =   
browser.find_element_by_name('ctl00$MainContent$ctlLogin$_Password')  
login =   
browser.find_element_by_name('ctl00$MainContent$ctlLogin$BtnSubmit')

然后，我們會(huì)將登錄數(shù)據(jù)發(fā)送到這些HTML標(biāo)簽中。為此，我們需要按下操作按鈕以將數(shù)據(jù)發(fā)送到服務(wù)器。

# 添加登錄憑證  
email.send_keys('********')  
password.send_keys('*******')  
# 點(diǎn)擊提交按鈕  
login.click()  
email.send_keys（'********'）  
password.send_keys（'*******'）  
login.click()

成功進(jìn)入系統(tǒng)后，我們將轉(zhuǎn)到所需的頁(yè)面并收集HTML內(nèi)容。

# 成功登錄后，轉(zhuǎn)到“ OpenBets”頁(yè)面  
browser.get('http://playsports365.com/wager/OpenBets.aspx')  
# 獲取HTML內(nèi)容  
requiredHtml = browser.page_source

現(xiàn)在，當(dāng)我們有了HTML內(nèi)容時(shí)，剩下的唯一事情就是處理這些數(shù)據(jù)。我們將在Beautiful Soup和html5lib庫(kù)的幫助下做到這一點(diǎn)。

html5lib是一個(gè)Python軟件包，實(shí)現(xiàn)了受現(xiàn)代Web瀏覽器影響的HTML5抓取算法。一旦獲得了內(nèi)容的標(biāo)準(zhǔn)化結(jié)構(gòu)，就可以在HTML標(biāo)記的任何子元素中搜索數(shù)據(jù)。我們正在尋找的信息在表格標(biāo)簽中，因此我們正在尋找它。

soup = BeautifulSoup(requiredHtml, 'html5lib')  
table = soup.findChildren('table') 
my_table = table[0]

我們將找到父標(biāo)記一次，然后遞歸地遍歷子標(biāo)記并打印出值。

# 接收標(biāo)簽和打印值  
rows = my_table.findChildren(['th', 'tr'])  
for row in rows:  
 cells = row.findChildren('td')  
 for cell in cells:  
 value = cell.text  
 print (value)

要執(zhí)行此程序，您將需要使用pip安裝Selenium，Beautiful Soup和html5lib。安裝庫(kù)之后，命令如下：

# python <程序名稱>

將把這些值打印到控制臺(tái)中，這就是您抓取任何網(wǎng)站的方式。

如果我們抓取經(jīng)常更新內(nèi)容的網(wǎng)站（例如，運(yùn)動(dòng)成績(jī)表），則應(yīng)創(chuàng)建cron任務(wù)以在特定時(shí)間間隔啟動(dòng)該程序。

非常好，一切正常，內(nèi)容被抓取，數(shù)據(jù)被填充，除了這之外，其他一切都很好，這就是我們要獲取數(shù)據(jù)的請(qǐng)求數(shù)。

有時(shí)，服務(wù)器會(huì)厭倦同一個(gè)人發(fā)出一堆請(qǐng)求，而服務(wù)器禁止它。不幸的是，人們的耐心有限。

在這種情況下，您必須掩飾自己。禁止的最常見原因是403錯(cuò)誤，以及在IP被阻止時(shí)向服務(wù)器發(fā)送的頻繁請(qǐng)求。服務(wù)器可用并能夠處理請(qǐng)求時(shí)，服務(wù)器會(huì)拋出403錯(cuò)誤，但出于某些個(gè)人原因，拒絕這樣做。第一個(gè)問題已經(jīng)解決了–我們可以通過使用html5lib生成偽造的用戶代理來偽裝成人類，并將操作系統(tǒng)，規(guī)范和瀏覽器的隨機(jī)組合傳遞給我們的請(qǐng)求。在大多數(shù)情況下，這樣可以很好地準(zhǔn)確地收集您感興趣的信息。

但是有時(shí)僅將time.sleep()放在正確的位置并填寫請(qǐng)求標(biāo)頭是不夠的。因此，您需要尋找功能強(qiáng)大的方法來更改此IP。要抓取大量數(shù)據(jù)，您可以：

– 開發(fā)自己的IP地址基礎(chǔ)架構(gòu)；

– 使用Tor –該主題可以專門討論幾篇大型文章，而實(shí)際上已經(jīng)完成了；

– 使用商業(yè)代理網(wǎng)絡(luò)；

對(duì)于網(wǎng)絡(luò)抓取的初學(xué)者來說，最好的選擇是與代理提供商聯(lián)系，例如Infatica等，他們可以幫助您設(shè)置代理并解決代理服務(wù)器管理中的所有困難。收集大量數(shù)據(jù)需要大量資源，因此無(wú)需通過開發(fā)自己的內(nèi)部基礎(chǔ)結(jié)構(gòu)來進(jìn)行代理來“重新發(fā)明輪子”。甚至許多最大的電子商務(wù)公司都使用代理網(wǎng)絡(luò)服務(wù)將代理管理外包，因?yàn)榇蠖鄶?shù)公司的第一要?jiǎng)?wù)是數(shù)據(jù)，而不是代理管理。

責(zé)任編輯：龐桂玉來源：運(yùn)維派

Python 爬蟲命令

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<kbd id="bi3q5"></kbd>

<abbr id="bi3q5"><table id="bi3q5"><input id="bi3q5"></input></table></abbr>

<style id="bi3q5"></style><sub id="bi3q5"></sub>

<em id="bi3q5"></em>

<style id="bi3q5"></style>