自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

教你分分鐘學(xué)會(huì)用python爬蟲(chóng)框架Scrapy爬取心目中的女神

作者：佚名 2017-11-20 09:46:08

開(kāi)發(fā) 后端

Scrapy，Python開(kāi)發(fā)的一個(gè)快速,高層次的屏幕抓取和web抓取框架，用于抓取web站點(diǎn)并從頁(yè)面中提取結(jié)構(gòu)化的數(shù)據(jù)。Scrapy用途廣泛，可以用于數(shù)據(jù)挖掘、監(jiān)測(cè)和自動(dòng)化測(cè)試。

Scrapy，Python開(kāi)發(fā)的一個(gè)快速,高層次的屏幕抓取和web抓取框架，用于抓取web站點(diǎn)并從頁(yè)面中提取結(jié)構(gòu)化的數(shù)據(jù)。Scrapy用途廣泛，可以用于數(shù)據(jù)挖掘、監(jiān)測(cè)和自動(dòng)化測(cè)試。

Scrapy吸引人的地方在于它是一個(gè)框架，任何人都可以根據(jù)需求方便的修改。它也提供了多種類型爬蟲(chóng)的基類，如BaseSpider、sitemap爬蟲(chóng)等，最新版本又提供了web2.0爬蟲(chóng)的支持。

Scratch，是抓取的意思，這個(gè)Python的爬蟲(chóng)框架叫Scrapy，大概也是這個(gè)意思吧，就叫它：小刮刮吧。

Scrapy 使用了 Twisted異步網(wǎng)絡(luò)庫(kù)來(lái)處理網(wǎng)絡(luò)通訊。整體架構(gòu)大致如下:

Scrapy主要包括了以下組件：

引擎(Scrapy)

用來(lái)處理整個(gè)系統(tǒng)的數(shù)據(jù)流處理, 觸發(fā)事務(wù)(框架核心)

調(diào)度器(Scheduler)

用來(lái)接受引擎發(fā)過(guò)來(lái)的請(qǐng)求, 壓入隊(duì)列中, 并在引擎再次請(qǐng)求的時(shí)候返回. 可以想像成一個(gè)URL（抓取網(wǎng)頁(yè)的網(wǎng)址或者說(shuō)是鏈接）的優(yōu)先隊(duì)列, 由它來(lái)決定下一個(gè)要抓取的網(wǎng)址是什么, 同時(shí)去除重復(fù)的網(wǎng)址

下載器(Downloader)

用于下載網(wǎng)頁(yè)內(nèi)容, 并將網(wǎng)頁(yè)內(nèi)容返回給蜘蛛(Scrapy下載器是建立在twisted這個(gè)高效的異步模型上的)

爬蟲(chóng)(Spiders)

爬蟲(chóng)是主要干活的, 用于從特定的網(wǎng)頁(yè)中提取自己需要的信息, 即所謂的實(shí)體(Item)。用戶也可以從中提取出鏈接,讓Scrapy繼續(xù)抓取下一個(gè)頁(yè)面

項(xiàng)目管道(Pipeline)

負(fù)責(zé)處理爬蟲(chóng)從網(wǎng)頁(yè)中抽取的實(shí)體，主要的功能是持久化實(shí)體、驗(yàn)證實(shí)體的有效性、清除不需要的信息。當(dāng)頁(yè)面被爬蟲(chóng)解析后，將被發(fā)送到項(xiàng)目管道，并經(jīng)過(guò)幾個(gè)特定的次序處理數(shù)據(jù)。

下載器中間件(Downloader Middlewares)

位于Scrapy引擎和下載器之間的框架，主要是處理Scrapy引擎與下載器之間的請(qǐng)求及響應(yīng)。

爬蟲(chóng)中間件(Spider Middlewares)

介于Scrapy引擎和爬蟲(chóng)之間的框架，主要工作是處理蜘蛛的響應(yīng)輸入和請(qǐng)求輸出。

調(diào)度中間件(Scheduler Middewares)

介于Scrapy引擎和調(diào)度之間的中間件，從Scrapy引擎發(fā)送到調(diào)度的請(qǐng)求和響應(yīng)。

Scrapy運(yùn)行流程大概如下：

引擎從調(diào)度器中取出一個(gè)鏈接(URL)用于接下來(lái)的抓取
引擎把URL封裝成一個(gè)請(qǐng)求(Request)傳給下載器
下載器把資源下載下來(lái)，并封裝成應(yīng)答包(Response)
爬蟲(chóng)解析Response
解析出實(shí)體（Item）,則交給實(shí)體管道進(jìn)行進(jìn)一步的處理
解析出的是鏈接（URL）,則把URL交給調(diào)度器等待抓取

安裝

因?yàn)閜ython3并不能完全支持Scrapy，因此為了完美運(yùn)行Scrapy，我們使用python2.7來(lái)編寫(xiě)和運(yùn)行Scrapy。

注：windows平臺(tái)需要依賴pywin32，請(qǐng)根據(jù)自己系統(tǒng)32/64位選擇下載安裝，https://sourceforge.net/projects/pywin32/

其它可能依賴的安裝包：lxml-3.6.4-cp27-cp27m-win_amd64.whl，VCForPython27.msi百度下載即可

基本使用

1、創(chuàng)建項(xiàng)目

運(yùn)行命令:

2.自動(dòng)創(chuàng)建目錄的結(jié)果：

文件說(shuō)明：

scrapy.cfg 項(xiàng)目的配置信息，主要為Scrapy命令行工具提供一個(gè)基礎(chǔ)的配置信息。（真正爬蟲(chóng)相關(guān)的配置信息在settings.py文件中）
items.py 設(shè)置數(shù)據(jù)存儲(chǔ)模板，用于結(jié)構(gòu)化數(shù)據(jù)，如：Django的Model
pipelines 數(shù)據(jù)處理行為，如：一般結(jié)構(gòu)化的數(shù)據(jù)持久化
settings.py 配置文件，如：遞歸的層數(shù)、并發(fā)數(shù)，延遲下載等
spiders 爬蟲(chóng)目錄，如：創(chuàng)建文件，編寫(xiě)爬蟲(chóng)規(guī)則

注意：一般創(chuàng)建爬蟲(chóng)文件時(shí)，以網(wǎng)站域名命名

3、編寫(xiě)爬蟲(chóng)

在spiders目錄中新建 xiaohuar_spider.py 文件

示例代碼：

備注：

爬蟲(chóng)文件需要定義一個(gè)類，并繼承scrapy.spiders.Spider
必須定義name，即爬蟲(chóng)名，如果沒(méi)有name，會(huì)報(bào)錯(cuò)。因?yàn)樵创a中是這樣定義的：

3. 編寫(xiě)函數(shù)parse，這里需要注意的是，該函數(shù)名不能改變，因?yàn)镾crapy源碼中默認(rèn)callback函數(shù)的函數(shù)名就是parse；

4. 定義需要爬取的url，放在列表中，因?yàn)榭梢耘廊《鄠€(gè)url，Scrapy源碼是一個(gè)For循環(huán)，從上到下爬取這些url，使用生成器迭代將url發(fā)送給下載器下載url的html。源碼截圖：

4、運(yùn)行

進(jìn)入p1目錄，運(yùn)行命令

格式：scrapy crawl+爬蟲(chóng)名 –nolog即不顯示日志

5、scrapy查詢語(yǔ)法：

當(dāng)我們爬取大量的網(wǎng)頁(yè)，如果自己寫(xiě)正則匹配，會(huì)很麻煩，也很浪費(fèi)時(shí)間，令人欣慰的是，scrapy內(nèi)部支持更簡(jiǎn)單的查詢語(yǔ)法，幫助我們?nèi)tml中查詢我們需要的標(biāo)簽和標(biāo)簽內(nèi)容以及標(biāo)簽屬性。下面逐一進(jìn)行介紹：

查詢子子孫孫中的某個(gè)標(biāo)簽(以div標(biāo)簽為例)：//div
查詢兒子中的某個(gè)標(biāo)簽(以div標(biāo)簽為例)：/div
查詢標(biāo)簽中帶有某個(gè)class屬性的標(biāo)簽：//div[@class=’c1′]即子子孫孫中標(biāo)簽是div且class=‘c1’的標(biāo)簽
查詢標(biāo)簽中帶有某個(gè)class=‘c1’并且自定義屬性name=‘alex’的標(biāo)簽：//div[@class=’c1′][@name=’alex’]
查詢某個(gè)標(biāo)簽的文本內(nèi)容：//div/span/text() 即查詢子子孫孫中div下面的span標(biāo)簽中的文本內(nèi)容
查詢某個(gè)屬性的值（例如查詢a標(biāo)簽的href屬性）：//a/@href

示例代碼：

注：urllib.urlretrieve(ab_src, file_path) ，接收文件路徑和需要保存的路徑，會(huì)自動(dòng)去文件路徑下載并保存到我們指定的本地路徑。

6、遞歸爬取網(wǎng)頁(yè)

上述代碼僅僅實(shí)現(xiàn)了一個(gè)url的爬取，如果該url的爬取的內(nèi)容中包含了其他url，而我們也想對(duì)其進(jìn)行爬取，那么如何實(shí)現(xiàn)遞歸爬取網(wǎng)頁(yè)呢？

示例代碼：

即通過(guò)yield生成器向每一個(gè)url發(fā)送request請(qǐng)求，并執(zhí)行返回函數(shù)parse，從而遞歸獲取?；▓D片和?；ㄐ彰麑W(xué)校等信息。

注：可以修改settings.py 中的配置文件，以此來(lái)指定“遞歸”的層數(shù),如： DEPTH_LIMIT = 1

7、scrapy查詢語(yǔ)法中的正則：

語(yǔ)法規(guī)則：Selector(response=response查詢對(duì)象).xpath(‘//li[re:test(@class, “item-d*”)]//@href’).extract()，即根據(jù)re正則匹配，test即匹配，屬性名是class，匹配的正則表達(dá)式是”item-d*”，然后獲取該標(biāo)簽的href屬性。

選擇器規(guī)則Demo

獲取響應(yīng)cookie

更多選擇器規(guī)則：http://www.baby98.cn/

8、格式化處理

上述實(shí)例只是簡(jiǎn)單的圖片處理，所以在parse方法中直接處理。如果對(duì)于想要獲取更多的數(shù)據(jù)（獲取頁(yè)面的價(jià)格、商品名稱、QQ等），則可以利用Scrapy的items將數(shù)據(jù)格式化，然后統(tǒng)一交由pipelines來(lái)處理。即不同功能用不同文件實(shí)現(xiàn)。

items：即用戶需要爬取哪些數(shù)據(jù)，是用來(lái)格式化數(shù)據(jù)，并告訴pipelines哪些數(shù)據(jù)需要保存。

示例items.py文件：

即：需要爬取所有url中的公司名，title，qq，基本信息info，更多信息more。

上述定義模板，以后對(duì)于從請(qǐng)求的源碼中獲取的數(shù)據(jù)同樣按照此結(jié)構(gòu)來(lái)獲取，所以在spider中需要有一下操作：

上述代碼中：對(duì)url進(jìn)行md5加密的目的是避免url過(guò)長(zhǎng)，也方便保存在緩存或數(shù)據(jù)庫(kù)中。

此處代碼的關(guān)鍵在于：

將獲取的數(shù)據(jù)封裝在了Item對(duì)象中
yield Item對(duì)象（一旦parse中執(zhí)行yield Item對(duì)象，則自動(dòng)將該對(duì)象交個(gè)pipelines的類來(lái)處理）

上述代碼中多個(gè)類的目的是，可以同時(shí)保存在文件和數(shù)據(jù)庫(kù)中，保存的優(yōu)先級(jí)可以在配置文件settings中定義。

總結(jié)：本文對(duì)python爬蟲(chóng)框架Scrapy做了詳細(xì)分析和實(shí)例講解

責(zé)任編輯：龐桂玉來(lái)源：運(yùn)維派

python 爬蟲(chóng)Scrapy

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<sub id="3rxur"><p id="3rxur"></p></sub>