自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<meter id="sztdy"></meter>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

手把手教你使用Scrapy框架來爬取北京新發(fā)地價格行情（理論篇）

作者：霖hero 2021-09-29 08:53:36

開發(fā) 前端

大家好!我是霖hero。上個月的時候，我寫了一篇關于IP代理的文章，手把手教你使用XPath爬取免費代理IP，今天在這里分享我的第二篇文章，希望大家可以喜歡。

大家好!我是霖hero。上個月的時候，我寫了一篇關于IP代理的文章，手把手教你使用XPath爬取免費代理IP，今天在這里分享我的第二篇文章，希望大家可以喜歡。

前言

有一天，我在逛街，突然被一聲靚仔打斷了我的腳步，回頭一看，原來是水果攤阿姨叫我買水果，說我那么靚仔，便宜一點買給我，自戀的我無法拒絕阿姨的一聲聲靚仔，于是買了很多水果回家，家人問我水果多少錢，結果如何，沒錯，水果買貴了!今天我們使用scrapy框架來爬取北京新發(fā)地價格行情，了解商品價格，家人再也不怕我買貴東西啦。

Scrapy簡介

在爬取之前，我們先來學習一下什么Scrapy框架。

Scrapy是一個基于Twisted的異步處理框架，是純Python實現(xiàn)的爬蟲框架，是提取結構性數(shù)據(jù)而編寫的應用框架，其架構清晰，模塊之間的耦合程度低，可擴展性極強，我們只需要少量的代碼就能夠快速抓取數(shù)據(jù)。

Scrapy框架介紹

首先我們看看經(jīng)典的Scrapy框架架構圖，如下圖所示：

學Scrapy框架的絕大部分都看過這個圖，圖中分了很多部分，接下來，我們通過下面的表來簡單地了解各個部分的作用。

名稱	作用	是否要手寫代碼
Engine	引擎，負責數(shù)據(jù)和信號的在不同模塊間的傳遞。	否
Scheduler	調度器，存放引擎發(fā)過來的requests請求，在引擎再次請求的時候將請求提供給引擎。	否
Downloader	下載器，下載網(wǎng)頁響應的內容并將內容返回給引擎。	否
Spiders	爬蟲，處理引擎?zhèn)鬟^來的網(wǎng)頁內容并提取數(shù)據(jù)、url，并返回給引擎。	是
Item Pipeline	管道，處理引擎?zhèn)鬟^來的數(shù)據(jù)，主要任務是清洗、驗證和存儲數(shù)據(jù)。	是
Downloader Middlewares	下載器中間件，位于引擎和下載器之間的橋梁框架，主要是處理引擎與下載器之間的請求及響應，可以自定義下載擴展，如設置代理。	一般不用手寫
Spider MiddlewaresSpider	中間件，位于引擎和爬蟲之間的橋梁框架，主要處理向爬蟲輸入的響應和輸出的結果及新的請求。

在表中，我們可以發(fā)現(xiàn)，每部分都要經(jīng)過引擎，上圖中Scrapy Engine部分也是放在正中心，由此可知，Engine引擎是整個框架的核心。

注意：這些模塊部分只有Spiders和Item Pipeline需要我們自己手寫代碼，其他的大部分都不需要。

Scrapy項目

大致了解了Scrapy框架的各個部分后，接下來我們開始創(chuàng)建一個Scrapy項目，可以使用如下命令：

scrapy startproject <Scrapy項目名>

創(chuàng)建一個scrapy項目名為test1的項目，如下圖所示：

這樣我們就創(chuàng)建好Scrapy項目了，如下圖所示：

其中：

spiders：存放spiders的文件夾;
items.py：Items的定義，定義爬取的數(shù)據(jù)結構;
middlewares.py：項目中間件文件，定義爬取時的中間件;
pipelines.py：項目管道文件，定義數(shù)據(jù)管道;
settings：項目設置文件;
scrapy.cfg：Scrapy部署配置文件。

Spider爬蟲

創(chuàng)建spider爬蟲

要創(chuàng)建Spider爬蟲，首先我們要進入剛才創(chuàng)建的Scrapy目錄中，再在命令行運行以下命令：

scrapy genspider <爬蟲名字> <允許爬取的域名>

以

http://quotes.toscrape.com

網(wǎng)站為例子，該網(wǎng)站是一個著名作家名言的網(wǎng)站，創(chuàng)建Spider爬蟲如下圖所示：

創(chuàng)建spider爬蟲后，spiders文件夾中多了一個firstspider.py，這個py文件就是我們創(chuàng)建爬蟲，文件內容如下所示：

import scrapy 
 
class FirstspiderSpider(scrapy.Spider): 
    name = 'firstSpider' 
    allowed_domains = ['quotes.toscrape.com'] 
    start_urls = ['http://quotes.toscrape.com/'] 
     
    def parse(self, response): 
        pass

其中：

class FirstspiderSpider()是自定義spider類，繼承自scrapy.Spider
name是定義此爬蟲名稱的字符串，每個項目唯一的名字，用來區(qū)分不同的Spider，啟動爬蟲時使用scrapy crawl +該爬蟲名字;
allowed_domains是允許爬取的域名，防止爬蟲爬到其他網(wǎng)站;
start_urls是最開始爬取的url;
parse()方法是負責解析返回響應、提取數(shù)據(jù)或進一步生成要處理的請求，注意：不能修改這個方法的名字。

parse()提取數(shù)據(jù)并啟動爬蟲

大致了解了firstspider.py文件內容后，我們接下來嘗試在parse()方法中提取響應的數(shù)據(jù)，具體代碼如下所示：

xpath_parse = response.xpath('/html/body/div[1]/div[2]/div[1]/div') 
for xpath in xpath_parse: 
    item={} 
    item['text'] = xpath.xpath('./span[1]/text()').extract_first().replace('“','').replace('”','')       item['author']=xpath.xpath('./span[2]/small/text()').extract_first() 
    print(item)

這樣我們就成功提取到引擎響應的內容數(shù)據(jù)了，接著輸入以下命令來運行spider爬蟲：

scrapy crawl firstSpider

運行結果如下：

運行后發(fā)現(xiàn)我們結果里面多了很多l(xiāng)og日志，這時可以通過在settings.py添加以下代碼，就可以屏蔽這些log日志：

LOG_LEVEL="WARNING"

這樣就可以直接輸入我們想要的內容，如下圖所示：

有人可能問：那User-Agent在哪里設置?

我們可以在settings.py中設置User-Agent，代碼如下所示：

items.py介紹

為了避免拼寫錯誤或者定義字段錯誤，我們可以在items.py文件中定義好字段，在上面提取數(shù)據(jù)中，我們獲取了text、author內容，所以我們可以在items.py定義text和author字段，具體代碼如下所示：

import scrapy 
class Test1Item(scrapy.Item): 
    text= scrapy.Field() 
    author = scrapy.Field()

在items.py文件中，我們只需要使用scrapy.Field()來進行定義即可，scrapy.Field()是一個字典，總的來說我們可以把該類理解為一個字典。

接著在firstspider.py文件中導入我們的items.py，以及修改item={}，如下所示：

from test1.items import Test1Item 
item=Test1Item()

有人可能會說為什么要多此一舉定義一個字典呢?

當我們在獲取到數(shù)據(jù)的時候，使用不同的item來存放不同的數(shù)據(jù)，在把數(shù)據(jù)交給pipeline的時候，可以通過isinstance(item,Test1Item)來判斷數(shù)據(jù)屬于哪個item，進行不同的數(shù)據(jù)(item)處理。

例如我們獲取到京東、淘寶、拼多多的數(shù)據(jù)時，我們可以items.py文件中定義好對應的字段，具體代碼如下：

import scrapy 
class jingdongItem(scrapy.Item): 
    text= scrapy.Field() 
    author = scrapy.Field() 
 
class taobaoItem(scrapy.Item): 
    text= scrapy.Field() 
    author = scrapy.Field() 
 
class pddItem(scrapy.Item): 
    text= scrapy.Field() 
    author = scrapy.Field()

定義好字段后，這是我們通過在pipeline.py文件中編寫代碼，對不同的item數(shù)據(jù)進行區(qū)分，具體代碼如下：

from test1.items import jingdongItem 
class Test1Pipeline: 
    def process_item(self, item, spider): 
        if isinstance(item,jingdongItem): 
            print(item)

首先我們通過導入我們的items.py，通過isinstance()函數(shù)來就可以成功獲取到對應的item數(shù)據(jù)了。

pipelines.py介紹

Item Pipeline為項目管道，當Item生成后，它就會自動被送到Item Pipeline進行處理，我們常用Item Pipeline來做以下操作：

清理HTML數(shù)據(jù);
驗證爬取數(shù)據(jù)，檢測爬取字段;
查看并丟棄重復內容;
將爬取結果保存到數(shù)據(jù)庫。

pipelines.py內容如下所示：

from itemadapter import ItemAdapter 
 
class Test1Pipeline: 
    def process_item(self, item, spider): 
        return item

在process_item()方法中，傳入了兩個參數(shù)，一個參數(shù)是item，每次Spider生成的Item都會作為參數(shù)傳遞過來。另一個參數(shù)是spider，就是Spider的示例。

完成pipeline代碼后，需要在setting.py中設置開啟，開啟方式很簡單，只要把setting.py內容中的以下代碼的注釋取消即可：

ITEM_PIPELINES = { 
    'test1.pipelines.Test1Pipeline': 300, 
}

其中：

test1.pipelines.Test1Pipeline是pipeline的位置;
300是pipeline的權重。

注意：

pipeline的權重越小優(yōu)先級越高;
pipeline中的process_item()方法名不能修改為其他的名稱;
pipeline能夠定義多個。

當我們有多個spider爬蟲時，為了滿足不同的spider爬蟲需求，這時可以定義不同的pipeline處理不同的item內容;

當一個spider的內容可能要做不同的操作時，例如存入不同的數(shù)據(jù)庫中，這時可以定義不同的pipeline處理不同的item操作。

例如當我們有多個spider爬蟲時，可以通過pipeline.py編寫代碼定義多個pipeline，具體代碼如下：

class jingdongPipeline1: 
    def process_item(self, item, spider): 
        if spider.name=="jingdong": 
            print(item) 
        return item 
class taobaoPipeline: 
    def process_item(self, item, spider): 
        if spider.name=="taobao": 
            print(item) 
        return item

這樣我們就可以處理到對應的spider爬蟲傳遞過來的數(shù)據(jù)了。

定義好pipeline后，我們要在settings.py中設置pipeline權重，也就是那個pipeline先運行，具體代碼如下：

ITEM_PIPELINES = { 
   'test1.pipelines.jingdongPipeline': 300, 
   'test1.pipelines.taobaoPipeline': 301, 
}

數(shù)據(jù)傳輸?shù)絧ipeline中

在上面我們已經(jīng)提取到想要的數(shù)據(jù)，接下來將數(shù)據(jù)傳到pipeline中，傳輸很簡單，我們只需要使用yield，代碼如下：

yield item

沒錯，只要在spider爬蟲中寫入這一行代碼即可，那么為什么要使用yield呢?，我用return不能行嗎?

行，但yield是讓整個函數(shù)變成一個生成器，每次遍歷的時候挨個讀到內存中，這樣不會導致內存的占用量瞬間變高。

實現(xiàn)翻頁

我們成功獲取到了一頁數(shù)據(jù)了，那么問題來了，如何實現(xiàn)翻頁呢，方法有很多種，我們主要介紹兩種。

第一種：使用start_requests()方法

我們通過在spider爬蟲中，也就是我們創(chuàng)建的firstspider.py中添加以下代碼，具體代碼如下：

def start_requests(self): 
    for i in range(1,3): 
        url=f'https://quotes.toscrape.com/page/{i}/' 
        yield scrapy.Request(url=url,callback=self.parse)

第二種：在parse()方法中實現(xiàn)翻頁

我們可以通過parse()方法中實現(xiàn)翻頁，具體代碼如下：

for i in range(2,3): 
    url = f'https://quotes.toscrape.com/page/{i}/' 
    yield scrapy.Request(url=url,callback=self.parse)

大家可以發(fā)現(xiàn)，上面兩種翻頁方式都差不多，只是一個在start_requests()方法實現(xiàn)，一個在parse()方法實現(xiàn)。

但都要使用scrapy.Request()方法，該方法能構建一個requests，同時指定提取數(shù)據(jù)的callback函數(shù)

scrapy.Requeset(url,callback,method='GET',headers,cookies,meta,dont_filter=False)

其中：

url：表示爬取的url鏈接;
callback：指定傳入的url交給哪個解析函數(shù)去處理;
headers：請求頭;
cookies：用于識別用戶身份、進行回話跟蹤而存儲在用戶本地終端上的數(shù)據(jù);
meta：實現(xiàn)在不同的解析函數(shù)中傳遞數(shù)據(jù);
dont_filter：讓scrapy的去重不會過濾當前url，scrapy默認有url去重的功能。

保存數(shù)據(jù)

我們已經(jīng)獲取到數(shù)據(jù)而且實現(xiàn)了翻頁，接下來是保存數(shù)據(jù)。

保存在文件中

當我們要把數(shù)據(jù)保存成文件的時候，不需要任何額外的代碼，只要執(zhí)行如下代碼即可：

scrapy crawl spider爬蟲名 -o xxx.json            #保存為JSON文件 
scrapy crawl spider爬蟲名 -o xxx.jl或jsonlines    #每個Item輸出一行json 
scrapy crawl spider爬蟲名 -o xxx.csv          #保存為csv文件 
scrapy crawl spider爬蟲名 -o xxx.xml            #保存為xml文件

想要保存為什么格式的文件，只要修改后綴就可以了，在這里我就不一一例舉了。

保存MongoDB中

當我們要把數(shù)據(jù)保存在MongoDB數(shù)據(jù)庫的時候，就要使用Item Pipeline模塊了，也就是說要在pipeline.py中編寫代碼，具體代碼如下所示：

from pymongo import  MongoClient 
client=MongoClient() 
collection=client["test1"]["firstspider"] 
 
class Test1Pipeline: 
    def process_item(self, item, spider): 
        collection.insert(item) 
        return item

首先我們導入MongoClient模塊并實例化MongoClient，創(chuàng)建一個集合，然后在process_item()方法中使用insert()方法把數(shù)據(jù)插入MongoDB數(shù)據(jù)庫中。

好了，Scrapy知識就講到這里，下一篇文章小編將帶大家爬取北京新發(fā)地價格行情，順便鞏固我們今天學的知識。

總結

大家好，我是霖hero。這篇文章主要給大家分享了Scrapy框架的條條框框，Scrapy是一個基于Twisted的異步處理框架，是純Python實現(xiàn)的爬蟲框架，是提取結構性數(shù)據(jù)而編寫的應用框架，其架構清晰，模塊之間的耦合程度低，可擴展性極強。

本文轉載自微信公眾號「Python爬蟲與數(shù)據(jù)挖掘」，可以通過以下二維碼關注。轉載本文請聯(lián)系Python爬蟲與數(shù)據(jù)挖掘公眾號。

責任編輯：武曉燕來源： Python爬蟲與數(shù)據(jù)挖掘

scrapy 框架 Twisted

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<xmp id="qvqou"></xmp>

<style id="qvqou"></style>

<style id="qvqou"></style>

<sub id="qvqou"><p id="qvqou"></p></sub>