自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

手把手教你使用Scrapy框架來(lái)爬取北京新發(fā)地價(jià)格行情(實(shí)戰(zhàn)篇)

開(kāi)發(fā) 后端
這篇文章基于上篇理論文章,主要給大家分享了Scrapy爬蟲(chóng)框架的實(shí)戰(zhàn)內(nèi)容,Scrapy是一個(gè)基于Twisted的異步處理框架。

[[426809]]

大家好!我是霖hero。上個(gè)月的時(shí)候,我寫(xiě)了一篇關(guān)于IP代理的文章,手把手教你使用XPath爬取免費(fèi)代理IP;前幾天,我又發(fā)布了第二篇文章,這篇文章主要是講Scrapy理論知識(shí)的,手把手教你使用scrapy框架來(lái)爬取北京新發(fā)地價(jià)格行情(理論篇),今天在這里分享我的第三篇文章,關(guān)于Scrapy實(shí)戰(zhàn)的應(yīng)用文章,希望大家可以喜歡。

前言

關(guān)于Scrapy理論的知識(shí),可以參考我的上一篇文章,這里不再贅述,直接上干貨。

實(shí)戰(zhàn)演練

爬取分析

首先我們進(jìn)入北京新發(fā)地價(jià)格行情網(wǎng)頁(yè)并打開(kāi)開(kāi)發(fā)者工具,如下圖所示:

經(jīng)過(guò)簡(jiǎn)單的查找,發(fā)現(xiàn)每個(gè)getPriceData.html存放著價(jià)格行情的數(shù)據(jù),由此可得,我們可以通過(guò)getPriceData.html來(lái)進(jìn)行數(shù)據(jù)的獲取。

觀察Headers請(qǐng)求,如下圖所示:

發(fā)現(xiàn)它是POST請(qǐng)求,請(qǐng)求URL鏈接是http://www.xinfadi.com.cn/getPriceData.html,current是翻頁(yè)的重要參數(shù),limit是每頁(yè)有多少行數(shù)據(jù),我們可以構(gòu)造消息體,代碼如下所示:

  1. data={ 
  2. 'limit''20'
  3. 'current':page 

通過(guò)scrapy.Request()方法將消息體傳入到參數(shù)里面。

或者我們可以根據(jù)測(cè)試和觀察規(guī)律,自己構(gòu)造URL鏈接,通過(guò)觀察分析,請(qǐng)求的URL鏈接可以為:

  1. http://www.xinfadi.com.cn/getPriceData.html?limit=20&current=1 
  2. http://www.xinfadi.com.cn/getPriceData.html?limit=20&current=2 
  3. http://www.xinfadi.com.cn/getPriceData.html?limit=20&current=3 

創(chuàng)建Spider爬蟲(chóng)

分析北京新發(fā)地價(jià)格行情后,接下來(lái)我們首先創(chuàng)建一個(gè)Scrapy項(xiàng)目,使用如下命令:

  1. scrapy startproject Vegetables 

這樣我們就成功創(chuàng)建了一個(gè)Scrapy項(xiàng)目,項(xiàng)目文件如下所示:

接下來(lái)創(chuàng)建spider爬蟲(chóng),使用如下命令:

  1. scrapy genspider vegetables www.xinfadi.com.cn 

創(chuàng)建后vegetables.py內(nèi)容如下所示:

  1. import scrapy 
  2.  
  3. class VegetablesSpider(scrapy.Spider): 
  4.    name = 'vegetables' 
  5.    allowed_domains = ['www.xinfadi.com.cn'
  6.    start_urls = ['https://www.xinfadi.com.cn'
  7.     
  8.    def parse(self, response): 
  9.        pass 

提取數(shù)據(jù)

在提取數(shù)據(jù)前,我們首先把要爬取的數(shù)據(jù)字段在items.py文件中定義好,代碼如下所示:

  1. import scrapy 
  2.  
  3. class VegetablesItem(scrapy.Item): 
  4.    # define the fields for your item here like
  5.    productName = scrapy.Field() 
  6.    lowPrice=scrapy.Field() 
  7.    highPrice=scrapy.Field() 

這里我們定義了三個(gè)字段分別是productName、lowPrice、highPrice

定義好字段后,接下來(lái)將在創(chuàng)建的vegetables.py文件中進(jìn)行數(shù)據(jù)的提取,具體代碼如下

  1. import scrapy 
  2. from Vegetables.items import VegetablesItem 
  3.  
  4. class VegetablesSpider(scrapy.Spider): 
  5.    name = 'vegetables' 
  6.    allowed_domains = ['www.xinfadi.com.cn'
  7.    def start_requests(self): 
  8.        for i in range(1, 3): 
  9.            url = f'http://www.xinfadi.com.cn/getPriceData.html?limit=20&current={i}' 
  10.            yield scrapy.Request(url=url, callback=self.parse) 
  11.  
  12.    def parse(self, response): 
  13.        html = response.json() 
  14.        fooddata = html.get('list'
  15.        for i in fooddata: 
  16.            item=VegetablesItem() 
  17.            item['highPrice'] =i.get('highPrice'), 
  18.            item['lowPrice'] = i.get('lowPrice'), 
  19.            item['prodName'] = i.get('prodName'), 
  20.            yield item 

首先我們導(dǎo)入vegetablesitem,使用start_requests函數(shù)實(shí)現(xiàn)翻頁(yè),大家可以使用剛才我們所講的方法實(shí)現(xiàn)翻頁(yè),實(shí)現(xiàn)翻頁(yè)后,我們通過(guò)編寫(xiě)parse()方法實(shí)現(xiàn)數(shù)據(jù)的獲取,首先我們把引擎響應(yīng)的數(shù)據(jù)以json()格式存放在html里面,調(diào)用get()方法來(lái)提取我們想要的數(shù)據(jù),最后通過(guò)yield生成器返回給引擎。

最后我們?cè)趕ettings.py設(shè)置引擎的啟動(dòng),代碼如下所示:

  1. ITEM_PIPELINES = { 
  2.   'Vegetables.pipelines.VegetablesPipeline': 300, 

在這里我們就不保存數(shù)據(jù)在MongoDB數(shù)據(jù)庫(kù)里面了,我們直接啟動(dòng)Spider爬蟲(chóng)并把數(shù)據(jù)以csv格式輸出,使用如下命令:

  1. scrapy crawl vegetables -o 11.c 

運(yùn)行結(jié)果如下:

好了,Scrapy框架爬取北京新發(fā)地就講解到這里了,感謝觀看!!!

總結(jié)

大家好,我是霖hero。這篇文章基于上篇理論文章,主要給大家分享了Scrapy爬蟲(chóng)框架的實(shí)戰(zhàn)內(nèi)容,Scrapy是一個(gè)基于Twisted的異步處理框架,是純Python實(shí)現(xiàn)的爬蟲(chóng)框架,是提取結(jié)構(gòu)性數(shù)據(jù)而編寫(xiě)的應(yīng)用框架,其架構(gòu)清晰,模塊之間的耦合程度低,可擴(kuò)展性極強(qiáng)。

【編輯推薦】

 

責(zé)任編輯:姜華 來(lái)源: Python爬蟲(chóng)與數(shù)據(jù)挖掘
相關(guān)推薦

2021-09-29 08:53:36

scrapy框架Twisted

2021-07-03 09:04:22

XPathPython免費(fèi)代理IP

2020-10-23 09:03:28

Flask

2021-07-14 09:00:00

JavaFX開(kāi)發(fā)應(yīng)用

2021-04-30 09:05:37

爬蟲(chóng)框架數(shù)據(jù)

2018-05-16 13:50:30

Python網(wǎng)絡(luò)爬蟲(chóng)Scrapy

2022-12-07 08:42:35

2011-04-26 14:07:24

2022-05-26 12:26:27

CSSJS逆向

2021-08-02 07:35:19

Nacos配置中心namespace

2021-02-18 09:08:05

PythonDjango框架

2021-02-08 09:07:12

Python項(xiàng)目Django

2021-05-08 08:04:05

Python爬取素材

2011-01-10 14:41:26

2011-05-03 15:59:00

黑盒打印機(jī)

2020-03-08 22:06:16

Python數(shù)據(jù)IP

2021-01-30 10:37:18

ScrapyGerapy網(wǎng)絡(luò)爬蟲(chóng)

2018-05-16 15:46:06

Python網(wǎng)絡(luò)爬蟲(chóng)PhantomJS

2021-01-19 09:06:21

MysqlDjango數(shù)據(jù)庫(kù)

2020-05-15 08:07:33

JWT登錄單點(diǎn)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)