自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="euyk1"></sub>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

手把手教你使用Scrapy框架來(lái)爬取北京新發(fā)地價(jià)格行情（實(shí)戰(zhàn)篇）

作者：霖hero 2021-09-30 09:00:34

開(kāi)發(fā) 后端

這篇文章基于上篇理論文章，主要給大家分享了Scrapy爬蟲(chóng)框架的實(shí)戰(zhàn)內(nèi)容，Scrapy是一個(gè)基于Twisted的異步處理框架。

大家好!我是霖hero。上個(gè)月的時(shí)候，我寫(xiě)了一篇關(guān)于IP代理的文章，手把手教你使用XPath爬取免費(fèi)代理IP;前幾天，我又發(fā)布了第二篇文章，這篇文章主要是講Scrapy理論知識(shí)的，手把手教你使用scrapy框架來(lái)爬取北京新發(fā)地價(jià)格行情(理論篇)，今天在這里分享我的第三篇文章，關(guān)于Scrapy實(shí)戰(zhàn)的應(yīng)用文章，希望大家可以喜歡。

前言

關(guān)于Scrapy理論的知識(shí)，可以參考我的上一篇文章，這里不再贅述，直接上干貨。

實(shí)戰(zhàn)演練

爬取分析

首先我們進(jìn)入北京新發(fā)地價(jià)格行情網(wǎng)頁(yè)并打開(kāi)開(kāi)發(fā)者工具，如下圖所示：

經(jīng)過(guò)簡(jiǎn)單的查找，發(fā)現(xiàn)每個(gè)getPriceData.html存放著價(jià)格行情的數(shù)據(jù)，由此可得，我們可以通過(guò)getPriceData.html來(lái)進(jìn)行數(shù)據(jù)的獲取。

觀察Headers請(qǐng)求，如下圖所示：

發(fā)現(xiàn)它是POST請(qǐng)求，請(qǐng)求URL鏈接是http://www.xinfadi.com.cn/getPriceData.html，current是翻頁(yè)的重要參數(shù)，limit是每頁(yè)有多少行數(shù)據(jù)，我們可以構(gòu)造消息體，代碼如下所示：

data={ 
'limit': '20', 
'current':page 
}

通過(guò)scrapy.Request()方法將消息體傳入到參數(shù)里面。

或者我們可以根據(jù)測(cè)試和觀察規(guī)律，自己構(gòu)造URL鏈接，通過(guò)觀察分析，請(qǐng)求的URL鏈接可以為：

http://www.xinfadi.com.cn/getPriceData.html?limit=20&current=1 
http://www.xinfadi.com.cn/getPriceData.html?limit=20&current=2 
http://www.xinfadi.com.cn/getPriceData.html?limit=20&current=3

創(chuàng)建Spider爬蟲(chóng)

分析北京新發(fā)地價(jià)格行情后，接下來(lái)我們首先創(chuàng)建一個(gè)Scrapy項(xiàng)目，使用如下命令：

scrapy startproject Vegetables

這樣我們就成功創(chuàng)建了一個(gè)Scrapy項(xiàng)目，項(xiàng)目文件如下所示：

接下來(lái)創(chuàng)建spider爬蟲(chóng)，使用如下命令：

scrapy genspider vegetables www.xinfadi.com.cn

創(chuàng)建后vegetables.py內(nèi)容如下所示：

import scrapy 
 
class VegetablesSpider(scrapy.Spider): 
   name = 'vegetables' 
   allowed_domains = ['www.xinfadi.com.cn'] 
   start_urls = ['https://www.xinfadi.com.cn'] 
    
   def parse(self, response): 
       pass

提取數(shù)據(jù)

在提取數(shù)據(jù)前，我們首先把要爬取的數(shù)據(jù)字段在items.py文件中定義好，代碼如下所示：

import scrapy 
 
class VegetablesItem(scrapy.Item): 
   # define the fields for your item here like: 
   productName = scrapy.Field() 
   lowPrice=scrapy.Field() 
   highPrice=scrapy.Field()

這里我們定義了三個(gè)字段分別是productName、lowPrice、highPrice

定義好字段后，接下來(lái)將在創(chuàng)建的vegetables.py文件中進(jìn)行數(shù)據(jù)的提取，具體代碼如下

import scrapy 
from Vegetables.items import VegetablesItem 
 
class VegetablesSpider(scrapy.Spider): 
   name = 'vegetables' 
   allowed_domains = ['www.xinfadi.com.cn'] 
   def start_requests(self): 
       for i in range(1, 3): 
           url = f'http://www.xinfadi.com.cn/getPriceData.html?limit=20&current={i}' 
           yield scrapy.Request(url=url, callback=self.parse) 
 
   def parse(self, response): 
       html = response.json() 
       fooddata = html.get('list') 
       for i in fooddata: 
           item=VegetablesItem() 
           item['highPrice'] =i.get('highPrice'), 
           item['lowPrice'] = i.get('lowPrice'), 
           item['prodName'] = i.get('prodName'), 
           yield item

首先我們導(dǎo)入vegetablesitem，使用start_requests函數(shù)實(shí)現(xiàn)翻頁(yè)，大家可以使用剛才我們所講的方法實(shí)現(xiàn)翻頁(yè)，實(shí)現(xiàn)翻頁(yè)后，我們通過(guò)編寫(xiě)parse()方法實(shí)現(xiàn)數(shù)據(jù)的獲取，首先我們把引擎響應(yīng)的數(shù)據(jù)以json()格式存放在html里面，調(diào)用get()方法來(lái)提取我們想要的數(shù)據(jù)，最后通過(guò)yield生成器返回給引擎。

最后我們?cè)趕ettings.py設(shè)置引擎的啟動(dòng)，代碼如下所示：

ITEM_PIPELINES = { 
  'Vegetables.pipelines.VegetablesPipeline': 300, 
}

在這里我們就不保存數(shù)據(jù)在MongoDB數(shù)據(jù)庫(kù)里面了，我們直接啟動(dòng)Spider爬蟲(chóng)并把數(shù)據(jù)以csv格式輸出，使用如下命令：

scrapy crawl vegetables -o 11.c

運(yùn)行結(jié)果如下：

好了，Scrapy框架爬取北京新發(fā)地就講解到這里了，感謝觀看!!!

總結(jié)

大家好，我是霖hero。這篇文章基于上篇理論文章，主要給大家分享了Scrapy爬蟲(chóng)框架的實(shí)戰(zhàn)內(nèi)容，Scrapy是一個(gè)基于Twisted的異步處理框架，是純Python實(shí)現(xiàn)的爬蟲(chóng)框架，是提取結(jié)構(gòu)性數(shù)據(jù)而編寫(xiě)的應(yīng)用框架，其架構(gòu)清晰，模塊之間的耦合程度低，可擴(kuò)展性極強(qiáng)。

【編輯推薦】

鴻蒙官方戰(zhàn)略合作共建——HarmonyOS技術(shù)社區(qū)
任何Ubuntu用戶都應(yīng)安裝的四大Linux應(yīng)用程序
工信部：5G手機(jī)終端連接數(shù)達(dá)4.19億戶
只需兩步，教會(huì)你正確處理舊手機(jī)，變廢為寶
MySQL的三條JOIN子句使用指南
蘋果iOS 15再次迎來(lái)更新，除了實(shí)況文本外，還有五個(gè)新發(fā)現(xiàn)

責(zé)任編輯：姜華來(lái)源： Python爬蟲(chóng)與數(shù)據(jù)挖掘

Scrapy 網(wǎng)絡(luò)爬蟲(chóng)Python

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<s id="epcr0"><li id="epcr0"></li></s>