自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

Python pyspider的安裝與開(kāi)發(fā)

作者：mimvp 2017-08-17 16:00:36

開(kāi)發(fā) 后端

PySpider是一個(gè)國(guó)人編寫(xiě)的強(qiáng)大的網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)并帶有強(qiáng)大的WebUI。采用Python語(yǔ)言編寫(xiě)，分布式架構(gòu)，支持多種數(shù)據(jù)庫(kù)后端，強(qiáng)大的WebUI支持腳本編輯器、任務(wù)監(jiān)視器，項(xiàng)目管理器以及結(jié)果查看器。

PySpider 簡(jiǎn)介

PySpider是一個(gè)國(guó)人編寫(xiě)的強(qiáng)大的網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)并帶有強(qiáng)大的WebUI。采用Python語(yǔ)言編寫(xiě)，分布式架構(gòu)，支持多種數(shù)據(jù)庫(kù)后端，強(qiáng)大的WebUI支持腳本編輯器、任務(wù)監(jiān)視器，項(xiàng)目管理器以及結(jié)果查看器。

PySpider 來(lái)源于以前做的一個(gè)垂直搜索引擎使用的爬蟲(chóng)后端。我們需要從200個(gè)站點(diǎn)(由于站點(diǎn)失效，不是都同時(shí)啦，同時(shí)有100+在跑吧)采集數(shù)據(jù)，并要求在5分鐘內(nèi)將對(duì)方網(wǎng)站的更新更新到庫(kù)中。所以，靈活的抓取控制是必須的。

同時(shí)，由于100個(gè)站點(diǎn)，每天都可能會(huì)有站點(diǎn)失效或者改版，所以需要能夠監(jiān)控模板失效，以及查看抓取狀態(tài)。

為了達(dá)到5分鐘更新，我們使用抓取最近更新頁(yè)上面的最后更新時(shí)間，以此來(lái)判斷頁(yè)面是否需要再次抓取。

可見(jiàn)，這個(gè)項(xiàng)目對(duì)于爬蟲(chóng)的監(jiān)控和調(diào)度要求是非常高的。

PySpider 中文網(wǎng)：http://www.pyspider.cn
PySpider 官網(wǎng)：http://docs.pyspider.org
PySpider 演示：http://demo.pyspider.org
PySpider 源碼：https://github.com/binux/pyspider

PySpider 特性

python 腳本控制，可以用任何你喜歡的html解析包(內(nèi)置 pyquery)

WEB 界面編寫(xiě)調(diào)試腳本、起停腳本、監(jiān)控執(zhí)行狀態(tài)，查看活動(dòng)歷史，獲取結(jié)果產(chǎn)出

數(shù)據(jù)存儲(chǔ)支持MySQL、MongoDB、Redis、SQLite、 ElasticSearch; PostgreSQL 及 SQLAlchemy

隊(duì)列服務(wù)支持RabbitMQ、Beanstalk、Redis、Kombu

支持抓取 JavaScript 的頁(yè)面

組件可替換，支持單機(jī)/分布式部署，支持 Docker 部署

強(qiáng)大的調(diào)度控制，支持超時(shí)重爬及優(yōu)先級(jí)設(shè)置

支持Python 2.{6, 7}, 3.{3, 4, 5, 6}

PySpider 安裝

1) pip 安裝

pip可以在以下版本的CPython下運(yùn)行：2.6, 2.7, 3.1, 3.2, 3.3, 3.4 和 pypy.

pip可以在Unix/Linux、Mac OS X、Windows系統(tǒng)中運(yùn)行.

a)腳本安裝

python get-pip.py

如果 setuptools (或 distribute) 未安裝， get-pip.py

會(huì) 自動(dòng)為你安裝 setuptools

如果需要升級(jí) setuptools (或 distribute)，運(yùn)行 pip install -U setuptools

b)命令安裝

sudo apt-get install python-pip // Debian、Ubuntu

sudo yum install python-pip // CentOS、Redhat、Fedora

2)PhantomJS 安裝

PhantomJS 是一個(gè)基于 WebKit 的服務(wù)器端 JavaScript API。它全面支持web而不需瀏覽器支持，其快速、原生支持各種Web標(biāo)準(zhǔn)：DOM 處理、CSS 選擇器、JSON、Canvas 和 SVG。 PhantomJS 可以用于頁(yè)面自動(dòng)化、網(wǎng)絡(luò)監(jiān)測(cè)、網(wǎng)頁(yè)截屏以及無(wú)界面測(cè)試等。支持Windows、Linux、Mac OS X等多操作系統(tǒng)。

PhantomJS 下載：http://phantomjs.org/download.html

PhantomJS不需要安裝，解壓后，配置環(huán)境變量后，便可直接使用，詳見(jiàn) PhantomJS 安裝與開(kāi)發(fā)

PhantomJS 安裝命令：

sudo apt-get install phantomjs // Debian、Ubuntu

sudo pkg install phantomjs // FreeBSD

brew install phantomjs // Mac OS X

3)PySpider 安裝

PySpider 安裝的依賴(lài)包 requirements.txt

Flask>=0.10 
Jinja2>=2.7 
chardet>=2.2 
cssselect>=0.9 
lxml 
pycurl 
pyquery 
requests>=2.2 
tornado>=3.2 
mysql-connector-python>=1.2.2 
pika>=0.9.14 
pymongo>=2.7.2 
unittest2>=0.5.1 
Flask-Login>=0.2.11 
u-msgpack-python>=1.6 
click>=3.3 
SQLAlchemy>=0.9.7 
six>=1.5.0 
amqp>=1.3.0,<2.0 
redis 
redis-py-cluster 
kombu 
psycopg2 
elasticsearch 
tblib

PySpider 安裝命令：

pip install pyspider

Ubuntu 用戶(hù)，請(qǐng)?zhí)崆鞍惭b好以下支持類(lèi)庫(kù)：

sudo apt-get install python python-dev python-distribute python-pip libcurl4-openssl-dev libxml2-dev libxslt1-dev python-lxml

4)驗(yàn)證安裝成功

控制臺(tái)輸入命令：

pyspider all

使用瀏覽器訪問(wèn) http://localhost:5000

正常出現(xiàn) PySpider 的頁(yè)面，那證明一切 OK

PySpider 示例

1)示例1：爬取米撲科技首頁(yè)(mimvp.com)

#!/usr/bin/env python 
# -*- encoding: utf-8 -*- 
# Created on 2017-07-28 13:44:53 
# Project: pyspiderdemo 
# mimvp.com 
  
from pyspider.libs.base_handler import * 
  
  
class Handler(BaseHandler): 
    crawl_config = { 
    } 
  
    @every(minutes=24 * 60) 
    def on_start(self): 
        self.crawl('mimvp.com', callback=self.index_page) 
  
    @config(age=10 * 24 * 60 * 60) 
    def index_page(self, response): 
        for each in response.doc('a[href^="http"]').items(): 
            self.crawl(each.attr.href, callback=self.detail_page) 
  
    @config(priority=2) 
    def detail_page(self, response): 
        return { 
            "url": response.url, 
            "title": response.doc('title').text(), 
        }

運(yùn)行結(jié)果：

2)示例2：設(shè)置代理爬取網(wǎng)頁(yè)

PySpider 支持使用代理爬取網(wǎng)頁(yè)，其使用代理有兩種方式：

方式1：

--phantomjs-proxy TEXT phantomjs proxy ip:port

啟動(dòng)命令例如：

pyspider --phantomjs-proxy "188.226.141.217:8080" all

方式2：

設(shè)置代理全局變量，如下圖：

crawl_config = { 'proxy' : '188.226.141.217:8080'}

示例代碼：

#!/usr/bin/env python 
# -*- encoding: utf-8 -*- 
# Created on 2017-07-28 14:13:14 
# Project: mimvp_proxy_pyspider 
# 
# mimvp.com 
  
from pyspider.libs.base_handler import * 
  
  
class Handler(BaseHandler): 
    crawl_config = { 
        'proxy' : 'http://188.226.141.217:8080',     # http 
        'proxy' : 'https://182.253.32.65:3128'      # https 
    } 
  
    @every(minutes=24 * 60) 
    def on_start(self): 
        self.crawl('http://proxy.mimvp.com/exist.php', callback=self.index_page) 
  
    @config(age=10 * 24 * 60 * 60) 
    def index_page(self, response): 
        for each in response.doc('a[href^="http"]').items(): 
            self.crawl(each.attr.href, callback=self.detail_page) 
  
    @config(priority=2) 
    def detail_page(self, response): 
        return { 
            "url": response.url, 
            "title": response.doc('title').text(), 
        }

運(yùn)行結(jié)果：

責(zé)任編輯：龐桂玉來(lái)源： segmentfault

Python Pyspider Html5

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)