自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<s id="fxdlg"><li id="fxdlg"></li></s>

<s id="fxdlg"><li id="fxdlg"></li></s>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

pyspider爬蟲教程(1)：HTML和CSS選擇

作者：佚名 2017-05-10 12:05:17

開發(fā) 前端

雖然以前寫過如何抓取WEB頁(yè)面和如何從 WEB 頁(yè)面中提取信息。但是感覺還是需要一篇 step by step 的教程，不然沒有一個(gè)總體的認(rèn)識(shí)。不過，沒想到這個(gè)教程居然會(huì)變成一篇譯文，在這個(gè)爬蟲教程系列文章中，會(huì)以實(shí)際的例子，由淺入深討論爬取(抓取和解析)的一些關(guān)鍵問題。

雖然以前寫過如何抓取WEB頁(yè)面和如何從 WEB 頁(yè)面中提取信息。但是感覺還是需要一篇 step by step 的教程，不然沒有一個(gè)總體的認(rèn)識(shí)。不過，沒想到這個(gè)教程居然會(huì)變成一篇譯文，在這個(gè)爬蟲教程系列文章中，會(huì)以實(shí)際的例子，由淺入深討論爬取(抓取和解析)的一些關(guān)鍵問題。

在教程一中，我們將要爬取的網(wǎng)站是豆瓣電影：http://movie.douban.com/

你可以在: http://demo.pyspider.org/debug/tutorial_douban_movie 獲得完整的代碼，和進(jìn)行測(cè)試。

開始之前

由于教程是基于 pyspider 的，你可以安裝一個(gè) pyspider(Quickstart，也可以直接使用 pyspider 的 demo 環(huán)境： http://demo.pyspider.org/。

你還應(yīng)該至少對(duì)萬(wàn)維網(wǎng)是什么有一個(gè)簡(jiǎn)單的認(rèn)識(shí)：

萬(wàn)維網(wǎng)是一個(gè)由許多互相鏈接的超文本頁(yè)面(以下簡(jiǎn)稱網(wǎng)頁(yè))組成的系統(tǒng)。
網(wǎng)頁(yè)使用網(wǎng)址(URL)定位，并鏈接彼此
網(wǎng)頁(yè)使用 HTTP 協(xié)議傳輸
網(wǎng)頁(yè)使用 HTML 描述外觀和語(yǔ)義

所以，爬網(wǎng)頁(yè)實(shí)際上就是：

找到包含我們需要的信息的網(wǎng)址(URL)列表
通過 HTTP 協(xié)議把頁(yè)面下載回來(lái)
從頁(yè)面的 HTML 中解析出需要的信息
找到更多這個(gè)的 URL，回到 2 繼續(xù)

選取一個(gè)開始網(wǎng)址

既然我們要爬所有的電影，首先我們需要抓一個(gè)電影列表，一個(gè)好的列表應(yīng)該：

包含足夠多的電影的 URL
通過翻頁(yè)，可以遍歷到所有的電影
一個(gè)按照更新時(shí)間排序的列表，可以更快抓到最新更新的電影

我們?cè)?http://movie.douban.com/ 掃了一遍，發(fā)現(xiàn)并沒有一個(gè)列表能包含所有電影，只能退而求其次，通過抓取分類下的所有的標(biāo)簽列表頁(yè)，來(lái)遍歷所有的電影： http://movie.douban.com/tag/

創(chuàng)建一個(gè)項(xiàng)目

在 pyspider 的 dashboard 的右下角，點(diǎn)擊 “Create” 按鈕

替換 on_start 函數(shù)的 self.crawl 的 URL：

@every(minutes=24 * 60) 
 
def on_start(self): 
 
    self.crawl('http://movie.douban.com/tag/', callback=self.index_page)

self.crawl 告訴 pyspider 抓取指定頁(yè)面，然后使用 callback 函數(shù)對(duì)結(jié)果進(jìn)行解析。
@every 修飾器，表示 on_start 每天會(huì)執(zhí)行一次，這樣就能抓到最新的電影了。

點(diǎn)擊綠色的 run 執(zhí)行，你會(huì)看到 follows 上面有一個(gè)紅色的 1，切換到 follows 面板，點(diǎn)擊綠色的播放按鈕：

Tag 列表頁(yè)

在 tag 列表頁(yè) 中，我們需要提取出所有的電影列表頁(yè) 的 URL。你可能已經(jīng)發(fā)現(xiàn)了，sample handler 已經(jīng)提取了非常多大的 URL，所有，一種可行的提取列表頁(yè) URL 的方法就是用正則從中過濾出來(lái)：

import re 
 
... 
 
  
 
    @config(age=10 * 24 * 60 * 60) 
 
    def index_page(self, response): 
 
        for each in response.doc('a[href^="http"]').items(): 
 
            if re.match("http://movie.douban.com/tag/\w+", each.attr.href, re.U): 
 
                self.crawl(each.attr.href, callback=self.list_page)

由于電影列表頁(yè)和 tag列表頁(yè)長(zhǎng)的并不一樣，在這里新建了一個(gè) callback 為 self.list_page

@config(age=10 * 24 * 60 * 60) 在這表示我們認(rèn)為 10 天內(nèi)頁(yè)面有效，不會(huì)再次進(jìn)行更新抓取
由于 pyspider 是純 Python 環(huán)境，你可以使用 Python 強(qiáng)大的內(nèi)置庫(kù)，或者你熟悉的第三方庫(kù)對(duì)頁(yè)面進(jìn)行解析。不過更推薦使用 CSS選擇器。

電影列表頁(yè)

再次點(diǎn)擊 run 讓我們進(jìn)入一個(gè)電影列表頁(yè)(list_page)。在這個(gè)頁(yè)面中我們需要提?。?/p>

電影的鏈接，例如，http://movie.douban.com/subject/1292052/
下一頁(yè)的鏈接，用來(lái)翻頁(yè)

CSS選擇器

CSS選擇器，顧名思義，是 CSS 用來(lái)定位需要設(shè)置樣式的元素所使用的表達(dá)式。既然前端程序員都使用 CSS選擇器為頁(yè)面上的不同元素設(shè)置樣式，我們也可以通過它定位需要的元素。你可以在 CSS 選擇器參考手冊(cè) 這里學(xué)習(xí)更多的 CSS選擇器語(yǔ)法。

在 pyspider 中，內(nèi)置了 response.doc 的 PyQuery 對(duì)象，讓你可以使用類似 jQuery 的語(yǔ)法操作 DOM 元素。你可以在 PyQuery 的頁(yè)面上找到完整的文檔。

CSS Selector Helper

在 pyspider 中，還內(nèi)置了一個(gè) CSS Selector Helper，當(dāng)你點(diǎn)擊頁(yè)面上的元素的時(shí)候，可以幫你生成它的 CSS選擇器表達(dá)式。你可以點(diǎn)擊 Enable CSS selector helper 按鈕，然后切換到 web 頁(yè)面：

開啟后，鼠標(biāo)放在元素上，會(huì)被黃色高亮，點(diǎn)擊后，所有擁有相同 CSS選擇器表達(dá)式的元素會(huì)被高亮。表達(dá)式會(huì)被插入到 python 代碼當(dāng)前光標(biāo)位置。創(chuàng)建下面的代碼，將光標(biāo)停留在單引號(hào)中間：

def list_page(self, response): 
 
    for each in response.doc('').items():

點(diǎn)擊一個(gè)電影的鏈接，CSS選擇器表達(dá)式將會(huì)插入到你的代碼中，如此重復(fù)，插入翻頁(yè)的鏈接：

def list_page(self, response): 
 
    for each in response.doc('HTML>BODY>DIV#wrapper>DIV#content>DIV.grid-16-8.clearfix>DIV.article>DIV>TABLE TR.item>TD>DIV.pl2>A').items(): 
 
        self.crawl(each.attr.href, callback=self.detail_page) 
 
    # 翻頁(yè) 
 
    for each in response.doc('HTML>BODY>DIV#wrapper>DIV#content>DIV.grid-16-8.clearfix>DIV.article>DIV.paginator>A').items(): 
 
        self.crawl(each.attr.href, callback=self.list_page)

翻頁(yè)是一個(gè)到自己的 callback 回調(diào)

電影詳情頁(yè)

再次點(diǎn)擊 run，follow 到詳情頁(yè)。使用 css selector helper 分別添加電影標(biāo)題，打分和導(dǎo)演：

def detail_page(self, response): 
 
    return { 
 
        "url": response.url, 
 
        "title": response.doc('HTML>BODY>DIV#wrapper>DIV#content>H1>SPAN').text(), 
 
        "rating": response.doc('HTML>BODY>DIV#wrapper>DIV#content>DIV.grid-16-8.clearfix>DIV.article>DIV.indent.clearfix>DIV.subjectwrap.clearfix>DIV#interest_sectl>DIV.rating_wrap.clearbox>P.rating_self.clearfix>STRONG.ll.rating_num').text(), 
 
        "導(dǎo)演": [x.text() for x in response.doc('a[rel="v:directedBy"]').items()], 
 
    }

注意，你會(huì)發(fā)現(xiàn) css selector helper 并不是總是能提取到合適的 CSS選擇器表達(dá)式。你可以在 Chrome Dev Tools 的幫助下，寫一個(gè)合適的表達(dá)式：

右鍵點(diǎn)擊需要提取的元素，點(diǎn)擊審查元素。你并不需要像自動(dòng)生成的表達(dá)式那樣寫出所有的祖先節(jié)點(diǎn)，只要寫出那些能區(qū)分你不需要的元素的關(guān)鍵節(jié)點(diǎn)的屬性就可以了。不過這需要抓取和網(wǎng)頁(yè)前端的經(jīng)驗(yàn)。所以，學(xué)習(xí)抓取的最好方法就是學(xué)會(huì)這個(gè)頁(yè)面/網(wǎng)站是怎么寫的。

你也可以在 Chrome Dev Tools 的 Javascript Console 中，使用 $$(a[rel="v:directedBy"]) 測(cè)試 CSS Selector。

開始抓取

使用 run 單步調(diào)試你的代碼，對(duì)于用一個(gè) callback 最好使用多個(gè)頁(yè)面類型進(jìn)行測(cè)試。然后保存。
回到 Dashboard，找到你的項(xiàng)目
將 status 修改為 DEBUG 或 RUNNING
按 run 按鈕

責(zé)任編輯：龐桂玉來(lái)源： Python開發(fā)者

pyspider HTML CSS

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<center id="tnvxm"></center>