自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

如何爬取電影天堂的最新電影

開(kāi)發(fā) 后端
前面兩篇文章介紹 requests 和 xpath 的用法。我們推崇學(xué)以致用,所以本文講解利用這兩個(gè)工具進(jìn)行實(shí)戰(zhàn)。

[[217334]]

前面兩篇文章介紹 requests 和 xpath 的用法。我們推崇學(xué)以致用,所以本文講解利用這兩個(gè)工具進(jìn)行實(shí)戰(zhàn)。

0 爬取目標(biāo)

本次爬取的站點(diǎn)選擇電影天堂,網(wǎng)址是: www.dytt8.net。爬取內(nèi)容是整個(gè)站點(diǎn)的所有電影信息,包括電影名稱,導(dǎo)演、主演、下載地址等。具體抓取信息如下圖所示:

1 設(shè)計(jì)爬蟲程序

2.1 確定爬取入口

電影天堂里面的電影數(shù)目成千上萬(wàn),電影類型也是讓人眼花繚亂。我們?yōu)榱吮WC爬取的電影信息不重復(fù), 所以要確定一個(gè)爬取方向。目前這情況真讓人無(wú)從下手。但是,我們點(diǎn)擊主頁(yè)中的【最新電影】選項(xiàng),跳進(jìn)一個(gè)新的頁(yè)面。驀然有種柳暗花明又一村的感覺(jué)。

由圖可知道,電影天堂有 5 個(gè)電影欄目,分別為最新電影、日韓電影、歐美電影、國(guó)內(nèi)電影、綜合電影。每個(gè)欄目又有一定數(shù)量的分頁(yè),每個(gè)分頁(yè)有 25 條電影信息。那么程序的入口可以有 5 個(gè) url 地址。這 5 個(gè)地址分別對(duì)應(yīng)每個(gè)欄目的首頁(yè)鏈接。

2.2 爬取思路

知道爬取入口,后面的工作就容易多了。我通過(guò)測(cè)試發(fā)現(xiàn)這幾個(gè)欄目除了頁(yè)面的 url 地址不一樣之外,其他例如提取信息的 xpath 路徑是一樣的。因此,我把 5 個(gè)欄目當(dāng)做 1  個(gè)類,再該類進(jìn)行遍歷爬取。

我這里“最新電影”為例說(shuō)明爬取思路。

1)請(qǐng)求欄目的首頁(yè)來(lái)獲取到分頁(yè)的總數(shù),以及推測(cè)出每個(gè)分頁(yè)的 url 地址;

2)將獲取到的分頁(yè) url 存放到名為 floorQueue 隊(duì)列中;

3)從 floorQueue 中依次取出分頁(yè) url,然后利用多線程發(fā)起請(qǐng)求;

4)將獲取到的電影頁(yè)面 url 存入到名為 middleQueue 的隊(duì)列;

5)從 middleQueue 中依次取出電影頁(yè)面 url,再利用多線程發(fā)起請(qǐng)求;

6)將請(qǐng)求結(jié)果使用 Xpath 解析并提取所需的電影信息;

7)將爬取到的電影信息存到名為 contentQueue 隊(duì)列中;

8)從 contentQueue 隊(duì)列中依次取出電影信息,然后存到數(shù)據(jù)庫(kù)中。

2.3 設(shè)計(jì)爬蟲架構(gòu)

根據(jù)爬取思路,我設(shè)計(jì)出爬蟲架構(gòu)。如下圖所示:

2.4 代碼實(shí)現(xiàn)

主要闡述幾個(gè)重要的類的代碼

  • main 類

主要工作兩個(gè):第一,實(shí)例化出一個(gè)dytt8Moive對(duì)象,然后開(kāi)始爬取信息。第二,等爬取結(jié)束,將數(shù)據(jù)插入到數(shù)據(jù)庫(kù)中。

處理爬蟲的邏輯代碼如下: 

  1. # 截止到2017-08-08, 最新電影一共才有 164 個(gè)頁(yè)面  
  2. LASTEST_MOIVE_TOTAL_SUM = 6 #164  
  3. # 請(qǐng)求網(wǎng)絡(luò)線程總數(shù), 線程不要調(diào)太好, 不然會(huì)返回很多 400  
  4. THREAD_SUM = 5  
  5. def startSpider():  
  6.    # 實(shí)例化對(duì)象   
  7.    # 獲取【最新電影】有多少個(gè)頁(yè)面  
  8.    LASTEST_MOIVE_TOTAL_SUM = dytt_Lastest.getMaxsize()  
  9.    print('【最新電影】一共  ' + str(LASTEST_MOIVE_TOTAL_SUM) + '  有個(gè)頁(yè)面' 
  10.    dyttlastest = dytt_Lastest(LASTEST_MOIVE_TOTAL_SUM)  
  11.    floorlist = dyttlastest.getPageUrlList()  
  12.    floorQueue = TaskQueue.getFloorQueue()  
  13.    for item in floorlist:  
  14.        floorQueue.put(item, 3)  
  15.    # print(floorQueue.qsize())   
  16.    for i in range(THREAD_SUM):  
  17.        workthread = FloorWorkThread(floorQueue, i)  
  18.        workthread.start()  
  19.    while True 
  20.        if TaskQueue.isFloorQueueEmpty():  
  21.            break  
  22.        else 
  23.            pass   
  24.    for i in range(THREAD_SUM):  
  25.        workthread = TopWorkThread(TaskQueue.getMiddleQueue(), i) 
  26.        workthread.start()   
  27.    while True 
  28.        if TaskQueue.isMiddleQueueEmpty(): 
  29.            break 
  30.        else: 
  31.            pass  
  32.    insertData()   
  33. if __name__ == '__main__' 
  34.    startSpider() 

創(chuàng)建數(shù)據(jù)庫(kù)以及表,接著再把電影信息插入到數(shù)據(jù)庫(kù)的代碼如下: 

  1. def insertData():  
  2.    DBName = 'dytt.db'  
  3.    db = sqlite3.connect('./' + DBName, 10)  
  4.    conn = db.cursor()    
  5.    SelectSql = 'Select * from sqlite_master where type = "table" and name="lastest_moive";'  
  6.    CreateTableSql = '' 
  7.        Create Table lastest_moive (  
  8.            'm_id' INTEGER PRIMARY KEY 
  9.            'm_type' varchar(100),  
  10.            'm_trans_name' varchar(200),  
  11.            'm_name' varchar(100),  
  12.            'm_decade' varchar(30),  
  13.            'm_conutry' varchar(30),  
  14.            'm_level' varchar(100),
  15.            'm_language' varchar(30),  
  16.            'm_subtitles' varchar(100),  
  17.            'm_publish' varchar(30),  
  18.            'm_IMDB_socre' varchar(50), 
  19.            'm_douban_score' varchar(50),  
  20.            'm_format' varchar(20),  
  21.            'm_resolution' varchar(20),  
  22.            'm_size' varchar(10),  
  23.            'm_duration' varchar(10),  
  24.            'm_director' varchar(50),  
  25.            'm_actors' varchar(1000),  
  26.            'm_placard' varchar(200), 
  27.            'm_screenshot' varchar(200),  
  28.            'm_ftpurl' varchar(200), 
  29.            'm_dytt8_url' varchar(200) 
  30.         );  
  31.    ''   
  32.    InsertSql = '' 
  33.        Insert into lastest_moive(m_type, m_trans_name, m_name, m_decade, m_conutry, m_level, m_language, m_subtitles, m_publish, m_IMDB_socre,   
  34.        m_douban_score, m_format, m_resolution, m_size, m_duration, m_director, m_actors, m_placard, m_screenshot, m_ftpurl,  
  35.        m_dytt8_url)  
  36.        values(?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?);   
  37.    ''    
  38.    if not conn.execute(SelectSql).fetchone():  
  39.        conn.execute(CreateTableSql)  
  40.        db.commit()  
  41.        print('====  創(chuàng)建表成功  ====' 
  42.    else
  43.         print('====  創(chuàng)建表失敗, 表已經(jīng)存在  ====')  
  44.    count = 1   
  45.    while not TaskQueue.isContentQueueEmpty():  
  46.        item = TaskQueue.getContentQueue().get() 
  47.        conn.execute(InsertSql, Utils.dirToList(item))  
  48.        db.commit()  
  49.        print('插入第 ' + str(count) + ' 條數(shù)據(jù)成功' 
  50.        count = count + 1   
  51.    db.commit()  
  52.    db.close() 

TaskQueue 類

維護(hù) floorQueue、middleQueue、contentQueue 三個(gè)隊(duì)列的管理類。之所以選擇隊(duì)列的數(shù)據(jù)結(jié)構(gòu),是因?yàn)榕老x程序需要用到多線程,隊(duì)列能夠保證線程安全。

dytt8Moive 類

dytt8Moive 類是本程序的主心骨。程序最初的爬取目標(biāo)是 5 個(gè)電影欄目,但是目前只現(xiàn)實(shí)了爬取最新欄目。如果你想爬取全部欄目電影,只需對(duì) dytt8Moive 稍微改造下即可。 

  1. class dytt_Lastest(object):  
  2.    # 獲取爬蟲程序抓取入口  
  3.    breakoutUrl = 'http://www.dytt8.net/html/gndy/dyzz/index.html'    
  4.    def __init__(self, sum):  
  5.        self.sum = sum   
  6.    # 獲取【最新電影】有多少個(gè)頁(yè)面  
  7.    # 截止到2017-08-08, 最新電影一共才有 164 個(gè)頁(yè)面  
  8.    @classmethod  
  9.    def getMaxsize(cls):  
  10.        response = requests.get(cls.breakoutUrl, headers=RequestModel.getHeaders(), proxies=RequestModel.getProxies(), timeout=3)  
  11.        # 需將電影天堂的頁(yè)面的編碼改為 GBK, 不然會(huì)出現(xiàn)亂碼的情況  
  12.        response.encoding = 'GBK'    
  13.        selector = etree.HTML(response.text)  
  14.        # 提取信息  
  15.        optionList = selector.xpath("//select[@name='sldd']/text()" 
  16.        return len(optionList) - 1   # 因首頁(yè)重復(fù), 所以要減1   
  17.    def getPageUrlList(self):  
  18.        '' 
  19.        主要功能:目錄頁(yè)url取出,比如:http://www.dytt8.net/html/gndy/dyzz/list_23_'+ str(i) + '.html 
  20.        '' 
  21.        templist = []  
  22.        request_url_prefix = 'http://www.dytt8.net/html/gndy/dyzz/'  
  23.        templist = [request_url_prefix + 'index.html' 
  24.        for i in range(2, self.sum + 1):  
  25.            templist.append(request_url_prefix + 'list_23_' + str(i) + '.html' 
  26.        for t in templist:  
  27.            print('request url is ###   ' + t + '    ###' 
  28.        return templist    
  29.    @classmethod  
  30.    def getMoivePageUrlList(cls, html):  
  31.        '' 
  32.        獲取電影信息的網(wǎng)頁(yè)鏈接  
  33.        '' 
  34.        selector = etree.HTML(html)  
  35.        templist = selector.xpath("//div[@class='co_content8']/ul/td/table/tr/td/b/a/@href" 
  36.        # print(len(templist))  
  37.        # print(templist) 
  38.        return templist   
  39.    @classmethod  
  40.    def getMoiveInforms(cls, url, html):  
  41.        '' 
  42.        解析電影信息頁(yè)面的內(nèi)容, 具體如下: 
  43.        類型        : 疾速特攻/疾速追殺2][BD-mkv.720p.中英雙字][2017年高分驚悚動(dòng)作]  
  44.        ◎譯名      : ◎譯\u3000\u3000名\u3000疾速特攻/殺神John Wick 2(港)/捍衛(wèi)任務(wù)2(臺(tái))/疾速追殺2/極速追殺:第二章/約翰·威克2  
  45.        ◎片名      : ◎片\u3000\u3000名\u3000John Wick: Chapter Two 
  46.        ◎年代     : ◎年\u3000\u3000代\u30002017  
  47.        ◎國(guó)家     : ◎產(chǎn)\u3000\u3000地\u3000美國(guó)  
  48.        ◎類別     : ◎類\u3000\u3000別\u3000動(dòng)作/犯罪/驚悚  
  49.        ◎語(yǔ)言     : ◎語(yǔ)\u3000\u3000言\u3000英語(yǔ)  
  50.        ◎字幕     : ◎字\u3000\u3000幕\u3000中英雙字幕  
  51.        ◎上映日期  :◎上映日期\u30002017-02-10(美國(guó))  
  52.        ◎IMDb評(píng)分  : ◎IMDb評(píng)分\xa0 8.1/10 from 86,240 users  
  53.        ◎豆瓣評(píng)分  : ◎豆瓣評(píng)分\u30007.7/10 from 2,915 users  
  54.        ◎文件格式   : ◎文件格式\u3000x264 + aac  
  55.        ◎視頻尺寸  : ◎視頻尺寸\u30001280 x 720  
  56.        ◎文件大小  : ◎文件大小\u30001CD  
  57.        ◎片長(zhǎng)     : ◎片\u3000\u3000長(zhǎng)\u3000122分鐘  
  58.        ◎?qū)а荨?nbsp;   : ◎?qū)u3000\u3000演\u3000查德·史塔赫斯基 Chad Stahelski  
  59.        ◎主演     :  
  60.        ◎簡(jiǎn)介      : 暫不要該字段  
  61.        ◎獲獎(jiǎng)情況   : 暫不要該字段  
  62.        ◎海報(bào)  
  63.        影片截圖  
  64.        下載地址  
  65.        '' 
  66.        # print(html)  
  67.        contentDir = {  
  68.            'type''' 
  69.            'trans_name''' 
  70.            'name''' 
  71.            'decade''' 
  72.            'conutry''' 
  73.            'level''' 
  74.            'language''' 
  75.            'subtitles''' 
  76.            'publish''' 
  77.            'IMDB_socre''' 
  78.            'douban_score''' 
  79.            'format''' 
  80.            'resolution''' 
  81.            'size''' 
  82.            'duration''' 
  83.            'director''' 
  84.            'actors''' 
  85.            'placard''' 
  86.            'screenshot''' 
  87.            'ftpurl''' 
  88.            'dytt8_url'''  
  89.        }    
  90.        selector = etree.HTML(html)  
  91.        content = selector.xpath("//div[@class='co_content8']/ul/tr/td/div/td/p/text()" 
  92.        # 匹配出來(lái)有兩張圖片, 第一張是海報(bào), 第二張是電影畫面截圖  
  93.        imgs = selector.xpath("//div[@class='co_content8']/ul/tr/td/div/td/p/img/@src" 
  94.        # print(content)   
  95.        # 為了兼容 2012 年前的頁(yè)面  
  96.        if not len(content):  
  97.            content = selector.xpath("//div[@class='co_content8']/ul/tr/td/div/div/td/span/text()" 
  98.        # 有些頁(yè)面特殊, 需要用以下表達(dá)式來(lái)重新獲取信息  
  99.        # 電影天堂頁(yè)面好混亂啊~  
  100.        if not len(content):  
  101.            content = selector.xpath("//div[@class='co_content8']/ul/tr/td/div/td/div/text()"  
  102.        if not len(content):  
  103.            content = selector.xpath("//div[@class='co_content8']/ul/tr/td/div/div/td/p/font/text()" 
  104.            if len(content) < 5:  
  105.                content = selector.xpath("//div[@class='co_content8']/ul/tr/td/p/font/text()"   
  106.        if not len(content): 
  107.            content = selector.xpath("//div[@class='co_content8']/ul/tr/td/div/div/td/p/span/text()"   
  108.        if not len(content): 
  109.            content = selector.xpath("//div[@class='co_content8']/ul/tr/td/div/div/td/div/span/text()"  
  110.        if not len(content):  
  111.            content = selector.xpath("//div[@class='co_content8']/ul/tr/td/div/div/td/font/text()"  
  112.        if not len(content):  
  113.            content = selector.xpath("//div[@class='co_content8']/ul/tr/td/div/div/td/p/text()"  
  114.        # print(content)    
  115.        # 不同渲染頁(yè)面要采取不同的抓取方式抓取圖片 
  116.        if not len(imgs):  
  117.            imgs = selector.xpath("//div[@class='co_content8']/ul/tr/td/div/div/td/img/@src"  
  118.        if not len(imgs):  
  119.            imgs = selector.xpath("//div[@class='co_content8']/ul/tr/td/div/div/td/p/img/@src"  
  120.        if not len(imgs):  
  121.            imgs = selector.xpath("//div[@class='co_content8']/ul/tr/td/div/div/td/div/img/@src"   
  122.        if not len(imgs):  
  123.            imgs = selector.xpath("//div[@class='co_content8']/ul/tr/td/div/td/div/img/@src"   
  124.        # 類型  
  125.        if content[0][0:1] != '◎' 
  126.            contentDir['type'] = '[' + content[0]   
  127.        actor = ''    
  128.        for each in content:  
  129.            if each[0:5] == '◎譯\u3000\u3000名' 
  130.                # 譯名 ◎譯\u3000\u3000名\u3000  一共占居6位  
  131.                contentDir['trans_name'] = each[6: len(each)]  
  132.            elif each[0:5] == '◎片\u3000\u3000名' 
  133.                # 片名  
  134.                contentDir['name'] = each[6: len(each)]  
  135.            elif each[0:5] == '◎年\u3000\u3000代' 
  136.                # 年份  
  137.                contentDir['decade'] = each[6: len(each)]  
  138.            elif each[0:5] == '◎產(chǎn)\u3000\u3000地' 
  139.                # 產(chǎn)地  
  140.                contentDir['conutry'] = each[6: len(each)]  
  141.            elif each[0:5] == '◎類\u3000\u3000別' 
  142.                # 類別  
  143.                contentDir['level'] = each[6: len(each)]  
  144.            elif each[0:5] == '◎語(yǔ)\u3000\u3000言' 
  145.                # 語(yǔ)言  
  146.                contentDir['language'] = each[6: len(each)]  
  147.            elif each[0:5] == '◎字\u3000\u3000幕' 
  148.                # 字幕  
  149.                contentDir['subtitles'] = each[6: len(each)]  
  150.            elif each[0:5] == '◎上映日期' 
  151.                # 上映日期  
  152.                contentDir['publish'] = each[6: len(each)]  
  153.            elif each[0:7] == '◎IMDb評(píng)分' 
  154.                # IMDb評(píng)分  
  155.                contentDir['IMDB_socre'] = each[9: len(each)]  
  156.            elif each[0:5] == '◎豆瓣評(píng)分' 
  157.                # 豆瓣評(píng)分  
  158.                contentDir['douban_score'] = each[6: len(each)]  
  159.            elif each[0:5] == '◎文件格式' 
  160.                # 文件格式  
  161.                contentDir['format'] = each[6: len(each)]  
  162.            elif each[0:5] == '◎視頻尺寸' 
  163.                # 視頻尺寸  
  164.                contentDir['resolution'] = each[6: len(each)]  
  165.            elif each[0:5] == '◎文件大小' 
  166.                # 文件大小  
  167.                contentDir['size'] = each[6: len(each)]  
  168.            elif each[0:5] == '◎片\u3000\u3000長(zhǎng)' 
  169.                # 片長(zhǎng)  
  170.                contentDir['duration'] = each[6: len(each)]  
  171.            elif each[0:5] == '◎?qū)u3000\u3000演' 
  172.                # 導(dǎo)演  
  173.                contentDir['director'] = each[6: len(each)]  
  174.            elif each[0:5] == '◎主\u3000\u3000演' 
  175.                # 主演  
  176.                actor = each[6: len(each)]    
  177.        for item in content:  
  178.            if item[0: 4] == '\u3000\u3000\u3000\u3000' 
  179.                actor = actor + '\n' + item[6: len(item)]    
  180.        # 主演  
  181.        contentDir['actors'] = actor  
  182.        # 海報(bào)  
  183.        if imgs[0] != None:  
  184.            contentDir['placard'] = imgs[0]  
  185.        # 影片截圖  
  186.        if imgs[1] != None:  
  187.            contentDir['screenshot'] = imgs[1]  
  188.        # 下載地址  
  189.        ftp = selector.xpath("//div[@class='co_content8']/ul/tr/td/div/td/table/tbody/tr/td/a/text()"  
  190.        # 為了兼容 2012 年前的頁(yè)面  
  191.        if not len(ftp):  
  192.            ftp = selector.xpath("//div[@class='co_content8']/ul/tr/td/div/div/td/table/tbody/tr/td/font/a/text()"  
  193.        if not len(ftp): 
  194.             ftp = selector.xpath("//div[@class='co_content8']/ul/tr/td/div/div/td/table/tbody/tr/td/a/text()"   
  195.        if not len(ftp):  
  196.            ftp = selector.xpath("//div[@class='co_content8']/ul/tr/td/div/div/td/div/table/tbody/tr/td/font/a/text()"  
  197.        if not len(ftp):  
  198.            ftp = selector.xpath("//div[@class='co_content8']/ul/tr/td/div/td/div/table/tbody/tr/td/a/text()"  
  199.        if not len(ftp):  
  200.            ftp = selector.xpath("//div[@class='co_content8']/ul/tr/td/div/td/table/tbody/tr/td/a/text()"  
  201.        if not len(ftp):  
  202.            ftp = selector.xpath("//div[@class='co_content8']/ul/tr/td/div/div/td/p/span/a/text()"  
  203.        if not len(ftp):  
  204.            ftp = selector.xpath("//div[@class='co_content8']/ul/tr/td/div/div/td/div/div/table/tbody/tr/td/font/a/text()"  
  205.        if not len(ftp):  
  206.            ftp = selector.xpath("//div[@class='co_content8']/ul/tr/td/div/div/td/span/table/tbody/tr/td/font/a/text()"  
  207.        if not len(ftp):  
  208.            ftp = selector.xpath("//div[@class='co_content8']/ul/tr/td/div/div/td/div/span/div/table/tbody/tr/td/font/a/text()" 
  209.        contentDir['ftpurl'] = ftp[0]  
  210.        # 頁(yè)面鏈接  
  211.        contentDir['dytt8_url'] = url  
  212.        print(contentDir)  
  213.        return contentDir 

getMoiveInforms 方法是主要負(fù)責(zé)解析電影信息節(jié)點(diǎn)并將其封裝成字典。在代碼中,你看到 Xpath 的路徑表達(dá)式不止一條。因?yàn)殡娪疤焯玫碾娪霸斍轫?yè)面的排版參差不齊,所以單單一條內(nèi)容提取表達(dá)式、海報(bào)和影片截圖表達(dá)式、下載地址表達(dá)式遠(yuǎn)遠(yuǎn)無(wú)法滿足。

選擇字典類型作為存儲(chǔ)電影信息的數(shù)據(jù)結(jié)構(gòu),也是自己爬坑之后才決定的。這算是該站點(diǎn)另一個(gè)坑人的地方。電影詳情頁(yè)中有些內(nèi)容節(jié)點(diǎn)是沒(méi)有,例如類型、豆瓣評(píng)分,所以無(wú)法使用列表按順序保存。

2 爬取結(jié)果

我這里展示自己爬取最新欄目中 4000 多條數(shù)據(jù)中前面部分?jǐn)?shù)據(jù)。 

附:源代碼地址(https://link.jianshu.com/?t=https://github.com/monkey-soft/MoivesSpider) 

 

責(zé)任編輯:龐桂玉 來(lái)源: 碼個(gè)蛋
相關(guān)推薦

2016-10-20 16:04:30

大數(shù)據(jù)電影

2022-09-23 15:38:19

NFT電影業(yè)代幣

2021-01-14 16:00:52

VRVR電影3D電影

2018-07-25 13:47:51

彭于晏邪不壓正Python

2015-04-30 10:25:55

2010-04-27 10:24:10

侵權(quán)案

2020-09-17 13:20:59

Python網(wǎng)絡(luò)爬蟲電影

2023-12-08 11:22:31

IT首席轉(zhuǎn)型官轉(zhuǎn)型

2014-12-17 10:15:55

喬布斯電影

2013-07-04 11:02:18

2024-01-24 11:24:39

VR虛擬現(xiàn)實(shí)電影制作

2011-08-19 08:56:34

JavaJava風(fēng)云

2022-04-01 15:36:05

Python推薦系統(tǒng)數(shù)據(jù)

2024-07-30 16:36:11

2010-01-27 13:54:52

IT電影

2009-02-27 14:05:00

2011-09-02 10:29:00

2021-12-16 08:00:00

推薦系統(tǒng)MovieMat數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)