自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<optgroup id="bskwa"><button id="bskwa"><fieldset id="bskwa"></fieldset></button></optgroup>

<sub id="bskwa"></sub>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

我爬取豆瓣影評(píng)，告訴你《復(fù)仇者聯(lián)盟3》在講什么？（內(nèi)附源碼）

作者：極客猴 2018-05-23 12:34:39

開發(fā) 后端

《復(fù)仇者聯(lián)盟3：無限戰(zhàn)爭(zhēng)》于 2018 年 5 月 11 日在中國(guó)大陸上映。截止 5 月 16 日，它累計(jì)票房達(dá)到 15.25 億。這票房紀(jì)錄已經(jīng)超過了漫威系列單部電影的票房紀(jì)錄。本文通過 Python 制作網(wǎng)絡(luò)爬蟲，爬取豆瓣電影評(píng)論，并分析然后制作豆瓣影評(píng)的云圖。

《復(fù)仇者聯(lián)盟3：***戰(zhàn)爭(zhēng)》于 2018 年 5 月 11 日在中國(guó)大陸上映。截止 5 月 16 日，它累計(jì)票房達(dá)到 15.25 億。這票房紀(jì)錄已經(jīng)超過了漫威系列單部電影的票房紀(jì)錄。不得不說，漫威電影已經(jīng)成為一種文化潮流。

先貼海報(bào)欣賞下：

復(fù)聯(lián) 3 作為漫威 10 年一劍的收官之作。漫威確認(rèn)下了很多功夫，給我們奉獻(xiàn)一部精彩絕倫的電影。自己也利用周末時(shí)間去電影院觀看?？赐曛?，個(gè)人覺得無論在打斗特效方面還是故事情節(jié)，都是給人愉悅的享受。同時(shí)，電影還保持以往幽默搞笑的風(fēng)格，經(jīng)常能把觀眾逗得捧腹大笑。如果還沒有去觀看的朋友，可以去電影院看看，確實(shí)值得一看。

本文通過 Python 制作網(wǎng)絡(luò)爬蟲，爬取豆瓣電影評(píng)論，并分析然后制作豆瓣影評(píng)的云圖。

1 分析

先通過影評(píng)網(wǎng)頁確定爬取的內(nèi)容。我要爬取的是用戶名，是否看過，五星評(píng)論值，評(píng)論時(shí)間，有用數(shù)以及評(píng)論內(nèi)容。

然后確定每頁評(píng)論的 url 結(jié)構(gòu)。

第二頁 url 地址：

第三頁 url 地址：

***發(fā)現(xiàn)其中的規(guī)律：除了首頁，后面的每頁 url 地址中只有 start= 的值逐頁遞增，其他都是不變的。

2 數(shù)據(jù)爬取

本文爬取數(shù)據(jù)，采用的主要是 requests 庫(kù)和 lxml 庫(kù)中 Xpath。豆瓣網(wǎng)站雖然對(duì)網(wǎng)絡(luò)爬蟲算是很友好，但是還是有反爬蟲機(jī)制。如果你沒有設(shè)置延遲，一下子發(fā)起大量請(qǐng)求，會(huì)被封 IP 的。另外，如果沒有登錄豆瓣，只能訪問前 10 頁的影片。因此，發(fā)起爬取數(shù)據(jù)的 HTTP 請(qǐng)求要帶上自己賬號(hào)的 cookie。搞到 cookie 也不是難事，可以通過瀏覽器登錄豆瓣，然后在開發(fā)者模式中獲取。

我想從影評(píng)首頁開始爬取，爬取入口是：https://movie.douban.com/subject/24773958/comments?status=P，然后依次獲取頁面中下一頁的 url 地址以及需要爬取的內(nèi)容，接著繼續(xù)訪問下一個(gè)頁面的地址。

import jieba  
import requests  
import pandas as pd  
import time  
import random  
from lxml import etree  
 
def start_spider():  
    base_url = 'https://movie.douban.com/subject/24773958/comments'  
    start_url = base_url + '?start=0'   
 
    number = 1  
    html = request_get(start_url)   
 
    while html.status_code == 200:  
        # 獲取下一頁的 url  
        selector = etree.HTML(html.text)  
        nextpage = selector.xpath("//div[@id='paginator']/a[@class='next']/@href")  
        nextpage = nextpage[0]  
        next_url = base_url + nextpage  
        # 獲取評(píng)論 
        comments = selector.xpath("//div[@class='comment']")  
        marvelthree = []  
        for each in comments:  
            marvelthree.append(get_comments(each))  
 
        data = pd.DataFrame(marvelthree)  
        # 寫入csv文件,'a+'是追加模式  
        try:  
            if number == 1:  
                csv_headers = ['用戶', '是否看過', '五星評(píng)分', '評(píng)論時(shí)間', '有用數(shù)', '評(píng)論內(nèi)容']  
                data.to_csv('./Marvel3_yingpping.csv', header=csv_headers, index=False, mode='a+', encoding='utf-8')  
            else:  
                data.to_csv('./Marvel3_yingpping.csv', header=False, index=False, mode='a+', encoding='utf-8')  
        except UnicodeEncodeError:  
            print("編碼錯(cuò)誤, 該數(shù)據(jù)無法寫到文件中, 直接忽略該數(shù)據(jù)")  
 
        data = []  
        html = request_get(next_url)

我在請(qǐng)求頭中增加隨機(jī)變化的 User-agent, 增加 cookie。***增加請(qǐng)求的隨機(jī)等待時(shí)間，防止請(qǐng)求過猛被封 IP。

def request_get(url):  
    '''  
    使用 Session 能夠跨請(qǐng)求保持某些參數(shù)。  
    它也會(huì)在同一個(gè) Session 實(shí)例發(fā)出的所有請(qǐng)求之間保持 cookie  
    '''  
    timeout = 3  
    UserAgent_List = [  
        "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36",  
        "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2227.1 Safari/537.36",  
        "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2227.0 Safari/537.36",  
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2227.0 Safari/537.36",  
        "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2226.0 Safari/537.36",  
        "Mozilla/5.0 (Windows NT 6.4; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2225.0 Safari/537.36",  
        "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2225.0 Safari/537.36",  
        "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2224.3 Safari/537.36",  
        "Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/40.0.2214.93 Safari/537.36",  
        "Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/40.0.2214.93 Safari/537.36",  
        "Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2049.0 Safari/537.36",  
        "Mozilla/5.0 (Windows NT 4.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2049.0 Safari/537.36",  
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1985.67 Safari/537.36",  
        "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1985.67 Safari/537.36",  
        "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.3319.102 Safari/537.36",  
        "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.2309.372 Safari/537.36",  
        "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.2117.157 Safari/537.36",  
        "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.47 Safari/537.36",  
        "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1866.237 Safari/537.36",  
    ]  
 
    header = {  
        'User-agent': random.choice(UserAgent_List),  
        'Host': 'movie.douban.com',  
        'Referer': 'https://movie.douban.com/subject/24773958/?from=showing',  
    }  
 
    session = requests.Session()  
 
    cookie = {  
        'cookie': "你的 cookie 值",  
    }  
 
    time.sleep(random.randint(5, 15))    
    response = requests.get(url, headers=header, cookies=cookie_nologin, timeout = 3)  
    if response.status_code != 200:  
        print(response.status_code)  
    return response

***一步就是數(shù)據(jù)獲?。?/p>

def get_comments(eachComment):  
    commentlist = []  
    user = eachComment.xpath("./h3/span[@class='comment-info']/a/text()")[0]  # 用戶  
    watched = eachComment.xpath("./h3/span[@class='comment-info']/span[1]/text()")[0]  # 是否看過  
    rating = eachComment.xpath("./h3/span[@class='comment-info']/span[2]/@title")  # 五星評(píng)分  
    if len(rating) > 0:  
        rating = rating[0]  
 
    comment_time = eachComment.xpath("./h3/span[@class='comment-info']/span[3]/@title")  # 評(píng)論時(shí)間  
    if len(comment_time) > 0:  
        comment_time = comment_time[0]  
    else:  
        # 有些評(píng)論是沒有五星評(píng)分, 需賦空值  
        comment_time = rating  
        rating = ''  
 
    votes = eachComment.xpath("./h3/span[@class='comment-vote']/span/text()")[0]  # "有用"數(shù)  
    content = eachComment.xpath("./p/text()")[0]  # 評(píng)論內(nèi)容  
 
 
    commentlist.append(user)  
    commentlist.append(watched)  
    commentlist.append(rating)  
    commentlist.append(comment_time)  
    commentlist.append(votes)  
    commentlist.append(content.strip())  
    # print(list)  
    return commentlist

3 制作云圖

因?yàn)榕廊〕鰜碓u(píng)論數(shù)據(jù)都是一大串字符串，所以需要對(duì)每個(gè)句子進(jìn)行分詞，然后統(tǒng)計(jì)每個(gè)詞語出現(xiàn)的評(píng)論。我采用 jieba 庫(kù)來進(jìn)行分詞，制作云圖，我則是將分詞后的數(shù)據(jù)丟給網(wǎng)站 worditout 處理。

def split_word():  
    with codecs.open('Marvel3_yingpping.csv', 'r', 'utf-8') as csvfile:  
        reader = csv.reader(csvfile)  
        content_list = []  
        for row in reader:  
            try:  
                content_list.append(row[5])  
            except IndexError:  
                pass  
 
        content = ''.join(content_list)  
 
        seg_list = jieba.cut(content, cut_all=False)  
        result = '\n'.join(seg_list)  
        print(result)

***制作出來的云圖效果是：

"滅霸"詞語出現(xiàn)頻率***，其實(shí)這一點(diǎn)不意外。因?yàn)閺?fù)聯(lián) 3 整部電影的故事情節(jié)大概是，滅霸在宇宙各個(gè)星球上收集 6 顆***寶石，然后每個(gè)超級(jí)英雄為了防止滅霸毀滅整個(gè)宇宙，組隊(duì)來阻止滅霸。

責(zé)任編輯：龐桂玉來源： Python中文社區(qū)

Python 網(wǎng)絡(luò)爬蟲豆瓣電影

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<blockquote id="4wjuw"></blockquote>

<sup id="4wjuw"></sup>