自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

3天破9億!上萬條評(píng)論解讀《西虹市首富》是否值得一看

大數(shù)據(jù) 數(shù)據(jù)分析
縱觀近幾年的國產(chǎn)電影市場,“開心麻花“似乎已經(jīng)成為了票房的保證。從《夏洛特?zé)馈?、《羞羞的鐵拳》到最新上映的《西虹市首富》都引爆了票房。本期我們會(huì)根據(jù)從貓眼電影網(wǎng)爬取到的上萬條評(píng)論為你解讀《西虹市首富》是否值得一看。

前言:

縱觀近幾年的國產(chǎn)電影市場,“開心麻花“似乎已經(jīng)成為了票房的保證。從《夏洛特?zé)馈贰ⅰ缎咝叩蔫F拳》到最新上映的《西虹市首富》都引爆了票房。本期我們會(huì)根據(jù)從貓眼電影網(wǎng)爬取到的上萬條評(píng)論為你解讀《西虹市首富》是否值得一看。 

[[238301]]

數(shù)據(jù)爬?。?/strong>

此次數(shù)據(jù)爬取我們參考了之前其他文章中對(duì)于貓眼數(shù)據(jù)的爬取方法,調(diào)用其接口,每次取出部分?jǐn)?shù)據(jù)并進(jìn)行去重,最終得到上萬條評(píng)論,代碼如下: 

  1. tomato = pd.DataFrame(columns=['date','score','city','comment','nick']) 
  2. for i in range(0, 1000): 
  3.     j = random.randint(1,1000)     
  4. print(str(i)+' '+str(j))     
  5. try: 
  6.         time.sleep(2)          
  7. 'http://m.maoyan.com/mmdb/comments/movie/1212592.json?_v_=yes&offset=' + str(j) 
  8.         html = requests.get(url=url).content 
  9.         data = json.loads(html.decode('utf-8'))['cmts'
  10.          
  11. for item in data: 
  12.           tomato = tomato.append({'date':item['time'].split(' ')[0 
  13. ],'city':item['cityName'], 'score':item['score'],'comment':item[ 
  14. 'content'],  'nick':item['nick']},ignore_index=True
  15.         tomato.to_csv('西虹市首富4.csv',index=False)    
  16. except:        
  17. continue 

數(shù)據(jù)分析:

我們看一下所得到的數(shù)據(jù): 

3天破9億!上萬條評(píng)論解讀《西虹市首富》是否值得一看

數(shù)據(jù)中我們可以得到用戶的昵稱,方便后面進(jìn)行去重。后面的部分主要圍繞評(píng)分、城市、評(píng)論展開。

首先看一下,評(píng)論分布熱力圖: 

3天破9億!上萬條評(píng)論解讀《西虹市首富》是否值得一看

京津翼、江浙滬、珠三角等在各種榜單長期霸榜單的區(qū)域,在熱力圖中,依然占據(jù)著重要地位。同時(shí),我們看到東三省和四川、重慶所在區(qū)域也有著十分高的熱度,這也與沈騰自身東北人&四川女婿的身份不謀而合(以上純屬巧合,切勿較真)。

下面我們要看的是主要城市的評(píng)論數(shù)量與打分情況:

3天破9億!上萬條評(píng)論解讀《西虹市首富》是否值得一看

打出最高分4.77分的正是沈騰家鄉(xiāng)的省會(huì)城市哈爾濱(沈騰出生于黑龍江齊齊哈爾),看來沈騰在黑龍江還是被廣大父老鄉(xiāng)親所認(rèn)可的。最低分和次低分來自于合肥和鄭州,今后的開心麻花可以考慮引入加強(qiáng)在中部地區(qū)的宣傳。

我們按照打分從高到底對(duì)城市進(jìn)行排序: 

3天破9億!上萬條評(píng)論解讀《西虹市首富》是否值得一看

在評(píng)論數(shù)量最多的二十個(gè)城市中,評(píng)分前七名的城市中東北獨(dú)占四席,而分?jǐn)?shù)相對(duì)較低的城市中武漢、合肥、鄭州都屬于中部地區(qū),可見不同地區(qū)的觀眾對(duì)影評(píng)的認(rèn)可程度有著一定差異。

我們把城市打分情況投射到地圖中:(紅色表示打分較高,藍(lán)色表示較低)

3天破9億!上萬條評(píng)論解讀《西虹市首富》是否值得一看

 

進(jìn)一步,我們把城市劃分為評(píng)分較高和較低兩部分

較高區(qū)域:

3天破9億!上萬條評(píng)論解讀《西虹市首富》是否值得一看

較低區(qū)域:

3天破9億!上萬條評(píng)論解讀《西虹市首富》是否值得一看

可以看到對(duì)于“西紅柿”,南北方觀眾的評(píng)價(jià)存在一定差異,這與每年春晚各個(gè)地區(qū)收視率似乎有一些吻合知乎。沈騰本身也是春晚的???,電影中自然會(huì)帶一些“春晚小品味”,這似乎可以一定程度上解釋我們得到的結(jié)果。

看過了評(píng)分,我們看一下評(píng)論生成的詞云圖,以下分別是原圖和據(jù)此繪制的詞云圖:

3天破9億!上萬條評(píng)論解讀《西虹市首富》是否值得一看

3天破9億!上萬條評(píng)論解讀《西虹市首富》是否值得一看

不知道大家的想法如何,至少在我看到了這樣的詞云,搞笑、笑點(diǎn)、值得、開心、不錯(cuò),甚至是哈哈都會(huì)激起我強(qiáng)烈的看片欲望。同時(shí),沈騰也被大家反復(fù)提起多次,可以預(yù)見其在片中有著非常不錯(cuò)的表演,也會(huì)一定程度上激發(fā)大家看片的欲望。

部分代碼展示:

熱力圖:

  1. tomato_com = pd.read_excel('西虹市首富.xlsx'
  2. grouped=tomato_com.groupby(['city']) 
  3. grouped_pct=grouped['score'] #tip_pct列 
  4. city_com = grouped_pct.agg(['mean','count']) 
  5. city_com.reset_index(inplace=True
  6. city_com['mean'] = round(city_com['mean'],2) 
  7. data=[(city_com['city'][i],city_com['count'][i]) for i in range(0, 
  8.        city_com.shape[0])] 
  9. geo = Geo('《西虹市首富》全國熱力圖'
  10.  title_color="#fff",          title_pos="center", width=1200, 
  11.           height=600, background_color='#404a59'
  12. attr, value = geo.cast(data) 
  13. geo.add("", attr, value, type="heatmap", visual_range=[0, 200],visual_text_color="#fff",        symbol_size=10, is_visualmap 
  14. =True,is_roam=False
  15. geo.render('西虹市首富全國熱力圖.html'

折線圖+柱形圖組合:

  1. city_main = city_com.sort_values('count',ascending=False)[0:20] 
  2. attr = city_main['city'
  3. v1=city_main['count'
  4. v2=city_main['mean'
  5. line = Line("主要城市評(píng)分"
  6. line.add("城市", attr, v2, is_stack=True,xaxis_rotate=30,yaxis_min=4.2,         mark_point=[ 
  7. 'min','max'],xaxis_interval =0,line_color='lightblue',         ine_width=4,mark_point_textcolor='black',mark_point_color='lightblue',         is_splitline_show=False)   
  8. bar = Bar("主要城市評(píng)論數(shù)"
  9. bar.add("城市", attr, v1, is_stack=True,xaxis_rotate=30,yaxis_min =4.2,         xaxis_interval =0,is_splitline_show=False
  10. overlap = Overlap() 
  11. # 默認(rèn)不新增 x y 軸,并且 x y 軸的索引都為 0 
  12. overlap.add(bar) 
  13. overlap.add(line, yaxis_index=1, is_add_yaxis=True
  14. overlap.render('主要城市評(píng)論數(shù)_平均分.html'

詞云:

  1. tomato_str=' '.join(tomato_com['comment']) 
  2. words_list = [] 
  3. word_generator = jieba.cut_for_search(tomato_str) 
  4.   
  5. for word in word_generator: 
  6.     words_list.append(word) 
  7. words_list = [k for k in words_list if len(k)>1] 
  8. back_color = imread('西紅柿.jpg')  # 解析該圖片 
  9. wc = WordCloud(background_color='white',# 背景顏色 
  10.                max_words=200,# 最大詞數(shù) 
  11.                mask=back_color,  # 以該參數(shù)值作圖繪制詞云,這個(gè)參數(shù)不為空時(shí),width和height會(huì)被忽略 
  12.                max_font_size=300,  # 顯示字體的最大值 
  13.                stopwords=STOPWORDS.add('茍利國'),# 使用內(nèi)置的屏蔽詞,再添加'茍利國' 
  14.                font_path="C:/Windows/Fonts/STFANGSO.ttf",  
  15.                random_state=42,# 為每個(gè)詞返回一個(gè)PIL顏色 
  16.                 
  17. # width=1000,  # 圖片的寬                
  18. # height=860  #圖片的長                
  19. tomato_count = Counter(words_list) 
  20. wc.generate_from_frequencies(tomato_count) 
  21. # 基于彩色圖像生成相應(yīng)彩色 
  22. image_colors = ImageColorGenerator(back_color) 
  23. # 繪制詞云 
  24. plt.figure() 
  25. plt.imshow(wc.recolor(color_func=image_colors)) 
  26. plt.axis('off'

票房預(yù)估:

最后我們來大膽預(yù)估下《西虹市首富》的票房,我們?nèi)粘T诠ぷ髦袝?huì)選取標(biāo)桿來對(duì)一些即將發(fā)生的事情進(jìn)行預(yù)估。這次我們選擇的標(biāo)桿就是《羞羞的鐵拳》:

3天破9億!上萬條評(píng)論解讀《西虹市首富》是否值得一看

基于以下幾點(diǎn)我們選擇《羞羞的鐵拳》作為標(biāo)桿:

  1. 均是開心麻花出品、題材相似
  2. 演員陣容重合度高
  3. 豆瓣粉絲認(rèn)可程度相似(評(píng)分均為6.9,處于喜劇片中位數(shù)水平)
  4. 貓眼粉絲認(rèn)可程度相似(鐵拳評(píng)分9.1,西紅柿評(píng)分9.3)

我們看一下兩部影片前三天的走勢:

3天破9億!上萬條評(píng)論解讀《西虹市首富》是否值得一看

前三天兩部片子的票房走勢十分相似,基于之前我們的平均,我們可以嘗試性(比隨機(jī)準(zhǔn)一點(diǎn))預(yù)測一下“西紅柿”最終的票房。“西紅柿”票房預(yù)測值≈“鐵拳”總票房/“鐵拳”前三天票房*“西紅柿”前三天票房=22.13/5.25*8.62≈36,考慮到鐵拳上映是在國慶假期,西紅柿的票房預(yù)估需要相應(yīng)的下調(diào)。

綜上所述,我們給出30億票房的預(yù)估。大家來和我們一起見證本公眾號(hào)“章魚保羅”般神奇的預(yù)測的or“球王貝利”般被啪啪打臉的預(yù)測。

責(zé)任編輯:未麗燕 來源: 數(shù)據(jù)森麟
相關(guān)推薦

2015-07-30 14:20:27

面試攻略

2013-05-10 16:57:26

Android開發(fā)定制皮膚

2020-10-18 17:05:43

緩存設(shè)計(jì)架構(gòu)

2022-07-29 20:44:06

算力芯片數(shù)字化

2019-05-24 10:29:29

華為咨詢

2015-03-17 10:41:36

2019-10-17 17:45:02

判斷瀏覽器前端

2012-07-24 09:29:33

黑帽大會(huì)

2019-01-13 16:18:25

云計(jì)算多云部署Kubernetes

2018-07-23 08:52:56

Python 數(shù)據(jù)獲取數(shù)據(jù)處理

2015-12-02 09:59:14

2011-04-20 14:48:56

掃描儀

2019-03-26 09:20:12

蘋果 iOS系統(tǒng)

2022-11-30 14:33:51

網(wǎng)絡(luò)安全安全技術(shù)

2013-07-18 13:18:12

2019-05-23 10:46:53

深度學(xué)習(xí)代碼算法

2017-01-05 10:43:53

Liunx

2019-08-27 09:03:13

工具插件開發(fā)

2018-07-22 15:57:00

數(shù)據(jù)可視化大數(shù)據(jù)數(shù)據(jù)分析

2020-12-02 19:09:24

開源源代碼文件
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)