自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Python數(shù)據(jù)可視化:啥是佩奇

大數(shù)據(jù) 數(shù)據(jù)可視化
她爹也是豬!她娘也是豬! 兒子還是豬!一窩豬!或許這就是最好的回答。原本只是一部電影方與移動(dòng)合作的宣傳短片。卻因里面打動(dòng)人心的故事,大火了一把。

她爹也是豬!她娘也是豬! 兒子還是豬!一窩豬!

或許這就是***的回答。

原本只是一部電影方與移動(dòng)合作的宣傳短片。

卻因里面打動(dòng)人心的故事,大火了一把。

就如我之前的一篇文章里所提的。

不是年味越來越少,而是我們都長大了。

影片透露出那一股暖人心的親情,如今也是越來越不容樂觀。

物以稀為貴,或許這就便是能引起大家共鳴的原因吧。

其實(shí)大家心里都想,只不過由于種種原因,沒能實(shí)現(xiàn)罷了。

本次對(duì)B站的彈幕數(shù)據(jù)進(jìn)行獲取。

來看看大家的彈幕信息,能不能讓我們得到回答。

亦或發(fā)現(xiàn)一些有趣的信息。

一、 網(wǎng)頁分析

B站的彈幕數(shù)據(jù)有現(xiàn)成的接口,只需找到對(duì)應(yīng)視頻的cid值即可。

Python數(shù)據(jù)可視化:啥是佩奇

從上圖可以知道,彈幕一共2719條,視頻的cid值為72036817。

接下來訪問接口,獲取數(shù)據(jù)。

網(wǎng)址:http://comment.bilibili.com/72036817.xml

Python數(shù)據(jù)可視化:啥是佩奇

接口獲取的彈幕數(shù)據(jù)最多只有1000條。

但是總數(shù)卻是是2719條,那么再找找看。

登陸B(tài)站后,點(diǎn)擊查看歷史彈幕按鈕。

發(fā)現(xiàn)了每日視頻的彈幕接口(只需將請(qǐng)求頭加上cookies,即可訪問)。

 

Python數(shù)據(jù)可視化:啥是佩奇

發(fā)現(xiàn)還是限制1000條,這里也是不解。

難不成每個(gè)視頻播放時(shí)就只會(huì)放出來1000條彈幕?

不過相比***個(gè)接口,應(yīng)該能多出不少彈幕。

Python數(shù)據(jù)可視化:啥是佩奇

二、數(shù)據(jù)獲取

鑒于只是練手而已,就偷個(gè)懶。

直接從不需要cookies的接口獲取1000條彈幕。

獲取數(shù)據(jù)代碼如下。

  1. from bs4 import BeautifulSoup 
  2. import pandas as pd 
  3. import requests 
  4.  
  5. url = 'http://comment.bilibili.com/72036817.xml' 
  6. html = requests.get(url).content 
  7. html_data = str(html, 'utf-8'
  8. soup = BeautifulSoup(html_data, 'lxml'
  9. results = soup.find_all('d'
  10.  
  11. comments = [comment.text for comment in results] 
  12. comments_dict = {'comments': comments} 
  13.  
  14. df = pd.DataFrame(comments_dict) 
  15. df.to_csv('bilibili.csv', encoding='utf-8'

***成功獲取1000條彈幕數(shù)據(jù)。

Python數(shù)據(jù)可視化:啥是佩奇

第958條,和我外公外婆一樣,來到家之后一包一包的都是他們從家里帶來的菜和水果。

不知道,你有沒有相同的感受呢?

相信大多數(shù)人都會(huì)說,有!!!

一種莫名的感動(dòng)在心中。

三、數(shù)據(jù)可視化

利用jieba分詞,對(duì)彈幕數(shù)據(jù)生成詞云。

  1. from wordcloud import WordCloud, ImageColorGenerator 
  2. import matplotlib.pyplot as plt 
  3. import pandas as pd 
  4. import jieba 
  5.  
  6. df = pd.read_csv('bilibili.csv', header=None) 
  7.  
  8. text = '' 
  9. for line in df[1]: 
  10.     text += ' '.join(jieba.cut(line, cut_all=False)) 
  11. backgroud_Image = plt.imread('peiqi.jpg'
  12.  
  13. wc = WordCloud( 
  14.     background_color='white'
  15.     mask=backgroud_Image, 
  16.     font_path='C:\Windows\Fonts\simhei.ttf'
  17.     max_words=2000, 
  18.     max_font_size=80, 
  19.     random_state=30, 
  20. wc.generate_from_text(text) 
  21. # 看看詞頻高的有哪些,把無用信息去除 
  22. process_word = WordCloud.process_text(wc, text) 
  23. sort = sorted(process_word.items(), key=lambda e:e[1], reverse=True
  24. print(sort[:50]) 
  25. img_colors = ImageColorGenerator(backgroud_Image) 
  26. wc.recolor(color_func=img_colors) 
  27. plt.imshow(wc) 
  28. plt.axis('off'
  29. wc.to_file("佩奇.jpg"
  30. print('生成詞云成功!'

原圖如下,來自一位PPT大神的鼠繪佩奇。

如有需要下圖的,公眾號(hào)回復(fù)「佩奇」即可。

[[255996]]

***生成詞云圖。

Python數(shù)據(jù)可視化:啥是佩奇

啥是佩奇,我肯定是知道的...

估計(jì)逛B站的大佬們也都知道,所以豬這個(gè)詞,出現(xiàn)的并不多。

看看彈幕數(shù)據(jù)還能發(fā)現(xiàn)一些其他什么東西。

這里發(fā)現(xiàn)河北、保定、張家口、懷來縣這幾個(gè)地名冒出。

說明短片可能是在河北省拍的。

還有爺爺是短片的主角,短片中的手套和手機(jī)也成功吸引了大家的關(guān)注。

朋克和硬核又是什么鬼,不解...

四、總結(jié)

下面這段內(nèi)容,摘自知乎。

說到底這個(gè)宣傳片之所以能火起來,靠的還是咱中國人的情。

是農(nóng)村生活,過年生活的真實(shí)寫照。

反映了現(xiàn)代社會(huì)農(nóng)村的真實(shí)情況,包括4G網(wǎng)以及智能手機(jī)還未普及,農(nóng)村空巢老人的生活狀態(tài)。

或許,這就是大家有共鳴的點(diǎn)。

責(zé)任編輯:未麗燕 來源: 法納斯特
相關(guān)推薦

2019-01-21 08:20:17

通信4G5G

2019-01-18 20:36:40

Python佩奇turtle

2019-01-22 11:20:36

NginxSquidApache

2020-03-11 14:39:26

數(shù)據(jù)可視化地圖可視化地理信息

2017-10-14 13:54:26

數(shù)據(jù)可視化數(shù)據(jù)信息可視化

2022-08-26 09:15:58

Python可視化plotly

2022-02-23 09:50:52

PythonEchartspyecharts

2020-05-26 11:34:46

可視化WordCloud

2017-06-03 16:49:37

Python數(shù)據(jù)可視化

2017-10-31 09:38:53

大數(shù)據(jù)數(shù)據(jù)可視化Python

2024-08-20 18:16:49

數(shù)據(jù)可視化Python

2018-11-30 10:28:44

Python反爬網(wǎng)頁

2012-05-23 09:40:06

FacebookGoogle

2023-03-09 15:11:30

數(shù)據(jù)可視化工具matplotlib

2015-09-09 13:15:05

2015-08-20 10:00:45

可視化

2018-12-03 16:50:23

數(shù)據(jù)可視化數(shù)據(jù)分析薪水

2017-06-29 11:26:08

Python數(shù)據(jù)可視化

2021-10-11 08:04:22

Python數(shù)據(jù)行程

2018-03-07 11:35:49

Python可視化數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)